Statistická analýza knihy Neuromancer


Nevím přesně co jsem kdy tvrdila o svých oblíbených knihách, fenomén facebookového vypisování seznamu desíti nejoblíbenějších se mi vyhnul stejnou záhadou jako ice bucket challenge. Ke statistické analýze (oblíbené knihy) jsem si původně chtěla vybrat Kup si svoji revoltu, protože mi přišlo tak nějak zajímavé zkoumat, jak proplouvá tématy (a krom toho ji mám v počítači), jenže jsem zjistila, že mizerné OCR je až příliš mizerné, a tak data, která měla o něčem vypovídat vlastně vůbec o ničem nevypovídala. Asi by mě spíš napadla spousta jiných, než je Neuromancer, ale narazila jsem na něj, neb ho mám v počítači taky. A vlastně mi přijde hrozně zásadní. A jsem smutná, jak málo si z něj pamatuju. Tak jsem si ho osvěžila aspoň statistickým náhledem.

Snímek obrazovky 2014-09-28 v 22.55.44Podle wordcloudu je zřejmě většina knihy o tom, že někdo ((Case – zmíněn 566x, suverénně nejčastější slovo z celé knihy; osloven 148x), Molly, Wintermute, Maelcum, Armitage) někomu něco říká (řekl 470x, řekla 157x, říká 50x).

Interaktivní wordcloud tu:

Zatímco hlavní postava Case je v knize přítomen a zmiňován pravidelně celou dobu s ne zas tak malými výkyvy, podle místa výskytu jména například Maelcum přichází až těsně před polovinou.

A mluví. Pořád někdo něco říká, nebo říkal.

Přesto si ale na knihu nevzpomínám jako na neuvěřitelně ukecané dílo o několika málo postavách. V tom je slabina statistického přístupu – čím větší množství bohatých výrazů, tím víc vystoupnou ty, které se častěji opakují, přestože jich v poměru k množství dalších slov nakonec není tolik. Kniha totiž celkem obsahuje 67 286 slov a z toho je 17 806 slov unikátních. Stopslova jsem vyfiltrovala na základě tohoto seznamu. Tyhle boží věci umí i s vaší oblíbenou knihou http://voyant-tools.org/.



Share
Tags
Written by Xsi


Comments (One comment)

  • l4pg0d
    26.11.2014 at 21:54

    Hezký. Gratuluju k reinkarnaci a přeju tvýmu blogu ∞ uptime.

  • Leave a Comment