Zipf-eloszlás

matematikai statisztika

A Zipf-eloszlás (Zipf-törvény) egy tapasztalati törvény a matematikai statisztika eszközeivel kifejezve.

Valószínűségi tömeg függvény
Kumulatív eloszlás függvény

Zipf-eloszlást mutat számos fizikai és szociáltudományi jelenség, melyek a diszkrét hatványtörvény típusú valószínűségeloszlások családjába tartoznak.

Az eloszlást George Kingsley Zipf (1902–1950) amerikai nyelvészről nevezték el.

Zipf említette először (1935) megfigyeléseit, később hasonló megállapításokra jutott Jean-Baptiste Estoup (1868-1950) francia gyorsíró,[1] és Felix Auerbach német fizikus is.[2]

Motiváció szerkesztés

A Zipf-törvény azt állítja, hogy egy természetes nyelv egyes részeiben egy szó előfordulási gyakorisága fordítottan arányos a gyakorisági (előfordulási) táblában levő rangjával. Így, a leggyakoribb szó közel kétszer gyakoribb, mint a második leggyakoribb szó, és háromszor gyakoribb, mint a harmadik helyen lévő, stb.

Példának hozza fel az úgynevezett Brown-gyűjteményt (a Brown Universityn kb. 500 angol szöveget vizsgáltak meg a nyelvészek), ahol a „the” a leggyakrabban előforduló szó, és közel 7%-ban fordul elő az összes szót tekintve. A Zipf-törvényt (Zipf-eloszlás) igazolandó, a második leggyakoribb szó az „and”, melynek előfordulási gyakorisága 3,5%.

Hasonló törvényszerűség (eloszlás) nem csupán a szövegtestekben figyelhető meg, hanem más területeken is, mint például: különböző országokban a városok lakosságának eloszlásánál, vállalatok méreteinél, jövedelemeloszlásnál, stb.

A városok-lakosság viszonyra vonatkozó eloszlást először Felix Auerbach írta le 1913-ban.[2]

A városokra vonatkozó teljes eloszlás log-normális eloszláshoz közelebb áll, és a Gibrat-törvényt követi.[3]

Mindkét törvény konzisztens, mert a log-normális eloszlás farokrészét tipikusan nem kezeli a Zipf-eloszlás (Pareto-eloszlás).

Elméleti áttekintés szerkesztés

A Zipf-eloszlást legjobban egy log-log koordináta-rendszerben ábrázolható, ahol a koordináták a sorban lévő tétel, és az előfordulási gyakoriság.

Legyen:

  • N az elemek száma;
  • k a sorrendi ’rang’;
  • s az exponens értéke, mely jellemzi az eloszlást

Ekkor a Zipf-eloszlás megjósolja az N elemű populációból a k-adik elem gyakoriságát f(k;s,N):

 

A Zipf-törvény érvényes, ha minden elem előfordulása független, és azonos valószínűségi változóik vannak a hatványtörvény eloszlás szerint:  [4]

A példa az angol nyelvben: N a szavak száma, és ha a Zipf-törvény klasszikus változatát használjuk, akkor s=1.

Az f(ks,N)

 

ahol HN,s a N'-edik általánosított harmonikus szám, és k-adik a legtöbbet szereplő szó.

A Zipf-törvény legegyszerűbb esete az 1f függvény.

Egy adott Zipf eloszlású gyakoriság esetén, a legtöbbet előforduló szótól a legkevesebbet előfordulóig sorba rakva kapjuk az eredményt: a második tétel ½ arányban fog előfordulni, mint az első, a harmadik 1/3 arányban fordul elő az elsőhöz képest.

Azaz az n-edik legtöbbet előforduló szó, 1n-ik gyakorisággal fordul elő az elsőhöz képest. Azonban ez nem teljesen érvényes, mert a számok egészként fordulnak elő, nem lehet például egy szónak 2,5–szeres előfordulása. Ennek ellenére, széles tartományban, jó közelítéssel, sok természeti jelenség a Zipf-eloszlás szerint viselkedik.

Matematikailag, egy Zipf-eloszlásnál az összes relatív gyakoriság összege egyenlő egy harmonikus sorral, és

 

A nyelveknél, a szavak előfordulási gyakorisága, egy igen széles farok tipusú eloszlást mutat, ezért a Zipf-eloszlással közel s=1-gyel modellezhető.

Amíg az s exponens nem haladja túl az 1 értéket, lehetséges, hogy ez a törvény érvényes végtelen sok szóra, mivel

 

ahol ζ a Riemann-féle zéta-függvény

Statisztikai magyarázat szerkesztés

Nem ismert, miért érvényes a Zipf-eloszlás a legtöbb nyelvre.[5]

Ezt azonban részben megmagyarázhatja a véltelenszerűen generált szövegek statisztikai analízise. Wentian Li kimutatta, hogy egy dokumentum, melyben minden karakter véletlenszerűen van kiválasztva, a “szavak” a Zipf-eloszlást követik (ez közel lineáris görbét ad egy log-log koordináta-rendszerben).[6]

Vitold Belevitch (1921 – 1999), belga matematikus közölt egy matematikai levezetést (On the Statistical Laws of Linguistic Distribution). A levezetés a Taylor-sor alkalmazásával a Zipf-eloszlást eredményezte, további sorbafejtés során a Mandelbrot-törvény adódott.[7][8]

Zipf azt feltételezte, hogy egy adott nyelven sem a beszélő, sem a hallgató nem kíván keményen odafigyelni ahhoz, hogy megértse a beszédet, és ez a folyamat eredményezheti közelitőleg a megfigyelt Zipf-törvényt.[9][10]

Internet és a Zipf-eloszlás szerkesztés

 
Szavak eloszlása a Wikipedián

Az ábrán az angol nyelvű Wikipediában előforduló szavak előfordulási gyakorisága látható (2006. november 27.). Az ábrázolás log-log típusú, ahol „x” az adott szó „rangja” a gyakorisági táblában, „y” a szó teljes előfordulásának számértéke. Amint várható volt, a leggyakrabban a „the”, „of” és „and” szavak fordulnak elő.

A Zipf–eloszlásnak a görbék felső része felel meg, közel a zöld vonalat (1/x) követve (lásd valószínűségi tömeg függvény log-log ábrázolása).

Kapcsolat más eloszlásokkal szerkesztés

A Zipf-eloszlást megkaphatjuk a Pareto-eloszlásból a változók cseréjével. A Zipf-eloszlást szokták diszkrét Pareto-eloszlásnak is hívni,[11] mert hasonló a folytonos Pareto-eloszlással, ugyanúgy, mint ahogy a diszkrét egyenletes eloszlás hasonló a folytonos egyenletes eloszlással. A Zipf-eloszlást alkalmazzák szolgáltatás orientált környezetekben is.

Kapcsolódó szócikkek szerkesztés

Irodalom szerkesztés

  • Gabaix, Xavier: "Zipf's Law for Cities: An Explanation". (hely nélkül): Quarterly Journal of Economics 114 (3). 1999. 739–67. o.  
  • George K. Zipf: Human Behavior and the Principle of Least Effort. (hely nélkül): Addison-Wesley. 1949.  
  • George K. Zipf: The Psychobiology of Language. (hely nélkül): Houghton-Mifflin. 1935.  

Fordítás szerkesztés

Ez a szócikk részben vagy egészben a Zipf's law című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Források szerkesztés

  1. Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, p. 24
  2. a b Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
  3. Eeckhout J. (2004), Gibrat's law for (All) Cities. American Economic Review 94(5), 1429-1451.
  4. Adamic, Lada A."Zipf, Power-laws, and Pareto - a ranking tutorial" Archiválva 2007. október 26-i dátummal a Wayback Machine-ben
  5. Léon Brillouin, La science et la théorie de l'information, 1959, réédité en 1988, traduction anglaise rééditée en 2004
  6. Wentian Li (1992). „Random Texts Exhibit Zipf's-Law-Like Word Frequency Distribution”. IEEE Transactions on Information Theory 38 (6), 1842–1845. o. [2012. augusztus 31-i dátummal az eredetiből archiválva]. DOI:10.1109/18.165464. (Hozzáférés: 2012. november 10.)  
  7. Peter G. Neumann "Statistical metalinguistics and Zipf/Pareto/Mandelbrot" Archiválva 2011. június 5-i dátummal a Wayback Machine-ben, SRI International Computer Science Laboratory, accessed and 29 May 2011.
  8. Belevitch V (1959. december 18.). „On the statistical laws of linguistic distributions”. Annales de la Société Scientifique de Bruxelles 73, 310–326.. o.  
  9. Zipf GK. Human Behavior and the Principle of Least Effort. Cambridge, Massachusetts: Addison-Wesley, 1. o. (1949) 
  10. Ramon Ferrer i Cancho and Ricard V. Sole (2003). „Least effort and the origins of scaling in human language”. Proceedings of the National Academy of Sciences of the United States of America 100 (3), 788–791. o. DOI:10.1073/pnas.0335980100. PMID 12540826.  
  11. N. L. Johnson, S. Kotz, and A. W. Kemp. Univariate Discrete Distributions, second, New York: John Wiley & Sons, Inc. (1992). ISBN 0-471-54897-9 , p. 466.