Valószínűség-eloszlás

A valószínűségszámítás elméletében a valószínűség-eloszlás, a valószínűség-tömeg, a valószínűség-sűrűség mind függvények, melyek leírják, hogy egy véletlenszerű változó milyen valószínűséggel vehet fel egy bizonyos értéket. A még pontosabb meghatározáshoz különbséget kell tennünk a diszkrét és a folytonos véletlenszerű (valószínűségi) változók között. Diszkrét esetben minden egyes lehetséges értékhez könnyen hozzárendelhetjük a valószínűséget: ha például egy hatoldalú kockával dobunk, akkor a hat érték előfordulásának a valószínűsége 1/6.

Ezzel szemben, ha a valószínűségi változó folytonos, a valószínűségek csak akkor nem zéró értékűek, ha véges intervallumra vonatkoznak: például minőség-ellenőrzés esetén megkövetelhetjük, hogy annak a valószínűsége, hogy egy 500 g-os csomag súlya 500 g és 510 g közé essen, ne legyen kevesebb, mint 98%.

A kumulatív eloszlásfüggvény annak a valószínűségét adja meg, hogy egy valószínűségi változó nem lehet nagyobb egy adott értéknél: ez a nemkumulatív eloszlás integrálja.

Terminológia

Mivel a valószínűség-elméletet számos különböző területen alkalmazzák, a terminológia nem egységes, sőt néha zavaros.

A következő kifejezéseket használják mind a nemkumulatív, mind a kumulatív eloszlásfüggvényeknél:

Valószínűség-tömeg, valószínűségi tömegfüggvény (v.t.f.): diszkrét valószínűségi változókra
Kategorikus eloszlás: diszkrét valószínűségi változókra, véges halmazok esetén
Valószínűség-sűrűség, valószínűségi sűrűségfüggvény (v.s.f.): leginkább folytonos valószínűségi változók esetén.

A következő fogalmak nem teljesen egyértelműek, vonatkozhatnak nemkumulatív vagy kumulatív eloszlásokra is, a szerzőtől függően:

Valószínűségi eloszlásfüggvény: folytonos vagy diszkrét, nem-kumulatív vagy kumulatív
Valószínűség-függvény: még inkább homályos, jelentheti a fentieket, vagy bármi mást.

Végül:

Valószínűség-eloszlás: vagy azonos a valószínűségi eloszlásfüggvénnyel, vagy valami alapvetőbb aktuális tömeg- vagy sűrűségfüggvény.

Alapvető kifejezések:

Módusz: leggyakrabban előforduló érték. A módusz a statisztikai középérték-mutatók (medián, módusz, számtani átlag, harmonikus átlag, mértani átlag, négyzetes átlag) egyike.
Farok: az eloszlások azon része, ahol a legkisebb az eloszlás értéke.

Diszkrét valószínűség-eloszlás

Diszkrét eloszlás valószínűségi tömegfüggvénye

Az ábrán látható tömegfüggvényben az elemi események – {1}, {3} és {7} – valószínűsége 0,2, 0,5 és 0,3. Egy olyan halmaznak, amely nem tartalmazza egyik pontot sem, a valószínűsége zéró.

Diszkrét eloszlás kumulatív eloszlásfüggvénye (cef)

Folytonos eloszlás cef-e

Kevert eloszlás folytonos és diszkrét része

A diszkrét valószínűség-eloszlás valószínűségi tömegfüggvénnyel jellemzett valószínűség-eloszlás. Így az X valószínűségi változó eloszlása diszkrét, és X-et diszkrét valószínűségi változónak nevezzük, ha

\sum _{u}\Pr(X=u)=1

mivel u az összes lehetséges X értéken értelmezhető. Ebből következik, hogy az ilyen változó csak véges vagy megszámlálhatóan végtelen számértékeket vehet fel.

A legismertebb diszkrét valószínűség-eloszlás, melyet statisztikai modellezésre is használnak, a Poisson-eloszlás, a Bernoulli-eloszlás, a binomiális eloszlás, a geometriai eloszlás és a negatív binomiális eloszlás.

Ezenfelül a diszkrét egyenletes eloszlást általánosan alkalmazzák a számítógépes programozásban az egyenletesen kiválasztott véletlenszerű számoknál.

Kumulatív sűrűség

A fentieknek megfelelően egy diszkrét valószínűségi változót úgy határozhatunk meg, mint egy valószínűségi változót, melynek kumulatív eloszlásfüggvénye csak diszkontinuitásokkal, ugrásokkal nőhet, vagyis akkor nő, ha magasabb értékre „ugrik”, és konstans az ugrások között. Azok a pontok, ahol az ugrás történik, azok az értékek, melyeket a valószínűségi változó felvehet. Az ilyen pontok száma lehet véges vagy megszámolhatóan végtelen. Az ugrások helyének nem kell topológiailag diszkrétnek lennie; például a kumulatív eloszlásfüggvény ugorhat minden racionális számnál.

Delta-függvény

A diszkrét valószínűség-eloszlás gyakran a valószínűségi sűrűségfüggvény általánosított formájában jelenik meg, beleértve a Dirac-delta függvényt, mely lényegében egységesíti a folytonos és diszkrét eloszlás kezelését. Ez akkor hasznos, amikor olyan valószínűség-eloszlásokkal foglalkozunk, melyek folytonos és diszkrét részeket is tartalmaznak.

Indikátorfüggvény (karakterisztikus függvény)

Legyen X egy diszkrét valószínűségi változó és u₀, u₁... azok értékek, melyeket felvehet nem zéró valószínűséggel. Jelöljük:

\Omega _{i}=\{\omega :X(\omega )=u_{i}\},\,i=0,1,2,\dots

Ezek diszjunkt halmazok és képlettel (1):

\Pr \left(\bigcup _{i}\Omega _{i}\right)=\sum _{i}\Pr(\Omega _{i})=\sum _{i}\Pr(X=u_{i})=1.

Ebből következik, hogy X bármely értéket felvehet, kivéve az u₀, u₁, ... = 0 eseteket, és így írhatjuk:

X=\sum _{i}u_{i}1_{\Omega _{i}}

kivéve a zéró valószínűségű halmazra, ahol $1_{A}$ az A indikátorfüggvénye.

Folytonos valószínűség-eloszlás

A folytonos valószínűség-eloszlást úgy értelmezhetjük, mint olyan valószínűség-eloszlás, melynek van valószínűségi sűrűségfüggvénye.

A matematikusok ezt az eloszlásfajtát abszolút folytonosnak is hívják, mivel a kumulatív eloszlásfüggvény abszolút folytonos, tekintettel a Lebesgue-mértékre, λ.

Ha X eloszlása folytonos, akkor X-et folytonos valószínűségi változónak hívják. Számos példa létezik folytonos eloszlásokra: normális, egyenletes, khí-négyzet és más eloszlások.

A folytonos valószínűségi változó folytonos értékeket vehet fel, szemben a diszkrét eloszlással, ahol csak lehetséges megszámolható értékeket vehet fel.

Míg a diszkrét eloszlásnál zéró valószínűségű esemény nem lehetséges, nem ez a helyzet a folytonos eloszlásoknál.

Ha megmérjük egy tölgyfa levelének hosszát, és az eredmény például 3,5 cm, ennek zéró a valószínűsége, mert megszámolhatatlan sok potenciális érték van 3 és 4 cm között. Minden egyes eredmény zéró valószínűségű, mégis annak a valószínűsége, hogy az eredmény 3 és 4 közé essen, nem zéró.

Ezt a nyilvánvaló paradoxont azzal a ténnyel oldhatjuk fel, hogy annak a valószínűsége, hogy X felvehet egy értéket a végtelen tartományban, mely egy intervallum, nem számítható ki (naivan) az egyes értékek valószínűségének összegezésével.

Formálisan minden értéknek infinitezimálisan kicsi a valószínűsége, mely statisztikailag ekvivalens a zéróval.

Ha X egy folytonos valószínűségi változó, akkor van valószínűségi sűrűségfüggvénye: ƒ(x). Annak a valószínűsége, hogy X beleesik egy adott [a, b] intervallumba:

\Pr[a\leq X\leq b]=\int _{a}^{b}f(x)\,dx.

Például X valószínűsége egy adott a-ra = 0 (azaz a ≤ X ≤ a), mert az az integrál, melynek alsó és felső határa egybeesik, mindig zéró. A definíció azt állítja, hogy sűrűségének folytonos valószínűség-eloszlásnak kell lennie, a kumulatív eloszlásfüggvény abszolút folytonos. Ez a követelmény erősebb, mint a folytonos valószínűség-eloszlás egyszerű folytonossága, és van egy speciális eloszlásosztály, a szinguláris eloszlások, melyek se nem folytonosak, se nem diszkrétek, és nem is ezek keveréke.

Egy példa erre a Cantor-eloszlás.

Ilyen eloszlásokkal azonban sosem találkozunk a gyakorlatban.

Figyeljük meg a terminológiát: néhány szerző a „folytonos eloszlást” használja, ezzel jelölve a folytonos eloszlásfüggvényt. Így definíciójukban benne foglaltatik az (abszolút) folytonos és a szinguláris eloszlás is.

Egy konvenció szerint a $\,\mu$ valószínűség-eloszlást folytonosnak nevezik, ha a kumulatív eloszlásfüggvénye $F(x)=\mu (-\infty ,x]$ folytonos, és ezért a szingleton valószínűség mértéke minden $\,x$ -re $\mu \{x\}\,=\,0$ .

Egy másik konvenció a folytonos valószínűség-eloszlást lefoglalja az abszolút folytonos eloszlásokra.

Ezeket az eloszlásokat a valószínűségi sűrűségfüggvény jellemezheti: az $\,f$ nem-negatív Lebesgue-integrálható függvény valós számokon definiált:

F(x)=\mu (-\infty ,x]=\int _{-\infty }^{x}f(t)\,dt.

Diszkrét eloszlások és néhány folytonos eloszlás (mint például a Cantor-eloszlás) nem ismernek ilyen sűrűséget.

Valós értékű valószínűségi változók valószínűség-eloszlásai

Mivel a valós számsíkon Pr valószínűség-eloszlását a valós értékű valószínűségi változó, X határozza meg, egy félig nyitott intervallumban, (-∞, x], a valószínűség-eloszlást teljes mértékben a kumulatív eloszlásfüggvény jellemzi:

F(x)=\Pr \left[X\leq x\right]\qquad \forall x\in \mathbb {R} .

Néhány tulajdonság

Két független valószínűségi változó összegének a valószínűségi sűrűségfüggvénye ezen változók sűrűségfüggvényének a konvolúciója.
Két független valószínűségi változó különbségének a valószínűségi sűrűségfüggvénye ezen változók sűrűségfüggvényének keresztkorrelációja.

Véletlenszám-generálás

Gyakori probléma statisztikai szimulációknál (Monte Carlo-módszer) a pszeudovéletlenszám-generálás, mely egy adott módon oszlik el. A legtöbb algoritmus a pszeudovéletlenszám-generátor módszerén alapul: ez X számokat generál, melyek egyenletesen oszlanak el a [0,1) intervallumban. Ezeket az X számokat átalakítják u(X)-re, melyek kielégítik az adott f(u) eloszlást.

Kolmogorov-definíció

A valószínűségelmélet méréselméletében egy valószínűségi változót egy mérhető X függvényként definiálnak az $\scriptstyle (\Omega ,{\mathcal {F}},\operatorname {P} )$ valószínűségi térből a $\scriptstyle ({\mathcal {X}},{\mathcal {A}})$ mérhető térbe. A valószínűség-eloszlás egy X_*P = PX⁻¹ átkonvertáló mérés az $\scriptstyle ({\mathcal {X}},{\mathcal {A}})$ térben.

Alkalmazások

Egy populációban szinte minden jellemzőt mérnek (emberek magassága, súlya, forgalom, élettartam stb.), és minden mérésnek van belső hibája; a fizikában sok folyamat feldolgozása valószínűségi alapon történik, a gázok kinetikus tulajdonságától a kvantummechanikáig. A valószínűség-eloszlás alkalmazásával sokszor jobb eredményeket lehet elérni, mint közvetlen méréskor. Az alkalmazásokra egy specifikus példa a statisztikai nyelvi modellek, melyeket a természetes nyelvi szövegek statisztikai közelítéseinél használhatják.

Legáltalánosabb valószínűség-eloszlások

A teljes felsorolást a valószínűség-eloszlások listája tartalmazza. A következőkben a legáltalánosabban használt eloszlásokat említjük meg a kimenetel szempontjából.

Az egyváltozós eloszlások egy érték körül csúcsosodnak. A gyakorlatban az aktuálisan vizsgált mennyiségek több változóhoz kapcsolódnak, ezen mennyiségek modellezéséhez a keverék eloszlásokat használják.

Valós értékű mennyiségek, melyek lineárisan nőnek (például: hiba, offset stb.)
- Normális eloszlás (Gauss-eloszlás) egy értékre; ez a legáltalánosabban használt eloszlás
Valós értékű mennyiségek, melyek exponenciálisan nőnek (például: árak, jövedelmek, népesség stb.)
- Log-normális eloszlás egy értékre, melynek logaritmusa normális eloszlású
- Pareto-eloszlás egy értékre, melynek logaritmusa exponenciális eloszlású
- Valós értékű mennyiségek, melyek feltételezhetően egyenletesen oszlanak el egy tartományban (melyet általában nem ismerünk)
- Diszkrét egyenletes eloszlás véges halmazokra (például: egy kockadobás kimenetele)
- Folytonos egyenletes eloszlás folytonos eloszlású értékekre
- Bernoulli-teszt (igen/nem események egy adott valószínűséggel)

Alapvető eloszlások

Jegyzetek

Irodalom

Horváth Gézáné: Kvantitatív módszerek I. Fejezetek a valószínűségszámításból. (hely nélkül): PERFEKT ZRT. 2005. ISBN 9789633945902
Maddala, G.S: Limited-Dependent and Qualitative Variables in Econometrics. (hely nélkül): Cambridge University Press. 1983.
Tadikamalla, Pandu R: A Look at the Burr and Related Distributions. (hely nélkül): International Statistical Review 48 (3). 1980. 337–344. o.
Burr, I.W: Cumulative frequency functions. (hely nélkül): Annals of Mathematical Statistics. 1942. 215–232. o.
Rodriguez, R.N: A guide to Burr Type XII distributions. (hely nélkül): Biometrika, 64. 1977. 129–134. o.
Dr. Balogh Albert: Az új statisztikai terminológia

Kapcsolódó szócikkek

További információk

Szabó Gábor: A valószínűség interpretációi; Typotex, Budapest, 2013
Leonard Mlodinow: Részeg bolyongás; ford. Both Előd; Akkord, Bp. 2012 (Talentum tudományos könyvtár)