Kétmintás u-próba

A kétmintás u-próba az u-próbák családjába tartozik. A próba azt vizsgálja, hogy egy valószínűségi változó átlaga két külön mintában szignifikánsan különböző-e.

A próba alkalmazásának feltételei

A próba csak abban az esetben alkalmazható, ha a vizsgált valószínűségi változók

normális eloszlásúak
intervallum vagy arányskálán mértek
populáción belüli szórásai ismertek (tehát nem a minta alapján kell becsülnünk őket), és
függetlenek.

Ezen feltételek teljesülését a próba használata előtt ellenőrizni kell.

A próba nullhipotézise

Nullhipotézis: a két vizsgált változó átlaga statisztikai szempontból megegyezik.

Alternatív hipotézis: a két vizsgált változó átlaga statisztikai szempontból nem egyezik meg.

A „statisztikai szempontból” kifejezés itt arra utal, hogy az eltérés a két átlag között olyan minimális, hogy pusztán csak a véletlen ingadozásnak tulajdonítható (ekkor a két átlag statisztikai szempontból azonosnak tekinthető), vagy jelentősen nagyobb, mint ami a véletlennel magyarázható (ekkor a két átlag statisztikai szempontból nem tekinthető azonosnak).

Valójában a fenti két hipotézis precíz matematikai megfogalmazása a következő:

H₀: Az X és Y valószínűségi változók várható értékei megegyeznek, (E(X) = E(Y)).
H₁: Az X és Y valószínűségi változók várható értékei nem egyeznek meg, (E(X) ≠ E(Y)).

A próbastatisztika

A kétmintás u-próba próbastatisztikája

u={\frac {{\overline {x}}-{\overline {y}}}{\sqrt {{\frac {\sigma _{x}^{2}}{n_{x}}}+{\frac {\sigma _{y}^{2}}{n_{y}}}}}}

ahol

${\overline {x}}$ az egyik valószínűségi változó átlaga a mintájában,
${\overline {y}}$ a másik valószínűségi változó átlaga a mintájában,
$\sigma _{x}$ az egyik valószínűségi változó ismert szórása (lásd a feltételeket),
$\sigma _{y}$ a másik valószínűségi változó ismert szórása (lásd a feltételeket),
$n_{x}$ az egyik minta elemszáma és
$n_{y}$ a másik minta elemszáma.

A próba végrehajtásának lépései

Az u próbastatisztika értékének kiszámítása.
A p szignifikancia-szint megválasztása. (Ez a legtöbb vizsgálat esetén 0,05 vagy 0,01.)
A p szignifikanciaszinttől függő u_p/2 érték kiválasztása a próbának megfelelő táblázatból. A táblázat jelen esetben a standard normális eloszlás táblázata, ahol azt az x értéket kell kikeresni melynél nagyobb értéket standard normális eloszlású valószínűségi változó csak p/2 valószínűséggel vesz fel. (Ez az érték p = 0,05 esetén u_p/2 = u_0,025 = 1,96; p = 0,01 esetén u_p/2 = u_0,005 = 2,576.
A nullhipotézisre vonatkozó döntés meghozása.
- Ha |u| ≥ u_p/2, akkor a nullhipotézist elvetjük, az alternatív hipotézist tartjuk meg, és az eredményt úgy értelmezzük, hogy „a két mintában a valószínűségi változók átlagai szignifikánsan eltérnek egymástól (p szignifikanciaszint mellett)”.
- Ha |u| < u_p/2, akkor a nullhipotézist megtartjuk, amit úgy értelmezünk, hogy „a kétmintás u-próba nem mutat ki szignifikáns különbséget a két mintában a valószínűségi változók átlagai között (p szignifikanciaszint mellett)”.

Példa

Ez a szakasz egyelőre üres vagy erősen hiányos. Segíts te is a kibővítésében!

A próba matematikai háttere

Az egymintás u-próbához hasonlóan a kétmintás esetben is azt lehet megmutatni, hogy az u próbastatisztika standard normális eloszlást követ. Részletesebben: ha $X$ jelöli az egyik, $Y$ a másik valószínűségi változót, $X_{1}$ , $X_{2}$ , … , $X_{n_{x}}$ az egyik mintát, $Y_{1}$ , $Y_{2}$ , … , $Y_{n_{y}}$ a másik mintát, valamint $\sigma _{x}$ és $\sigma _{y}$ rendre az $X$ és az $Y$ szórását, akkor az

{\overline {X}}={\frac {1}{n_{x}}}\sum _{i=1}^{n_{x}}X_{i}

és

{\overline {Y}}={\frac {1}{n_{y}}}\sum _{j=1}^{n_{y}}Y_{j}

jelöléseket bevezetve az

u={\frac {{\overline {X}}-{\overline {Y}}}{\sqrt {{\frac {\sigma _{x}^{2}}{n_{x}}}+{\frac {\sigma _{y}^{2}}{n_{y}}}}}}

próbastatisztika standard normális eloszlást fog követni. Emiatt bármilyen 0 < p < 1 esetén meg lehet határozni azt az u_p/2 értéket, melyre

1-p=\mathbf {P} \left(-u_{p/2}<{\frac {{\overline {X}}-{\overline {Y}}}{\sqrt {{\frac {\sigma _{x}^{2}}{n_{x}}}+{\frac {\sigma _{y}^{2}}{n_{y}}}}}}<u_{p/2}\mid H_{0}\right)=\Phi (u_{p/2})-\Phi (-u_{p/2})=2\Phi (u_{p/2})-1

ahol $\Phi (x)$ a standard normális eloszlásfüggvény. Ez azt jelenti, hogy ha igaz a nullhipotézis, akkor az u próbastatisztika értéke 1–p valószínűséggel a (–u_p/2, u_p/2) intervallumba esik.

Megjegyzések

A kétmintás u-próba bizonyos tekintetben az kétmintás t-próba párja. A kétmintás t-próba ugyanezt a nullhipotézist vizsgálja, csak nem igényli a szórások értékének előzetes ismeretét, mert azokat a minták adatai alapján becsli. A próbastatisztika képlete is nagyon hasonló, csak benne az ismert σ_x és σ_y szórások helyett a mintából becsült s_x és s_y szórások szerepelnek. Természetesen a két próba matematikai háttere is nagyon hasonló.

A szakirodalom nem teljesen egységes annak tekintetében, hogy a nullhipotézis elvetéséről vagy megtartásáról szóló döntésben az |u| és $u_{p}$ közötti két egyenlőtlenség közül melyiknél engedi meg az egyenlőséget. Ennek gyakorlati jelentősége nem igazán van, az alkalmazások során nagyon ritkán adódik, hogy a kiszámított próbastatisztika pontosan egybeessen a táblázatbeli értékkel. Ha esetleg mégis így alakul, akkor az eredmény úgy interpretálható, hogy a nullhipotézis elvetése esetén a kockázat pontosan megegyezik a szignifikanciaszinttel, s innen a kutató (és a tudóstársadalom) szája ízétől függ, hogy ebben inkább a nullhipotézis elvetésének, vagy inkább a nullhipotézis megtartásának zálogát látja.

Érdemes megfigyelni az óvatos fogalmazást a nullhipotézis megtartása esetén. Az általunk meghatározott p szignifikanciaszint az elsőfajú hiba elkövetésének valószínűségét adja meg. Az elsőfajú hiba azt jelenti, hogy ha el lehet vetni a nullhipotézist, még akkor is ekkora kockázatot vállalunk arra nézve, hogy esetleg hiba elvetni. Amennyiben nem lehet elvetni a nullhipotézist, akkor elsőfajú hibát biztosan nem tudunk elkövetni, ám ebben az esetben elkövethetjük a másodfajú hibát, melynek kockázatáról semmit nem mond a próba. Ez a két hibalehetőség indokolja, hogy ha a nullhipotézist megtartjuk, akkor sem azt állítjuk, hogy „nincs szignifikáns különbség” a minta átlaga és az előre megadott m érték között, hanem csak annyit, hogy „az egymintás u-próba nem tudott szignifikáns különbséget kimutatni” (ami ettől még lehet, hogy van).

Források

Fazekas I. (szerk.) (2000): Bevezetés a matematikai statisztikába. Debrecen: Kossuth Egyetemi Kiadó.
Lukács O. (2002): Matematikai statisztika. Budapest: Műszaki Könyvkiadó.
Michaletzky Gy. – Mogyoródi J. (1995): Matematikai statisztika. Budapest: Nemzeti Tankönyvkiadó.
Michelberger P. – Szeidl L. – Várlaki P. (2001): Alkalmazott folyamatstatisztika és idősor-analízis. Budapest: Typotex Kiadó.
Vargha András (2000): Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Budapest: Pólya Kiadó.

Matematikaportál • összefoglaló, színes tartalomajánló lap