Statisztikai hipotézisvizsgálat

A statisztikai hipotézis, amelyet néha megerősítő adatanalízisnek is neveznek, olyan hipotézis, amely ellenőrizhető egy olyan folyamat megfigyelése alapján, amelyet véletlenszerű változók halmaza modellez.[1] Általában két statisztikai adatkészletet hasonlítanak össze vagy a mintavétellel kapott adatkészletet összehasonlítják az idealizált modell szintetikus adatkészletével. A két adatkészlet közötti statisztikai kapcsolatra hipotézist javaslunk és ezt összehasonlítjuk az idealizált nullhipotézis alternatívájával, amely szerint a két adatkészlet között nincs kapcsolat. Az összehasonlítást statisztikailag szignifikánsnak tekintjük, ha az adathalmazok közötti kapcsolat a nullhipotézis valószínűtlen megvalósulása lenne, egy küszöb valószínűség (szignifikanciaszint) alapján. A hipotézis vizsgálatokat arra használjuk, hogy meghatározzuk, hogy egy vizsgálatnak milyen eredményei vezetnének a nullhipotézis elutasításához egy előre meghatározott szignifikanciaszintnél.

A nullhipotézis és az alternatív hipotézis megkülönböztetését két hibatípus segíti elő. Az első típusú hiba akkor fordul elő, ha a nullhipotézist tévesen elutasítják. A második típusú hiba akkor fordul elő, ha a nullhipotézist tévesen nem utasítják el. (A két típust 1. és 2. típusú hibának nevezzük.)

A statisztikai szignifikancián alapuló hipotézis vizsgálat a konfidenciaintervallumok kifejezésének másik módja. Más szavakkal, minden szignifikancián alapuló hipotézisvizsgálat konfidenciaintervallumon keresztül nyerhető, és minden konfidenciaintervallum leírható egy szignifikancia alapú hipotézisvizsgálaton keresztül.

A szignifikancia-alapú hipotézis vizsgálat a statisztikai hipotézis vizsgálatnak a leggyakoribb esete. A statisztikai hipotézis vizsgálatnak egy másik esete az, amikor statisztikai modelleket határozunk meg mindegyik hipotézishez, majd modellválasztási technikákat használunk, hogy kiválasszuk a legmegfelelőbb modellt.[2] A leggyakoribb modellválasztási technikák az Akaike információs kritériumon vagy a Bayes-tényezőn alapulnak.

A vizsgálat folyamata szerkesztés

A statisztikai szakirodalomban a statisztikai hipotézis vizsgálat alapvető szerepet játszik.[3] Az érvelés általában a következő:

  1. Van egy kezdeti kutatási hipotézis, amelyben az igazság ismeretlen. Az első lépés a vonatkozó null- és alternatív hipotézisek megállapítása . Ez fontos, mivel a hipotézisek téves megfogalmazása befolyásolja a folyamat többi részét.
  2. A második lépés annak vizsgálata, hogy a mintával kapcsolatban milyen statisztikai feltételezéseket tesznek a vizsgálat során. Például a statisztikai függetlenségre vagy a megfigyelések eloszlásának formájára vonatkozó feltételezések. Ez ugyanolyan fontos, mivel az érvénytelen feltételezések azt jelentik, hogy a vizsgálat eredményei is érvénytelenek.
  3. Döntsük el, melyik vizsgálat a megfelelő és adjuk meg a vonatkozó T statisztikát.
  4. Mutassuk be a feltevésekből a vizsgált statisztika eloszlását a nulla hipotézis alapján. Általános esetekben ez közismert eredmény. Például a vizsgált statisztika követhet egy Student t eloszlást vagy egy normál eloszlást .
  5. Válasszunk egy szignifikanciaszintet (α), más néven valószínűségi küszöböt, amely alatt a nullhipotézist elutasítjuk. Ennek értéke általában 5% vagy 1%.
  6. A vizsgált statisztika eloszlása a nullhipotézis alapján megosztja a T lehetséges értékeit azokkal, amelyeknél a nullhipotézist elutasítják — az úgynevezett kritikus régiót — és azokat, amelyekre nem vonatkozik. A kritikus régió valószínűsége α.
  7. A megfigyelések alapján számítsuk ki a T vizsgálati statisztika megfigyelt t obs értékét.
  8. Döntsük el, hogy elutasítjuk-e a nullhipotézist az alternatív hipotézis ellenében vagy pedig megtartjuk. A döntési szabály az, hogy H0 nullhipotézist elutasítjuk, ha a megfigyelt t obs érték a kritikus régióban van, más esetben a hipotézist elfogadjuk vagy "tévesen nem utasítjuk el".

Általában alternatív eljárást alkalmaznak:

  1. A megfigyelések alapján számítsuk ki a T vizsgálati statisztika megfigyelt t obs értékét.
  2. Számítsuk ki a p-értéket. Ez a nullhipotézis alapján annak a valószínűsége, hogy legalább olyan szélsőséges mintavételi statisztikai mintát vesz igénybe, mint amit megfigyeltünk.
  3. Az alternatív hipotézis mellett utasítsuk el a nullhipotézist, akkor és csak akkor, ha a p- érték kisebb vagy egyenlő a szignifikanciaszint (a kiválasztott valószínűség) küszöbértékkel ( ).

A két folyamat egyenértékű.[4] A korábbi eljárás a múltban volt előnyös, amikor csak a közös valószínűségi küszöbértékkel rendelkező vizsgált statisztikák táblái álltak rendelkezésre. Ez lehetővé tette a döntés meghozatalát a valószínűség kiszámítása nélkül. Megfelelő volt az osztálymunkához és az operatív felhasználáshoz, de hiányos volt az eredmények jelentésekor.

Ez utóbbi folyamat kiterjedt táblázatokra vagy számítástechnikai támogatásra támaszkodott, amelyek nem mindig állnak rendelkezésre. A valószínűség explicit kiszámítása hasznos a beszámoláshoz. A számításokat most már triviálisan hajtják végre a megfelelő szoftverrel.

A radioaktív bőrönd példájára alkalmazott két folyamat különbsége (alább):

  • "A Geiger-számláló értéke 10. A határérték 9. Ellenőrizze a bőröndöt."
  • "A Geiger-számláló magas értéket mutat, 97%-a a biztonságos bőröndöknek alacsonyabb értékű. A határérték 95%. Ellenőrizze a bőröndöt."

Az előbbi jelentés megfelelő, az utóbbi részletesebb magyarázatot ad az adatokról és arról, hogy miért ellenőrzik a bőröndöt.

Fontos a különbség a nullhipotézis elfogadása és az egyszerű elutasítás elmulasztása között. A „elutasítás elmulasztása” terminológia rávilágít arra a tényre, hogy a nullhipotézisről a vizsgálat kezdete óta feltételezzük, hogy valódi, ha nincs bizonyíték ellene, azt egyszerűen továbbra is igaznak tekintik. Az "elfogadjuk a nullhipotézist" kifejezés azt sugallhatja, hogy csak azért bizonyították, mert nem cáfolták, egy logikai tévedés, amelyet a tudatlanság érveként ismertek. Ha nem alkalmaznak egy különösen nagy teljesítményű vizsgálatot, a nullhipotézis "elfogadásának" gondolata veszélyes lehet. Ennek ellenére a terminológia minden statisztikában elterjedt, ahol a valóban szánt jelentés jól érthető.

Az itt leírt folyamatok tökéletesen megfelelőek a számításhoz. Komolyan elhanyagolják a kísérletek megfontolásait.[5][6]

Különösen fontos, hogy a kísérlet elvégzése előtt megbecsüljék a megfelelő minta számot.

A "szignifikanciavizsgálat" kifejezést Ronald Fisher statisztikus hozta létre.[7]

Értelmezés szerkesztés

A p-érték annak valószínűsége, hogy egy adott eredmény (vagy egy jelentősebb eredmény) a nullhipotézis alapján történik. Tegyük fel például, hogy egy valós érme megbízhatóságát vizsgáljuk (nullhipotézis). 0,05 szignifikanciaszinten a valós érme várhatóan (helytelenül) elutasítja a nullhipotézist minden 20 vizsgálat közül körülbelül egyben. A p- érték nem biztosítja annak valószínűségét, hogy bármelyik hipotézis helytálló (a zavarok általános forrása).[8]

Ha a p-érték kisebb, mint a választott szignifikanciaküszöb (hasonlóképpen, ha a megfigyelt vizsgálati statisztika a kritikus régióban van), akkor azt mondjuk, hogy a nullhipotézist a kiválasztott szignifikanciaszinten elutasítjuk. A nullhipotézis elutasítása következtetés. Ez olyan, mint egy "bűntudat" ítélet a büntetőeljárásban: a bizonyítékok elegendőek az ártatlanság elutasításához, így bizonyítva a bűntudatot. Elfogadhatjuk az alternatív hipotézist (és a kutatási hipotézist).

Ha a p- érték nem kevesebb, mint a választott szignifikanciaküszöb (ugyanúgy, ha a megfigyelt vizsgálati statisztika kívül esik a kritikus területen), akkor a bizonyítékok nem elegendőek a következtetés alátámasztásához. (Ez hasonló a „nem bűnös” ítélethez.) A kutató általában különös figyelmet fordít azokra az esetekre, amikor a p- érték közel áll a szignifikanciaszinthez.

Néhány ember hasznosnak tartja a hipotézis-vizsgálati keretrendszer gondolkodását, amely analóg az ellentmondásos matematikai bizonyítékokkal.[9]

A teakóstoló hölgy példában (alább) Fisher megkért egy hölgyet, hogy megfelelően osztályozza az összes csésze teát annak igazolására, hogy az eredmény valószínűleg nem véletlenszerű. Vizsgálata azt mutatta ki, hogy ha a hölgy véletlenszerűen találgatott volna (nullhipotézis), akkor 1,4% esély van arra, hogy a megfigyelt eredmények (tökéletesen rendezett tea) megtörténjenek.

A hipotézis felépítésétől függ, hogy a nullhipotézis elutasítása valóban igazolja-e a kutatási hipotézis elfogadását. Az a hipotézis elutasítása, miszerint egy nagy mancs nyomtatás egy medveből származik, nem azonnal bizonyítja a Nagyláb létezését. A hipotézis vizsgálata az elutasítást hangsúlyozza, amely valószínűségen alapul, nem pedig elfogadáson, amely extra logikai lépéseket igényel.

"A nullhipotézis elutasításának valószínűsége öt tényező függvénye:

  1. független attól, hogy a vizsgálat egy- vagy kétoldalú-e
  2. szignifikanciaszint
  3. szórás
  4. nullhipotézistől való eltérés nagysága
  5. megfigyelések száma."[10]

Ezek a tényezők kritikát jelentenek. A kísérleti/elemző ellenőrzése alatt álló tényezők szubjektivitásnak mutatják az eredményeket.

Használat és fontosság szerkesztés

A statisztikák segítenek a legtöbb adatgyűjtés elemzésében. Ugyanez igaz a hipotézis vizsgálatára, amely még a tudományos elmélet hiányában is igazolhatja a következtetéseket. A teakóstoló hölgy példában "nyilvánvaló" volt, hogy nincs különbség a "tejet öntették a teába" és a "teát öntették a tejbe" között. Az adatok ellentmondanak a "nyilvánvalónak".

A hipotézis tesztelésének valós alkalmazásai a következők:[11]

  • Annak tesztelése, hogy több férfi, mint nő szenved-e rémálmoktól
  • A dokumentumok szerzői jogának megállapítása
  • A telihold viselkedésre gyakorolt hatásának értékelése
  • Annak a tartománynak a meghatározása, amelyen a denevér visszhangja révén képes rovarokat kimutatni
  • Annak eldöntése, hogy a kórházi szőnyegek további fertőzéseket eredményeznek-e
  • A dohányzás abbahagyásának legjobb módjának kiválasztása
  • Annak ellenőrzése, hogy a lökhárító-matricák tükrözik-e az autótulajdonos viselkedését
  • A kézírás-elemzők állításainak tesztelése

A statisztikai hipotézis vizsgálata fontos szerepet játszik a statisztikák egészében és a statisztikai következtetésekben. Például Lehmann (1992) Neyman és Pearson (1933) alapvető tanulmányainak áttekintésében ezt olvashatjuk: "Ennek ellenére hiányosságuk az 1933-os cikkben megfogalmazott új paradigma és a keretén belül végrehajtott számos fejlemény továbbra is fennáll. Központi szerepet játszik mind a statisztika elméletében, mind a gyakorlatban, és a belátható jövőben ezt várhatóan megteszi. "

Néhány kísérleti társadalomtudományban a szignifikancia vizsgálat volt a kedvelt statisztikai eszköz (az 1990-es évek elején az Journal of Applied Psychology cikkek több mint 90% -a).[12] Más szakterületek kedvelték a paraméterek becslését (pl. Hatásméret). A szignifikanciavizsgálat helyettesíti a várható érték és a kísérleti eredmény hagyományos összehasonlítását a tudományos módszer lényegében. Ha az elmélet csak egy kapcsolat jeleinek előrejelzésére képes, akkor egy irányított (egyoldalú) hipotézis teszt konfigurálható úgy, hogy csak egy statisztikailag szignifikáns eredmény támogassa az elméletet. Az elmélet értékelésének ez a formája a hipotézis vizsgálatának a legsúlyosabb kritikája.

Figyelmeztetés szerkesztés

"Ha a kormány statisztikai eljárásokra kötelezne a figyelmeztető címkék hordozását, mint például a kábítószereken, a legtöbb következtetési módszernek valóban hosszú címkéi lennének."[13] Ez a figyelmeztetés vonatkozik a hipotézis vizsgálatokra és azok alternatíváira.

A sikeres hipotézis vizsgálat egy valószínűséghez és egy I típusú hibaarányhoz kapcsolódik. A következtetés talán rossz.

A teszt következtetése csak annyira stabil, mint a minta, amelyen alapul. A kísérlet megtervezése kritikus. Számos váratlan hatást figyeltek meg, ideértve a következőket:

  • Az okos Hans-effektus . Úgy tűnt, hogy egy ló képes egyszerű számtani műveletek elvégzésére.
  • A Hawthorne hatás . Az ipari munkások termelékenyebbek voltak a jobb megvilágításban, viszont a legtermékenyebbek a rosszabb világításban voltak.
  • A placebo hatás . Az orvosilag nem aktív összetevők nélküli tabletták rendkívül hatékonyak voltak.

A megtévesztő adatok statisztikai elemzése félrevezető következtetéseket von le. Az adatminőség kérdése finomabb lehet. Például az előrejelzésnél nincs megállapodás az előrejelzés pontosságának méréséről. Konszenzusos mérés hiányában a méréseken alapuló döntés nem vitatható.

A How to Lie with Statistics[14][15] könyv a legnépszerűbb statisztikai könyv, amelyet valaha publikáltak.[16] A hipotézis vizsgálatát nem nagyon veszi figyelembe, ám figyelmeztetésekre is alkalmazni kell, ideértve: Sok állítást olyan minták alapján állítanak elő, amelyek túl kicsik a meggyőzéshez. Ha egy jelentés nem említi a minta méretét, akkor az kétséges.

A hipotézis tesztelése a statisztikai következtetések szűrőjeként szolgál; csak azok a találatok jelennek meg, amelyek egy valószínűségi küszöbértéket meghaladnak. A közgazdaságtan publikációs szűrőként is működik; csak a szerző és a finanszírozási forrás szempontjából kedvező eredményeket lehet benyújtani közzétételre. A szűrés publikációra gyakorolt hatását közzétételi torzításnak nevezik. Kapcsolódó probléma a többszörös tesztelés (amelyet néha az adatbányászathoz kapcsolnak), amelyben egyféle adatcsoportra különféle lehetséges hatások sokféle tesztet alkalmaznak, és csak azokról számolnak be, amelyek jelentős eredményt hoznak. Ezeket gyakran többszörös korrekciós eljárásokkal oldják meg, amelyek a családonkénti hibaarányt (FWER) vagy a hamis felfedezési arányt (FDR) szabályozzák.

Azok, akik egy hipotézisvizsgálat alapján kritikus döntéseket hoznak, körültekintően a részletekre tekintik, nem pedig a következtetésekre. A fizikai tudományokban a legtöbb eredményt csak akkor lehet teljes mértékben elfogadni, ha azt függetlenül megerősítik. A statisztikákkal kapcsolatos általános tanács a következő: "Az adatok soha nem hazudnak, de hazugok" (névtelen).

Példák szerkesztés

Emberi nemek aránya szerkesztés

A statisztikai hipotézis vizsgálat legkorábbi felhasználása arra a kérdésre vonatkozott, hogy a férfiak és a nők születése egyaránt valószínű-e (nullhipotézis), amellyel az 1700-as években John Arbuthnot (1710),[17] és később Pierre-Simon de Laplace foglalkozott (1770).[18]

Arbuthnot megvizsgálta a születési feljegyzéseket 1629 és 1710 között Londonban, és az előjelvizsgát alkalmazta, amely egy egyszerű, nem paraméteres tesztet.[19] A Londonban született férfiak száma minden évben meghaladta a nők számát. Tekintettel arra, hogy több férfi vagy több nő született ugyanolyan valószínűséggel, a megfigyelt eredmény valószínűsége 0.582, vagy körülbelül 1 a 4,8360,0000,0000000000,0000,0000-ból; modern értelemben ez a p-érték. Ez elhanyagolhatóan kicsi, így Arbuthnotot úgy gondolta, hogy ez nem véletlen, hanem az isteni gondviselés miatt következett be: "Innentől fogva a művészet, nem pedig a véletlen, ami irányít." Modern értelemben elutasította a null hipotézist, hogy férfiak és nők egyenlő arányban születnek, P = 1/282 szignifikanciaszinten.

Laplace csaknem félmillió születés statisztikáját vette alapul. A statisztikák a fiúk többletét mutatták a lányokhoz képest.[20][21] A p-érték kiszámításával arra a következtetésre jutott, hogy a többlet valódi, de megmagyarázhatatlan hatás.[22]

Tea kóstoló hölgy szerkesztés

A hipotézis vizsgálatok egyik híres példájában, amelyet Tea kóstoló hölgy-nek hívnak,[23] Dr. Muriel Bristol, Fisher egyik női kollégája azt állította, hogy képes megmondani, hogy a teát vagy a tejet adják először a csészéhez. Fisher adott neki nyolc csészét, mindkét fajtából négyet, véletlenszerű sorrendben. Feltehetjük azt a kérdést, hogy mi a valószínűsége annak, hogy eltalálja a csészék fajtáját, de csak véletlenül. A null-hipotézis szerint a hölgynek nincs ilyen képessége. A vizsgált statisztika a négy csésze sikeres kiválasztásának a számlálása volt. A kritikus rész az az egyetlen eset volt, amikor 4 alkalomból 4 sikeres volt, a konvencionális valószínűségi kritérium alapján (< 5%). A 4 siker a 70 lehetséges kombináció közül egynek felel meg (p≈1,4%). Fisher azt állította, hogy (soha) nincs szükség alternatív hipotézisre. A hölgy helyesen azonosította az összes csészét[24] amelyet statisztikailag szignifikáns eredménynek tekintünk.

Bírósági tárgyalás szerkesztés

Egy statisztikai vizsgálati eljárás hasonló egy bűnügyi tárgyaláshoz; egy vádlott addig nem tekinthető bűnösnek, amíg a bűnösségét nem bizonyítják. A vádló megpróbálja bizonyítani a vádlott bűnösségét. Csak akkor ítélik el a vádlottat, ha elegendő bizonyíték áll rendelkezésre a büntető eljáráshoz.

Az eljárás kezdetén két hipotézis van   : „a vádlott nem bűnös”, és   : „a vádlott bűnös”. Az elsőt,  -t, nullhipotézisnek hívják és egy ideig elfogadják. A másodikat,  -et, alternatív hipotézisnek hívják. Ezt az alternatív hipotézist akarjuk alátámasztani.

Az ártatlanság hipotézisét csak akkor utasítják el, ha egy hiba valószínűtlen, mert nem akarunk ártatlan vádlottat elítélni. Az ilyen hibát első típusú hibának nevezzük (pl. azaz ártatlan ember elítélése), és a hiba előfordulását ritkán ellenőrzik. Ennek a következménye a második típusú hiba (a bűncselekményt elkövető személy felszabadítása), ami gyakoribb.

H 0 igaz
Valóban nem bűnös
H 1 igaz
Igazából bűnös
A null-hipotézis elfogadása
Felmentés
Jó döntés Rossz döntés

2. típusú hiba

A null-hipotézis elutasítása
Elítélés
Rossz döntés

1. típusú hiba

Jó döntés

A büntetőeljárás két döntési folyamat egyikének vagy mindkettőnek tekinthető: bűnös vagy ártatlan, vagy bizonyíték vagy küszöbérték („észszerű kétségeken túl”). Az egyik szerint a vádlottat ítélik meg, a másik vélemény szerint a büntetőeljárás végrehajtását (amely a bizonyítási terhet viseli). A hipotézis vizsgálat akár hipotézis megítéléseként, akár bizonyítékok megítéléseként is tekinthető.

A filozófus babja szerkesztés

A következő példát egy filozófus készítette, amely a tudományos módszerek generációit írja le, mielőtt a hipotézis vizsgálatot formalizálták és népszerűsítették.[25]

Ennek a maroknak kevés babja fehéres. A táskában szereplő legtöbb bab fehér. Ezért: Valószínűleg ezeket a babot egy másik zsákból vették. Ez egy hipotetikus következtetés.

A zsákban lévő bab a populáció. A maréknyi része a minta. A semleges hipotézis az, hogy a minta a populációból származik. A nullhipotézis elutasításának kritériuma a megjelenés „nyilvánvaló” különbsége (az átlag informális különbsége). Az érdekes eredmény az, hogy egy valós populáció és egy valós minta figyelembe vétele egy képzeletbeli zsákot eredményez. A filozófus inkább a logikát, mint a valószínűséget vizsgálta. Ahhoz, hogy valódi statisztikai hipotézis vizsgálat lehessen, ez a példa megköveteli a valószínűségi számítás alaki követelményeit és a valószínűség összehasonlítását egy szabvánnyal.

A példa egyszerűsítésével egy vegyes bab zsákot és egy marékot tekintünk, amelyben nagyon kevés vagy nagyon sok fehérbab van. Az általánosítás mindkét szélsőséget figyelembe veszi. További számításokra és több összehasonlításra van szükség a hivatalos válasz megszerzéséhez, de a filozófia változatlan; Ha a marok összetétele nagyban különbözik a zsák összetételétől, akkor a minta valószínűleg egy másik zsákból származik. Az eredeti példát egyoldalú tesztnek nevezzük, míg az általánosítást kétoldalú tesztnek nevezzük.

Az állítás arra a következtetésre is támaszkodik, hogy a mintavétel véletlenszerű volt. Ha valaki átkísérte a táskát, hogy fehér babot találjon, az megmagyarázná, miért volt egy marokban annyi fehér bab, és megmagyarázná, hogy miért merült ki a zsákban levő fehér babok száma (a táska feltételezhetően sokkal nagyobb, mint a kéz).

Látványos kártyajáték szerkesztés

Egy személyt (az alanyt) tisztánlátással tesztelnek. 25 alkalommal mutatják meg egy véletlenszerűen kiválasztott játékkártya hátoldalát, és megkérdezik, hogy a négy szín közül melyikhez tartozik. A találatok számát, vagy a helyes válaszokat X-nek hívják.

Mivel a tisztánlátás bizonyítékait próbáljuk megtalálni, egyelőre a nullhipotézis az, hogy az ember nem tisztánlátó.[26] Alternatív megoldás: a személy (többé-kevésbé) tisztánlátó.

Ha a nullhipotézis érvényes, akkor a tesztelõ személy csak kitalálni tudja. Minden kártyánál az egyetlen szín megjelenésének valószínűsége (relatív gyakorisága) 1/4. Ha az alternatív hipotézis érvényes, a vizsgálati alany helyesen jósolja meg az kártyaszínt 1/4-nél nagyobb valószínűséggel. A helyes találgatás valószínűségét hívjuk p-nek. A hipotézisek tehát a következők:

  • nullhipotézist       (csak találgatás)

és

  • alternatív hipotézis      (igazán tisztánlátó).

Amikor a teszt alany helyesen megjósolja mind a 25 kártyát, tisztánlátóknak tekintjük őket, és elutasítjuk a nullhipotézist. Így 24 vagy 23 találat is. Ugyanakkor mindössze 5 vagy 6 találat esetén nincs oka ezeket figyelembe venni. De mi lenne a 12 találat, vagy a 17 találat? Mekkora a találatok kritikus száma (c), amikor az alanyt tisztánlátónak tekintjük? Hogyan határozzuk meg a c kritikus értéket? C = 25 választással (vagyis a tisztánlátást csak akkor fogadjuk el, ha az összes kártyát helyesen jósolják meg), kritikusabbak vagyunk, mint a c = 10 esetén. Az első esetben szinte egyetlen vizsgálat alanyát sem lehet tisztán látónak nevezni, a második esetben egy bizonyos számú vizsgálat sikeres lesz. A gyakorlatban egyvalaki dönti el, hogy mennyire lesz kritikus. Vagyis eldönthető, hogy az első típusú hibát milyen gyakran fogadja el - hamis pozitív vagy I. típusú hiba. C = 25 esetén egy ilyen hiba valószínűsége:

 

ennélfogva nagyon kicsi. A hamis pozitív eredmény valószínűsége annak a valószínűsége, hogy véletlenszerűen kitalál mindent 25 alkalommal.

Ha kevésbé kritikus, ha c = 10, akkor az alábbiakat adja meg:

 

Tehát c = 10 sokkal nagyobb valószínűséget eredményez a téves pozitívum esetén.

A vizsgálat tényleges elvégzése előtt meg kell határozni az I. típusú hiba (α) maximális elfogadható valószínűségét. Általában ez 1% és 5% közötti értékek. (Ha a maximálisan elfogadható hibaarány nulla, végtelen számú helyes kitalálásra van szükség.) Az 1. típusú hibaaránytól függően kiszámításra kerül a c kritikus érték. Például, ha 1% -os hibaarányt választunk, akkor a c értéket így kell kiszámítani:

 

Az összes c, ezzel a tulajdonsággal, úgy döntünk, a legkisebb, annak érdekében, hogy minimálisra csökkentsék a valószínűsége, hogy a II-es típusú hiba, egy téves negatív . A fenti példához a következőket választjuk:   .

Radioaktív bőrönd szerkesztés

Példaként mérlegelje annak meghatározását, hogy a bőrönd tartalmaz-e radioaktív anyagot. Egy Geiger-számláló alá helyezve 10 számot hoz létre percenként. A semleges hipotézis az, hogy nincs radioaktív anyag a bőröndben, és hogy minden mért mennyiség a környező levegőre jellemző környezeti radioaktivitásnak és ártalmatlan tárgyaknak köszönhető. Ezután kiszámolhatjuk, mennyire valószínű, hogy megfigyeljük 10 számot percenként, ha a nullhipotézis igaz. Ha a nullhipotézis előrejelzi (mondjuk), átlagosan 9 számot percenként, akkor a radioaktív bomlásra jellemző Poisson-eloszlás szerint körülbelül 41% esély van arra, hogy 10 vagy több számot rögzítsen. Így azt mondhatjuk, hogy a bőrönd kompatibilis a nullhipotézissel (ez nem garantálja, hogy nincs radioaktív anyag, csak hogy nincs elég bizonyítékunk arra, hogy létezzenek). Másrészt, ha a nullhipotézis 3 számlálást számít előre percenként (amelyre a Poisson-eloszlás csak 0,1% -os esélyt számít a 10 vagy annál több szám rögzítésére), akkor a bőrönd nem kompatibilis a nullhipotézissel, és valószínűleg vannak más felelős tényezők a mérések elkészítéséhez.

A teszt nem közvetlenül igazolja radioaktív anyag jelenlétét. A sikeres teszt azt állítja, hogy a radioaktív anyag állításának valószínűsége valószínűtlen. A módszer kettős negatív (a nullhipotézist tagadó) zavaró, de a matematikai gyakorlatban ellentmondásos példa használata megcáfolására szolgál. A módszer vonzereje a gyakorlatiassága. (Tapasztalatból) tudjuk, hogy a csak a környezeti radioaktivitás mellett számol-e a szám, ezért mondhatjuk, hogy a mérés szokatlanul nagy. A statisztika csak formalizálja az intuitívumot, mivel melléknevek helyett számokat használ. Valószínűleg nem ismerjük a radioaktív bőröndök jellemzőit; Feltételezzük, hogy nagyobb leolvasást eredményeznek.

Az intuíció kissé formalizálása érdekében: radioaktivitásra gyanítható, ha a bőrönddel járó Geiger-szám csupán a környezeti sugárzással végzett Geiger-számok közé tartozik vagy meghaladja azokat (5% vagy 1%). Ez nem feltételezi a számok eloszlását. Számos környezeti sugárzási megfigyelés szükséges a ritka események jó valószínűségének becsléséhez.

Az itt leírt teszt teljesebben a nullhipotézis statisztikai szignifikancia tesztje. A nullhipotézis azt jelenti, amit alapértelmezés szerint elhitetnénk, mielőtt bármilyen bizonyítékot látnánk. A statisztikai szignifikancia a teszt lehetséges megállapítása, amelyet akkor adunk ki, ha a megfigyelt minta valószínűleg nem véletlenszerűen történt meg, ha a nulla hipotézis igaz. A teszt neve leírja annak megfogalmazását és lehetséges eredményét. A teszt egyik jellemzője az éles döntése: a nullhipotézis elutasítása vagy elutasítása. A kiszámított értéket összehasonlítják egy küszöbértékkel, amelyet a tolerálható hibakockázat alapján határoznak meg.

A kifejezések definíciói szerkesztés

A következő meghatározások elsősorban Lehmann és Romano könyvének magyarázatain alapulnak:[3]

Statisztikai hipotézis
Nyilatkozat a populációt leíró paraméterekről.
Statisztika
Egy mintából ismeretlen paraméterek nélkül kiszámított érték, gyakran a minta összegzése céljából összehasonlítás céljából.
Egyszerű hipotézis
Bármely hipotézis, amely teljes mértékben meghatározza a népesség eloszlását.
Összetett hipotézis
Bármely hipotézis, amely nem határozza meg teljesen a népesség eloszlását.
Nullhipotézis (H0)
Egy elmélettel való ellentmondáshoz kapcsolódó hipotézis, amelyet be szeretne bizonyítani.
Pozitív adatok
Adatok, amelyek lehetővé teszik a vizsgáló számára, hogy elutasítsa a nulla hipotézist.
Alternatív hipotézis (H1)
Egy elmélethez kapcsolódó (gyakran összetett) hipotézis, amelyet be szeretne bizonyítani.
Statisztikai vizsgálat
Olyan eljárás, amelynek bemenete minták, és amelynek kimenete egy hipotézis.
Az elfogadás régiója
A tesztstatisztika azon értékeinek halmaza, amelyekre vonatkozóan nem utasíthatjuk el a nullhipotézist.
Elutasítási régió / Kritikus régió
A tesztstatisztika azon értékeinek halmaza, amelyeknél a nulla hipotézist elutasítják.
Kritikus érték
A küszöbérték, amely körülhatárolja az elfogadási és elutasítási régiókat a teszt statisztikája számára
A teszt teljesítménye (1-β)
A teszt valószínűsége a nullhipotézis helyes elutasításának. A hamis negatív arány, β komplementer. A hatalmat a biostatisztika érzékenységének nevezik. ("Ez egy érzékeny teszt. Mivel az eredmény negatív, magabiztosan mondhatjuk, hogy a betegnek nincs az állapota.") A kimerítő meghatározásokhoz lásd az érzékenységet és a specifitást, valamint az I. és a II. Típusú hibákat .
Méret
Az egyszerű hipotézisek esetében ez a teszt valószínűsége a nullhipotézis helytelen elutasításának. A hamis pozitív arány. Az összetett hipotézisek esetében ez a nullhipotézis elutasításának valószínűségének suremje a nullhipotézis által lefedett összes esetnél. A hamis pozitív arány kiegészítését a biostatisztika specifikusságának nevezik. ("Ez egy speciális teszt. Mivel az eredmény pozitív, magabiztosan mondhatjuk, hogy a betegnek van az állapota.") A kimerítő meghatározásokhoz lásd az érzékenységet és a specifitást, valamint az I. és a II. Típusú hibákat .
A vizsgálat szignifikanciaszintje (α)
Ez a teszt méretére előírt felső határ. Ennek értékét a statisztikus választja ki, mielőtt megvizsgálná az adatokat vagy kiválasztaná az alkalmazandó tesztet. Ez az a maximális kitettség, amely tévesen elutasítja a H 0 -ot, aki készen áll az elfogadásra. Tesztelés H 0 szignifikanciaszinten α segítségével teszteli H 0 egy teszt, melynek mérete nem haladja meg α. A legtöbb esetben olyan teszteket használnak, amelyek mérete megegyezik a szignifikanciaszinttel.
p-érték
Annak valószínűsége, hogy a nullhipotézist feltételezve igaz, hogy legalább egy eredményt megfigyel, mint a teszt statisztikája. Összetett nullhipotézis esetén a legrosszabb eshetőség.
Statisztikai szignifikancia teszt
A statisztikai hipotézis tesztének elődje (lásd az Eredet szakaszt). A kísérleti eredményt statisztikailag szignifikánsnak ítélték meg, ha a minta kellően ellentmondásos a (null) hipotézissel. Ezt különféle szempontból tekintik a józan észnek, az értelmes kísérleti eredmények azonosításához szükséges pragmatikus heurisztikának, a statisztikai bizonyítékok küszöbértékét meghatározó egyezménynek vagy az adatokból következtetések levonására szolgáló módszernek. A statisztikai hipotézis teszt matematikai szigorúságot és filozófiai konzisztenciát adott a fogalomhoz az alternatív hipotézis nyilvánosságra hozatalával. A kifejezést lazán használják annak a modern változatnak a leírására, amely ma a statisztikai hipotézis tesztelésének része.
Konzervatív teszt
A teszt konzervatív, ha egy adott nominális szignifikanciaszintre történő felépítésnél a nullhipotézis téves elutasításának valódi valószínűsége soha nem haladja meg a nominális szintet.
Pontos teszt
Olyan teszt, amelyben a szignifikanciaszint vagy kritikus érték pontosan, azaz közelítés nélkül kiszámítható. Egyes összefüggésekben ez a kifejezés a kategorikus adatokra alkalmazott tesztekre és a permutációs tesztekre korlátozódik, amelyekben a számításokat az összes lehetséges eredmény és valószínűségük teljes felsorolása alapján végzik.

A statisztikai hipotézis vizsgálat összehasonlítja a vizsgálat statisztikáját (példa esetén z vagy t) egy küszöbértékkel. A vizsgálat statisztikája (az alábbi táblázatban található képlet) az optimalitást veszi alapul. Az I. típusú hibaarány rögzített szintjén ezeknek a statisztikáknak a használata minimalizálja a II. típusú hibaarányt (egyenértékű a teljesítmény maximalizálásával). A következő kifejezések írják le a teszteket az ilyen optimitás szempontjából:

A legerősebb teszt
Egy adott méretre vagy szignifikanciaszintre az alternatív hipotézisben szereplő, a legnagyobb teljesítményű (elutasítás valószínűsége) teszt a vizsgált paraméter (ek) adott értékére vonatkozóan.
Egységesen legerősebb teszt (UMP)
Az alternatív hipotézisben szereplő, a vizsgált paraméter(ek) összes értékére a legnagyobb teljesítményű teszt.

Közös vizsgálati statisztikák szerkesztés

Variációk és alosztályok szerkesztés

A statisztikai hipotézis vizsgálata mind a gyakori következtetések, mind a Bayes-féle következtetések kulcsfontosságú technikája, bár a két következtetés típusa között jelentős különbségek vannak. A statisztikai hipotézis vizsgálatok olyan eljárást határoznak meg, amely ellenőrzi (rögzíti) annak valószínűségét, hogy tévesen döntenek arról, hogy az alapértelmezett helyzet (nullhipotézis) helytelen. Az eljárás azon alapul, hogy mennyiben valószínű, hogy egy megfigyelés sorozat bekövetkezik, ha a nullhipotézis igaz. Vegye figyelembe, hogy a helytelen döntés meghozatalának valószínűsége nem annak a valószínűsége, hogy a nullhipotézis valódi, és nem az, hogy valamely konkrét alternatív hipotézis igaz-e. Ez ellentétben áll a döntéselmélet technikáival, amelyben a null- és az alternatív hipotézist egyenlőbb alapon kezelik.

A hipotézis tesztelésének egyik naiv Bayes-féle megközelítése a döntéseknek a hátsó valószínűségre alapozása,[27][28] de ez nem sikerül összehasonlítani a pont- és a folyamatos hipotéziseket. A döntéshozatal más megközelítései, mint például a Bayes-féle döntéselmélet, a helytelen döntések következményeinek minden lehetőségét próbálják kiegyensúlyozni, ahelyett, hogy egyetlen nullhipotézisre koncentrálnának. Számos más megközelítés érhető el az adatok alapján történő döntéshozatalhoz a döntési elmélet és az optimális döntések révén, amelyek közül néhánynak előnyös tulajdonságai vannak. A hipotézisek vizsgálata azonban a tudomány számos területén domináns megközelítés az adatelemzéshez. A hipotézis-vizsgálat elméletének kiterjesztése magában foglalja a tesztek erejének tanulmányozását is, azaz a nullhipotézis helyes elutasításának valószínűségét, mivel hamis. Az ilyen megfontolások felhasználhatók a minta méretének meghatározására az adatgyűjtés előtt.

Jegyzetek szerkesztés

  1. Stuart A., Ord K., Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference & the Linear Model (Arnold) §20.2.
  2. Burnham, K. P.. Model Selection and Multimodel Inference: A practical information-theoretic approach, 2nd, Springer-Verlag (2002). ISBN 978-0-387-95364-9 
  3. a b Lehmann, E. L.. Testing Statistical Hypotheses, 3E, New York: Springer (2005). ISBN 978-0-387-98864-1 
  4. Triola, Mario. Elementary statistics, 8, Boston: Addison-Wesley, 388. o. (2001). ISBN 978-0-201-61477-0 
  5. Hinkelmann, Klaus and Kempthorne, Oscar. Design and Analysis of Experiments, Second, Wiley (2008). ISBN 978-0-470-38551-7 
  6. Montgomery, Douglas. Design and analysis of experiments. Hoboken, N.J.: Wiley (2009). ISBN 978-0-470-12866-4 
  7. R. A. Fisher (1925).Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd, 1925, p.43.
  8. Nuzzo (2014. április 25.). „Scientific method: Statistical errors”. Nature 506 (7487), 150–152. o. DOI:10.1038/506150a.  
  9. Siegrist: Hypothesis Testing - Introduction (angol nyelven). www.randomservices.org. (Hozzáférés: 2018. március 8.)
  10. Bakan (1966). „The test of significance in psychological research”. Psychological Bulletin 66 (6), 423–437. o. DOI:10.1037/h0020412. PMID 5974619.  
  11. Richard J. Larsen. Statistics in the Real World: a book of examples. Macmillan (1976). ISBN 978-0023677205 
  12. Hubbard, R. (1997). „The Spread of Statistical Significance Testing in Psychology: The Case of the Journal of Applied Psychology”. Theory and Psychology 7 (4), 545–554. o. DOI:10.1177/0959354397074006.  
  13. Moore, David. Introduction to the Practice of Statistics. New York: W.H. Freeman and Co, 426. o. (2003). ISBN 9780716796572 
  14. Huff, Darrell. How to lie with statistics. New York: Norton (1993). ISBN 978-0-393-31072-6 
  15. Huff, Darrell. How to Lie with Statistics. London: Penguin Books (1991). ISBN 978-0-14-013629-6 
  16. "Over the last fifty years, How to Lie with Statistics has sold more copies than any other statistical text." J. M. Steele. ""Darrell Huff and Fifty Years of How to Lie with Statistics". Statistical Science, 20 (3), 2005, 205–209.
  17. John Arbuthnot (1710). „An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes”. Philosophical Transactions of the Royal Society of London 27 (325–336), 186–190. o. DOI:10.1098/rstl.1710.0011.  
  18. Brian, Éric. Physico-Theology and Mathematics (1710–1794), The Descent of Human Sex Ratio at Birth. Springer Science & Business Media, 1–25. o. (2007). ISBN 978-1-4020-6036-6 
  19. Stigler, Stephen M.. The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press, 225–226. o. (1986). ISBN 978-0-67440341-3 
  20. Laplace (1778). „Mémoire sur les probabilités”. Mémoires de l'Académie Royale des Sciences de Paris 9, 227–332. o. [2015. április 27-i dátummal az eredetiből archiválva]. (Hozzáférés: 2019. december 22.)  
  21. Laplace, P.. Mémoire sur les probabilités (XIX, XX), Oeuvres complètes de Laplace, 429–438. o. (1778) 
  22. Stigler, Stephen M.. The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge, Mass: Belknap Press of Harvard University Press, 134. o. (1986). ISBN 978-0-674-40340-6 
  23. Fisher, Sir Ronald A..szerk.: James Roy Newman: Mathematics of a Lady Tasting Tea, The World of Mathematics, volume 3. Courier Dover Publications [1935] (1956). ISBN 978-0-486-41151-4  Originally from Fisher's book Design of Experiments.
  24. Box, Joan Fisher. R.A. Fisher, The Life of a Scientist. New York: Wiley, 134. o. (1978). ISBN 978-0-471-09300-8 
  25. C. S. Peirce (1878. augusztus 1.). „Illustrations of the Logic of Science VI: Deduction, Induction, and Hypothesis”. Popular Science Monthly 13. (Hozzáférés: 2012. március 30.)  
  26. Jaynes, E. T.. Probability theory : the logic of science, 5. print., Cambridge [u.a.]: Cambridge Univ. Press (2007. április 25.). ISBN 978-0-521-59271-0 
  27. Schervish, M (1996) Theory of Statistics, p. 218. Springer ISBN 0-387-94546-6
  28. Kaye, David H.. Reference Guide on Statistics, Reference Manual on Scientific Evidence, 3rd, Eagan, MN Washington, D.C: West National Academies Press, 259. o. (2011). ISBN 978-0-309-21421-6 

Fordítás szerkesztés

Ez a szócikk részben vagy egészben a Statistical hypothesis testing című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

További irodalom szerkesztés

További információk szerkesztés

Online számológépek szerkesztés

Kapcsolódó szócikk szerkesztés