A statisztikában a hatásnagyság, vagy más szóval hatásmérték valamely populációra, vagy annak egy mintájára vonatkozó két változó kapcsolatának erősségét jellemző mutató. A fogalom vonatkozhat valamely mintán végzett statisztikai próba eredményére, egy feltételezett statisztikai populáció valamely paraméterére, vagy magára az egyenletre, mellyel a rendelkezésre álló adatokból a hatásnagyságot jellemző értéket kiszámíthatjuk.[1] Példa a hatásnagyságra két változó közötti korreláció,[2] a regressziós együttható, az átlagos különbség, vagy valamely esemény (például egy szívroham) bekövetkezésének kockázata. A hatásnagyság minden típusára igaz, minél nagyobb az abszolút értéke, annál erősebb a hatásnagyság. A hatásnagyság a statisztikai hipotézistesztelés fontos kiegészítő eleme, szerepet kap egy adott statisztikai próba erejének kiszámításában, a szignifikáns eredmény kimutatásához szükséges minimális mintaelemszám meghatározásában, illetve metaanalízisek során. A hatásnagysággal dolgozó adatelemzési módszereket más néven becslési statisztikának is nevezzük.

A hatásnagyság elemi összetevő minden olyan esetben, ahol egy statisztikai állítás erejét szeretnénk megállapítani. A hatásnagyság szórása különösen fontos érték, hiszen megmutatja, hogy egy bizonyos mérést mennyire tudhatunk biztosnak (avagy hibásnak). Egy túlontúl nagyfokú hatásnagyságra vonatkozó szórásérték a mérés eredményét úgyszólván megfosztja hitelétől. Metaanalízisek során, ahol több mérés hatásnagysága kerül összevetésre, a hatásnagyságokat szórásuk szerint rangsorolják, így a nagyobb kutatások (melyek kisebb szórással bírnak) az összehasonlítás során nagyobb relatív súlyt kapnak. A hatásnagyság standard hibaértékét kiszámítása típusonként eltérő, de általánosságban a vizsgálat elemszámának (N), vagy az egyes csoportokban végzett megfigyelések számának (n) ismeretét követeli meg.

A hatásnagyságok feltüntetése az empirikus kutatási eredmények tárgyalásakor egyre többször elvárt szokás.[3][4] A statisztikai szignifikancián túl a hatásnagyság feltüntetése az egyes kutatások eredményeinek jelentőségét segít felbecsülni.[5] A hatásnagyságok mértéke különösen releváns társadalom-, illetve orvostudományi kutatásokban, ahol a vizsgált beavatkozások hatásfoka nem elhanyagolható tényező.

A hatásnagysának mind az abszolút, mind a standardizált értéke használatos. A standardizált hatásnagyságot olyankor használjuk, amikor két csoportot közvetlenül szeretnénk összehasonlítani egymással, például esélyhányadosok vagy relatív kockázatok tekintetében. Az abszolút hatásnagyságok esetében a nagyobb érték minden esetben nagyobb hatást jelöl. Számos eltérő hatásnagyság-típusnál használják mind az abszolút, mind a standardizált értékeket, melyek eltérő információval szolgálnak, így egymás mellett is alkalmazhatók. Egy neves pszichológiai kutatócsoport tanácsa szerint:

„Minden esetben tüntessük fel az eredmények hatásnagyságát... Amennyiben a mért változók valamilyen kézzelfogható mennyiségre vonatkoznak (pl. napi cigarettafogyasztás), ott a standardizálás előtti értékeket használjuk (korrelációs együttható, átlagos különbség), szemben a standardizáltakkal (r vagy d).[3]

ÁttekintésSzerkesztés

A populációra és mintára vonatkozó hatásnagyságSzerkesztés

Mint ahogy a statisztikai becslések esetében általában, a valódi hatásnagyságot megkülönböztetjük a megfigyelt hatásnagyságtól - vagyis például egy betegség populációban való előfordulási arányára (populációs hatásmérték) egy, a populációból vett mintában előforduló betegség-arányból (mintavételi hatásmérték) következtetünk. A valódi és megfigyelt hatásmértékek leírására egyezményes statisztikai nyelvet használunk - mint például görög betűk (ρ) használata a populációra vonatkozó értékek esetében, míg latin betűké (r) a mért statisztikai értékekre vonatkozóan. Más helyeken, ha populáció-paraméterekre hivatkozunk, "kalapot" teszünk a mintaértékek betűire (azaz pl. a   mintaérték alapján becsült populációértéket  -pal jelöljük).

Mint minden becsült érték esetében, a hatásmértéket is jellemzi bizonyos mértékű mintavételi hiba, tehát a populációra vonatkozóan pontosabb becslést adhatunk intervallumbecslés formájában, vagyis annak a becslésével, hogy a mért érték egy megfelelően nagy eséllyel (pl. 95%) a meghatározott intervallumba esik.

A népességre vonatkozó értékek becslésénél fontos figyelembe vennünk továbbá a mérések gyakorlata során keletkező torzításokat. Hamis értékeket kapunk például olyan esetben, amikor a kutatóközösség csak a nagy, vagy statisztikailag szignifikáns hatásmértékek jelenlétében publikálja kutatási eredményeit (publikációs torzítás). A publikálatlan alacsony erejű becsléseket figyelembe véve tehát ilyenkor a populációra a mértnél kisebb hatásnagyságot feltételezhetünk.[6] Az is torzított értékekhez vezet, ha egy kísérlet több különálló próba eredményeire csupán összegzett vagy átlagolt hatásnagyság-értékeket közöl.[7]

A hatásnagyság és a próbastatisztikák kapcsolataSzerkesztés

A statisztikai mintán alapuló hatásnagyság jelentősége eltér a hipotézistesztelések során eredményül kapott próbastatisztika-értékekétől. Míg a hatásnagyság egy kapcsolat megfigyelhető erejére (nagyságára) vonatkozó érték, a próbastatisztikákból (azok várható eloszlásai alapján) a megfigyelt kapcsolaterősség szignifikanciájára következtetünk, tehát arra teszünk becslést, hogy a megfigyelt kapcsolaterősség mekkora eséllyel nem csupán a véletlen műve. A hatásmértékkel tehát nem jellemezhetjük a mérés szignifikanciáját közvetlenül, mint ahogy a szignifikancia szint sem határozza meg a mérésünkre jellemző hatásmértéket. Bizonyos mintaméret fölött ugyanis bármely értelmes statisztikai próba szignifikáns eredményt mutat, amennyiben a populációra jellemző hatásmérték nem pontosan nulla (és még erre az esetre is az elsőfajú hiba arányának megfelelő szignifikancia szint lesz jellemző). Vegyünk például egy mintát, melyre a Pearson-féle korrelációs együttható 0,01 és a próba 1000 fős minta esetén szignifikáns eredményt ad. A próba szignifikanciája ebben az esetben félrevezető lehet, hiszen egy 0,01 "nagyságú" kapcsolatot bármilyen gyakorlati értelemben véve elhanyagolhatónak titulálhatunk.

Standardizált és standardizálatlan hatásmértékSzerkesztés

A hatásmérték fogalma vonatkozhat mind standardizált (pl. r, Cohen-féle d, vagy az esélyhányados), mind standardizálatlan, "nyers" értékekre (pl. csoportok közötti átlagos különbség, vagy standardizálatlan regressziós együttható). A standarizált értékeket általában a következő esetekben használjuk:

  • a mért változók nem valóságban megfigyelhető értékeket jelölnek (pl. egy személyiségteszt önkényes pontszámrendszere),
  • több kutatás kombinált eredményeit használjuk,
  • az eltérő kutatások különböző mérési skálákat használnak, vagy
  • szeretnénk összehasonlítani a kapott hatásnagyságot annak populációban való előfordulási variabilitásával.
  • metaanalíziseknél, melyek során a eredmények standardizálásán keresztül kaphatunk a független kutatások összehasonlítására szolgáló adatokat.

A hatásnagyság értelmezéseSzerkesztés

Egy hatásnagyság-értéket kicsinek, közepesnek, vagy nagynak nevezhetünk, ez a megnevezés azonban függ az alkalmazott szakterület sajátosságaitól, illetve az érték számítási módjától. A Cohen által javasolt hagyományos kritériumrendszer széles körben elfogadott[8] - a Cohen-féle d hatásnagyság-értéket

  • kicsinek tekintjük, ha az értéke 0,2-0,3 körüli;
  • közepesnek, ha 0,5 körüli; és
  • nagynak, amennyiben 0,8 vagy magasabb.

Cohen azonban óvatosságra int ezen értékekkel kapcsolatban:[8]

"A 'kicsi', 'közepes', illetve 'nagy' kifejezések csupán relatíve értendők, nem csak egymáshoz képest, hanem az adott viselkedéstudományi környezethez, vagy még pontosabban a konkrét vizsgálati területhez, illetve az adott kutatásban alkalmazott tudományos módszerhez képest... Ennek a viszonylagosságnak a tükrében bizonyos rizikó rejlik az egyezményesített kifejezések használatában, hiszen ezen erőfogalmak értelmezése olyannyira eltérő lehet, amennyire magának a viselkedéstudománynak az alterületei, melyekben az értékek alkalmazásra kerülnek." (p. 25)

A kétmintás elrendezés esetében Sawilowsky[9] állítása szerint "az alkalmazott területen tapasztalt jelen eredményeink tükrében érdemes lenne felülvizsgálni a hatásnagyságra vonatkozó ökölszabályt", Cohen intelmeivel összhangban. Bevezette továbbá a "nagyon kicsi", "nagyon nagy", és "hatalmas" kategóriákat is. Más elrendezések esetében hasonló tényeken alapuló szabványok kerülhetnének megállapításra.

Lenth[10] a "közepes" hatásmértékkel kapcsolatban a következő megjegyzést tette:

"bármekkora is legyen a mérőeszközeink pontossága és megbízhatósága, vagy a minta diverzitása, ezekre tekintet nélkül alkalmazzuk ugyanazt a mintaelemszámot. Nyilvánvaló, hogy itt valami felett elsiklunk. Cohen hatásnagyságot leíró kategóriái hasznos kiindulási pontként szolgálhatnak, de a kapott eredmények tényleges jelentőségét minden esetben csak egy az adott területre jellemző koherens értelmezési rendszerrel, vagy a már meglévő tudásunkkal összevetve lenne szabad felbecsülnünk."[5]

Ezzel párhuzamosan egy az USA oktatási minisztériuma által szponzorált jelentés a következőt állítja:

"A Cohen által megszabott kicsi, közepes, nagy hatásmérték-kategóriák széles körben való és feltétel nélküli használata félrevezető lehet minden olyan területen, ahol nem állnak rendelkezésünkre viszonyítási alapként szolgáló értékadatok."[11]

Javaslatuk szerint "a megfelelő norma-értékeket hasonló eredményekkel szolgáló, hasonló eszközöket alkalmazó, hasonló mintákon végzett kutatások hatásnagyság-eloszlásainak kiszámításával kaphatjuk meg." Tehát ha egy adott kutatási területen, ahol a beavatkozások átlagosan kismértékűek, ugyanakkor a coheni értelemben "kicsinek" titulált hatásmértéket jeleznek, akkor erre a környezetre vonatkoztatva ezt a hatást "nagynak" kell becsülnünk. Ide vonatkozóan lásd még a Abelson-féle paradoxont, illetve a Sawilosky-paradoxont.[12][13][14]

TípusaiSzerkesztés

A hatásnagyság 50-100 különböző típusa ismert. Több típust is átválthatunk egymásba, mivel számos típus két eloszlás eltérését becsli, így matematikailag megfelelhethető egymásnak. Ilyen például a korrelációs együttható, melyet a Cohen-féle d-vé alakíthatunk, és fordítva.

Korreláción (megmagyarázott varianciaarányon) alapuló csoportSzerkesztés

Az ebbe a csoportba tartozó hatásmérték-jelzők annak a jelölői, hogy egy adott kísérleten belül megfigyelt hatás varianciája mennyiben tudható be a kísérleti modell alapján várható hatásnak (megmagyarázott variancia), szemben a véletlen varianciával (maradék, hibavariancia).

Pearson-féle r, avagy korrelációs együtthatóSzerkesztés

A Karl Pearson által bemutatott Pearson-féle korrelációs együtthatót, melyet gyakran r-nek rövidítenek, széles körben alkalmazzák mint hatásnagyságot, ha összetartozó kvantitatív adatok rendelkezésre állnak (pl. ha egy kutató a születési súly és a várható élettartam közötti kapcsolatotvizsgálja). A korrelációs együtthatót akkor is alkalmazzák, ha a vizsgált adat bináris (kétváltozós). A Pearson-féle korrelációs együttható értéke -1 és 1 között változhat. A -1 jelenti a tökéletes negatív lineáris kapcsolatot, az 1 a tökéletes pozitív lineáris kapcsolatot, a 0 pedig azt mutatja meg, hogy nincs lineáris kapcsolat a két változó között. Cohen a társadalomtudományok esetében a következő irányértékeket javasolja:[8][15]

Hatásnagyság r
Kicsi 0,10
Közepes 0,30
Nagy 0,50
Determinációs együttható (r2 or R2)Szerkesztés

A fentiekhez kapcsolódó hatásnagyság-mutató a determinációs együttható (melynek gyakori jelölése r2, vagy R2, azaz "r-négyzet"), melyet a Pearson-féle korreláció négyzetre emelésével számolhatunk ki. Összetartozó adatok esetén ez a mutató adja meg a két változó közös varianciaarányát. A mutató értéke 0 és 1 között változhat. Például, ha az r egyenlő 0,21-dal, a determinációs együttható 0,0441 lesz, ami azt jelenti, hogy az egyik változó varianciájának 4,4%-a közös a másik változóval, vagyis elmondhatjuk, hogy a determinációs együttható egyenlő megmagyarázott varianciaaránnyal. Az r2 mindig pozitív, így nem mutatja meg a két változó korrelációjának irányát.

Éta-négyzet (η2)Szerkesztés

Az éta-négyzet t-próbák és varianciaanalízis során alkalmazott hatásnagyság-mutató, mely a függő változó egy kijelölt prediktor változó által megmagyarázott varianciaarányát adja (a többi prediktor változó szinten tartása mellett). Az éta-négyzet tehát valamelyest hasonlóan működik, mint az összetartozó adatok esetén használt r2. Az éta-négyzet a populációra nézve azonban csupán pontatlan becslést nyújt, tehát egyedül a minta hatásnagyságát becsülhetjük meg vele. Ugyanis hasonlóan az r2 -hez, minden hozzáadott változóval automatikusan növekszik az η2 értéke is. Az éta-négyzet emiatt minden esetben túlbecsüli a populációra vonatkozó hatásnagyság mértékét, ámbár ezen torzítás hatása nagyobb minták esetén mérséklődik. Emiatt nagyon fontos a megfelelő méretű minta kiválasztása.

 
Omega-négyzet (ω2)Szerkesztés

Valamivel pontosabb becslését adja a populáció magyarázott varianciaarányának az ω2 érték:[16]

 

Ez a képlet csupán olyan független mintás elemzés esetén alkalmazható, ahol az összehasonlításra kerülő csoportok elemszáma minden változóra nézve megegyezik.[16] Mivel kevésbé pontatlan (bár nem teljesen torzításmentes), a ω2 -et gyakran részesítik előnyben az η2 -tel szemben. Hátránya, hogy összetettebb elemzések során kiszámítása kényelmetlen lehet. Létezik a mutatónak általánosított formája is, mely mind független-, mind összetartozó-, mind ismételt-, vagy kevert mintás, illetve véletlen blokkos elrendezésekre is használható.[17] Ezen felül kidolgoztak a parciális ω2 kiszámításáról szóló módszereket is, mellyel akár három független változós elrendezés esetén kaphatunk adatokat független, illetve kombinált faktorokra.[17]

Cohen-féle ƒ2Szerkesztés

A Cohen-féle ƒ2 egy a számos hatásnagyság-érték közül, melyet F-próbák, varianciaanalízis, illetve többszörös regresszió során alkalmazunk. Az ƒ2 populációra vonatkozó torzítása (túlbecslése) attól függ, milyen magyarázott varianciaarány-értéket vesz alapul (R2, η2, ω2 stb.)

Az ƒ2 hatásnagyság a többszörös regresszió esetén a következőképp határozható meg:

 
ahol R2 a többszörös korreláció négyzete.

Hasonlóképpen, ƒ2-t meghatározhatjuk, mint:

  vagy  
azon modellekben, ahol a fenti mutatók relevánsak.[18]

Az  -t idősoros többszörös regresszió esetén, valamint a hatásnagyság parciális legkisebb négyzetes modellillesztésnél[19] a következőképp kaphatjuk meg:

 
ahol R2A az egy vagy több független változó csoportja (A) által megmagyarázott varianciaarány, és R2AB az A-nak és egy hasonlóan független változók csoportjának, B-nek az egyesített magyarázott varianciája. Egyezményesen az ƒ2 hatásmértékeket a következőképp jellemezhetjük: kicsi ~ , közepes ~ , nagy ~ .[8]

Faktoranalízis esetén rendelkezésünkre áll a Cohen-féle   (f-kalap), melyet az alábbi képlet határoz meg:

 

Kiegyensúlyozott (egyenlő elemszámú csoportokkal dolgozó) elrendezésű varianciaanalízis esetén a populációra vonatkozó   a következő:

 
ahol μj a K számú csoport közül a j-edik csoportra jellemző populációátlagot jelöli, az σ pedig a csoportokra jellemző populációs szórás. SS a varianciaanalízis négyzetes összege.

Cohen-féle qSzerkesztés

Korrelációs különbségek számítása esetén egy másik alkalmazott mutató a Cohen-féle q. Ez két Fisher-transzformált Pearson-féle regressziós együttható különbsége. Képlettel:

 

ahol r1 és r2 a két összehasonlított regressziós együttható. A q várható értéke 0, szórása pedig

 

ahol N1 és N2 az első és második regresszióban felhasznált adatpontok száma.

Átlagok különbségén alapuló csoportSzerkesztés

 
Gauss-féle eloszlásfüggvény alakulása különböző Cohen-d értékek esetén.

Az átlagokon alapuló, populációra vonatkozó hatásmérték (θ), általában a két populáció standard átlagos különbségét vizsgálja meg[20]

 

ahol μ1 az első populáció átlaga, μ2 a másik populáció átlaga, és σ az egyik vagy mindkét populáció szórása.

A gyakorlatban a populációra vonatkozó értékek gyakran nem ismertek, ezért azokra a mintaértékekből következtetünk. A különféle átlagok különbségén alapuló hatásnagyság-mutatók aszerint térnek el, hogy mely statisztikai értékeket veszik alapul.

Ez a fajta hatásmérték a t-próba meghatározásához hasonló, azzal a különbséggel, hogy a t-próbától eltérően nem tartalmazza a   faktort. Ez azt jelenti, hogy egy adott hatásnagyság mellett a szignifikanciaszint a mintaelemszám nagyságával együtt nő. A t-próbától eltérően a hatásmérték a populációs szintet hivatott becsülni, így tehát független a mintaelemszámtól.

Cohen-féle d Szerkesztés

A Cohen-féle d nem más, mint két átlag különbsége osztva a szórással, azaz képlettel:

 

Ez tehát két csoport standardizált különbsége, mely leggyakrabban t-próbák és varianciaanalízis esetén kerül alkalmazásra. Jacob Cohen a két független mintára vonatkozó összevont szórást (s) a következőképpen definiálta:[8]

 

ahol az egy csoportra vonatkozó variancia a következőképpen alakul:

 

ahogy a másik csoport varianciája hasonlóképpen.

Az alábbi táblázat az eredetileg Cohen által bevezetett, majd Sawilowsky által kibővített,[9] d = 0,01 és d = 2,0 közötti intervallumra jellemző leíró kategóriákat tartalmazza:

Hatásnagyság d Forrás
Nagyon kicsi 0,01 [9]
Kicsi 0,20 [8]
Közepes 0,50 [8]
Nagy 0,80 [8]
Nagyon nagy 1,20 [9]
Hatalmas 2,00 [9]

Más szerzők az összevont szórás némileg eltérő meghatározását használják, ahol a a Cohen-féle d nevezőjéből hiányzik a "-2"[21][22]

 

A Cohen-féle d efféle meghatározására a legnagyobb valószínűség (maximum likelihood) becslés elnevezést is használják (Hedges és Olkin,[20]), mely Hedges g értékéhez is kapcsolódik (lásd lentebb).

Páros mintaadatok esetén a különbség-pontszámok eloszlását vizsgáljuk. Ebben az esetben s az ezen eloszlásfüggvény szórása. Ez a következőképpen alakítja a t-próba értékének és a Cohen-féle d-nek a kapcsolatát:

 

és

 

A Cohen-féle d-t gyakran használják a statisztikai próbák kielégítő mértékű mintaelemszámának becslésére. Egy alacsonyabb d érték magasabb mintaelemszámot kíván meg, és fordítva. Hasonlóképpen használható további paraméterekkel összevetve, mint a kívánt szignifikancia szint, illetve statisztikai erő. [23]

Glass-féle ΔSzerkesztés

1976-ban Gene V. Glass egy csak a második csoport szórását megkívánó hatásnagyság-mutatót javasolt:[20]

 

A második csoportra kontroll csoportként tekinthetünk. Glass azzal érvelt, hogy abban az esetben, ha többféle kezelés hatását hasonlítjuk a kontroll csoporthoz, és a csoportok átlaga egyenlő, míg a varianciájuk különbözik, a hatásnagyságot szinten tarthatjuk, amennyiben azt csupán a kontroll csoport szórásával számoljuk ki. A különböző kezelések populációra vonatkozó (tehát fix szórású) hatásnagysága így egyenlő lesz.

A populációra helyesen becsült megegyező varianciaértékek mellett azonban az σ összevont becsült értéke pontosabb eredményt ad.

Hedges-féle gSzerkesztés

A Larry V. Hedges által 1981-ben felvetett Hedges-féle g[24] más mutatókhoz hasonlóan a standard különbségeken nyugszik:[20]

 

ahol az összevont szórás   a következőképp alakul:

 

Azonban, mint a populációra hatásnagyságára (θ) vonatkozó becslés, ez az érték pontatlan. Ez azonban nagyjából korrigálható a következő faktorral való szorzás által:

 

Hedges és Olkin erre a kevésbé pontatlan   mutatóra d-ként hivatkozott, ez azonban nem összetévesztendő a Cohen-féle d-vel. A gamma-függvénnyel[20] ellátott korrekciós faktor J() egzakt alakja:

 

Ψ, négyzetes középre alapuló standardizált hatásSzerkesztés

Egy, a többszörös összehasonlítás (pl. varianciaanalízis) során használt másik hatásnagyság-mutató a Ψ négyzetes középre alapuló standard hatás.[18] Ez lényegében az egész modell négyzetes középpel módosított össz-különbsége, a d vagy g mutatóval rokonítható. A Ψ legegyszerűbb alakja, melyet az egyváltozós varianciaanalízis során alkalmaznak, a következő:

 

Ezen túl a többfaktoros elemzés esetén használható általánosított képletek is elérhetőek.[18]

Az átlagokon alapuló hatásnagyság-eloszlásSzerkesztés

Feltéve, hogy az adatok Gauss-féle eloszlással jellemezhetők, a skálázott Hedges-féle g,   egy általánosított, nemcentrikus t-eloszlást követ, ahol a noncentralitási paraméter  és a szabadságfok (n1 + n2 − 2). Hasonlóan, a skálázott Glass-féle Δ eloszlási szabadságfoka n2 − 1.

Az eloszlásból kiszámíthatóak a becsült hatásnagyságok, és a rájuk vonatkozó szórásértékek.

Néhány esetben nagy becsült mintavariancia-értékeket használunk. A Hedges-féle torzításmentes mutató szórásának egyik javasolt képlete:[20]

 

Egyéb mutatókSzerkesztés

A Mahalanobis-távolság (D) a Cohen-féle d többváltozós általánosítása, figyelembe véve az egyes változók közti kapcsolatokat.[25]

Kategorikus változók kapcsolatán alapuló hatásnagyságok csoportjaSzerkesztés

   

   

Phi (φ) Cramér-féle V (φc)

Egy változó akkor kategorikus, ha véges halmazból vesz fel értékeket. A khí-négyzet próba során általánosan használt mutatók a együttható és a Cramér-féle V (vagy helyenként Cramér-féle , φc-vel jelölve). A φ a pont-biszeriális korrelációs együtthatóhoz, illetve a Cohen-féle d-hez hasonlítható, és két kategorikus változó kapcsolaterősségét becsli (2 × 2).[26] A Cramér-féle V-t akkor használjuk, ha a vizsgált változók több, mint két értéket vehetnek fel.

A φ-t úgy kaphatjuk meg, ha a khí-négyzet próba eredényét elosztjuk a mintaelemszámmal, majd a hányadosból négyzetgyököt vonunk.

Hasonlóképpen, a Cramér-féle V-t úgy kaphatjuk meg, ha a khí-négyzet értéket elosztjuk a mintaelemszámmal, valamint a legkisebb dimenzió hosszának értékével (k az az érték, amely a kisebbik az s sorszám és o oszlopszám közül), majd a hányadosból négyzetgyököt vonunk.

φc két diszkrét változó kölcsönös korrelációját mutatja meg,[27] melyet bármekkora sor- és oszlophosszúság mellett meghatározhatunk. Azonban, mivel a khí-négyzet értékek a cellaelemek számával együtt növekednek, minél nagyobb különbség van a sor- és oszlophosszok között, V annál erősebben fog 1-hez tartani anélkül, hogy ezt a változók közti valós kapcsolat erős bizonyítékának tudhatnánk be.

Cramér V-jét továbbá a khí-négyzet modelleket használó illeszkedésvizsgálatokban is alkalmazzák (vagyis ahol az oszlophossz = 1). Ebben az esetben (k lehetséges kimenetel közül vett) egy bizonyos kimenetel esélymutatójaként szolgál. Ilyenkor a V érték 0 és 1 között tartásának érdekében a k értékének mindig a sorhosszúságot választjuk, hiszen amennyiben az oszlophosszt helyettesítenénk be k-ra, egyszerűen a φ értékét kapnánk.

Cohen-féle wSzerkesztés

A khí-négyzet próbák esetében használt másik hatásnagyság-mutató a Cramér-féle w. Ez a következőképpen határozható meg:

 

ahol p0i az i-edik cellaérték H0-ban, p1i az i-edik cellaérték H1 -ben, és m az összes cellák száma. A Cohen-féle w esetében az irányadó értékek a következők:

Hatásnagyság w
Kicsi 0,10
Közepes 0,30
Nagy 0,50

EsélyhányadosSzerkesztés

Az esélyhányados szintén egy hasznos hatásnagyság-mutató. Akkor alkalmazható, ha a kutatási kérdés kétértékű változók kapcsolatának fokára vonatkozik. Például képzeljünk el egy kutatást, amely a helyesírási képességekre fókuszál. A kontrollcsoportban minden megbukó tanulóra jut kettő, aki átmegy a vizsgán, azaz a sikeres teljesítmény esélye (odds) kettő az egyhez (vagyis 2/1=2). A kísérleti csoportban minden megbukó tanulóra jut hat, aki átmegy a vizsgán, azaz a sikeres teljesítmény esélye itt hat az egyhez (vagyis 6/1=6). A hatásnagyság kiszámolásához be kell látnunk, hogy a sikeres teljesítmény esélyhányadosa (odds) a kísérleti csoportban háromszor nagyobb (6/2=3), vagyis a végső esélyhányados három. Az esélyhányados lehetséges értékei más skálán értelmezendők, és így nem összehasonlíthatók pl. a Cohen-féle d értékeivel.

Relatíve kockázatSzerkesztés

A relatív kockázat (RR), vagy más néven kockázati arány nem más, mint egy adott kimenetel független változóhoz viszonyított bekövetkezési valószínűsége. Az esélyhányadostól eltérően itt valószínűségek, és nem esélyek kerülnek összehasonlításra, bár ezen értékek kis valószínűségek esetén egymáshoz tartanak. A fenti példával élve, a kontroll csoportban és a kísérleti csoportban a vizsgán való megfelelés valószínűsége 2/3-ad (0,67), illetve 6/7-ed (0,86). A hatásnagyságot hasonlóan kapjuk meg, csupán az esélyek helyett a valószínűségeket alapul véve. A relatív kockázat ennek alapján 1,28. Mivel a vizsga teljesítési valószínűségei itt nagy értékekkel bírnak, a relatív kockázat és az esélyhányados értéke viszonylag nagy különbséget mutat. Ha ezzel szemben a megbukásra vonatkozó csekélyebb értékekkel jellemezhető eseményt vizsgáljuk, a két mutató között is kisebb eltérést figyelhetünk meg.

Habár mindkét mutató elterjedt, használatuk különböző célt szolgál. Az orvosi kutatások során végzett eset-kontroll elrendezésekben az esélyhányados a gyakrabban használt forma.[28] A relatív kockázatot ezzel szemben randomizált kettős vak próbáknál, illetve kohorszvizsgálatok esetében preferálják, ámbár a relatív kockázat a beavatkozások sikerességének túlbecslését eredményezheti.[29]

Kockázati különbségSzerkesztés

A kockázati különbség (RD), vagy más néven felesleges kockázat, vagy neki tulajdonítható kockázat nem más, mint egy esemény két csoportban megfigyelhető bekövetkezési valószínűségeinek különbsége. A beavatkozásos kutatásokban gyakran használt mutató, mivel megadja, hogy egy adott beavatkozás mennyivel változtatja a vizsgált kimenetel bekövetkezési valószínűségét. A fenti példa nyomán haladva a kontroll és kísérleti csoportra vonatkoztatva a sikeres vizsga valószínűsége 2/3 (0,67), illetve 6/7 (0,86), azaz az RD hatásnagyság 0,86 - 0,67 = 0,19 (azaz 19%). Az RD a beavatkozások értékelésének leggyakrabban használt eszköze.[29]

Cohen-féle hSzerkesztés

A statisztikai próba erejének vizsgálata során, amennyiben két független változót hasonlítunk össze, alkalmazhatjuk a Cohen-féle h értéket, amely:

 

ahol p1 és p2 a két mintára vonatkozó változóértékek.

A hatásnagyság köznyelvi leírásaSzerkesztés

Ahogy a neve sugallja, a hatásnagyság köznyelvi leírása annak érdekében született, hogy a fogalom érthetőbbé váljon a laikusok számára. 1992-es bevezetése és elnevezése Kenneth McGraw és S. P. Wong nevéhez köthető,[30] és két csoport különbségét írja le. A szerzők a következő, férfiak és nők magasságára vonatkozó példával élnek: "bármely véletlenszerű fiatal férfi-női pár esetén annak a valószínűsége, hogy a férfi magasabb a nőnél, 0,92, azaz még egyszerűbben szólva, 100-ból 92 fiatalok közti vakrandi esetén a férfi lesz a magasabb."[30] Ebben a példában a szerzők a köznyelvi hatásnagyság populációra vonatkozó értékét adják tehát meg.

A népességre vonatkozó értéket a köznyelvi hatásnagyság esetében gyakran illusztrálják a fenti példához hasonlóan, véletlenszerű párokon keresztül. Kerby (2014) szintén megjegyzi, hogy a köznyelvi hatásmérték központi fogalmi eleme ez a két párba vett csoport valamely változóértékeinek összehasonlítása.[31]

Egy másik példában egy beavatkozásos (mondjuk egy krónikus betegség, mint az arthiritis kezelését megcélzó) vizsgálatot elemzünk, ahol tíz-tíz fő jut a kísérleti, valamint a kontroll csoportra. Ekkor, ha mindenki mindenkivel összehasonlításra kerül, 10x10, azaz 100 párosunk lesz. A kutatás végeztével a kimeneteleket pontszámmal látjuk el minden résztvevőre vonatkozólag (például pontszámok a mobilitásra, fájdalomszintre stb.), majd ezután minden páros közötti pontértékeket összehasonlítjuk. Az így kapott eredmény, azaz a hipotézisünkkel összhangban lévő eredmények hányada, a köznyelvi hatásmérték. A példa esetében legyen ez az érték, 0,80, tehát 100-ból 80 páros esetében a kísérleti csoportból vett alany értékei kedvezőbbek, mint a kontroll csoportból származónak. Egy ilyen vizsgálat esetén a mintaértékek a populációs értékek torzítatlan becslését adják.[32]

Vargha és Delaney bevezették a köznyelvi hatásnagyság általánosított alakját (Vargha-Delaney A), mellyel ordinális skálájú adatok is jellemezhetők.[33]

Biszeriális rangkorrelációSzerkesztés

A köznyelvi hatásnagysághoz kapcsolható másik hatásmérték-mutató a biszeriális rangkorreláció. Ezt az értéket Cureton vezette be a Mann-Whitney-féle U-próba hatásmértékének jellemzésére.[34] A két vizsgált csoport pontszámait itt rangokká alakítjuk, azaz ordinális skálára konvertáljuk. A Kerby-féle egyszerűsített különbségképlettel a köznyelvi hatásnagyságból könnyen kiszámítható a biszeriális rangkorreláció.[31] Legyen k a hipotézis alapján kívánatos kimenetelnek eleget tevő párok aránya (vagyis a köznyelvi hatásnagyság), és legyen n a nemkívánatosoké. Ekkor r biszeriális rangkorrelációs érték:  r = k − n. Más szóval ez a korreláció a köznyelvi hatásnagyság két kimenetelre vonatkozó különbsége. Ha például a köznyelvi hatásnagyság 60%, akkor a biszeriális rangkorrelációs érték 60% - 40%, tehát  r = 0.20. A Kerby-féle képlet előjeles, ahol a pozitív érték a hipotézist alátámasztó kimenetel javát jelzi.

Wendt a biszerális rangkorreláció előjel nélküli változatát vezette be, ahol a korreláció mindig pozitív.[35] A Wendt-képlet előnye, hogy már publikált cikkek adatai alapján is kiszámítható. A képlet csak a Mann-Whitney U-próba U-értékét, valamint a két csoport mintaelemszámát igényli. A következőképpen néz ki: r = 1 – (2U)/(n1 n2). Az U értéke alatt itt a klasszikus definíció értelmében a két lehetséges érték közül a kisebbiket értjük. Emiatt 2U < n1n2, mivel  n1n2 legfelső határa nem más, mint U.

A két képlet használatát egy példával szemléltethetjük. Vegyünk egy húsz idős felnőttel végzett vizsgálatot, ahol tíz-tíz fő esik a kísérleti, illetve a kontroll csoportba, vagy 100 lehetséges párról beszélhetünk. A kezelés diétát, testmozgást, étrendkiegészítőket alkalmaz az emlékezet fejlesztésének érdekében. Az emlékezőképességet standardizált tesztekkel mérjük. A Mann-Whitney-teszt szerint a kísérleti csoportba tartozók a 100 párból 70 esetében jobban teljesítenek (a kontroll csoportra vonatkozó érték tehát 30). A Mann-Whitney-teszt U-értékei közül a 30, ez lesz tehát az alapul vett U értékünk. A Kerby-féle egyszerűsített különbségképlet szerint tehát r = (70/100) − (30/100) = 0.40. A Wendt-képlet szerinti korrelációs érték r = 1 − (2·30)/(10·10) = 0.40.

Hatásnagyság ordinális adatok eseténSzerkesztés

A Norman Cliff által kidolgozott Cliff-féle delta vagy   az ordinális adatok jellemzésére szolgál.[36] Azt mutatja meg, hogy az egyik eloszlás értékei milyen gyakorisággal magasabbak, mint a másik eloszlásban vett értékek. A két eloszlás alakjára vagy szórására vonatkozóan itt semmilyen kiszabott feltétel nincs.

A mintára vonatkozó   becsült érték a következő:

 

ahol a két eloszlás  , illetve   elemszámú, melyekhez az  , illetve a  , értékek tartoznak, és ahol   az Iverson konzol, aminek értéke 1, ha a tartalma igaz, és 0, amikor az hamis.

A   lineárisan kapcsolódik a Mann-Whintey U értékhez, azonban előjeles, ahol az előjel a különbség irányát jelöli. Adott Mann-Whitney   érték esetén   nem más, mint:

 

Konfidencia-intervallumok számítása a nem koncentrációs paraméterek átlagai alapjánSzerkesztés

A standardizált hatásmértékek konfidencia-intervallumai, különösen a Cohen-féle   és   esetén, a nem koncentrációs paraméterek konfidencia-intervallumain (ncp) nyugszik. Az ncp-re vonatkozó intervallumokat megkaphatjuk, ha megkeressük azon a küszöbértékeit, amelyek mellett a mért értékeink kijelölik az α/2, illetve (1 − α/2) kvantilisek határait.

T-próba az egy csoportra vagy két összetartozó csoportra vonatkozó átlagos különbség meghatározásáhozSzerkesztés

Egy csoport esetén legyen M a mintaátlag, μ a populáció átlaga, SD a minta szórása, σ a populáció szórása, és n a csoport elemszáma. A hipotézisteszteléshez használt t érték az átlagos és a legkisebb μlegkisebb különbségét veszi alapul. A μlegkisebb értéke legtöbbször nulla. Két összetartozó csoport esetében, az összevont csoport értékeit a párok értékeinek különbségeként kapjuk, ahol SD és σ a minta és a populáció különbség-szórásait jelölik, és nem az eredeti két csoport értékeit.

 
 

és a Cohen-féle

 

pontbecslését adja a következőnek:

 

Ezek alapján tehát

 

T-próba két független csoport átlagos különbségének meghatározásáhozSzerkesztés

n1 és n2 a vonatkozó mintaméreteket jelölik.

 

ahol

 
 

és a Cohen-féle

    pontbecslését adja.

Ebből következik tehát

 

Egyszempontos varianciaanalízis több független csoport átlagos különbségeinek meghatározásáhozSzerkesztés

Az egyszempontos varianciaanalízis nemcentrikus F-eloszlást alkalmaz, illetve megadott   populáció-szórás esetén ugyanezen teszt nem-centrális khí-négyzet eloszlást használ.

 

Minden j-edik mintaelemre az i-edik csoportban Xi,j jelölje

 

Ugyanakkor

 

Tehát mind az F nem koncentrációs paramétereinek, mind  -nek az értékei a következők:

 

A K egyenlő elemszámmal bíró független csoportra vonatkozó   esetén a teljes mintaelemszám N := nK.

 

A párosított független csoportokra vonatkozó t-próba az egyszempontos varianciaanalízis speciális esete. Itt az F-re vonatkozó   nem centrális paraméter nem hasonlítható össze az   t-hez köthető értékével. Valójában itt  , és  .

Lásd mégSzerkesztés

FordításSzerkesztés

  • Ez a szócikk részben vagy egészben a Effect size című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

ForrásokSzerkesztés

  1. (2012) „On Effect Size”. Psychological Methods 17 (2), 137–152. o. DOI:10.1037/a0028086. PMID 22545595.  
  2. Rosenthal, Robert, H. Cooper, and L. Hedges. "Parametric measures of effect size." The handbook of research synthesis 621 (1994): 231–244. ISBN 978-0871541635
  3. a b Wilkinson, Leland (1999). „Statistical methods in psychology journals: Guidelines and explanations”. American Psychologist 54 (8), 594–604. o. DOI:10.1037/0003-066X.54.8.594.  
  4. Nakagawa, Shinichi (2007). „Effect size, confidence interval and statistical significance: a practical guide for biologists”. Biological Reviews of the Cambridge Philosophical Society 82 (4), 591–605. o. DOI:10.1111/j.1469-185X.2007.00027.x. PMID 17944619.  
  5. a b Ellis, Paul D.. The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. Cambridge University Press (2010). ISBN 978-0-521-14246-5 Sablon:Page needed
  6. (2008) „Accuracy of effect size estimates from published psychological research”. Perceptual and Motor Skills 106 (2), 645–649. o. [2008. december 17-i dátummal az eredetiből archiválva]. DOI:10.2466/PMS.106.2.645-649. PMID 18556917. (Hozzáférés ideje: 2021. január 9.)  
  7. (2011) „Multiple trials may yield exaggerated effect size estimates”. The Journal of General Psychology 138 (1), 1–11. o. DOI:10.1080/00221309.2010.520360. PMID 21404946.  
  8. a b c d e f g h Cohen, Jacob. Statistical Power Analysis for the Behavioral Sciences. Routledge (1988). ISBN 978-1-134-74270-7 
  9. a b c d e Sawilowsky, S (2009). „New effect size rules of thumb”. Journal of Modern Applied Statistical Methods 8 (2), 467–474. o. DOI:10.22237/jmasm/1257035100.   http://digitalcommons.wayne.edu/jmasm/vol8/iss2/26/
  10. Russell V. Lenth: Java applets for power and sample size. Division of Mathematical Sciences, the College of Liberal Arts or The University of Iowa. (Hozzáférés: 2008. október 8.)
  11. Lipsey, M.W.. Translating the Statistical Representation of the Effects of Education Interventions Into More Readily Interpretable Forms. United States: U.S. Dept of Education, National Center for Special Education Research, Institute of Education Sciences, NCSER 2013–3000 (2012) 
  12. Sawilowsky, S. S. (2005). „Abelson's paradox and the Michelson-Morley experiment”. Journal of Modern Applied Statistical Methods 4 (1), 352. o. DOI:10.22237/jmasm/1114907520.  
  13. Effect Size, International Encyclopedia of Statistical Science. Springer (2010) 
  14. Sawilowsky, S. (2003). „Deconstructing Arguments from the Case Against Hypothesis Testing”. Journal of Modern Applied Statistical Methods 2 (2), 467–474. o. DOI:10.22237/jmasm/1067645940.  
  15. Cohen, J (1992). „A power primer”. Psychological Bulletin 112 (1), 155–159. o. DOI:10.1037/0033-2909.112.1.155. PMID 19565683.  
  16. a b Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: "Cleaning up your act. Screening data prior to analysis", p. 55 In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition. Boston: Pearson Education, Inc. / Allyn and Bacon.
  17. a b (2003) „Generalized Eta and Omega Squared Statistics: Measures of Effect Size for Some Common Research Designs”. Psychological Methods 8 (4), 434–447. o. [2010. június 10-i dátummal az eredetiből archiválva]. DOI:10.1037/1082-989x.8.4.434. PMID 14664681. (Hozzáférés ideje: 2021. január 9.)  
  18. a b c (2004) „Beyond the F test: Effect size confidence intervals and tests of close fit in the analysis of variance and contrast analysis”. Psychological Methods 9 (2), 164–182. o. DOI:10.1037/1082-989x.9.2.164. PMID 15137887.  
  19. Hair, J.; Hult, T. M.; Ringle, C. M. and Sarstedt, M. (2014) A Primer on Partial Least Squares Structural Equation Modeling (PLS-SEM), Sage, pp. 177–178. ISBN 1452217440
  20. a b c d e f Larry V. Hedges & Ingram Olkin. Statistical Methods for Meta-Analysis. Orlando: Academic Press (1985). ISBN 978-0-12-336380-0 
  21. (2006) „When Effect Sizes Disagree: The Case of r and d”. Psychological Methods 11 (4), 386–401. o. [2013. október 8-i dátummal az eredetiből archiválva]. DOI:10.1037/1082-989x.11.4.386. PMID 17154753. (Hozzáférés ideje: 2021. január 9.)  
  22. Statistical Meta-Analysis with Applications. John Wiley & Sons (2008). ISBN 978-1-118-21096-3 
  23. Kenny, David A.. Chapter 13, Statistics for the Social and Behavioral Sciences. Little, Brown (1987). ISBN 978-0-316-48915-7 
  24. Larry V. Hedges (1981). „Distribution theory for Glass' estimator of effect size and related estimators”. Journal of Educational Statistics 6 (2), 107–128. o. DOI:10.3102/10769986006002107.  
  25. Del Giudice, Marco (2013. július 18.). „Multivariate Misgivings: Is D a Valid Measure of Group and Sex Differences?” (angol nyelven). Evolutionary Psychology 11 (5), 147470491301100. o. DOI:10.1177/147470491301100511.  
  26. Aaron, B., Kromrey, J. D., & Ferron, J. M. (1998, November). Equating r-based and d-based effect-size indices: Problems with a commonly recommended formula. Paper presented at the annual meeting of the Florida Educational Research Association, Orlando, FL. (ERIC Document Reproduction Service No. ED433353)
  27. Sheskin, David J.. Handbook of Parametric and Nonparametric Statistical Procedures, Third, CRC Press (2003). ISBN 978-1-4200-3626-8 
  28. Deeks J (1998). „When can odds ratios mislead? : Odds ratios should be used only in case-control studies and logistic regression analyses”. BMJ 317 (7166), 1155–6. o. DOI:10.1136/bmj.317.7166.1155a. PMID 9784470.  
  29. a b (2015) „Measuring Effectiveness”. Studies in History and Philosophy of Biological and Biomedical Sciences 54, 62–71. o. DOI:10.1016/j.shpsc.2015.06.003. PMID 26199055.  
  30. a b (1992) „A common language effect size statistic”. Psychological Bulletin 111 (2), 361–365. o. DOI:10.1037/0033-2909.111.2.361.  
  31. Grissom RJ (1994). „Statistical analysis of ordinal categorical status after therapies”. Journal of Consulting and Clinical Psychology 62 (2), 281–284. o. DOI:10.1037/0022-006X.62.2.281. PMID 8201065.  
  32. (2000) „A Critique and Improvement of the CL Common Language Effect Size Statistics of McGraw and Wong”. Journal of Educational and Behavioral Statistics 25 (2), 101–132. o. DOI:10.3102/10769986025002101.  
  33. (1956) „Rank-biserial correlation”. Psychometrika 21 (3), 287–290. o. DOI:10.1007/BF02289138.  
  34. (1972) „Dealing with a common problem in social science: A simplified rank-biserial coefficient of correlation based on the U statistic”. European Journal of Social Psychology 2 (4), 463–465. o. DOI:10.1002/ejsp.2420020412.  
  35. Cliff, Norman (1993). „Dominance statistics: Ordinal analyses to answer ordinal questions”. Psychological Bulletin 114 (3), 494–509. o. DOI:10.1037/0033-2909.114.3.494.