Rangkorreláció

Ez a közzétett változat, ellenőrizve: 2023. november 30. 2 változtatás vár ellenőrzésre.

A rangkorreláció vagy rangkorrelációs együttható a valószínűségszámításban valószínűségi változók közötti kapcsolatot vizsgál a korrelációhoz hasonlóan. Az összefüggést tetszőleges monoton függvény szerint képes vizsgálni, eloszlásuk vizsgálata nélkül.

A korrelációval szemben a rangkorreláció nemcsak lineáris kapcsolatot tud leírni, továbbá a kilógó adatok sem zavarják.

Közelebbről két rangkorrelációs együtthatót használnak: az egyik a Spearman-rhó, a másik a Kendall-tau. Több megfigyelő észlelései közötti összefüggés vizsgálatára alkalmas a W konkordanciaegyüttható.

Számítása

szerkesztés

  mérésből álló párral kezdünk, jelölje ezeket  . A rangkorreláció minden   értékhez relatívan meghatároz egy ragot a többi   értékkel szemben, azaz hozzárendel egy számot   közül. Ezután kezelhetők ezek a számok úgy, mintha egyenletes eloszlásból származnának. Ha minden   különböző, akkor minden szám egyszer fordul elő. Ha vannak köztük egyenlőek, akkor a középső értéket kapják, mint amit akkor rendelnének hozzájuk, ha mind különbözőek lennének. Ekkor kapcsolatokról, vagy döntetlenekről beszélnek.[1] Ez a szám lehet egész, vagy félegész. Mindkét esetben a számok összege ugyanannyi, azaz 1-től  -ig, vagyis  .

Ugyanezt elvégzik az   értékekkel is, mindegyiket az  -kkel szembeni rangjával helyettesítik.

Az intervallumskálázott adatok helyettesítésével információt vesztünk, számítása azonban értelmes lehet robosztussága miatt. Ez azt jelenti, hogy kevésbé érzékeny a kilógó adatokra és a hibákra, ahogy a medián is kevésbé érzékeny ezekre, mint az átlag. Rangsorok közötti kapcsolat felderítésében a rangkorrelációnak nincs alternatívája.

Spearman-rangkorreláció

szerkesztés

A Spearman-rangkorrelációt Charles Spearman után nevezték el, és gyakran a ρ betűvel illetve  -sel jelölik.

Elméletben ρ a Pearson szorzat-momentum-korreláció speciális esete, ahol az adatokat ranggá konvertálják, mielőtt kiszámítják a rangkorrelációt:

 

Ahol

  az   rangja,
  az   rangjainak középértéke,
  az   rangjainak tapasztalati szórása,
    és  

kovarianciája.

Speciális esetek

szerkesztés

A gyakorlatban inkább egy egyszerűbb képletet használnak, ami akkor ad helyes eredményt, ha minden rang különbözik.

A nyers adatokat konvertálják, és minden párra kiszámítják a   különbséget, jelben  . Ezzel a ρ

 

ahol   az értékpárok száma.

Ellenben ha vannak egyező értékek, ez a képlet nem ad pontos eredményt, de ha nem sok helyen azonosak az értékek, akkor az eltérés kicsi. A pontos eredményt egy bonyolultabb képlet adja:[2]

 

ahol  .;   az azonos rangú megfigyelések száma, továbbá     vagy   helyett áll.

Első példa

szerkesztés

Például vizsgáljuk különböző emberek magasságát és testsúlyát. A magasságok 175 cm, 178 cm és 190 cm; a testsúlyok rendre 65 kg, 70 kg és 98 kg.

Ebben az esetben maximális rangkorreláció adódik, mivel a legkisebb ember a legkönnyebb és a legnagyobb ember a legnehezebb. Ha fordítva lenne, akkor a rangkorreláció is kicsi lenne. A rangkorreláció számszerűen fejezi ki az összefüggést két rangsor között.

Második példa

szerkesztés

Adva legyenek megfigyelések két változóról, a-ról és b-ről:

i 1 2 3 4 5 6 7 8
  2,0 3,0 3,0 5,0 5,5 8,0 10,0 10,0
  1,5 1,5 4,0 3,0 1,0 5,0 5,0 9,5

A rangok meghatározására rendezik az értékeket, és normálják, azaz egyező értékek esetén középértéket vesznek. Ezután helyreállítják az eredeti sorrendet, hogy képezhessék a különbségeket.

Bemenet Rendezés(érték) Rang Rendezés(index)
       

Az adatokból a következő köztes eredmény adódik:

a értékei b értékei a rangjai b rangjai    
2,0 1,5 1,0 2,5 −1,5 2,25
3,0 1,5 2,5 2,5 0,0 0,00
3,0 4,0 2,5 5,0 −2,5 6,25
5,0 3,0 4,0 4,0 0,0 0,00
5,5 1,0 5,0 1,0 4,0 16,00
8,0 5,0 6,0 6,5 −0,5 0,25
10,0 5,0 7,5 6,5 1,0 1,00
10,0 9,5 7,5 8,0 −0,5 0,25
         

A táblázat a értékei szerint vannak rendezve. Fontos, hogy az értékekhez rangok legyenek rendelve. A sorban kétszer jelenik meg a 3 érték, rangjuk az átlagos (2+3)/2 = 2,5. Ugyanez történik a b adatsornál is.

Werte von a Werte von b        
2,0 1,5 1 0 2 6
3,0 1,5 2 6 - -
3,0 4,0 - - 1 0
5,0 3,0 1 0 1 0
5,5 1,0 1 0 1 0
8,0 5,0 1 0 2 6
10,0 5,0 2 6 - -
10,0 9,5 - - 1 0
       

A Horn-korrekcióval

 

adódik.

A szignifikancia meghatározása

szerkesztés

Teszt szempontjából a   érték vizsgálata, hogy nullától különbözik-e, permutációteszt. Kiszámítják annak a valószínűségét is, hogy   értéke legalább akkora-e, mint ahogy azt a nullhipotézis megjósolja.

Ezt a módszert használhatják viszonylag kis adathalmazokon, amiken egyszerűen létrehozhatók a nullhipotézist valószínűsítő permutációk.

Kendall-tau

szerkesztés

Szemben a Spearman-rhóval, a Kendell-tau a rangok közötti különbséget használja fel. Rendszerint a   értéke kisebb, mint a   értéke. A   együtthatót érdemes intervallumskálázott adatokra használni, ha nem normális eloszlásúak, a skálák egyenetlen beosztásúak vagy a szúrópróba mérete kicsi.

Kiszámítása

szerkesztés

A   számításához tekintjük az   szerint rendezett   és   párokat, ahol   és  ; továbbá

 

Az első párt az összes többivel összehasonlítjuk, a második párt az első kivételével mindegyikkel, és így tovább, az utolsót nem hasonlítjuk össze egyikkel sem. Tehát   páronkénti összehasonlítást végzünk.

A következőket állapítjuk meg a párokról:

  • Ha   és  , akkor konkordáns.
  • Ha   és  , akkor diszkordáns.
  • Ha   és  , akkor kötés van  -ban.
  • Ha   és  , akkor kötés van  -ben.
  • Ha   és  , akkor kötés van  -ben és  -ban.

Megszámoljuk a különböző párokat:

  • A konkorodánsok száma  ,
  • a diszkordánsok száma  ,
  • az  -beli kötések száma  ,
  • az  -beli kötések száma  , és
  • az  -beli és  -beli kötések száma  .

A Kendall-  a konkordáns és a diszkordáns párok számát hasonlítja össze:

 

Ha   pozitív, akkor több konkordáns pár van, mint diszkordáns. Ami azt jelenti, hogy ha  , akkor valószínűbb, hogy  . Ha negatív, akkor a diszkordáns párokból van több, vagyis ha  , akkor az a valószínűbb, hogy  . Az   normálja a Kendall-  értékét, így

 

Tekintve egy   valószínűségi változót, Kendall belátta, hogy ha a tesztben

  vs.  ,

akkor a nullhipotézis teljesülése esetén eloszlása approximatívan normális:  . Az approximációs tezt mellett permutációteszt is végezhető.

További tau együtthatók

szerkesztés

Kendall a fent definiált számértékek felhasználásával további három   együtthatót definiált:

 
  (lűsd fenn)
 

A   csak akkor alkalmazható, ha nincsenek kötések. A   nem négyzetes kontingenciatáblákon nem érheti el a   illetve   szélsőértékeket. Nem veszi figyelembe az  -ben és  -ban levő kötéseket. Négypróbás tesztekben   egyezik a   együtthatókkal, és ha két, csak 0 és 1 értékeket felvevő valószínűségi változókat vizsgálunk, akkor a Pearson-korrelációval is.

Tetra- és polichorikus korreláció

szerkesztés

A Likert-skálával kapcsolatban gyakran tetra- illetve polichorikus korrelációt számolnak. A tetrachorikus korrelációt bináris adatokhoz használják. Az alaphipotézis az, hogy a válaszadók valamilyen mérték szerint adtak választ arra, hogy szerintük mi mennyire teljesül rájuk.

A megfigyelt   ordinális változók mögött többnyire   folytonos változók állnak. A nem megyfigyelt változók közötti kapcsolatot tetra- és polichorikus korrelációk fejezik ki.

Használata akkor javallott, ha a Likert-itemek esetén kevesebb, mint hét.[3] A gyakorlatban ehelyett a Bravais-Pearson-korrelációval dolgoznak, ám megmutatható, hogy ezzel alábecsülik a korrelációt.[4]

Becslési módszerek

szerkesztés

Feltéve, hogy a   valószínűségi változók páronként kétváltozós normális eloszlásúak, a maximum-likelihood-módszerrel becsülhető a meg nem figyelt valószínűségi változók közötti korreláció. Ennek két módja van:

Egylépéses módszer: Az ismeretlen korreláció és az ismeretlen intervallumhatárok a maximum-likelihood-függvény paraméterei; azaz egyetlen lépésben becslik őket.

Kétlépéses módszer: Először az intervallumhatárokat becslik azzal a feltevéssel, hogy az   változók eloszlása normális. A második lépésben kerül sor a korrelációra.

A tetrachorikus korreláció approximációs képlete

szerkesztés
 \  0 1
0    
1    

Két bináris változó esetén a tetrachorikus korreláció közelíthető úgy, mint

 

ahol a jelölések a jobb oldalon látható kereszttáblázat szerintiek.

Egy   korreláció pontosan akkor fordul elő, ha  . Hasonlóan, a   érték pontosan akkor fordul elő, ha  .

  1. lásd Fahrmeir et al. (2004): Statistik, S. 142
  2. Horn, D. (1942): A correction for the effect of tied ranks on the value of the rank difference correlation coefficient. In: Educational and Psychological Measurement, 3, 686–690.
  3. D. J. Bartholomew, F. Steele, J. I. Galbraith, I. Moustaki (2002): The Analysis and Interpretation of Multivariate Data for Social Scientists, Chapman & Hall/CRC
  4. K. G. Jöreskog, D. Sorbom (1988): PRELIS, a program for multivariate data screening and data summarization. Scientific Software, Mooresville

Fordítás

szerkesztés

Ez a szócikk részben vagy egészben a Rangkorrelationskoeffizient című német Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.