Rangkorreláció

A rangkorreláció vagy rangkorrelációs együttható a valószínűségszámításban valószínűségi változók közötti kapcsolatot vizsgál a korrelációhoz hasonlóan. Az összefüggést tetszőleges monoton függvény szerint képes vizsgálni, eloszlásuk vizsgálata nélkül.

A korrelációval szemben a rangkorreláció nemcsak lineáris kapcsolatot tud leírni, továbbá a kilógó adatok sem zavarják.

Közelebbről két rangkorrelációs együtthatót használnak: az egyik a Spearman-rhó, a másik a Kendall-tau. Több megfigyelő észlelései közötti összefüggés vizsgálatára alkalmas a W konkordanciaegyüttható.

Számítása

$N$ mérésből álló párral kezdünk, jelölje ezeket $(x_{i},y_{i})$ . A rangkorreláció minden $x_{i}$ értékhez relatívan meghatároz egy ragot a többi $x_{j}$ értékkel szemben, azaz hozzárendel egy számot $1,2,3,\dots ,N$ közül. Ezután kezelhetők ezek a számok úgy, mintha egyenletes eloszlásból származnának. Ha minden $x_{i}$ különböző, akkor minden szám egyszer fordul elő. Ha vannak köztük egyenlőek, akkor a középső értéket kapják, mint amit akkor rendelnének hozzájuk, ha mind különbözőek lennének. Ekkor kapcsolatokról, vagy döntetlenekről beszélnek.^[1] Ez a szám lehet egész, vagy félegész. Mindkét esetben a számok összege ugyanannyi, azaz 1-től $N$ -ig, vagyis $N(N+1)/2$ .

Ugyanezt elvégzik az $y_{i}$ értékekkel is, mindegyiket az $y_{j}$ -kkel szembeni rangjával helyettesítik.

Az intervallumskálázott adatok helyettesítésével információt vesztünk, számítása azonban értelmes lehet robosztussága miatt. Ez azt jelenti, hogy kevésbé érzékeny a kilógó adatokra és a hibákra, ahogy a medián is kevésbé érzékeny ezekre, mint az átlag. Rangsorok közötti kapcsolat felderítésében a rangkorrelációnak nincs alternatívája.

Spearman-rangkorreláció

A Spearman-rangkorrelációt Charles Spearman után nevezték el, és gyakran a ρ betűvel illetve $r_{s}$ -sel jelölik.

Elméletben ρ a Pearson szorzat-momentum-korreláció speciális esete, ahol az adatokat ranggá konvertálják, mielőtt kiszámítják a rangkorrelációt:

r_{s}={\frac {\sum _{i}(rg(x_{i})-{\overline {rg}}_{x})(rg(y_{i})-{\overline {rg}}_{y})}{{\sqrt {\sum _{i}(rg(x_{i})-{\overline {rg}}_{x})^{2}}}{\sqrt {\sum _{i}(rg(y_{i})-{\overline {rg}}_{y})^{2}}}}}={\frac {{\frac {1}{n}}\sum _{i}(rg(x_{i})rg(y_{i}))-{\overline {rg_{x}rg_{y}}}}{s_{rg_{x}}s_{rg_{y}}}}={\frac {\operatorname {Cov} (rg_{x},rg_{y})}{s_{rg_{x}}s_{rg_{y}}}}.

Ahol

rg(x_{i})

az

x_{i}

rangja,

{\overline {rg}}_{x}

az

x

rangjainak középértéke,

s_{rg_{x}}

az

x

rangjainak tapasztalati szórása,

\operatorname {Cov} (rg(x),rg(y))

rg(x)

és

rg(y)

kovarianciája.

Speciális esetek

A gyakorlatban inkább egy egyszerűbb képletet használnak, ami akkor ad helyes eredményt, ha minden rang különbözik.

A nyers adatokat konvertálják, és minden párra kiszámítják a $d_{i}$ különbséget, jelben $d_{i}=rg(x_{i})-rg(y_{i})$ . Ezzel a ρ

r_{s}=1-{\frac {6\sum _{i}d_{i}^{2}}{n\cdot (n^{2}-1)}},

ahol $n$ az értékpárok száma.

Ellenben ha vannak egyező értékek, ez a képlet nem ad pontos eredményt, de ha nem sok helyen azonosak az értékek, akkor az eltérés kicsi. A pontos eredményt egy bonyolultabb képlet adja:^[2]

r_{s}={\frac {n^{3}-n-{\frac {1}{2}}T_{x}-{\frac {1}{2}}T_{y}-6\sum _{i}d_{i}^{2}}{\sqrt {\left(n^{3}-n-T_{x}\right)\left(n^{3}-n-T_{y}\right)}}}

ahol $\textstyle T_{\bullet }=\sum _{k}(t_{\bullet ,k}^{3}-t_{\bullet ,k})$ .; $t_{\bullet ,k}$ az azonos rangú megfigyelések száma, továbbá $\bullet$ $X$ vagy $Y$ helyett áll.

Példák

Első példa

Például vizsgáljuk különböző emberek magasságát és testsúlyát. A magasságok 175 cm, 178 cm és 190 cm; a testsúlyok rendre 65 kg, 70 kg és 98 kg.

Ebben az esetben maximális rangkorreláció adódik, mivel a legkisebb ember a legkönnyebb és a legnagyobb ember a legnehezebb. Ha fordítva lenne, akkor a rangkorreláció is kicsi lenne. A rangkorreláció számszerűen fejezi ki az összefüggést két rangsor között.

Második példa

Adva legyenek megfigyelések két változóról, a-ról és b-ről:

i	1	2	3	4	5	6	7	8
$a_{i}$	2,0	3,0	3,0	5,0	5,5	8,0	10,0	10,0
$b_{i}$	1,5	1,5	4,0	3,0	1,0	5,0	5,0	9,5

A rangok meghatározására rendezik az értékeket, és normálják, azaz egyező értékek esetén középértéket vesznek. Ezután helyreállítják az eredeti sorrendet, hogy képezhessék a különbségeket.

Bemenet	Rendezés(érték)	Rang	Rendezés(index)
${\begin{array}{c\|c}{\text{Index}}&{\text{Érték}}\\\hline 1&1{,}5\\2&1{,}5\\3&4{,}0\\4&3{,}0\\5&1{,}0\\6&5{,}0\\7&5{,}0\\8&9{,}5\\\end{array}}$	${\begin{array}{c\|c}{\text{Index}}&{\text{Érték}}\\\hline 5&1{,}0\\1&1{,}5\\2&1{,}5\\4&3{,}0\\3&4{,}0\\6&5{,}0\\7&5{,}0\\8&9{,}5\\\end{array}}$	${\begin{array}{c\|c\|c\|\|c}{\text{Index}}&{\text{Érték}}&{\text{Rang}}&{\text{Normálva}}\\\hline 5&1{,}0&1&1\\\hline 1&1{,}5&2&(2+3)/2\\2&1{,}5&3&=2{,}5\\\hline 4&3{,}0&4&4\\\hline 3&4{,}0&5&5\\\hline 6&5{,}0&6&(6+7)/2\\7&5{,}0&7&=6{,}5\\\hline 8&9{,}5&8&8\\\end{array}}$	${\begin{array}{c\|c\|c}{\text{Index}}&{\text{Érték}}&{\text{Normált rang}}\\\hline 1&1{,}5&2{,}5\\2&1{,}5&2{,}5\\3&4{,}0&5{,}0\\4&3{,}0&4{,}0\\5&1{,}0&1{,}0\\6&5{,}0&6{,}5\\7&5{,}0&6{,}5\\8&9{,}5&8{,}0\\\end{array}}$

Az adatokból a következő köztes eredmény adódik:

a értékei	b értékei	a rangjai	b rangjai	$d=Rg(a)-Rg(b)$	$(Rg(a)-Rg(b))^{2}$
2,0	1,5	1,0	2,5	−1,5	2,25
3,0	1,5	2,5	2,5	0,0	0,00
3,0	4,0	2,5	5,0	−2,5	6,25
5,0	3,0	4,0	4,0	0,0	0,00
5,5	1,0	5,0	1,0	4,0	16,00
8,0	5,0	6,0	6,5	−0,5	0,25
10,0	5,0	7,5	6,5	1,0	1,00
10,0	9,5	7,5	8,0	−0,5	0,25
					$\sum =26$

A táblázat a értékei szerint vannak rendezve. Fontos, hogy az értékekhez rangok legyenek rendelve. A sorban kétszer jelenik meg a 3 érték, rangjuk az átlagos (2+3)/2 = 2,5. Ugyanez történik a b adatsornál is.

Werte von a	Werte von b	$t_{a,k}$	$t_{a,k}^{3}-t_{a,k}$	$t_{b,k}$	$t_{b,k}^{3}-t_{b,k}$
2,0	1,5	1	0	2	6
3,0	1,5	2	6	-	-
3,0	4,0	-	-	1	0
5,0	3,0	1	0	1	0
5,5	1,0	1	0	1	0
8,0	5,0	1	0	2	6
10,0	5,0	2	6	-	-
10,0	9,5	-	-	1	0
		$T_{a}=12$		$T_{b}=12$

A Horn-korrekcióval

r_{s}={\frac {8^{3}-8-6-6-6\cdot 26}{\sqrt {\left({8^{3}-8}-12\right)\left(8^{3}-8-12\right)}}}={\frac {336}{492}}\approx 0{,}6829.

adódik.

A szignifikancia meghatározása

Teszt szempontjából a $\rho$ érték vizsgálata, hogy nullától különbözik-e, permutációteszt. Kiszámítják annak a valószínűségét is, hogy $\rho$ értéke legalább akkora-e, mint ahogy azt a nullhipotézis megjósolja.

Ezt a módszert használhatják viszonylag kis adathalmazokon, amiken egyszerűen létrehozhatók a nullhipotézist valószínűsítő permutációk.

Kendall-tau

Szemben a Spearman-rhóval, a Kendell-tau a rangok közötti különbséget használja fel. Rendszerint a $\tau$ értéke kisebb, mint a $\rho$ értéke. A $\tau$ együtthatót érdemes intervallumskálázott adatokra használni, ha nem normális eloszlásúak, a skálák egyenetlen beosztásúak vagy a szúrópróba mérete kicsi.

Kiszámítása

A $\tau$ számításához tekintjük az $x$ szerint rendezett $(x_{i},y_{i})$ és $(x_{j},y_{j})$ párokat, ahol $i=1,\ldots ,n-1$ és $j=i+1,\ldots ,n$ ; továbbá

x_{1}\leq x_{2}\leq \ldots \leq x_{n}.

Az első párt az összes többivel összehasonlítjuk, a második párt az első kivételével mindegyikkel, és így tovább, az utolsót nem hasonlítjuk össze egyikkel sem. Tehát $n(n-1)/2$ páronkénti összehasonlítást végzünk.

A következőket állapítjuk meg a párokról:

Ha $x_{i}<x_{j}$ és $y_{i}<y_{j}$ , akkor konkordáns.
Ha $x_{i}<x_{j}$ és $y_{i}>y_{j}$ , akkor diszkordáns.
Ha $x_{i}\neq x_{j}$ és $y_{i}=y_{j}$ , akkor kötés van $Y$ -ban.
Ha $x_{i}=x_{j}$ és $y_{i}\neq y_{j}$ , akkor kötés van $X$ -ben.
Ha $x_{i}=x_{j}$ és $y_{i}=y_{j}$ , akkor kötés van $X$ -ben és $Y$ -ban.

Megszámoljuk a különböző párokat:

A konkorodánsok száma $C$ ,
a diszkordánsok száma $D$ ,
az $Y$ -beli kötések száma $T_{Y}$ ,
az $X$ -beli kötések száma $T_{X}$ , és
az $X$ -beli és $Y$ -beli kötések száma $T_{XY}$ .

A Kendall- $\tau$ a konkordáns és a diszkordáns párok számát hasonlítja össze:

\tau ={\frac {C-D}{\sqrt {(C+D+T_{X})\cdot (C+D+T_{Y})}}}

Ha $\tau$ pozitív, akkor több konkordáns pár van, mint diszkordáns. Ami azt jelenti, hogy ha $x_{i}\leq x_{j}$ , akkor valószínűbb, hogy $y_{i}\leq y_{j}$ . Ha negatív, akkor a diszkordáns párokból van több, vagyis ha $x_{i}\leq x_{j}$ , akkor az a valószínűbb, hogy $y_{i}\geq y_{j}$ . Az ${\sqrt {(C+D+T_{X})\cdot (C+D+T_{Y})}}$ normálja a Kendall- $\tau$ értékét, így

-1\leq \tau \leq +1.

Tesztben

Tekintve egy $\mathrm {T}$ valószínűségi változót, Kendall belátta, hogy ha a tesztben

H_{0}:\tau =0

vs.

H_{1}:\tau \neq 0

,

akkor a nullhipotézis teljesülése esetén eloszlása approximatívan normális: $\mathrm {T} \sim {\mathcal {N}}\left(0;{\frac {4n+10}{9n(n-1)}}\right)$ . Az approximációs tezt mellett permutációteszt is végezhető.

További tau együtthatók

Kendall a fent definiált számértékek felhasználásával további három $\tau$ együtthatót definiált:

{\text{Kendall-}}\tau _{a}={\frac {C-D}{n(n-1)/2}}

{\text{Kendall-}}\tau _{b}={\frac {C-D}{{\sqrt {C+D+T_{x}}}{\sqrt {C+D+T_{y}}}}}

(lűsd fenn)

{\text{Kendall-}}\tau _{c}={\frac {2m(C-D)}{(m-1)n^{2}}}

A $\tau _{a}$ csak akkor alkalmazható, ha nincsenek kötések. A $\tau _{b}$ nem négyzetes kontingenciatáblákon nem érheti el a $+1$ illetve $-1$ szélsőértékeket. Nem veszi figyelembe az $X$ -ben és $Y$ -ban levő kötéseket. Négypróbás tesztekben $\tau _{b}$ egyezik a $\Phi$ együtthatókkal, és ha két, csak 0 és 1 értékeket felvevő valószínűségi változókat vizsgálunk, akkor a Pearson-korrelációval is.

Tetra- és polichorikus korreláció

A Likert-skálával kapcsolatban gyakran tetra- illetve polichorikus korrelációt számolnak. A tetrachorikus korrelációt bináris adatokhoz használják. Az alaphipotézis az, hogy a válaszadók valamilyen mérték szerint adtak választ arra, hogy szerintük mi mennyire teljesül rájuk.

A megfigyelt $X_{i}\,$ ordinális változók mögött többnyire $X_{i}^{*}$ folytonos változók állnak. A nem megyfigyelt változók közötti kapcsolatot tetra- és polichorikus korrelációk fejezik ki.

Használata akkor javallott, ha a Likert-itemek esetén kevesebb, mint hét.^[3] A gyakorlatban ehelyett a Bravais-Pearson-korrelációval dolgoznak, ám megmutatható, hogy ezzel alábecsülik a korrelációt.^[4]

Becslési módszerek

Feltéve, hogy a $X_{i}^{*}$ valószínűségi változók páronként kétváltozós normális eloszlásúak, a maximum-likelihood-módszerrel becsülhető a meg nem figyelt valószínűségi változók közötti korreláció. Ennek két módja van:

Egylépéses módszer: Az ismeretlen korreláció és az ismeretlen intervallumhatárok a maximum-likelihood-függvény paraméterei; azaz egyetlen lépésben becslik őket.

Kétlépéses módszer: Először az intervallumhatárokat becslik azzal a feltevéssel, hogy az $X_{i}^{*}$ változók eloszlása normális. A második lépésben kerül sor a korrelációra.

A tetrachorikus korreláció approximációs képlete

$X_{1}$ \ $X_{2}$	0	1
0	$n_{00}$	$n_{10}$
1	$n_{01}$	$n_{11}$

Két bináris változó esetén a tetrachorikus korreláció közelíthető úgy, mint

r_{tet}=\cos \left({\frac {\pi }{1+{\sqrt {\frac {n_{00}n_{11}}{n_{01}n_{10}}}}}}\right)

ahol a jelölések a jobb oldalon látható kereszttáblázat szerintiek.

Egy $r_{tet}=-1$ korreláció pontosan akkor fordul elő, ha $n_{00}=n_{11}=0$ . Hasonlóan, a $r_{tet}=+1$ érték pontosan akkor fordul elő, ha $n_{01}=n_{10}=0$ .

Jegyzetek

↑ lásd Fahrmeir et al. (2004): Statistik, S. 142
↑ Horn, D. (1942): A correction for the effect of tied ranks on the value of the rank difference correlation coefficient. In: Educational and Psychological Measurement, 3, 686–690.
↑ D. J. Bartholomew, F. Steele, J. I. Galbraith, I. Moustaki (2002): The Analysis and Interpretation of Multivariate Data for Social Scientists, Chapman & Hall/CRC
↑ K. G. Jöreskog, D. Sorbom (1988): PRELIS, a program for multivariate data screening and data summarization. Scientific Software, Mooresville

Fordítás

Ez a szócikk részben vagy egészben a Rangkorrelationskoeffizient című német Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

[1] ásd Fahrmeir et al. (2004): Statistik, S. 142

[2] Horn, D. (1942): A correction for the effect of tied ranks on the value of the rank difference correlation coefficient. In: Educational and Psychological Measurement, 3, 686–690.

[3] D. J. Bartholomew, F. Steele, J. I. Galbraith, I. Moustaki (2002): The Analysis and Interpretation of Multivariate Data for Social Scientists, Chapman & Hall/CRC

[4] K. G. Jöreskog, D. Sorbom (1988): PRELIS, a program for multivariate data screening and data summarization. Scientific Software, Mooresville

[1]

[2]

[3]

[4]