Medián

a sorba rendezett adatok közül a középső érték, amely az adatokat két egyenlő részre osztja

A medián a statisztika egy nevezetes középértéke, úgynevezett helyzeti középérték: az az érték, amelytől mérve az elemek abszolút távolságainak összege minimális. Meghatározása: véges elemszámú sokaság esetén a medián a sorba rendezett adatok közül a középső érték, vagy másképpen: a medián az az érték, amely a sorba rendezett adatokat két egyenlő részre osztja. A gyakorlatban problémát jelent, ha páros számú adat vagy ismétlődő értékek vannak. Folytonos valószínűségi változó esetén a mediánnál húzott függőleges vonal a valószínűségsűrűségi függvény görbe alatti területét pont elfelezi.

Ahhoz, hogy mediánt számíthassunk a populáció (sokaság) egy ismérvére vonatkozóan, az ismérvnek legalább ordinális mérési szintűnek (sorbarendezhetőnek) kell lennie.

Ha a sokaság elemeinek száma páratlan és az értékek nem ismétlődnek, akkor az iménti meghatározás egyértelmű, mert akkor van egy középső adat, amely előtt ugyanannyi adat van, mint utána. Páros számú nem ismétlődő értékű elem esetén két középső adat van, ez esetben a kettő közötti bármelyik érték mediánnak tekinthető. A gyakorlatban a két érték számtani közepét szokták megadni. Néha a két középső értéket alsó, illetve felső mediánként adják meg.

A két esetet egyszerre figyelembe véve a medián definíciója: az az érték, amelynél az adatok legfeljebb 50%-a kisebb és legfeljebb 50%-a nagyobb. A medián a kvantilisek közül a legegyszerűbb, vagyis statisztikai sokaságot kétfelé vágó érték.

Az x valószínűségi változó mediánját vagy jelöli.[1]

Példák szerkesztés

  • Páratlan elemszám esetén:
1 2 5 4 3 1 4 3 3 4 3 5 1
A rendezett sokaság:
1 1 1 2 3 3 3 3 4 4 4 5 5
A medián a középső elem:
1 1 1 2 3 3 3 3 4 4 4 5 5
  • Páros elemszám esetén:
1 4 2 4 2 3 5 3 1 1
A rendezett sokaság:
1 1 1 2 2 3 3 4 4 5
A medián a középső elemek számtani közepe: 2,5.

Egyenértékű megfogalmazásai szerkesztés

A medián valamely értékekre vonatkoztatva az az érték, aminél a többinek a fele nagyobb és a fele kisebb (természetesen páros elemszám esetén a számtani közepet kell venni). Például egy népesség életkorának a mediánja az az életkor, aminél a népességnek pont a fele idősebb és pont a fele fiatalabb.

A medián az az x szám, melytől a sokaság elemeinek abszolút eltérés összege a legkisebb:

 

A valószínűségszámításban:

A medián az a μ érték, ahol az eloszlásfüggvény: 1/2: F(μ)=1/2.

Az exponenciális eloszlás mediánja: μ = (ln2)/λ.

A medián minimáltulajdonsága: Ha x-nek létezik várható értéke, akkor az |x-c| várható értéke akkor minimális, ha c=μ (a medián): M(|x-c|)>=M(|x-μ|).

Magasabb dimenzióban szerkesztés

A többdimenziós statisztikában az

 

minimalizáló c vektorát centroidnak is nevezik,[2] ahol   egy adott normában értendő. Ez megfelel az egydimenziós eset abszolútértékének. A centroid szót azonban más jelentésben is használják.

Ha a centroidot az eloszlás egy leszűkítésére veszik, akkor medioidnak hívják. Ez a ponthalmaz származhat például egy másik eloszlásból.

Alkalmazása szerkesztés

A kilógó adatokkal szembeni kis érzékenysége miatt jobban jellemzi a nem normális eloszlásokat, mint az átlag, vagy a várható érték.

Példa: 10 személy közül egynek 1 000 000 a jövedelme, a többinek 1000. Ekkor az átlagjövedelem 100 900, míg a medián 1000.

A képfeldolgozásban a monokróm bitképeken gyakran látható egy zajféleség, amiben minden pixel a szomszédoktól függetlenül egy adott kis valószínűség szerint lesz fehér, egy hasonlóan kis valószínűséggel lesz fekete, és egy egyhez közeli valószínűséggel változatlan marad. Az efféle zaj jól csökkenthető az adott pixelből és szomszédjaiból (3 x 3-as négyzet) kapott medián használatával.

Alternatívái szerkesztés

A medián egy alternatívájaként Amartya Sen bevezette a jólléti függvényt a jövedelmek eloszlásának vizsgálatára.

Általánosítása szerkesztés

A medián helyett n-kvantilisek is használhatók, amik az alapsokaságot n egyenlő részre osztják. A medián a második kvartilis, az ötödik decilis, és az ötvenedik percentilis.

Néhány kvantilisnek latin eredetű, önálló neve van:

  • 3-kvantilisek: tercilisek
  • 4-kvantilisek: kvartilisek
  • 5-kvantilisek: kvintilisek
  • 9-kvantilisek: nonilisek
  • 10-kvantilisek: decilisek
  • 12-kvantilisek: duodecilisek
  • 20-kvantilisek: vigintilisek
  • 100-kvantilisek: percentilisek

Általánosabban, az eloszlásfüggvény inverzét nevezik az adott eloszlás kvantilisfüggvényének.

Története szerkesztés

Gustav Fechner népszerűsítette a medián használatát a formális adatelemzésben, bár korábban Pierre-Simon de Laplace már használta.[3]

Lásd még szerkesztés

Jegyzetek szerkesztés

  1. http://mathworld.wolfram.com/StatisticalMedian.html
  2. Carvalho, Luis & Lawrence, Charles (2008), "Centroid estimation in discrete high-dimensional spaces with applications in biology", Proc Natl Acad Sci U S A 105 (9): 3209-3214, DOI 10.1073/pnas.0712329105
  3. Keynes, John Maynard; A Treatise on Probability (1921), Pt II Ch XVII §5 (p 201).

Források szerkesztés

  • R.J. Serfling. Approximation Theorems of Mathematical Statistics. John Wiley & Sons, 1980.
  • Brown, George W. ”On Small-Sample Estimation.” The Annals of Mathematical Statistics, Vol. 18, No. 4 (Dec., 1947), pp. 582–585.
  • Lehmann, E. L. “A General Concept of Unbiasedness” The Annals of Mathematical Statistics, Vol. 22, No. 4 (Dec., 1951), pp. 587–592.
  • Allan Birnbaum. 1961. “A Unified Theory of Estimation, I”, The Annals of Mathematical Statistics, Vol. 32, No. 1 (Mar., 1961), pp. 112–135
  • van der Vaart, H. R. 1961. “Some Extensions of the Idea of Bias” The Annals of Mathematical Statistics, Vol. 32, No. 2 (Jun., 1961), pp. 436–447.
  • Parametric Statistical Theory. Walter de Gruyter (1994)  MR1291393

További információk szerkesztés