Statisztika

Ez a cikk a statisztikáról mint tudományágról szól; a Wikipédia statisztikái itt érhetők el.

A statisztika avagy számhasonlítás^[1] a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány.

Gyakran hívják „statisztikának” a statisztika módszereit és a statisztikai tevékenység eredményeként keletkező adatokat is. Ezenkívül statisztikának nevezik egy statisztikai minta elemeinek ismeretlen paramétert nem tartalmazó függvényeit is: lásd statisztika (függvény).

Statisztikai alapfogalmak szerkesztés

A statisztika, hasonlóan más tudományokhoz, sajátos nyelvezettel, módszertannal és szemlélettel rendelkezik. A statisztikusok által leggyakrabban használt alapfogalmak a következők:

A statisztika részterületei szerkesztés

A statisztikának alapvetően két nagy területe ismeretes; ezek között azonban sok találkozási pont, sőt átfedés figyelhető meg.

Leíró statisztika szerkesztés

Célja egy már rendelkezésre álló, valóságra vonatkozó adathalmaz összefoglalása, elemzése, egyszóval az információtömörítés.

Sokaság leírása egy ismérv alapján:

kvantilis értékek: k számú osztályközt akarunk képezni, akkor ehhez k–1 darab osztópontra van szükségünk. Ezeket az osztópontokat k-ad rendű kvantiliseknek nevezzük.
helyzetmutatók (középértékek): medián, módusz, átlag
szóródási mutatók: terjedelem, szórás, relatív szórás
koncentráció elemzése: Lorenz-görbe, Herfindahl-index

Következtető (matematikai) statisztika szerkesztés

Célja a megfelelő – vagyis a sokaság egészének paramétereit legjobban tükröző, reprezentáló – minta kiválasztása, a sokasági paramétereknek a minta paramétereivel történő becslése, illetve a sokasági paraméterekre vonatkozó feltételezések, hipotézisek elfogadása vagy elvetése. Foglalkozik továbbá a valóság összefüggéseinek egyszerűsített megragadására törekvő modellekkel is, mint az idősor- és regressziós modellek.

Főbb részterületei tehát a következők:

A statisztika eredete és története szerkesztés

Eredetileg – ma már ritka, elavultnak számító értelmezés szerint – a statisztika matematikai eszközöket igénybe vevő államháztartástant jelentett, vagyis azon módszerek gyűjteményét és elméletét, amelyek segítségével az újkorban kialakuló modern államok számontarthatták erőforrásaikat és a társadalmi problémákat (népesség, termelés, betegségek stb.). Erre utal a szó etimológiája is, minthogy a szót az újlatin statisticum collegium („államtanács”) és az olasz statista („államférfi”, politikus) kifejezésekből származtatják. A statisztika atyja, Gottfried Achenwall is ilyen értelemben használta e szót munkáiban („az állam tudománya”), először 1749-ben. A szó mai értelmét („az adatgyűjtés és adatfeldolgozás általános tudománya”) csak a tizenkilencedik század elején nyerte el.

A következtető statisztika mindenekelőtt a matematikai ismeretek (ezeken belül is főként a valószínűségszámítás) gyors fejlődésének következtében, a leíró statisztika pedig a különböző adatszerzési és mintavételi technikák kialakulásával, fejlődésével jutott el a mai szintjére.

A statisztika alkalmazásai szerkesztés

Adatok összegzésére, elemzésére, tudományos elméletek adatok segítségével történő igazolására vagy megcáfolására számtalan természet- és társadalomtudománynak szüksége van. Gyakori eset, hogy egy-egy tudományhoz kapcsolódó statisztikai alkalmazásokból önálló segédtudományok jöttek létre. Ilyenek például a következők:

biostatisztika vagy biometria
demográfia
fizikai statisztika
gazdasági statisztika
kémiai statisztika vagy kemometria
közgazdasági statisztika vagy ökonometria
politikai statisztika
pszichológiai statisztika
társadalomstatisztika
területi statisztika

A statisztika helytelen használata szerkesztés

A statisztika helytelen használatáról beszélünk, amikor a statisztika használatának megsértése miatt indokolatlan következtetésre jutunk.

Esetenként ez véletlen, máskor szándékos is lehet, és az elkövető hasznot húz belőle.

A téves statisztika csapdája meglehetősen ártalmas a tudás keresésében. Például az orvostudományban egy téves állítás kijavítása évtizedeket vehet igénybe, és emberéletekbe kerülhet.

A helytelen alkalmazás könnyen előfordulhat. Kutatókat, még matematikusokat és statisztikusokat is megtéveszthetnek egyszerű módszerek is, még ha gondosan figyelnek is mindenre. Vannak kutatók, akik a hibát valószínűségszámítási tudásuk hiánya vagy a tesztjeik standardizálásának hiánya miatt követik el.

A helytelen alkalmazás típusai^[2] szerkesztés

A nem tetsző adatok kihagyása szerkesztés

Vegyünk egy példát. Egy cég, semleges hatású (haszontalan) termékét úgy reklámozhatja, hogy keres, vagy elvégez 40 kutatást 95%-os megbízhatósági szinttel. Ha a termék tényleg haszontalan, ebből átlagosan egy tanulmány a termék jótékony hatását mutatná, egy annak káros hatását mutatná, és harmincnyolc nem mutatna hatást (38 a negyven 95%-a). Minél több kísérlet érhető el, annál több olyat fogunk találni, amelyik a termék hasznosságát is kimutatja. Az olyan szervezetek, melyek nem hoznak nyilvánosságra minden elvégzett tanulmányt, mint például a dohányipari cégek, melyek tagadják a dohányzás és rák közötti kapcsolatot, vagy a dohányellenes csoportok, melyek a dohányzás és különböző betegségek közötti kapcsolatot próbálják bizonyítani, vagy a csodapirulák forgalmazói, többek között ezt a taktikát is használják.

Egy másik gyakori technika az olyan tanulmány véghezvitele, mely nagyszámú függő változót használ egyszerre. Például, egy gyógyászati kezelés hatékonyságát tesztelő tanulmány függő változóként használhatja a túlélés valószínűségét, a kórházban töltött napok számát, a betegek szubjektív fájdalomszintjét, stb. Ez annak a valószínűségét is növeli, hogy legalább egy változó véletlenül összefüggést fog mutatni a független változóval, vagyis a gyógyszer használatával.

Befolyásoló kérdezés szerkesztés

A befolyásoló kérdezés a felmérések általános módszertani hibája lehet. A felmérésekre adandó válaszok gyakran manipulálhatóak a kérdés olyan megfogalmazásával, hogy az a válaszadókból bizonyos válaszok gyakoriságát hozza ki. Például a háborúról történő szavazás esetén a következő kérdések:

Támogatja az USA próbálkozását, hogy szabadságot és demokráciát hozzon különböző országokban?
Támogatja az USA provokálatlan fegyveres akcióit?

valószínűleg az adatok különböző irányú ferdeségét eredményezné, bár mindkét kérdés a háború támogatásáról szól. A kérdés egy jobb megfogalmazása ez lehetne: Támogatja az USA jelenlegi, külföldi fegyveres akcióit?

A befolyásoló kérdezés egy másik módja az, ha a kutató által „vágyott” választ támogató információ előzi meg a kérdést. Például valószínűleg több ember felel igennel arra a kérdésre, hogy „A középosztály családjainak növekvő adóterheit tekintve, támogatja a jövedelemadó csökkentését?” ahhoz a kérdéshez viszonyítva, hogy „Az ország államháztartási hiányát, és az állami bevételek növelésének rendkívüli szükségét tekintve, támogatja a jövedelemadó csökkentését?”

Túláltalánosítás szerkesztés

A túláltalánosítás az a hiba, mikor egy adott csoportról szóló statisztikáról azt állítják, hogy megáll olyan csoport tagjaira is, mely csoport nem fed át az eredeti mérés csoportjával.

Egy egyszerű példaként tegyük fel, hogy a nyáron megvizsgált almák 100%-a piros. Az állítás, hogy „Minden alma piros”, a túláltalánosításra példa, mert az eredeti statisztika csak az almák egy alcsoportjára igaz (a nyáriakra), amely nem nevezhető az összes alma reprezentatív mintájának.

A túláltalánosítás hibájára a való életből vett példa figyelhető meg a telefonos közvélemény-kutatásokból adódó műtermékben, ha a felmérés során a mobiltelefonokat nem hívhatják. A fiatalok más demográfiai csoportokhoz képest kevéssé rendelkeznek vonalas telefonnal. Így az olyan telefonos közvélemény-kutatás, mely csak vonalas telefonhívásokkal méri fel a válaszadókat, a fiatalok nézőpontját alulreprezentálhatja a felmérés eredményében, ha más módon nem korrigálják a mintavétel torzítását.^[3]

A túláltalánosítás gyakran akkor fordul elő, mikor az információ nem szakmai forrásokon halad át, például a tömegtájékoztatási eszközökön, ugyanis a sajtó munkatársai kevéssé kezelik pontosan a mintavétel korlátait.^[4]

Torzított mintavétel szerkesztés

A statisztikában a mintavételi torzításról akkor beszélünk, ha a mintát úgy vesszük, hogy a célpopuláció egy része kevésbé valószínű, hogy belekerül, mint a többi. A mintavétel torzított, ha nem véletlenszerű a népesség (vagy nem emberek) mintája, vagyis nem minden egyén, vagy eset kerül ugyanolyan eséllyel kiválasztásra. Ha ezzel nem számolunk, akkor az eredményeket tévesen tulajdoníthatjuk a tanulmányozott jelenségnek, ahelyett hogy a mintavétel eredményének tekintenénk.

A becsült hiba félreértelmezése vagy félreértése szerkesztés

Ha egy kutatócsoport azt szeretné tudni, hogy hogy érez egy bizonyos témáról 300 millió ember, nem lenne praktikus megkérdezni mindannyiukat. Azonban, ha a kutatócsoport kiválaszt véletlenszerűen nagyjából 1000 személyt, elég biztosak lehetnek benne, hogy a kiválasztott csoport által nyújtott eredmény megmutatja, mit válaszolt volna a nagyobb csoport, ha mindannyiukat megkérdezik.

Számszerűsíthető, hogy mennyire lehetünk biztosak ebben. Ennek az egyik módja a konfidencia határokkal történik, a konfidenciaintervallum alsó és felső végével. Általában 95%-os konfidencia határ a használatos, de ettől el is térhetünk. A 95%-os konfidencia határ azt jelenti, hogy ha ismételten véletlen mintákat veszünk és kiszámoljuk az átlagokat és a konfidencia határokat minden mintára, a minták 95%-ának a konfidenciaintervalluma tartalmazza az elméleti átlagot.^[5]

A legtöbb ember azt feltételezi, hogy mivel a megbízhatósági érték nincs feltüntetve, 100%-osan biztos, hogy az igazi eredmény a becsült hibán belül van. Ez matematikailag helytelen.

Sokan esetleg nem veszik észre, hogy a minta véletlenszerűsége nagyon fontos. A gyakorlatban sok közvélemény-kutatás telefonon történik, ami eltorzítja a mintát több módon, például kizárja azokat, akiknek nincs telefonjuk, több eséllyel kerül bele, akinek több telefonja van, könnyebben bekerülhetnek, akik hajlamosabbak részt venni telefonos felmérésben, stb. A nem véletlenszerű mintavétel a becsült hibát megbízhatatlanná teszi.

Gyakran csak egy hibahatárt említenek a felmérések. Mikor egy nagyobb mérésen belül a népesség egy alcsoportjáról szólnak az eredmények, nagy lesz a hibahatár, de ezt nem feltétlen hangsúlyozzák. Például 1000 ember felmérése 100 főt tartalmazhat egy bizonyos etnikai csoportból vagy gazdasági státuszból. Az erre a csoportra vonatkozó eredmények sokkal kevésbé lesznek megbízhatóak, mint a teljes népességre vonatkozó eredmények. Ha a teljes mintára vonatkozó hibahatár 4% volt, akkor a hibahatár egy ilyen alcsoportra 13% körüli lehet.

A fentieken túl vannak másféle mérési nehézségek is a népesség felmérésében.

A fent említett problémák minden statisztikát alkalmazó kísérletre igazak, nem csak az összlakosságot érintő felmérésekre.

Források szerkesztés

↑ Kosztolányi Dezső: Nyelvművelés - Válasz Schöpflin Aladárnak. Nyugat · 1933. 9. szám http://epa.oszk.hu/00000/00022/00557/17385.htm
↑ Aaron Levenstein “Statistics are like bikinis. What they reveal is suggestive, but what they conceal is vital.”
↑ Silver, Nate. „‘Robopolls' Significantly More Favorable to Republicans Than Traditional Surveys”, The New York Times, 2010. október 28.
↑ Schwartz, L. M.; Woloshin, S. (2003). "On the Prevention and Treatment of Exaggeration". Journal of General Internal Medicine 18 (2): 153–154. doi:10.1046/j.1525-1497.2003.21216.x
↑ McDonald, J.H. (2009). Handbook of Biological Statistics (2nd ed.). Baltimore, Maryland: Sparky House Publishing. http://udel.edu/~mcdonald/statintro.html

További információk szerkesztés

Matematikaportál • összefoglaló, színes tartalomajánló lap

[1] Kosztolányi Dezső: Nyelvművelés - Válasz Schöpflin Aladárnak. Nyugat · 1933. 9. szám http://epa.oszk.hu/00000/00022/00557/17385.htm

[2] Aaron Levenstein “Statistics are like bikinis. What they reveal is suggestive, but what they conceal is vital.”

[3] Silver, Nate. „‘Robopolls' Significantly More Favorable to Republicans Than Traditional Surveys”, The New York Times, 2010. október 28.

[4] Schwartz, L. M.; Woloshin, S. (2003). "On the Prevention and Treatment of Exaggeration". Journal of General Internal Medicine 18 (2): 153–154. doi:10.1046/j.1525-1497.2003.21216.x

[5] McDonald, J.H. (2009). Handbook of Biological Statistics (2nd ed.). Baltimore, Maryland: Sparky House Publishing. http://udel.edu/~mcdonald/statintro.html

[1]

[2]

[3]

[4]

[5]