Statisztika
Ehhez a szócikkhez további forrásmegjelölések, lábjegyzetek szükségesek az ellenőrizhetőség érdekében. Emiatt nem tudjuk közvetlenül ellenőrizni, hogy a szócikkben szereplő állítások helytállóak-e. Segíts a szócikk fejlesztésében további megbízható források hozzáadásával. |
- Ez a cikk a statisztikáról mint tudományágról szól; a Wikipédia statisztikái itt érhetők el.
A statisztika avagy számhasonlítás[1] a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány.
Gyakran hívják „statisztikának” a statisztika módszereit és a statisztikai tevékenység eredményeként keletkező adatokat is. Ezenkívül statisztikának nevezik egy statisztikai minta elemeinek ismeretlen paramétert nem tartalmazó függvényeit is: lásd statisztika (függvény).
Statisztikai alapfogalmak
szerkesztésA statisztika, hasonlóan más tudományokhoz, sajátos nyelvezettel, módszertannal és szemlélettel rendelkezik. A statisztikusok által leggyakrabban használt alapfogalmak a következők:
A statisztika részterületei
szerkesztésA statisztikának alapvetően két nagy területe ismeretes; ezek között azonban sok találkozási pont, sőt átfedés figyelhető meg.
Leíró statisztika
szerkesztésCélja egy már rendelkezésre álló, valóságra vonatkozó adathalmaz összefoglalása, elemzése, egyszóval az információtömörítés.
Sokaság leírása egy ismérv alapján:
- kvantilis értékek: k számú osztályközt akarunk képezni, akkor ehhez k–1 darab osztópontra van szükségünk. Ezeket az osztópontokat k-ad rendű kvantiliseknek nevezzük.
- helyzetmutatók (középértékek): medián, módusz, átlag
- szóródási mutatók: terjedelem, szórás, relatív szórás
- koncentráció elemzése: Lorenz-görbe, Herfindahl-index
Következtető (matematikai) statisztika
szerkesztésCélja a megfelelő – vagyis a sokaság egészének paramétereit legjobban tükröző, reprezentáló – minta kiválasztása, a sokasági paramétereknek a minta paramétereivel történő becslése, illetve a sokasági paraméterekre vonatkozó feltételezések, hipotézisek elfogadása vagy elvetése. Foglalkozik továbbá a valóság összefüggéseinek egyszerűsített megragadására törekvő modellekkel is, mint az idősor- és regressziós modellek.
Főbb részterületei tehát a következők:
A statisztika eredete és története
szerkesztésEredetileg – ma már ritka, elavultnak számító értelmezés szerint – a statisztika matematikai eszközöket igénybe vevő államháztartástant jelentett, vagyis azon módszerek gyűjteményét és elméletét, amelyek segítségével az újkorban kialakuló modern államok számontarthatták erőforrásaikat és a társadalmi problémákat (népesség, termelés, betegségek stb.). Erre utal a szó etimológiája is, minthogy a szót az újlatin statisticum collegium („államtanács”) és az olasz statista („államférfi”, politikus) kifejezésekből származtatják. A statisztika atyja, Gottfried Achenwall is ilyen értelemben használta e szót munkáiban („az állam tudománya”), először 1749-ben. A szó mai értelmét („az adatgyűjtés és adatfeldolgozás általános tudománya”) csak a tizenkilencedik század elején nyerte el.
A következtető statisztika mindenekelőtt a matematikai ismeretek (ezeken belül is főként a valószínűségszámítás) gyors fejlődésének következtében, a leíró statisztika pedig a különböző adatszerzési és mintavételi technikák kialakulásával, fejlődésével jutott el a mai szintjére.
A statisztika alkalmazásai
szerkesztésAdatok összegzésére, elemzésére, tudományos elméletek adatok segítségével történő igazolására vagy megcáfolására számtalan természet- és társadalomtudománynak szüksége van. Gyakori eset, hogy egy-egy tudományhoz kapcsolódó statisztikai alkalmazásokból önálló segédtudományok jöttek létre. Ilyenek például a következők:
- biostatisztika vagy biometria
- demográfia
- fizikai statisztika
- gazdasági statisztika
- kémiai statisztika vagy kemometria
- közgazdasági statisztika vagy ökonometria
- politikai statisztika
- pszichológiai statisztika
- társadalomstatisztika
- területi statisztika
A statisztika helytelen használata
szerkesztésA statisztika helytelen használatáról beszélünk, amikor a statisztika használatának megsértése miatt indokolatlan következtetésre jutunk.
Esetenként ez véletlen, máskor szándékos is lehet, és az elkövető hasznot húz belőle.
A téves statisztika csapdája meglehetősen ártalmas a tudás keresésében. Például az orvostudományban egy téves állítás kijavítása évtizedeket vehet igénybe, és emberéletekbe kerülhet.
A helytelen alkalmazás könnyen előfordulhat. Kutatókat, még matematikusokat és statisztikusokat is megtéveszthetnek egyszerű módszerek is, még ha gondosan figyelnek is mindenre. Vannak kutatók, akik a hibát valószínűségszámítási tudásuk hiánya vagy a tesztjeik standardizálásának hiánya miatt követik el.
A helytelen alkalmazás típusai[2]
szerkesztésA nem tetsző adatok kihagyása
szerkesztésVegyünk egy példát. Egy cég, semleges hatású (haszontalan) termékét úgy reklámozhatja, hogy keres, vagy elvégez 40 kutatást 95%-os megbízhatósági szinttel. Ha a termék tényleg haszontalan, ebből átlagosan egy tanulmány a termék jótékony hatását mutatná, egy annak káros hatását mutatná, és harmincnyolc nem mutatna hatást (38 a negyven 95%-a). Minél több kísérlet érhető el, annál több olyat fogunk találni, amelyik a termék hasznosságát is kimutatja. Az olyan szervezetek, melyek nem hoznak nyilvánosságra minden elvégzett tanulmányt, mint például a dohányipari cégek, melyek tagadják a dohányzás és rák közötti kapcsolatot, vagy a dohányellenes csoportok, melyek a dohányzás és különböző betegségek közötti kapcsolatot próbálják bizonyítani, vagy a csodapirulák forgalmazói, többek között ezt a taktikát is használják.
Egy másik gyakori technika az olyan tanulmány véghezvitele, mely nagyszámú függő változót használ egyszerre. Például, egy gyógyászati kezelés hatékonyságát tesztelő tanulmány függő változóként használhatja a túlélés valószínűségét, a kórházban töltött napok számát, a betegek szubjektív fájdalomszintjét, stb. Ez annak a valószínűségét is növeli, hogy legalább egy változó véletlenül összefüggést fog mutatni a független változóval, vagyis a gyógyszer használatával.
Befolyásoló kérdezés
szerkesztésA befolyásoló kérdezés a felmérések általános módszertani hibája lehet. A felmérésekre adandó válaszok gyakran manipulálhatóak a kérdés olyan megfogalmazásával, hogy az a válaszadókból bizonyos válaszok gyakoriságát hozza ki. Például a háborúról történő szavazás esetén a következő kérdések:
- Támogatja az USA próbálkozását, hogy szabadságot és demokráciát hozzon különböző országokban?
- Támogatja az USA provokálatlan fegyveres akcióit?
valószínűleg az adatok különböző irányú ferdeségét eredményezné, bár mindkét kérdés a háború támogatásáról szól. A kérdés egy jobb megfogalmazása ez lehetne: Támogatja az USA jelenlegi, külföldi fegyveres akcióit?
A befolyásoló kérdezés egy másik módja az, ha a kutató által „vágyott” választ támogató információ előzi meg a kérdést. Például valószínűleg több ember felel igennel arra a kérdésre, hogy „A középosztály családjainak növekvő adóterheit tekintve, támogatja a jövedelemadó csökkentését?” ahhoz a kérdéshez viszonyítva, hogy „Az ország államháztartási hiányát, és az állami bevételek növelésének rendkívüli szükségét tekintve, támogatja a jövedelemadó csökkentését?”
Túláltalánosítás
szerkesztésA túláltalánosítás az a hiba, mikor egy adott csoportról szóló statisztikáról azt állítják, hogy megáll olyan csoport tagjaira is, mely csoport nem fed át az eredeti mérés csoportjával.
Egy egyszerű példaként tegyük fel, hogy a nyáron megvizsgált almák 100%-a piros. Az állítás, hogy „Minden alma piros”, a túláltalánosításra példa, mert az eredeti statisztika csak az almák egy alcsoportjára igaz (a nyáriakra), amely nem nevezhető az összes alma reprezentatív mintájának.
A túláltalánosítás hibájára a való életből vett példa figyelhető meg a telefonos közvélemény-kutatásokból adódó műtermékben, ha a felmérés során a mobiltelefonokat nem hívhatják. A fiatalok más demográfiai csoportokhoz képest kevéssé rendelkeznek vonalas telefonnal. Így az olyan telefonos közvélemény-kutatás, mely csak vonalas telefonhívásokkal méri fel a válaszadókat, a fiatalok nézőpontját alulreprezentálhatja a felmérés eredményében, ha más módon nem korrigálják a mintavétel torzítását.[3]
A túláltalánosítás gyakran akkor fordul elő, mikor az információ nem szakmai forrásokon halad át, például a tömegtájékoztatási eszközökön, ugyanis a sajtó munkatársai kevéssé kezelik pontosan a mintavétel korlátait.[4]
Torzított mintavétel
szerkesztésA statisztikában a mintavételi torzításról akkor beszélünk, ha a mintát úgy vesszük, hogy a célpopuláció egy része kevésbé valószínű, hogy belekerül, mint a többi. A mintavétel torzított, ha nem véletlenszerű a népesség (vagy nem emberek) mintája, vagyis nem minden egyén, vagy eset kerül ugyanolyan eséllyel kiválasztásra. Ha ezzel nem számolunk, akkor az eredményeket tévesen tulajdoníthatjuk a tanulmányozott jelenségnek, ahelyett hogy a mintavétel eredményének tekintenénk.
A becsült hiba félreértelmezése vagy félreértése
szerkesztésHa egy kutatócsoport azt szeretné tudni, hogy hogy érez egy bizonyos témáról 300 millió ember, nem lenne praktikus megkérdezni mindannyiukat. Azonban, ha a kutatócsoport kiválaszt véletlenszerűen nagyjából 1000 személyt, elég biztosak lehetnek benne, hogy a kiválasztott csoport által nyújtott eredmény megmutatja, mit válaszolt volna a nagyobb csoport, ha mindannyiukat megkérdezik.
Számszerűsíthető, hogy mennyire lehetünk biztosak ebben. Ennek az egyik módja a konfidencia határokkal történik, a konfidenciaintervallum alsó és felső végével. Általában 95%-os konfidencia határ a használatos, de ettől el is térhetünk. A 95%-os konfidencia határ azt jelenti, hogy ha ismételten véletlen mintákat veszünk és kiszámoljuk az átlagokat és a konfidencia határokat minden mintára, a minták 95%-ának a konfidenciaintervalluma tartalmazza az elméleti átlagot.[5]
A legtöbb ember azt feltételezi, hogy mivel a megbízhatósági érték nincs feltüntetve, 100%-osan biztos, hogy az igazi eredmény a becsült hibán belül van. Ez matematikailag helytelen.
Sokan esetleg nem veszik észre, hogy a minta véletlenszerűsége nagyon fontos. A gyakorlatban sok közvélemény-kutatás telefonon történik, ami eltorzítja a mintát több módon, például kizárja azokat, akiknek nincs telefonjuk, több eséllyel kerül bele, akinek több telefonja van, könnyebben bekerülhetnek, akik hajlamosabbak részt venni telefonos felmérésben, stb. A nem véletlenszerű mintavétel a becsült hibát megbízhatatlanná teszi.
Gyakran csak egy hibahatárt említenek a felmérések. Mikor egy nagyobb mérésen belül a népesség egy alcsoportjáról szólnak az eredmények, nagy lesz a hibahatár, de ezt nem feltétlen hangsúlyozzák. Például 1000 ember felmérése 100 főt tartalmazhat egy bizonyos etnikai csoportból vagy gazdasági státuszból. Az erre a csoportra vonatkozó eredmények sokkal kevésbé lesznek megbízhatóak, mint a teljes népességre vonatkozó eredmények. Ha a teljes mintára vonatkozó hibahatár 4% volt, akkor a hibahatár egy ilyen alcsoportra 13% körüli lehet.
A fentieken túl vannak másféle mérési nehézségek is a népesség felmérésében.
A fent említett problémák minden statisztikát alkalmazó kísérletre igazak, nem csak az összlakosságot érintő felmérésekre.
Források
szerkesztés- ↑ Kosztolányi Dezső: Nyelvművelés - Válasz Schöpflin Aladárnak. Nyugat · 1933. 9. szám http://epa.oszk.hu/00000/00022/00557/17385.htm
- ↑ Aaron Levenstein “Statistics are like bikinis. What they reveal is suggestive, but what they conceal is vital.”
- ↑ Silver, Nate. „‘Robopolls' Significantly More Favorable to Republicans Than Traditional Surveys”, The New York Times, 2010. október 28.
- ↑ Schwartz, L. M.; Woloshin, S. (2003). "On the Prevention and Treatment of Exaggeration". Journal of General Internal Medicine 18 (2): 153–154. doi:10.1046/j.1525-1497.2003.21216.x
- ↑ McDonald, J.H. (2009). Handbook of Biological Statistics (2nd ed.). Baltimore, Maryland: Sparky House Publishing. http://udel.edu/~mcdonald/statintro.html