Valószínűségi tesztelmélet
A valószínűségi tesztelmélet (Item Response Theory, IRT) olyan pszichometriában használt matematikai eljárások gyűjtőneve, amely a tesztekben szereplő tételeket (itemeket) valószínűségi szempontok szerint jellemzi.[1] A paradigmát több elnevezéssel is illetik, így látens vonás elméletként (latent trait theory) vagy modern tesztelméletként (modern test theory) is utalnak rá. A tesztelmélet olyan statisztikai modelleket alkalmaz, amelyek lehetővé teszik a tesztben foglalt tételek (itemek) és a tesztet kitöltők sajátosságainak egyidejű megragadását.[2] Ennek megfelelően az IRT különféle mérőeszközök kialakításához, elemzéséhez és értékeléséhez nyújthat megfelelő elméleti keretet.
Az IRT megközelítés alapkoncepciója
szerkesztésA klasszikus tesztelmélettel szemben a modern tesztelmélet a tételt (itemet) helyezi a vizsgálat fókuszába. Általánosságban véve a teszten belül itemnek minősülnek „a legkisebb önállóan értékelhető egységek”, amelyek „már nem bonthatók fel további részteljesítményekre”.[2] A dichotóm tételek kétféleképpen, jó/rossz vagy helyes/helytelen válaszokként értékelhetők. A dichotóm tételekkel szemben a politóm itemek több mint két válaszlehetőséget kínálnak fel, és az egyes válaszok eltérő pontértékeknek feleltethetők meg. Jellemzően a több választási lehetőséget (multiple choice) tartalmazó skálák, valamint a válaszadók egyetértésének mértékét felmérő Likert-skálák (például „Kérjük, értékelje 1-től 5-ig terjedő skálán”) tételei politómok.[3]
Az IRT eljárások sajátossága, hogy adott teszt kapcsán a személy válaszait tételenként, külön-külön elemzik és értékelik. A megközelítés lehetővé teszi a tételre adott válaszok és a válasz hátterében álló képesség, attitűd, vélemény stb. egyidejű vizsgálatát, ennek megfelelően adott item a tétel és a személy paramétereivel is jellemezhető.[3][4]
A személyi paraméter ( vagy theta) rendszerint egy homogén, egydimenziós vonás (pl. személyiségjellemző, attitűd) vagy képesség (kognitív, fizikális képesség vagy tudás), amelyre a tételre adott válaszok milyenségéből következtethetünk. Ez a minőség közvetlenül nem vizsgálható, de az elmélet alapvető feltevése, hogy a válaszokban a látens tulajdonság vagy képesség nyilvánul meg. Ezt a jellegzetességet hangsúlyozza a látens vonás elmélet (latent trait theory) gyűjtőfogalom is. Az elmélet feltételezi, hogy a látens változó egy sztenderd skálán mérhető, amelynek az átlaga 0 és a szórása 1, és a megfigyelhető értéke jellemzően –3 és +3 közé esik. A látens vonás homogenitását rendszerint faktoranalízissel vizsgálják, a képesség becslését pedig általában valószínűségi függvényekkel – pl. maximum likelihood becsléssel – végzik.[4]
A tételválasz függvény
szerkesztésA tételválasz függvény (item response function, IRF) egy matematikai függvény, amely megadja, hogy egy adott képességszintű személy milyen valószínűséggel válaszol helyesen bizonyos tételre. A tételekhez kapcsolódó függvényeket jellemzően S alakú tétel jellemző görbék (item characteristic curves, ICC) ábrázolják.[5] A helyes válasz valószínűségének pontos értéke a tételek sajátosságaitól függ. A tételek a következő paraméterek mentén jellemezhetők:[3]
- Nehézség ( , lokáció): a tétel helyét, ún. lokációját mutatja meg a vizsgált képesség kontinuumán, ahol a személyek helyes válaszadásának valószínűsége 50%. Az elmélet alapfeltevése, hogy az alacsonyabb képességgel rendelkezők kisebb valószínűséggel, a magasabb képességszinttel rendelkezők nagyobb valószínűséggel oldják meg helyesen a tételt. Eszerint minél magasabb értéket vesz fel a , annál nehezebbnek számít a tétel, és annál magasabb képességszint szükséges a helyes megoldáshoz.[1]
- Diszkrimináció ( , meredekség): a tétel lokációs pontjánál lévő meredekséget határozza meg, amelynek az értéke jelzi, hogy a tétel mennyire áll szoros kapcsolatban a látens vonással, s az egyéni sikeresség milyen meredeken változik a képesség szintjével. Magasabb érték mellett a tétel jobban diszkriminál az adott lokációban, így a képességskála eltérő pontjain jobban különbséget tesz a személyek sikerességében.[4]
- Pszeudo-találgatás ( , aszimptota): a helyes válaszadás valószínűségének becslésében a sikeres találgatás hatását magyarázza. Habár az alacsony képességszintű személyek többszörös választást tartalmazó tételek esetén nem feltétlenül tudják a jó megoldást, találgatással mégis gyakran helyes választ adnak. Ennek megfelelően a képességskála alacsonyabb szintjeinél nem a nullához közelít a helyes válaszadás valószínűsége, mivel a válaszadók egy négy válaszlehetőséget tartalmazó item esetén 25% eséllyel juthatnak jó megoldáshoz.[6] A becsült értéke azonban alacsonyabb a helyes válasz eltalálásának valószínűségénél, ezért „ál-találgatásként” nevezték el a paramétert.[7]
Az IRT modelljei
szerkesztésA modern tesztelmélet dichotóm változókra épülő modelljeit a tételek jellemzésére használt paraméterek száma szerint nevezik meg. Az egyparaméteres (1PL) modell a nehézségi jellemző mentén írja le a tételeket, és a tesztben szereplő összes tétel azonos diszkriminációval rendelkezik. Az 1PL-re gyakran megalkotója, Georg Rasch után Rasch-modellként is utalnak. A kétparaméteres (2PL) modellben a nehézségi mutató mellett a tételek diszkriminációs jellemzői is leképeződnek. A háromparaméteres (3PL) modell pedig a lokáció, a diszkrimináció és a találgatási mutató mentén jellemzi a tételeket.[6] Négyparaméteres (4PL) modell is létezik, amely egy mutatóval növeli a jellemző paraméterek körét. A egy felső aszimptota mutatóval egészíti ki a 3PL-t, és nagyobb értéke esetén a tételválasz függvény felső határa válik magasabbá.
Az IRT modelljeit a bennük foglalt látens vonások száma alapján is osztályozhatjuk. Az unidimenzionális modellek egyetlen vonás (képesség) mentén jellemzik a teszt tételeit. A multidimenzionális IRT modellekben a tesztitemek egynél több látens vonással magyarázhatók, ezáltal az elemzésük jóval komplexebb matematikai műveletekre támaszkodik.[3]
Az IRT modellek megkívánják a tételek lokális függetlenségét. Eszerint a tesztben szereplő tételek helyes megoldására vonatkozó egyes valószínűségeknek egymástól függetlennek kell lenniük, illetve a tételekre adott válaszoknak a válaszadók független döntésén kell alapulniuk.
A valószínűségi tesztelmélet a modellek illeszkedésének vizsgálatát is lehetővé teszi. A tételparaméterek jellemzői alapján megállapítható, hogy szerepelnek-e kevésbé illeszkedő vagy kilógó itemek az adott tesztben, amelyek eltávolíthatók a tesztstruktúrából, és a teszt későbbi verziójában más itemmel helyettesíthetők. A konstruktum validitás alacsony szintjére utal, ha adott teszt esetén nagy számban azonosíthatók modellbe nem illeszkedő tételek. Számos módszer közül a leggyakrabban statisztikákkal, vagy annak sztenderdizált változatával ellenőrzik az illeszkedés megfelelőségét.
A tétel és a teszt információs függvénye
szerkesztésA modern tesztelméletek egyik legfőbb előnye, hogy a tételek minőségi elemzéséből a mérőeszköz pontosságára, reliabilitására következtethetünk. Az IRT reliabilitás-mutató helyett a tétel információs függvénnyel (item information function, IIF) jellemzi az item minőségét, amely a látens vonás különböző szintjeinél a tétel pontosságát, diszkriminációs erejét mutatja. A függvény grafikusan haranggörbeként jeleníthető meg. A magasan diszkrimináló itemek magas, keskeny görbét rajzolnak ki, amely jól mutatja, hogy egy szűk skálán nagy a tétel információs hozzájárulása. A kevéssé diszkrimináló tételek lapos, nyújtott görbeként jeleníthetők meg, amely jelzi, hogy az item széles skálára vonatkozóan alacsony információs értékkel rendelkezik. A teszt információs függvénye (test information function, TIF) az adott teszthez kapcsolódó tétel információs függvények összegzéséből adódik, és a képességek – általában maximum likelihood – becslésével párhuzamosan a hibák becslését nyújtja. Minél több információt tartalmaz a teszt adott képességszintre vonatkozóan, annál kisebb mértékű hiba jelenik meg a képesség becslésében.[5]
A klasszikus és modern tesztelmélet összehasonlítása
szerkesztésA klasszikus tesztelmélet (classical test theory, CTT) és a valószínűségi tesztelmélet közös célja a pszichológiai mérőeszközök megbízhatóságának javítása. A két megközelítés eltérő elméleti keretben, eltérő matematikai módszerekkel vizsgálja a tesztek és tételeik általános minőségét. A CTT és az IRT közötti lényegi különbségeket a következő táblázat foglalja össze.
Terület | Klasszikus tesztelmélet (CTT) | Valószínűségi tesztelmélet (IRT) |
---|---|---|
Modell | Lineáris | Nem lineáris |
Szint | Teszt | Tétel (item) |
Előfeltevések, hipotézisek | Gyenge (könnyen illeszthető a teszt adataihoz) | Erős (nehezebben illeszthető a teszt adataihoz) |
Tétel és képesség kapcsolata | Nem meghatározott | Tételválasz függvények (item response function, IRF)
Tétel jellemző görbék (item characteristic curves, ICC) |
Képesség | A tesztértékek vagy a becsült valós értékek a tesztérték skálán (vagy egy átalakított tesztérték skálán) rögzíthetők | A képességekre vonatkozó értékek a –∞ és +∞ skáláján (vagy egy átalakított skálán) rögzíthetők |
A tétel–személy statisztikák invarianciája | Nem invariáns: a tétel és személy paraméterek a mintától függnek | Invariáns: a tétel és személy paraméterek függetlenek a mintától, ha a modell illeszkedik az adatokhoz |
Tételre vonatkozó statisztikák | p-érték
r |
b, a és c paraméterek (a 3PL modellben), illetve a kapcsolódó tétel információs függvények |
Minta nagysága (a tételek paramétereinek becsléséhez) | Általában 200 – 500 fő | Az IRT-modell függvénye, de általában 500 főnél nagyobb minta szükséges |
Habár a klasszikus tesztelmélet által könnyen kivitelezhető és világosabb magyarázattal szolgáló eredmények nyerhetők már kisebb mintákon is, az IRT alkalmazásának legfőbb előnye, hogy az itemstatisztikák függetlenek attól a csoporttól, amelyen a tételek minőségét felmérték, illetve a képességeket leképező értékek sem függnek az adott mérőeszköz nehézségétől. Az IRT modellek érvényességének megállapításához nincs szükség párhuzamos tesztekkel való összehasonlításra. A modern tesztelmélet hátránya, hogy általában összetett matematikai becslésekre támaszkodik, amellyel szemben a CTT egyszerűbb elemzéseket alkalmaz a modellek paramétereinek meghatározásában.[4][5] Az IRT-t a CTT egyfajta tovább-fejlesztésének tekintik, mivel az általában rugalmasabb, az adott teszttől független és kifinomult információt kínál.
Az IRT modellek alkalmazási területei
szerkesztésA valószínűségi tesztelméletek modelljeit széles körben használják tesztfejlesztésre, tesztértékek kiegyenlítésére, tesztek torzításának azonosítására. Különösen hasznosnak bizonyul az oktatás területén, ahol a tudás- és képességszintek felméréséhez szükséges eszközök kifejlesztéséhez alapos, körültekintő módszert biztosít.[2] A modern tesztelméletek egyik kifinomult alkalmazási módja a számítógépes adaptív tesztelés (Computerized Adaptive Testing, CAT), amely a személy képességszintjéhez igazodva, speciális algoritmus segítségével választja meg az egyes alkalmazandó tételeket úgy, hogy a következő elemet a megelőző itemre adott válasz helyessége szerint mutatja be.
Jegyzetek
szerkesztés- ↑ a b Molnár Gy. (2005). Az objektív mérés lehetősége: A Rasch-modell. Iskolakultúra 2005, 3, 71-80.
- ↑ a b c Csapó B. (2005). Az előzetesen megszerzett tudás mérése és elismerése. Nemzeti Felnőttképzési Intézet, Budapest. 46-59.
- ↑ a b c d Bock, R. Darrell, Moustaki, I. (2007). Item Response Theory in a General Framework. In Rao, C. R., Sinharay, S. (Eds), Handbook of Statistics, Volume 26: Psychometrics (pp. 469-513). Amsterdam: Elsevier.
- ↑ a b c d Zanon, C., Hutz, C. S., Yoo, H., Hambleton, R. K. (2016). Psicologia: Reflexão e Crítica, 29:18, 1-10.
- ↑ a b c d Hambleton, R. K., Jones, R. W. (1993). Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Educational Measurement: Issues and Practice, 12, (3), 38-47.
- ↑ a b Molnár Gy. (2003). Az ismeretek alkalmazásának vizsgálata modern tesztelméleti (IRT) eszközökkel. Magyar Pedagógia, 103 (4), 423-446.
- ↑ Han, K. T. (2012). Fixing the c Parameter in the Three-Parameter Logistic Model. Practical Assessment, Research & Evaluation, 17 (1), 1-2.
Fordítás
szerkesztés- Ez a szócikk részben vagy egészben az Item response theory című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.