Valószínűségi tesztelmélet

A valószínűségi tesztelmélet (Item Response Theory, IRT) olyan pszichometriában használt matematikai eljárások gyűjtőneve, amely a tesztekben szereplő tételeket (itemeket) valószínűségi szempontok szerint jellemzi.^[1] A paradigmát több elnevezéssel is illetik, így látens vonás elméletként (latent trait theory) vagy modern tesztelméletként (modern test theory) is utalnak rá. A tesztelmélet olyan statisztikai modelleket alkalmaz, amelyek lehetővé teszik a tesztben foglalt tételek (itemek) és a tesztet kitöltők sajátosságainak egyidejű megragadását.^[2] Ennek megfelelően az IRT különféle mérőeszközök kialakításához, elemzéséhez és értékeléséhez nyújthat megfelelő elméleti keretet.

Az IRT megközelítés alapkoncepciója

A klasszikus tesztelmélettel szemben a modern tesztelmélet a tételt (itemet) helyezi a vizsgálat fókuszába. Általánosságban véve a teszten belül itemnek minősülnek „a legkisebb önállóan értékelhető egységek”, amelyek „már nem bonthatók fel további részteljesítményekre”.^[2] A dichotóm tételek kétféleképpen, jó/rossz vagy helyes/helytelen válaszokként értékelhetők. A dichotóm tételekkel szemben a politóm itemek több mint két válaszlehetőséget kínálnak fel, és az egyes válaszok eltérő pontértékeknek feleltethetők meg. Jellemzően a több választási lehetőséget (multiple choice) tartalmazó skálák, valamint a válaszadók egyetértésének mértékét felmérő Likert-skálák (például „Kérjük, értékelje 1-től 5-ig terjedő skálán”) tételei politómok.^[3]

Az IRT eljárások sajátossága, hogy adott teszt kapcsán a személy válaszait tételenként, külön-külön elemzik és értékelik. A megközelítés lehetővé teszi a tételre adott válaszok és a válasz hátterében álló képesség, attitűd, vélemény stb. egyidejű vizsgálatát, ennek megfelelően adott item a tétel és a személy paramétereivel is jellemezhető.^[3]^[4]

A személyi paraméter ( $\theta$ vagy theta) rendszerint egy homogén, egydimenziós vonás (pl. személyiségjellemző, attitűd) vagy képesség (kognitív, fizikális képesség vagy tudás), amelyre a tételre adott válaszok milyenségéből következtethetünk. Ez a minőség közvetlenül nem vizsgálható, de az elmélet alapvető feltevése, hogy a válaszokban a látens tulajdonság vagy képesség nyilvánul meg. Ezt a jellegzetességet hangsúlyozza a látens vonás elmélet (latent trait theory) gyűjtőfogalom is. Az elmélet feltételezi, hogy a látens változó egy sztenderd skálán mérhető, amelynek az átlaga 0 és a szórása 1, és a megfigyelhető értéke jellemzően –3 és +3 közé esik. A látens vonás homogenitását rendszerint faktoranalízissel vizsgálják, a képesség becslését pedig általában valószínűségi függvényekkel – pl. maximum likelihood becsléssel – végzik.^[4]

A tételválasz függvény

A tételválasz függvény (item response function, IRF) egy matematikai függvény, amely megadja, hogy egy adott képességszintű személy milyen valószínűséggel válaszol helyesen bizonyos tételre. A tételekhez kapcsolódó függvényeket jellemzően S alakú tétel jellemző görbék (item characteristic curves, ICC) ábrázolják.^[5] A helyes válasz valószínűségének pontos értéke a tételek sajátosságaitól függ. A tételek a következő paraméterek mentén jellemezhetők:^[3]

Nehézség ( $b_{i}$ , lokáció): a tétel helyét, ún. lokációját mutatja meg a vizsgált képesség kontinuumán, ahol a személyek helyes válaszadásának valószínűsége 50%. Az elmélet alapfeltevése, hogy az alacsonyabb képességgel rendelkezők kisebb valószínűséggel, a magasabb képességszinttel rendelkezők nagyobb valószínűséggel oldják meg helyesen a tételt. Eszerint minél magasabb értéket vesz fel a $b_{i}$ , annál nehezebbnek számít a tétel, és annál magasabb képességszint szükséges a helyes megoldáshoz.^[1]
Diszkrimináció ( $a_{i}$ , meredekség): a tétel lokációs pontjánál lévő meredekséget határozza meg, amelynek az értéke jelzi, hogy a tétel mennyire áll szoros kapcsolatban a látens vonással, s az egyéni sikeresség milyen meredeken változik a képesség szintjével. Magasabb $a_{i}$ érték mellett a tétel jobban diszkriminál az adott lokációban, így a képességskála eltérő pontjain jobban különbséget tesz a személyek sikerességében.^[4]
Pszeudo-találgatás ( $c_{i}$ , aszimptota): a helyes válaszadás valószínűségének becslésében a sikeres találgatás hatását magyarázza. Habár az alacsony képességszintű személyek többszörös választást tartalmazó tételek esetén nem feltétlenül tudják a jó megoldást, találgatással mégis gyakran helyes választ adnak. Ennek megfelelően a képességskála alacsonyabb szintjeinél nem a nullához közelít a helyes válaszadás valószínűsége, mivel a válaszadók egy négy válaszlehetőséget tartalmazó item esetén 25% eséllyel juthatnak jó megoldáshoz.^[6] A $c_{i}$ becsült értéke azonban alacsonyabb a helyes válasz eltalálásának valószínűségénél, ezért „ál-találgatásként” nevezték el a paramétert.^[7]

Az IRT modelljei

A modern tesztelmélet dichotóm változókra épülő modelljeit a tételek jellemzésére használt paraméterek száma szerint nevezik meg. Az egyparaméteres (1PL) modell a nehézségi jellemző mentén írja le a tételeket, és a tesztben szereplő összes tétel azonos diszkriminációval rendelkezik. Az 1PL-re gyakran megalkotója, Georg Rasch után Rasch-modellként is utalnak. A kétparaméteres (2PL) modellben a nehézségi mutató mellett a tételek diszkriminációs jellemzői is leképeződnek. A háromparaméteres (3PL) modell pedig a lokáció, a diszkrimináció és a találgatási mutató mentén jellemzi a tételeket.^[6] Négyparaméteres (4PL) modell is létezik, amely egy $d_{i}$ mutatóval növeli a jellemző paraméterek körét. A $d_{i}$ egy felső aszimptota mutatóval egészíti ki a 3PL-t, és nagyobb értéke esetén a tételválasz függvény felső határa válik magasabbá.

Az IRT modelljeit a bennük foglalt látens vonások száma alapján is osztályozhatjuk. Az unidimenzionális modellek egyetlen vonás (képesség) mentén jellemzik a teszt tételeit. A multidimenzionális IRT modellekben a tesztitemek egynél több látens vonással magyarázhatók, ezáltal az elemzésük jóval komplexebb matematikai műveletekre támaszkodik.^[3]

Az IRT modellek megkívánják a tételek lokális függetlenségét. Eszerint a tesztben szereplő tételek helyes megoldására vonatkozó egyes valószínűségeknek egymástól függetlennek kell lenniük, illetve a tételekre adott válaszoknak a válaszadók független döntésén kell alapulniuk.

A valószínűségi tesztelmélet a modellek illeszkedésének vizsgálatát is lehetővé teszi. A tételparaméterek jellemzői alapján megállapítható, hogy szerepelnek-e kevésbé illeszkedő vagy kilógó itemek az adott tesztben, amelyek eltávolíthatók a tesztstruktúrából, és a teszt későbbi verziójában más itemmel helyettesíthetők. A konstruktum validitás alacsony szintjére utal, ha adott teszt esetén nagy számban azonosíthatók modellbe nem illeszkedő tételek. Számos módszer közül a leggyakrabban $\chi ^{2}$ statisztikákkal, vagy annak sztenderdizált változatával ellenőrzik az illeszkedés megfelelőségét.

A tétel és a teszt információs függvénye

A modern tesztelméletek egyik legfőbb előnye, hogy a tételek minőségi elemzéséből a mérőeszköz pontosságára, reliabilitására következtethetünk. Az IRT reliabilitás-mutató helyett a tétel információs függvénnyel (item information function, IIF) jellemzi az item minőségét, amely a látens vonás különböző szintjeinél a tétel pontosságát, diszkriminációs erejét mutatja. A függvény grafikusan haranggörbeként jeleníthető meg. A magasan diszkrimináló itemek magas, keskeny görbét rajzolnak ki, amely jól mutatja, hogy egy szűk skálán nagy a tétel információs hozzájárulása. A kevéssé diszkrimináló tételek lapos, nyújtott görbeként jeleníthetők meg, amely jelzi, hogy az item széles skálára vonatkozóan alacsony információs értékkel rendelkezik. A teszt információs függvénye (test information function, TIF) az adott teszthez kapcsolódó tétel információs függvények összegzéséből adódik, és a képességek – általában maximum likelihood – becslésével párhuzamosan a hibák becslését nyújtja. Minél több információt tartalmaz a teszt adott képességszintre vonatkozóan, annál kisebb mértékű hiba jelenik meg a képesség becslésében.^[5]

A klasszikus és modern tesztelmélet összehasonlítása

A klasszikus tesztelmélet (classical test theory, CTT) és a valószínűségi tesztelmélet közös célja a pszichológiai mérőeszközök megbízhatóságának javítása. A két megközelítés eltérő elméleti keretben, eltérő matematikai módszerekkel vizsgálja a tesztek és tételeik általános minőségét. A CTT és az IRT közötti lényegi különbségeket a következő táblázat foglalja össze.

**A klasszikus és a valószínűségi tesztelméletek modelljeinek legfőbb különbségei**^[5]
Terület	Klasszikus tesztelmélet (CTT)	Valószínűségi tesztelmélet (IRT)
Modell	Lineáris	Nem lineáris
Szint	Teszt	Tétel (item)
Előfeltevések, hipotézisek	Gyenge (könnyen illeszthető a teszt adataihoz)	Erős (nehezebben illeszthető a teszt adataihoz)
Tétel és képesség kapcsolata	Nem meghatározott	Tételválasz függvények (item response function, IRF) Tétel jellemző görbék (item characteristic curves, ICC)
Képesség	A tesztértékek vagy a becsült valós értékek a tesztérték skálán (vagy egy átalakított tesztérték skálán) rögzíthetők	A képességekre vonatkozó értékek a –∞ és +∞ skáláján (vagy egy átalakított skálán) rögzíthetők
A tétel–személy statisztikák invarianciája	Nem invariáns: a tétel és személy paraméterek a mintától függnek	Invariáns: a tétel és személy paraméterek függetlenek a mintától, ha a modell illeszkedik az adatokhoz
Tételre vonatkozó statisztikák	p-érték r	b, a és c paraméterek (a 3PL modellben), illetve a kapcsolódó tétel információs függvények
Minta nagysága (a tételek paramétereinek becsléséhez)	Általában 200 – 500 fő	Az IRT-modell függvénye, de általában 500 főnél nagyobb minta szükséges

Habár a klasszikus tesztelmélet által könnyen kivitelezhető és világosabb magyarázattal szolgáló eredmények nyerhetők már kisebb mintákon is, az IRT alkalmazásának legfőbb előnye, hogy az itemstatisztikák függetlenek attól a csoporttól, amelyen a tételek minőségét felmérték, illetve a képességeket leképező értékek sem függnek az adott mérőeszköz nehézségétől. Az IRT modellek érvényességének megállapításához nincs szükség párhuzamos tesztekkel való összehasonlításra. A modern tesztelmélet hátránya, hogy általában összetett matematikai becslésekre támaszkodik, amellyel szemben a CTT egyszerűbb elemzéseket alkalmaz a modellek paramétereinek meghatározásában.^[4]^[5] Az IRT-t a CTT egyfajta tovább-fejlesztésének tekintik, mivel az általában rugalmasabb, az adott teszttől független és kifinomult információt kínál.

Az IRT modellek alkalmazási területei

A valószínűségi tesztelméletek modelljeit széles körben használják tesztfejlesztésre, tesztértékek kiegyenlítésére, tesztek torzításának azonosítására. Különösen hasznosnak bizonyul az oktatás területén, ahol a tudás- és képességszintek felméréséhez szükséges eszközök kifejlesztéséhez alapos, körültekintő módszert biztosít.^[2] A modern tesztelméletek egyik kifinomult alkalmazási módja a számítógépes adaptív tesztelés (Computerized Adaptive Testing, CAT), amely a személy képességszintjéhez igazodva, speciális algoritmus segítségével választja meg az egyes alkalmazandó tételeket úgy, hogy a következő elemet a megelőző itemre adott válasz helyessége szerint mutatja be.

Jegyzetek

↑ ^a ^b Molnár Gy. (2005). Az objektív mérés lehetősége: A Rasch-modell. Iskolakultúra 2005, 3, 71-80.
↑ ^a ^b ^c Csapó B. (2005). Az előzetesen megszerzett tudás mérése és elismerése. Nemzeti Felnőttképzési Intézet, Budapest. 46-59.
↑ ^a ^b ^c ^d Bock, R. Darrell, Moustaki, I. (2007). Item Response Theory in a General Framework. In Rao, C. R., Sinharay, S. (Eds), Handbook of Statistics, Volume 26: Psychometrics (pp. 469-513). Amsterdam: Elsevier.
↑ ^a ^b ^c ^d Zanon, C., Hutz, C. S., Yoo, H., Hambleton, R. K. (2016). Psicologia: Reflexão e Crítica, 29:18, 1-10.
↑ ^a ^b ^c ^d Hambleton, R. K., Jones, R. W. (1993). Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Educational Measurement: Issues and Practice, 12, (3), 38-47.
↑ ^a ^b Molnár Gy. (2003). Az ismeretek alkalmazásának vizsgálata modern tesztelméleti (IRT) eszközökkel. Magyar Pedagógia, 103 (4), 423-446.
↑ Han, K. T. (2012). Fixing the c Parameter in the Three-Parameter Logistic Model. Practical Assessment, Research & Evaluation, 17 (1), 1-2.

Fordítás

Ez a szócikk részben vagy egészben az Item response theory című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Kapcsolódó szócikkek

Rasch-modell, Klasszikus tesztelmélet, Pszichometria, Megbízhatóság (pszichometria), Maximum likelihood módszer, Pszichológiai statisztika

[:0-1] Molnár Gy. (2005). Az objektív mérés lehetősége: A Rasch-modell. Iskolakultúra 2005, 3, 71-80.

[:1-2] Csapó B. (2005). Az előzetesen megszerzett tudás mérése és elismerése. Nemzeti Felnőttképzési Intézet, Budapest. 46-59.

[:2-3] Bock, R. Darrell, Moustaki, I. (2007). Item Response Theory in a General Framework. In Rao, C. R., Sinharay, S. (Eds), Handbook of Statistics, Volume 26: Psychometrics (pp. 469-513). Amsterdam: Elsevier.

[:3-4] Zanon, C., Hutz, C. S., Yoo, H., Hambleton, R. K. (2016). Psicologia: Reflexão e Crítica, 29:18, 1-10.

[:4-5] Hambleton, R. K., Jones, R. W. (1993). Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Educational Measurement: Issues and Practice, 12, (3), 38-47.

[:5-6] Molnár Gy. (2003). Az ismeretek alkalmazásának vizsgálata modern tesztelméleti (IRT) eszközökkel. Magyar Pedagógia, 103 (4), 423-446.

[7] Han, K. T. (2012). Fixing the c Parameter in the Three-Parameter Logistic Model. Practical Assessment, Research & Evaluation, 17 (1), 1-2.

[1]

[2]

[3]

[4]

[5]

[6]

[7]