Valószínűségi tesztelmélet

A valószínűségi tesztelmélet (Item Response Theory, IRT) olyan pszichometriában használt matematikai eljárások gyűjtőneve, amely a tesztekben szereplő tételeket (itemeket) valószínűségi szempontok szerint jellemzi.[1] A paradigmát több elnevezéssel is illetik, így látens vonás elméletként (latent trait theory) vagy modern tesztelméletként (modern test theory) is utalnak rá. A tesztelmélet olyan statisztikai modelleket alkalmaz, amelyek lehetővé teszik a tesztben foglalt tételek (itemek) és a tesztet kitöltők sajátosságainak egyidejű megragadását.[2] Ennek megfelelően az IRT különféle mérőeszközök kialakításához, elemzéséhez és értékeléséhez nyújthat megfelelő elméleti keretet.

Az IRT megközelítés alapkoncepciója szerkesztés

A klasszikus tesztelmélettel szemben a modern tesztelmélet a tételt (itemet) helyezi a vizsgálat fókuszába. Általánosságban véve a teszten belül itemnek minősülnek „a legkisebb önállóan értékelhető egységek”, amelyek „már nem bonthatók fel további részteljesítményekre”.[2] A dichotóm tételek kétféleképpen, jó/rossz vagy helyes/helytelen válaszokként értékelhetők. A dichotóm tételekkel szemben a politóm itemek több mint két válaszlehetőséget kínálnak fel, és az egyes válaszok eltérő pontértékeknek feleltethetők meg. Jellemzően a több választási lehetőséget (multiple choice) tartalmazó skálák, valamint a válaszadók egyetértésének mértékét felmérő Likert-skálák (például „Kérjük, értékelje 1-től 5-ig terjedő skálán”) tételei politómok.[3]

Az IRT eljárások sajátossága, hogy adott teszt kapcsán a személy válaszait tételenként, külön-külön elemzik és értékelik. A megközelítés lehetővé teszi a tételre adott válaszok és a válasz hátterében álló képesség, attitűd, vélemény stb. egyidejű vizsgálatát, ennek megfelelően adott item a tétel és a személy paramétereivel is jellemezhető.[3][4] 

A személyi paraméter (  vagy theta) rendszerint egy homogén, egydimenziós vonás (pl. személyiségjellemző, attitűd) vagy képesség (kognitív, fizikális képesség vagy tudás), amelyre a tételre adott válaszok milyenségéből következtethetünk. Ez a minőség közvetlenül nem vizsgálható, de az elmélet alapvető feltevése, hogy a válaszokban a látens tulajdonság vagy képesség nyilvánul meg. Ezt a jellegzetességet hangsúlyozza a látens vonás elmélet (latent trait theory) gyűjtőfogalom is. Az elmélet feltételezi, hogy a látens változó egy sztenderd skálán mérhető, amelynek az átlaga 0 és a szórása 1, és a megfigyelhető értéke jellemzően –3 és +3 közé esik. A látens vonás homogenitását rendszerint faktoranalízissel vizsgálják, a képesség becslését pedig általában valószínűségi függvényekkel – pl. maximum likelihood becsléssel – végzik.[4]

A tételválasz függvény szerkesztés

A tételválasz függvény (item response function, IRF) egy matematikai függvény, amely megadja, hogy egy adott képességszintű személy milyen valószínűséggel válaszol helyesen bizonyos tételre. A tételekhez kapcsolódó függvényeket jellemzően S alakú tétel jellemző görbék (item characteristic curves, ICC) ábrázolják.[5] A helyes válasz valószínűségének pontos értéke a tételek sajátosságaitól függ. A tételek a következő paraméterek mentén jellemezhetők:[3]  

  • Nehézség ( , lokáció): a tétel helyét, ún. lokációját mutatja meg a vizsgált képesség kontinuumán, ahol a személyek helyes válaszadásának valószínűsége 50%. Az elmélet alapfeltevése, hogy az alacsonyabb képességgel rendelkezők kisebb valószínűséggel, a magasabb képességszinttel rendelkezők nagyobb valószínűséggel oldják meg helyesen a tételt. Eszerint minél magasabb értéket vesz fel a  , annál nehezebbnek számít a tétel, és annál magasabb képességszint szükséges a helyes megoldáshoz.[1]
  • Diszkrimináció ( , meredekség): a tétel lokációs pontjánál lévő meredekséget határozza meg, amelynek az értéke jelzi, hogy a tétel mennyire áll szoros kapcsolatban a látens vonással, s az egyéni sikeresség milyen meredeken változik a képesség szintjével. Magasabb   érték mellett a tétel jobban diszkriminál az adott lokációban, így a képességskála eltérő pontjain jobban különbséget tesz a személyek sikerességében.[4]
  • Pszeudo-találgatás ( , aszimptota): a helyes válaszadás valószínűségének becslésében a sikeres találgatás hatását magyarázza. Habár az alacsony képességszintű személyek többszörös választást tartalmazó tételek esetén nem feltétlenül tudják a jó megoldást, találgatással mégis gyakran helyes választ adnak. Ennek megfelelően a képességskála alacsonyabb szintjeinél nem a nullához közelít a helyes válaszadás valószínűsége, mivel a válaszadók egy négy válaszlehetőséget tartalmazó item esetén 25% eséllyel juthatnak jó megoldáshoz.[6] A   becsült értéke azonban alacsonyabb a helyes válasz eltalálásának valószínűségénél, ezért „ál-találgatásként” nevezték el a paramétert.[7]

Az IRT modelljei szerkesztés

A modern tesztelmélet dichotóm változókra épülő modelljeit a tételek jellemzésére használt paraméterek száma szerint nevezik meg. Az egyparaméteres (1PL) modell a nehézségi jellemző mentén írja le a tételeket, és a tesztben szereplő összes tétel azonos diszkriminációval rendelkezik. Az 1PL-re gyakran megalkotója, Georg Rasch után Rasch-modellként is utalnak. A kétparaméteres (2PL) modellben a nehézségi mutató mellett a tételek diszkriminációs jellemzői is leképeződnek. A háromparaméteres (3PL) modell pedig a lokáció, a diszkrimináció és a találgatási mutató mentén jellemzi a tételeket.[6] Négyparaméteres (4PL) modell is létezik, amely egy   mutatóval növeli a jellemző paraméterek körét. A   egy felső aszimptota mutatóval egészíti ki a 3PL-t, és nagyobb értéke esetén a tételválasz függvény felső határa válik magasabbá.

Az IRT modelljeit a bennük foglalt látens vonások száma alapján is osztályozhatjuk. Az unidimenzionális modellek egyetlen vonás (képesség) mentén jellemzik a teszt tételeit. A multidimenzionális IRT modellekben a tesztitemek egynél több látens vonással magyarázhatók, ezáltal az elemzésük jóval komplexebb matematikai műveletekre támaszkodik.[3]

Az IRT modellek megkívánják a tételek lokális függetlenségét. Eszerint a tesztben szereplő tételek helyes megoldására vonatkozó egyes valószínűségeknek egymástól függetlennek kell lenniük, illetve a tételekre adott válaszoknak a válaszadók független döntésén kell alapulniuk.

A valószínűségi tesztelmélet a modellek illeszkedésének vizsgálatát is lehetővé teszi. A tételparaméterek jellemzői alapján megállapítható, hogy szerepelnek-e kevésbé illeszkedő vagy kilógó itemek az adott tesztben, amelyek eltávolíthatók a tesztstruktúrából, és a teszt későbbi verziójában más itemmel helyettesíthetők. A konstruktum validitás alacsony szintjére utal, ha adott teszt esetén nagy számban azonosíthatók modellbe nem illeszkedő tételek. Számos módszer közül a leggyakrabban   statisztikákkal, vagy annak sztenderdizált változatával ellenőrzik az illeszkedés megfelelőségét.

A tétel és a teszt információs függvénye szerkesztés

A modern tesztelméletek egyik legfőbb előnye, hogy a tételek minőségi elemzéséből a mérőeszköz pontosságára, reliabilitására következtethetünk. Az IRT reliabilitás-mutató helyett a tétel információs függvénnyel (item information function, IIF) jellemzi az item minőségét, amely a látens vonás különböző szintjeinél a tétel pontosságát, diszkriminációs erejét mutatja. A függvény grafikusan haranggörbeként jeleníthető meg. A magasan diszkrimináló itemek magas, keskeny görbét rajzolnak ki, amely jól mutatja, hogy egy szűk skálán nagy a tétel információs hozzájárulása. A kevéssé diszkrimináló tételek lapos, nyújtott görbeként jeleníthetők meg, amely jelzi, hogy az item széles skálára vonatkozóan alacsony információs értékkel rendelkezik. A teszt információs függvénye (test information function, TIF) az adott teszthez kapcsolódó tétel információs függvények összegzéséből adódik, és a képességek – általában maximum likelihood – becslésével párhuzamosan a hibák becslését nyújtja. Minél több információt tartalmaz a teszt adott képességszintre vonatkozóan, annál kisebb mértékű hiba jelenik meg a képesség becslésében.[5]  

A klasszikus és modern tesztelmélet összehasonlítása szerkesztés

A klasszikus tesztelmélet (classical test theory, CTT) és a valószínűségi tesztelmélet közös célja a pszichológiai mérőeszközök megbízhatóságának javítása. A két megközelítés eltérő elméleti keretben, eltérő matematikai módszerekkel vizsgálja a tesztek és tételeik általános minőségét. A CTT és az IRT közötti lényegi különbségeket a következő táblázat foglalja össze.

A klasszikus és a valószínűségi tesztelméletek modelljeinek legfőbb különbségei[5]
Terület Klasszikus tesztelmélet (CTT) Valószínűségi tesztelmélet (IRT)
Modell Lineáris Nem lineáris
Szint Teszt Tétel (item)
Előfeltevések, hipotézisek Gyenge (könnyen illeszthető a teszt adataihoz) Erős (nehezebben illeszthető a teszt adataihoz)
Tétel és képesség kapcsolata Nem meghatározott Tételválasz függvények (item response function, IRF)

Tétel jellemző görbék (item characteristic curves, ICC)

Képesség A tesztértékek vagy a becsült valós értékek a tesztérték skálán (vagy egy átalakított tesztérték skálán) rögzíthetők A képességekre vonatkozó értékek a –∞ és +∞ skáláján (vagy egy átalakított skálán) rögzíthetők
A tétel–személy statisztikák invarianciája Nem invariáns: a tétel és személy paraméterek a mintától függnek Invariáns: a tétel és személy paraméterek függetlenek a mintától, ha a modell illeszkedik az adatokhoz
Tételre vonatkozó statisztikák p-érték

r

b, a és c paraméterek (a 3PL modellben), illetve a kapcsolódó tétel információs függvények
Minta nagysága (a tételek paramétereinek becsléséhez) Általában 200 – 500 fő Az IRT-modell függvénye, de általában 500 főnél nagyobb minta szükséges

Habár a klasszikus tesztelmélet által könnyen kivitelezhető és világosabb magyarázattal szolgáló eredmények nyerhetők már kisebb mintákon is, az IRT alkalmazásának legfőbb előnye, hogy az itemstatisztikák függetlenek attól a csoporttól, amelyen a tételek minőségét felmérték, illetve a képességeket leképező értékek sem függnek az adott mérőeszköz nehézségétől. Az IRT modellek érvényességének megállapításához nincs szükség párhuzamos tesztekkel való összehasonlításra. A modern tesztelmélet hátránya, hogy általában összetett matematikai becslésekre támaszkodik, amellyel szemben a CTT egyszerűbb elemzéseket alkalmaz a modellek paramétereinek meghatározásában.[4][5] Az IRT-t a CTT egyfajta tovább-fejlesztésének tekintik, mivel az általában rugalmasabb, az adott teszttől független és kifinomult információt kínál.

Az IRT modellek alkalmazási területei szerkesztés

A valószínűségi tesztelméletek modelljeit széles körben használják tesztfejlesztésre, tesztértékek kiegyenlítésére, tesztek torzításának azonosítására. Különösen hasznosnak bizonyul az oktatás területén, ahol a tudás- és képességszintek felméréséhez szükséges eszközök kifejlesztéséhez alapos, körültekintő módszert biztosít.[2] A modern tesztelméletek egyik kifinomult alkalmazási módja a számítógépes adaptív tesztelés (Computerized Adaptive Testing, CAT), amely a személy képességszintjéhez igazodva, speciális algoritmus segítségével választja meg az egyes alkalmazandó tételeket úgy, hogy a következő elemet a megelőző itemre adott válasz helyessége szerint mutatja be. 

Jegyzetek szerkesztés

  1. a b Molnár Gy. (2005). Az objektív mérés lehetősége: A Rasch-modell. Iskolakultúra 2005, 3, 71-80.
  2. a b c Csapó B. (2005). Az előzetesen megszerzett tudás mérése és elismerése. Nemzeti Felnőttképzési Intézet, Budapest. 46-59.
  3. a b c d Bock, R. Darrell, Moustaki, I. (2007). Item Response Theory in a General Framework. In Rao, C. R., Sinharay, S. (Eds), Handbook of Statistics, Volume 26: Psychometrics (pp. 469-513). Amsterdam: Elsevier.
  4. a b c d Zanon, C., Hutz, C. S., Yoo, H., Hambleton, R. K. (2016). Psicologia: Reflexão e Crítica, 29:18, 1-10.
  5. a b c d Hambleton, R. K., Jones, R. W. (1993). Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Educational Measurement: Issues and Practice, 12, (3), 38-47. 
  6. a b Molnár Gy. (2003). Az ismeretek alkalmazásának vizsgálata modern tesztelméleti (IRT) eszközökkel. Magyar Pedagógia, 103 (4), 423-446.
  7. Han, K. T. (2012). Fixing the c Parameter in the Three-Parameter Logistic Model. Practical Assessment, Research & Evaluation, 17 (1), 1-2.

Fordítás szerkesztés

  • Ez a szócikk részben vagy egészben az Item response theory című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Kapcsolódó szócikkek szerkesztés