Látens osztályelemzés

A látens osztálymodell (Latent Class Model-LOM) egy heterogén populációból, homogén alcsoportokat képez, meghatározott változók mentén. Ez a látensváltozó modellek egyik típusa, és azért nevezik látens osztálymodellnek, mert a látensváltozó diszkrét. Egy osztályt a feltételes valószínűségek mintázata jellemez, ami azt írja le, hogy a változók mekkora eséllyel vesznek fel egy bizonyos értéket (pl.: mekkora eséllyel következik be A esemény, ha azt tudjuk, hogy B esemény már bekövetkezett). A csoportok egymást kölcsönösen kizárják, azaz, ha a vizsgált minta megfigyelési egységei személyek, egy személy csak egy csoportnak lehet a tagja. Azon változókat, melyek mentén a csoportosítás történik, indikátor váltózóknak nevezzük ^[1].

Látens osztályelemzés (Latent Class Analysis-LOE) szerkesztés

A látens osztályelemzés a strukturális egyenletmodellezés egy alcsoportja, amelyet arra használnak, hogy többváltozós kategorikus adatokban csoportokat vagy altípusokat találjanak. Ezeket az altípusokat "látensosztályoknak" nevezik ^[2]^[3]. A finite mixture modellek és a személyközpontú eljárások közé sorolják (hasonlóan a Klaszteranalízishez), mivel a célja a vizsgálatban résztvevők csoportosítása (a faktorelemzést például a változó központú elemezések közé sorolják, mert a célja a tételek és nem a személyek csoportosítása) ^[4]. A személyközpontú szót azért használják, mert közkedvelt módszer a társadalomtudományokban, azonban ez nem jelenti azt, hogy csak emberek csoportosítására lehet alkalmazni.

Példák szerkesztés

Az alábbi helyzetekkel szembesülve egy kutató az adatok megértéséhez az LOE alkalmazását választhatja: Képzeljük el, hogy a-d tüneteket mértek egy sor X, Y és Z betegségben szenvedő betegnél, és hogy az X betegség az a, b és c tünetek jelenlétével, az Y betegség a b, c és d tünetekkel, a Z betegség pedig az a, c és d tünetekkel jár együtt.

Az LOE megpróbálja felderíteni a látens osztályok (a betegség entitások) jelenlétét, amelyek a tünetekben asszociációs mintázatokat hoznak létre. A faktorelemzéshez hasonlóan az LOE is használható az esetek osztályozására a maximum likelihood (magyarul: legnagyobb valószínűség) osztálytagságuk szerint ^[2]^[5].

Egy további gyakorlati példaként a változók lehetnek egy politikai kérdőív feleletválasztós kérdései. Az adatok ebben az esetben egy N-utas kontingenciatáblázatból állnak, amely a válaszadók egy részének a tételekre adott válaszait tartalmazza. Ebben a példában a látens változó a politikai véleményre, a látens osztályok pedig a politikai csoportokra vonatkoznak. A csoporthoz tartozást tekintve a feltételes valószínűségek megadják, hogy bizonyos válaszok milyen eséllyel kerülnek kiválasztásra.

Utóbbi illusztrálására Lazarsfeld ^[6], a módszer egyik megalkotója, egy mesterséges példát mutatott be, a gazdasági intervencionizmus (economic interventionism- innentől -Gi.) általános mértékével és három, egyenként 36 fős csoporttal, amelyek a tagok Gi-vel kapcsolatos egyetértésük szintjében különböznek. A három csoport: alacsony-; közepes-; magas Gi-szint. A hipotetikus helyzetben azt a konkrét témát vizsgálja, hogy szükséges-e a bankok és a bányák államosítása a megkérdezettek szerint, amit egy 2x2-es kontingencia táblázatban ábrázol és három kulcsfontosságú megfigyelésre mutat rá:

a) Gi általános szintjének növekedésével, mindkét mutató esetében nő a valószínűsége annak, hogy a megkérdezett igennel felel, arra vonatkozóan, szerinte szükséges-e államosítani az adott ágazatot.
b) az egyes csoportokon belül a két mutató nem függ össze, és
c) az Gi növekedésével együtt nő a mindkét kérdésre igennel felelő személyek aránya.

Az elemzés ezután egyesíti a három csoportot, és kimutatja, hogy bár az alcsoportokon belül a mutatók nem függtek össze, a teljes mintában kapcsolat mutatkozik. Ezt vizsgálva a pozitív válaszok száma megnövekszik, ami erősebb kapcsolatot eredményez a két kérdés között.Mivel az LOE megfelelő kivitelezésének kritériuma olyan látens osztályok elérése, amelyeken belül az egyik tünetnek/ álláspontnak már nincs kapcsolata a másikkal (mert az osztály az a betegség, vagy politikai beállítódás, amely a kapcsolatukat okozza), és a betegek betegségeinek, vagy a politikai témában megkérdezettek véleményének csoportja (vagy az az osztály, amelynek egy eset tagja) okozza a kapcsolatot, a tünetek vagy vélemények "feltételesen függetlenek" lesznek, azaz az osztályhoz tartozás függvényében már nem kapcsolódnak egymáshoz ^[2].

Modell szerkesztés

Az egyes látens osztályokon belül a megfigyelt változók statisztikailag függetlenek. Ez egy fontos szempont. Általában a megfigyelt változók statisztikailag függőek. A látens változó bevezetésével a függetlenség helyreáll abban az értelemben, hogy az osztályokon belül a változók függetlenek (helyi függetlenség). Ekkor azt mondjuk, hogy a megfigyelt változók közötti kapcsolatot a látens változó osztályai magyarázzák ^[7].

Egyik formájában a látens osztályos modell a következőképpen írható le:

p_{i_{1},i_{2},\ldots ,i_{N}}\approx \sum _{t}^{T}p_{t}\,\prod _{n}^{N}p_{i_{n},t}^{n},

Ahol $T$ a látens osztályok száma $p_{t}$ pedig az úgynevezett toborzási vagy feltétel nélküli valószínűségek, amelyeknek összegüknek egynek kell lennie. $p_{i_{n},t}^{n}$ a marginális vagy feltételes valószínűségek.

Kétirányú látens osztály modell esetén a forma a következő:

p_{ij}\approx \sum _{t}^{T}p_{t}\,p_{it}\,p_{jt}.

Ez a kétirányú modell a valószínűségi látens szemantikai elemzéssel és a nemnegatív mátrix faktorizációval áll kapcsolatban.

Az LOE-ben használt valószínűségi modell szorosan kapcsolódik a Naív Bayes osztályozóhoz. A fő különbség az, hogy az LOE-ben az egyén osztályhoz tartozása egy látens változó, míg a Naive Bayes osztályozóban az osztályhoz tartozás egy megfigyelt címke.

Az LOE limitációi szerkesztés

Az ideális csoportbasorolás az LOE esetében nem biztosított, továbbá, mivel a besorolás alapja probabilisztikus, a csoport tagjainak százalékos eloszlása nem határozható meg pontosan. Ezen felül, mivel a csoportok elnevezése önkényesen történik, megeshet, hogy a csoportok nem megfelelő névvel lesznek ellátva, illetőleg az is előfordulhat, hogy míg az illeszkedési mutatók alapján n- számú csoport meghatározása lenne a legmegfelelőbb, a jelenség vonatkozásában értelmesebb lenne több, vagy kevesebb csoport meghatározása ^[8].

Kapcsolódó módszerek szerkesztés

Számos különböző nevű és felhasználású módszer létezik, amelyeknek közös a kapcsolatuk. A klaszterelemzést az LOE-hez hasonlóan arra használják, hogy az adatokban taxonszerű esetcsoportokat fedezzenek fel. A többváltozós keverékbecslés (MME) folytonos adatokra alkalmazható, és feltételezi, hogy az ilyen adatok eloszlások keverékéből származnak: képzeljük el a férfiak és nők keverékéből származó magasságok halmazát. Ha a többváltozós keverékbecslést úgy korlátozzuk, hogy az egyes eloszlásokon belül a méréseknek korrelációmentesnek kell lenniük, akkor azt látens profilelemzésnek nevezzük. A diszkrét adatok kezelésére módosítva ezt a korlátozott elemzést LOE-nek nevezik. A diszkrét látens tulajdonságmodellek tovább korlátozzák az osztályokat, hogy azok egyetlen dimenzió szegmenseiből alakuljanak ki: lényegében a tagokat az adott dimenzió szerinti osztályokba sorolják: példa erre az esetek társadalmi osztályokba sorolása a képesség vagy az érdem dimenziója alapján.

Alkalmazási területek szerkesztés

Az LOE számos területen alkalmazható, ilyenek például: kollaboratív szűrés,^[9] viselkedésgenetika ^[10] és diagnosztikai tesztek értékelése. Manapság egyre nagyobb népszerűségnek örvend a társadalom tudományok területein ^[11].

Fordítás szerkesztés

Ez a szócikk részben vagy egészben a Latent class model című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Jegyzetek szerkesztés

↑ Mindrila, D. (2020). "Latent class analysis." International Journal for Cross-Disciplinary Subjects in Education, 11(2), 4323–4328 https://doi.org/10.20533/ijcdse.2042.6364.2020.0529
↑ ^a ^b ^c Lazarsfeld, P. F., & Henry, N. W. (1968). Latent structure analysis. Boston, MA: Houghton Mifflin.
↑ Formann, A. K. (1984). Latent Class Analyse: Einführung in die Theorie und Anwendung [Latent class analysis: Introduction to theory and application]. Weinheim: Beltz.
↑ Howard, M. C., & Hoffman, M. E. (2017). Variable-centered, person-centered, and person-specific approaches. Organizational Research Methods, 21(4), 846–876. https://doi.org/10.1177/1094428117744021
↑ Teichert, Thorsten (2000). "Das Latent-Ciass Verfahren zur Segmentierung von wahlbasierten Conjoint-Daten. Befunde einer empirischen Anwendung". Marketing ZFP. 22 (3): 227–240. doi:10.15358/0344-1369-2000-3-227. ISSN 0344-1369.
↑ Lazarsfeld, P. F. (1955). Recent developments in latent structure analysis. Sociometry, 18(4), 391. https://doi.org/10.2307/2785875
↑ Allan L. McCutcheon (1987). Latent class analysis. Quantitative Applications in the Social Sciences Series No. 64. Thousand Oaks, California: SAGE Publications. ISBN 978-0-521-59451-6.
↑ Weller, B. E., Bowen, N. K., & Faubert, S. J. (2020). Latent class Analysis: A Guide to best practice. Journal of Black Psychology, 46(4), 287–311. https://doi.org/10.1177/0095798420930932
↑ Cheung, Kwok-Wai; Tsui, Kwok-Ching; Liu, Jiming (2004). "Extended latent class models for collaborative recommendation". IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans. 34 (1): 143–148. CiteSeerX 10.1.1.6.2234. doi:10.1109/TSMCA.2003.818877. S2CID 11628144.
↑ Eaves, L. J., Silberg, J. L., Hewitt, J. K., Rutter, M., Meyer, J. M., Neale, M. C., & Pickles, A (1993). "Analyzing twin resemblance in multisymptom data: genetic applications of a latent class model for symptoms of conduct disorder in juvenile boys". Behavior Genetics. 23 (1): 5–19. doi:10.1007/bf01067550. PMID 8476390. S2CID 40678009.
↑ Bermingham, M. L., Handel, I. G., Glass, E. J., Woolliams, J. A., de Clare Bronsvoort, B. M., McBride, S. H., Skuce, R. A., Allen, A . R., McDowell, S. W. J., & Bishop, S. C. (2015). "Hui and Walter's latent-class model extended to estimate diagnostic test properties from surveillance data: a latent model for latent data". Scientific Reports. 5: 11861. Bibcode:2015NatSR...511861B. doi:10.1038/srep11861. PMC 4493568. PMID 26148538.

[1] Mindrila, D. (2020). "Latent class analysis." International Journal for Cross-Disciplinary Subjects in Education, 11(2), 4323–4328 https://doi.org/10.20533/ijcdse.2042.6364.2020.0529

[Lazarsfeld,_P._F._1968-2] Lazarsfeld, P. F., & Henry, N. W. (1968). Latent structure analysis. Boston, MA: Houghton Mifflin.

[3] Formann, A. K. (1984). Latent Class Analyse: Einführung in die Theorie und Anwendung [Latent class analysis: Introduction to theory and application]. Weinheim: Beltz.

[4] Howard, M. C., & Hoffman, M. E. (2017). Variable-centered, person-centered, and person-specific approaches. Organizational Research Methods, 21(4), 846–876. https://doi.org/10.1177/1094428117744021

[5] Teichert, Thorsten (2000). "Das Latent-Ciass Verfahren zur Segmentierung von wahlbasierten Conjoint-Daten. Befunde einer empirischen Anwendung". Marketing ZFP. 22 (3): 227–240. doi:10.15358/0344-1369-2000-3-227. ISSN 0344-1369.

[6] Lazarsfeld, P. F. (1955). Recent developments in latent structure analysis. Sociometry, 18(4), 391. https://doi.org/10.2307/2785875

[7] Allan L. McCutcheon (1987). Latent class analysis. Quantitative Applications in the Social Sciences Series No. 64. Thousand Oaks, California: SAGE Publications. ISBN 978-0-521-59451-6.

[8] Weller, B. E., Bowen, N. K., & Faubert, S. J. (2020). Latent class Analysis: A Guide to best practice. Journal of Black Psychology, 46(4), 287–311. https://doi.org/10.1177/0095798420930932

[9] Cheung, Kwok-Wai; Tsui, Kwok-Ching; Liu, Jiming (2004). "Extended latent class models for collaborative recommendation". IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans. 34 (1): 143–148. CiteSeerX 10.1.1.6.2234. doi:10.1109/TSMCA.2003.818877. S2CID 11628144.

[10] Eaves, L. J., Silberg, J. L., Hewitt, J. K., Rutter, M., Meyer, J. M., Neale, M. C., & Pickles, A (1993). "Analyzing twin resemblance in multisymptom data: genetic applications of a latent class model for symptoms of conduct disorder in juvenile boys". Behavior Genetics. 23 (1): 5–19. doi:10.1007/bf01067550. PMID 8476390. S2CID 40678009.

[11] Bermingham, M. L., Handel, I. G., Glass, E. J., Woolliams, J. A., de Clare Bronsvoort, B. M., McBride, S. H., Skuce, R. A., Allen, A . R., McDowell, S. W. J., & Bishop, S. C. (2015). "Hui and Walter's latent-class model extended to estimate diagnostic test properties from surveillance data: a latent model for latent data". Scientific Reports. 5: 11861. Bibcode:2015NatSR...511861B. doi:10.1038/srep11861. PMC 4493568. PMID 26148538.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]