„Döntési fa” változatai közötti eltérés

[ellenőrzött változat][ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
→‎Döntési fát előállító algoritmusok: a CHAID család; felhasználás; metszés
a →‎Döntési fát előállító algoritmusok: linkek, döntés, alsó index
5. sor:
A döntési fa a különböző döntési lehetőségeket ábrázolja, az esetleges következményeket, esélyeket, hasznosságot és erőforrásokat figyelembe véve, attól függően, hogy mire használják. A döntési fa egy olyan faszerkezet, amelyben minden belső csúcs egy értékre vonatkozó ellenőrzést jelöl, a csúcsból kivezető minden él pedig az ellenőrzés egy-egy kimenetének feleltethető meg, így lehetővé téve, hogy fa formában ábrázoljunk függvényeket.
==Döntési fát előállító algoritmusok==
A döntési fa előállítására több eljárást is kidolgoztak. Ezek mind rekurzív algoritmusok[[algoritmus]]ok, amik egy kérdésre adott válasz szerint szétbontják a tanulóhalmazt. A kérdéseket úgy teszik fel, hogy a kisebb részek homogénebbek legyenek a magyarázandó változó szempontjából, mint az egész.
 
Több kritériumot is megadnak a [[rekurzió]] leállítására az egyes ágakon:
*Nincs értelme tovább osztani a csomópont elemeit:
:*A csomóponthoz tartozó elemek homogének a vizsgált tulajdonságokra
16. sor:
 
Három nagy algoritmuscsalád létezik a döntési fák generálására:
*ID3 ''Interactive Dichotomizer 3''
*CART ''Classification and Regression Trees''
*CHAID ''Chi-squared Automatic Interaction Detection''
 
Az ID3 családba tartozó algoritmus:
*A legnagyobb [[entrópia|entrópiájú]] attributumot választja
*Csak magukra az attributumokra tesztel, és nem attributumok lineáris kombinációira
*Nominális attributumra annyi felé ágazik, ahány értéket az attributum felvehet
30. sor:
*A Gini-indexet használja:
:<math>\mathrm{Gini}(n)=\sum _{i=1}^k p_i \left ( 1-\sum_{j=1}^l p_{ij}^2 \right )</math>
:„ahol ''p''_<sub>''i''</sub> az ''i''-edik attributum érték relatív gyakorisága az ''n'' csúcshoz tartozó mintában, és ''p''_<sub>''ij''</sub> a magyarázott változó ''j''-edik értékének relatív gyakorisága a ''c''_<sub>''i''</sub> gyerekhez tartozó almintában.” Azaz mindig a lehető legnagyobb homogén osztályt választja le.
*Az attributumok lineáris kombinációit is teszteli
*Nagy bináris fát épít
36. sor:
 
A CHAID családba tartozó algoritmus:
*A [[khi-négyzet próba|khi-tesztet]] használja
*Csak magukra az attributumokra tesztel
*Intervallum skálán mért magyarázott változó esetén F-tesztet használ
*Csak addig növeli a bináris fát, amíg a legjobb szétvágás szignifikanciája meghalad egy bizonyos szintet
*Ha egymás után kevés attributumot tesztel, akkor lehet, hogy az attributumok egy függvénye az igazi kritérium