„Főkomponens-analízis” változatai közötti eltérés

[nem ellenőrzött változat][nem ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
R4b6it (vitalap | szerkesztései)
aNincs szerkesztési összefoglaló
R4b6it (vitalap | szerkesztései)
10. sor:
A főkomponens-analízis felfogható úgy is, mint ha egy ''n'' dimenziós [[ellipszoid]]ot próbálnánk az adatokra illeszteni, ahol az ellipszoid mindegyik tengelye egy főkomponens lenne. Ha az ellipszoid valamelyik tengelye kicsi, akkor a tengely menti variancia is kicsi lesz, és ha elhagyjuk ezt a tengelyt és a hozzá tartozó főkomponenst az adathalmaz reprezentációjából, akkor csak egy ezzel arányosan kis adatmennyiséget veszítünk el.
 
Ahhoz, hogy megtaláljuk az ellipszoid tengelyeit, elsőként ki kell vonnunk minden változó átlagát az adathalmazból, hogy az adatokat az origó köré igazítsuk. Ezután kiszámítjuk az adatok kovariancia mátrixátkovarianciamátrixát és a sajátértékeket, illetve a kovariancia mátrixhoz tartozó sajátvektorokat. Utána merőlegesítjük (ortogonalizáljuk) és normalizáljuk a sajátvektor halmazt (a klasszikus [[Koordináta-rendszer#Descartes-féle koordináta-rendszer|Karteziánus koordináta rendszerek]] egy típusa: ortonormált=ortogonális és normált), hogy egységvektorokat kapjunk. Ezt követően a kapott, kölcsönösen merőleges egységvektorokra úgy tekinthetünk, mint az ellipszoid adatra illesztett tengelyeire. A varianciák azon hányada, melyet az egyes sajátvektorok képviselnek kiszámítható úgy, hogy a sajátvektorhoz tartozó sajátértéket elosztjuk az összes sajátérték összegével.
 
Fontos megjegyezni, hogy ez az eljárás érzékeny az adatok skálázására, s nem létezik konszenzus arra vonatkozólag, hogy hogyan kell az adatokat skálázni az optimális eredmények eléréséhez.