„Adatbányászat” változatai közötti eltérés

[nem ellenőrzött változat][nem ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
Betuveto (vitalap | szerkesztései)
Betuveto (vitalap | szerkesztései)
Nincs szerkesztési összefoglaló
6. sor:
Az újszerűség azt foglalja magában, hogy jelenleg a területi szakértők által még nem ismert összefüggések feltárására törekszünk, meglévő tudás kinyerése, bizonyítása ugyan lehet mellékhatás, de sosem cél. Érvényesnek kell lennie a felmérésnek, azaz vizsgálni kell azt a kérdést is, hogy a kinyert összefüggés a valósággal összhangban van-e, más jelenségek is alátámasztják az összefüggést, nem csak az adatok valamilyen sajátos rendezése folytán jutottunk-e az adott következtetésre. A vélhető hasznosság hangsúlyozása azért fontos, mert az adatbányászatnak mindig üzleti célúnak és szemléletűnek kell lennie; értékelni kell minden esetben, hogy egy-egy feltárt összefüggés hordoz-e értéket potenciálisan a szervezet számára. Végezetül magyarázhatónak kell lenni az összefüggésnek, azaz fel kell tárni azt, hogy miért és hogyan jutottunk egy következtetésre, nem elegendő elfogadni az eredményeket; a szervezetbe való beilleszthetőségének, a döntéshozók felelős döntésének ez elengedhetetlen része.
 
A köznyelv és különböző informatikai cégek sok mindent neveznek adatbányászatnak, de a szigorúbb szakmai terminológia szerint nem tekinthető adatbányászatnak az adatokból lekérdezésekkel, aggregálásokkal, illetve alap-[[statisztika]]i vizsgálatokkal történő információ-kinyerés. Adatbányászat egy olyan tudományos szakterület, amely a valós életben jól megfigyelhető (értsd egzakt, zárt alakban, egyértelműen leírható) jelenségek és a jól mérhető, numerikus adatok és adathalmazok közötti összefüggéseket keresi és elemzi. Fontos kiemelni, hogy az adatbányászat e megfogalmazásban (az összefüggések keresésével) eleve kizárja a statisztikai jellemzést, hiszen az lényegében csak egy állapot leírására szolgál. Statisztikai jellemzések sokaságát, illetve az abból levonható általánosabb következtetések sokaságát ugyanakkor nem zárja ki (nagyon helyesen). A megfigyelhetőség kritériuma a definícióban azért fontos, mert egyértelműen el kell tudnunk dönteni, illetve ellenőrizni kell tudnunk, hogy a következtetés adott esetben helytálló-e. Szubjektív vagy nem egyértelműen eldönthető, esetleg vitatható dolgokat az adatbányászati módszerek legfeljebb közelítéssel tudnak megoldani, de a közelítés pontossága, jósága sosem tárható fel; azaz használhatatlan eredményeket kapnánk. A megfogalmazás másik erőssége, hogy ebbe az adatbányászat számos ága belefér, így pl. [[szövegbányászat]] és a [[gén]]kutatás is. Szűk értelemben azonban adatbányászat alatt a strukturált, adatbázisokban tárolható adatokon értelmezett összefüggés-kereső tevékenységeket értjük.
 
Az '''adatbányászat''' egyes elemeit több szempont alapján szokás osztályozni. Adattípusok alapján beszélhetünk:
* Strukturált adatok esetében
** strukturált adatbányászatról
** folyamjellegű (strukturált) adatbányászatáról (web kattintások, idősorok, gének, gráfok és hang - ami egy speciális idősor - tartozik jellemzően ide)
* Nem strukturált adatok esetében
** szövegbányászatról
** kép analízisról (kép alapú adatbányászatról)
** videó analitikáról (videó alapú adatbányászatról)
 
Éppennyire gyakori azonban a cél szerinti osztályozás is, amely értelemszerűen valamely adattípushoz inkább kötődik, de a sajátos feladat határozza meg az alkalmazható eljárások körét. Ilyen például - a teljesség igénye nélkül:
* (web-, kép-, videó-, név- stb.) keresés
* webbányászat
* ajánló rendszerek
* érzelemdetekció (szentiment elemzés)
* génkutatás
* gépi látás
* biometrikus azonosítás (aláírás, arcfelismerés, hangfelismerés, mozgásfelismerés stb.)
 
== Története ==