„Adatbányászat” változatai közötti eltérés

[nem ellenőrzött változat][nem ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
Betuveto (vitalap | szerkesztései)
Betuveto (vitalap | szerkesztései)
Nincs szerkesztési összefoglaló
2. sor:
{{korr}}
 
Az '''adatbányászat''' a nagy mennyiségű [[adat]]okban rejlő [[információ]]k félautomatikus feltárása [[mesterséges intelligencia]]különféle [[algoritmus]]ok alkalmazásával. (példáulTöbb neurálisdefiníciója hálók,ismert szabálygenerálók,és asszociációs modellek)elfogadott. MásMagyarországon megfogalmazásbana azleggyakrabban '''adatbányászat''' alatt újszerű, érvényes, nem triviális és vélhetően hasznos és magyarázható összefüggések keresésekeresését értik nagy adathalmazban <ref>{{cite journal |author=Frawley, W. AJ., köznyelvPiatetsky-Shapiro, ésG., különböző& informatikaiMatheus, cégekC. sokJ. mindent|title=Knowledge neveznekDiscovery adatbányászatnak,in deDatabases: aAn szigorúbbOverview szakmai|journal=AI terminológiaMagazine szerint|volume=13 nem|number=3 tekinthető|pages=57-70 adatbányászatnak|year=1992}}</ref>. azMás adatokbólmegfogalmazásban lekérdezésekkel, aggregálásokkalazaz érdekes, illetveértékes, alap-[[statisztika]]iértelmes vizsgálatokkalösszefüggések történőkeresése információ-kinyerésnagy adathalmazokban az '''adatbányászat''' célja. A megfogalmazásokban szereplő szavaknak különös súlya van és egyik sem elhagyható (ahogyan sokan teszik).
 
Az újszerűség azt foglalja magában, hogy jelenleg a területi szakértők által még nem ismert összefüggések feltárására törekszünk, meglévő tudás kinyerése, bizonyítása ugyan lehet mellékhatás, de sosem cél. Érvényesnek kell lennie a felmérésnek, azaz vizsgálni kell azt a kérdést is, hogy a kinyert összefüggés a valósággal összhangban van-e, más jelenségek is alátámasztják az összefüggést, nem csak az adatok valamilyen sajátos rendezése folytán jutottunk-e az adott következtetésre. A vélhető hasznosság hangsúlyozása azért fontos, mert az adatbányászatnak mindig üzleti célúnak és szemléletűnek kell lennie; értékelni kell minden esetben, hogy egy-egy feltárt összefüggés hordoz-e értéket potenciálisan a szervezet számára. Végezetül magyarázhatónak kell lenni az összefüggésnek, azaz fel kell tárni azt, hogy miért és hogyan jutottunk egy következtetésre, nem elegendő elfogadni az eredményeket; a szervezetbe való beilleszthetőségének, a döntéshozók felelős döntésének ez elengedhetetlen része.
Adatbányászat egy olyan tudományos szakterület, amely a valós életben jól megfigyelhető (értsd egzakt, zárt alakban, egyértelműen leírható) jelenségek és a jól mérhető, numerikus adatok és adathalmazok közötti összefüggéseket keresi és elemzi. Fontos kiemelni, hogy az adatbányászat e megfogalmazásban (az összefüggések keresésével) eleve kizárja a statisztikai jellemzést, hiszen az lényegében csak egy állapot leírására szolgál. Statisztikai jellemzések sokaságát, illetve az abból levonható általánosabb következtetések sokaságát ugyanakkor nem zárja ki (nagyon helyesen). A megfigyelhetőség kritériuma a definícióban azért fontos, mert egyértelműen el kell tudnunk dönteni, illetve ellenőrizni kell tudnunk, hogy a következtetés adott esetben helytálló-e. Szubjektív vagy nem egyértelműen eldönthető, esetleg vitatható dolgokat az adatbányászati módszerek legfeljebb közelítéssel tudnak megoldani, de a közelítés pontossága, jósága sosem tárható fel; azaz tökéletesen használhatatlan eredményeket kapnánk. A megfogalmazás másik erőssége, hogy ebbe az adatbányászat számos ága belefér, így pl. [[szövegbányászat]] és a [[gén]]kutatás is.
 
A köznyelv és különböző informatikai cégek sok mindent neveznek adatbányászatnak, de a szigorúbb szakmai terminológia szerint nem tekinthető adatbányászatnak az adatokból lekérdezésekkel, aggregálásokkal, illetve alap-[[statisztika]]i vizsgálatokkal történő információ-kinyerés. Adatbányászat egy olyan tudományos szakterület, amely a valós életben jól megfigyelhető (értsd egzakt, zárt alakban, egyértelműen leírható) jelenségek és a jól mérhető, numerikus adatok és adathalmazok közötti összefüggéseket keresi és elemzi. Fontos kiemelni, hogy az adatbányászat e megfogalmazásban (az összefüggések keresésével) eleve kizárja a statisztikai jellemzést, hiszen az lényegében csak egy állapot leírására szolgál. Statisztikai jellemzések sokaságát, illetve az abból levonható általánosabb következtetések sokaságát ugyanakkor nem zárja ki (nagyon helyesen). A megfigyelhetőség kritériuma a definícióban azért fontos, mert egyértelműen el kell tudnunk dönteni, illetve ellenőrizni kell tudnunk, hogy a következtetés adott esetben helytálló-e. Szubjektív vagy nem egyértelműen eldönthető, esetleg vitatható dolgokat az adatbányászati módszerek legfeljebb közelítéssel tudnak megoldani, de a közelítés pontossága, jósága sosem tárható fel; azaz tökéletesen használhatatlan eredményeket kapnánk. A megfogalmazás másik erőssége, hogy ebbe az adatbányászat számos ága belefér, így pl. [[szövegbányászat]] és a [[gén]]kutatás is.
 
== Története ==