„Adatbányászat” változatai közötti eltérés

[ellenőrzött változat][ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
Dexbot (vitalap | szerkesztései)
a Removing Link GA template (handled by wikidata)
Nincs szerkesztési összefoglaló
2. sor:
{{korr}}
 
Az '''adatbányászat''' a nagy mennyiségű [[adat]]okban rejlő [[információ]]k félautomatikus feltárása különféle [[algoritmus]]ok alkalmazásával. Több definíciója ismert és elfogadott. Magyarországon a leggyakrabban '''adatbányászat''' alatt újszerű, érvényes, nem triviális és vélhetően hasznos és magyarázható összefüggések keresését értik nagy adathalmazban <ref>{{cite journal |author=Frawley, W. J., Piatetsky-Shapiro, G., & Matheus, C. J. |title=Knowledge Discovery in Databases: An Overview |journal=AI Magazine |volume=13 (3) |pages=57-70 |year=1992}}</ref>. Más megfogalmazásban 3É, azaz érdekes, értékes, értelmes összefüggések keresése nagy adathalmazokban az '''adatbányászat''' célja. A megfogalmazásokban szereplő szavaknak különös súlya van és egyik sem elhagyható (ahogyan sokan teszik).
 
Az újszerűség azt foglalja magában, hogy jelenleg a területi szakértők által még nem ismert összefüggések feltárására törekszünk, meglévő tudás kinyerése, bizonyítása ugyan lehet mellékhatás, de sosem cél. Érvényesnek kell lennie a felmérésnek, azaz vizsgálni kell azt a kérdést is, hogy a kinyert összefüggés a valósággal összhangban van-e, más jelenségek is alátámasztják az összefüggést, nem csak az adatok valamilyen sajátos rendezése folytán jutottunk-e az adott következtetésre. A vélhető hasznosság hangsúlyozása azért fontos, mert az adatbányászatnak mindig üzleti célúnak és szemléletűnek kell lennie; értékelni kell minden esetben, hogy egy-egy feltárt összefüggés hordoz-e értéket potenciálisan a szervezet számára. Végezetül magyarázhatónak kell lenni az összefüggésnek, azaz fel kell tárni azt, hogy miért és hogyan jutottunk egy következtetésre, nem elegendő elfogadni az eredményeket; a szervezetbe való beilleszthetőségének, a döntéshozók felelős döntésének ez elengedhetetlen része.
 
Adatbányászat egy olyan tudományos szakterület, amely a valós életben jól megfigyelhető (értsd egzakt, zárt alakban, egyértelműen leírható) jelenségek és a jól mérhető, numerikus adatok és adathalmazok közötti összefüggéseket keresi és elemzi. Fontos kiemelni, hogy az adatbányászat e megfogalmazásban (az összefüggések keresésével) eleve kizárja a statisztikai jellemzést, hiszen az lényegében csak egy állapot leírására szolgál. Statisztikai jellemzések sokaságát, illetve az abból levonható általánosabb következtetések sokaságát ugyanakkor nem zárja ki (nagyon helyesen). A megfigyelhetőség kritériuma a definícióban azért fontos, mert egyértelműen el kell tudnunk dönteni, illetve ellenőrizni kell tudnunk, hogy a következtetés adott esetben helytálló-e. Szubjektív vagy nem egyértelműen eldönthető, esetleg vitatható dolgokat az adatbányászati módszerek legfeljebb közelítéssel tudnak megoldani, de a közelítés pontossága, jósága sosem tárható fel; azaz használhatatlan eredményeket kapnánk. A megfogalmazás másik erőssége, hogy ebbe az adatbányászat számos ága belefér, így pl. [[szövegbányászat]] és a [[gén]]kutatás is. Szűk értelemben azonban adatbányászat alatt a strukturált, adatbázisokban tárolható adatokon értelmezett összefüggés-kereső tevékenységeket értjük.
14. sor:
* Nem strukturált adatok esetében
** szövegbányászatról
** kép analízisrólképanalízisről (kép alapú adatbányászatról)
** videó analitikáról (videó alapú adatbányászatról)
 
Éppennyire gyakori azonban a cél szerinti osztályozás is, amely értelemszerűen valamely adattípushoz inkább kötődik, de a sajátos feladat határozza meg az alkalmazható eljárások körét. Ilyen például - a teljesség igénye nélkül:
* (web-, kép-, videó-, név- stb.) keresés
* webbányászat
25. sor:
* gépi látás
* biometrikus azonosítás (aláírás, arcfelismerés, hangfelismerés, mozgásfelismerés stb.)
 
 
 
== Története ==
37 ⟶ 35 sor:
 
== Az adatbányászat mint folyamat ==
Az adatbányászati folyamatnak több kidolgozott eljárása is létezik, amely többnyire valamilyen termékhez kapcsolódik. A legismertebbek Magyarországon az SPSS (ma IBM) 5A (Assess, Access, Analyze, Act, Automate), a SAS SEMMA <ref>SAS Institute; [http://www.sas.com/offices/europe/uk/technologies/analytics/datamining/miner/semma.html ''SAS Enterprise Miner - SEMMA''], 2010</ref> (Sample, Explore, Modify, Model, Assess) eljárása, a KDD Process <ref>{{cite journal |author=Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. |title=From Data Mining to Knowledge Discovery in Databases |year=1996 |journal=AI Magazine |volume=17 |pages=37-54 }}</ref> és a CRISP-DM <ref>{{cite journal |author=Shearer, C.|title= The CRISP-DM Model: The New Blueprint for Data Mining|journal= Journal of Data Warehousing |volume= 5 (4) |pages=13-22 |year=2000 }}</ref> (CRoss Industry Standard Process for Data Mining), ami egy ipari szabvány; de a legtöbben saját módszertant használnak. Bár ezek a módszertanok különböző részelemekre fókuszálnak attól függően, hogy milyen termék vagy a létrehozását támogató kör támogatta, összességében nagyon hasonló eljárásokról beszélünk. Az 5A és a SEMMA elsősorban magára az elemzésre fókuszál, a CRISP-DM pedig az üzleti környezetbe való beágyazást tekinti a kiindulási állapotnak.
 
Egy sikeres adatbányászati projekt legfontosabb lépcsői:
50 ⟶ 48 sor:
 
Az egyes lépéseken sorban haladnak végig a projektek során, alkalmazásuk azonban több iterációban történik. Minden szakaszban új ismeretre lehet szert tenni - ha másért nem, hát azért, mert látjuk, hogy helyes-e egy-egy hipotézis vagy sem -, amelyet a megelőző szakaszokba integrálva új optimumpont keresését és kiválasztását teszi lehetővé.
 
 
== Algoritmuscsaládok, modellezési technikák ==
96 ⟶ 93 sor:
Azonban azt is tudatni kell velük, hogy mire lesz pontosan felhasználva a tárolt adat. Ez az adatbányászat esetében csak ritkán teljesíthető, mivel a folyamat során talált minták alapján derül ki a felhasználási terület.
A másik lehetséges út, hogy ha az illető nem járul hozzá, hogy adatait adatbányászatra felhasználják, ekkor azonban amíg sok ember fog hozzájárulni adatai általános, adatbányászati célú felhasználásához, úgy mindig elég adat lesz, hogy az egyén adatait a tanító adatbázisból kihagyva rá is érvényes modellt kapjunk, amit aztán az üzleti logikába implementáljunk.
 
 
== További információk ==
* http://adatbanyaszat.lap.hu/
* [http://www.cs.bme.hu/~bodon/magyar Dr. Bodon Ferenc] Adatbányászati algoritmusok. Szabadon letölthető egyetemi jegyzet: http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/index.html
* http://www.spss.hu/
* [http://www.kfki.com/letoltes.php?file=/hu/kfkilato/dokumentumok/adatbanyaszat_fajszi-zimmer_0208.pdf Fajszi B., Zimmer M.: Adatbányászat: A rejtőzködő lehetőségek tudománya, KFKI dokumentum (letölthető – PDF)]
* Jiawei Han és Micheline Kamber "Data Mining" című könyvének [http://www.cs.sfu.ca/~han/dmbook weboldala]. A könyv megjelent [http://www.panem.hu/a_konyv.php?konyv=158 magyarul] is
* Lukács András előadásának ([[ELTE]]) fóliái és kéziratai: [http://info.ilab.sztaki.hu/~lukacs/adatbanyaEA.htm]
133 ⟶ 129 sor:
 
{{jegyzetek}}
 
 
 
{{DEFAULTSORT:Adatbanyaszat}}