„Nyelvészet” változatai közötti eltérés

[ellenőrzött változat][ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
Rosszkornyifog (vitalap | szerkesztései)
Visszavontam az utolsó  változtatást (89.186.96.222), visszaállítva Amator linguarum szerkesztésére
A Nyelvtechlológia szócikkbe átmozgatott rész törlése.
35. sor:
 
A nyelvészet erőforrásait (például korpuszok, nyelvtanok, tudásleíró eszközök stb.), módszereit és eszközeit nem tudományos célra, hanem az adott terület saját célrendszere érvényesülésének támogatására használják. Érdekes ebből a szempontból az Európai Unió esete, amelynél az EU egyes programjainak alárendelve találhatók meg az alkalmazott nyelvészeti kutatások.
 
'''Alkalmazott nyelvészeti kutatások az EU kutatási központjában'''
 
Az Európai Unió Közös Kutatási Központot (Joint Research Centre vagy JRC) tart fenn a közösség kutatási céljainak érvényesítése érdekében. Ennek a központnak van egy olyan intézete, amelynek feladata, hogy például az állampolgárok védelme és biztonsága témában a megfelelő nevű intézetben (Institute for the Protection and Security of the Citizen vagy IPSC) a témába vágó kutatásokat irányítsa.
 
Szűkebb területet jelöl meg a nyelvtechnológiának a '''webtechnológiában''' való alkalmazása, amely a világhálón található szövegek feldolgozásával foglalkozik további, még mindig széles és általános bontásban a következő témákra koncentrálva:
 
* [[szövegfeldolgozás]]
* [[dokumentum visszakeresés]]
* [[képi megjelenítés]] vagy vizualizáció
 
Az EU már régen foglalkozik ezzel a témával, bár előtte az ez irányú kutatás és „tudomány” még más neveken szerepelt. Így érthető, hogy már saját (korábbi finanszírozásban megvalósított vagy megvásárolt) termékei vagy eszközei is vannak, amelyek külön szócikket érdemelnek.
 
A témáról bővebben itt lehet olvasni: http://www.lingforum.com
 
'''A nyelvtechnológia központ'''
 
Nyelvtechnológia központnak nevezték (HLTCentral) az interneten a '''beszéd- és nyelvtechnológia''' szakterületének lehetőségeit felvonultató tárházat, ahol a szakmát művelők ebből a témakörből, valamint a kapcsolódó területekről információkhoz juthattak. Az oldalt két uniós finanszírozású projekt tartotta fenn, az '''ELSENET''' és az '''EUROMAP'''.
 
A honlap az alábbi témák köré csoportosult: K+F, technológiai és üzleti fejlemények a beszéd, a nyelv, a többnyelvűség, a gépi (automatikus) fordítás és a lokalizáció területeiről az egész világról, de európai szemszögből.
 
A központ honlapja megszűnt.
 
A 6. keretprogramban (F6) az e tudományágban 2006-ig folyó kutatásokra már évekkel ezelőtt kellett pályázni konkrét tudományos témákkal és tervekkel, azonban azoknak illeszkedniük kellett az EU '''információs társadalmi technológia''' (IST vagy Information Society Technology) célrendszeréhez, és azon belül a következők programpontoknak kellett megfelelniük:
 
IST-2002-2.3.1.7 – Szemantikai alapú tudásrendszerek (Semantic-based knowledge systems)
 
IST-2002-2.3.1.6 – Multimodális interfészek (Multimodal interfaces)
 
'''Nyelvtechnológiai eredmények az Egyesült Államokban'''
 
Az Egyesült Államokban az U.S. Commerce Department’s Technology Administration elnevezésű kormányszerv NIST néven futó ügynöksége foglalkozik a HLT terén elért eredmények értékelésével. Az Information Access Division (IAD) részleg rendelkezik egy Information Technology Laboratory nevű intézettel, amely a multimédiához és más komplex információkhoz hozzáférést biztosító, fejlett technológiákról méréseket és szabványokat ad közre.
 
Az IASD honlapon (itt: http://www.itl.nist.gov/iad/) A beszédfelismerés mérése és kiértékelés, a beszélő azonosítása, a beszélt nyelv megértése, az információ-keresés, visszakeresés és szűrés, a dokumentum megértés, összefoglalás, és az interaktív beszédmegértés témákkal foglalkoznak. Azonban az egyes termékek vagy szolgáltatások értékeléséhez, bírálatához segítségül hívják a szélesebb felhasználói közönséget, illetve a szakembereket, ezzel is elősegítve a területen működők kapcsolatát és összefogását. Évente meghirdetik, hogy milyen témákban van szükség értékelő munkára, kritikai véleményekre. 2005-ben és 2004-ben a következő alkalmazott nyelvészeti témakörök kerültek elő ezen a honlapon: http://www.nist.gov/speech/tests/summaries/index04.htm
 
Nyelvek közötti információszerzés, kivonatolás és összegzés (Translingual Information Detection Extraction and Summarization vagy TIDES) főcsoportban:
 
* Gépi fordítás
* Információszerzés
* Téma kiderítés és témakövetés
* Új esemény felfedezése
* Link gyűjtés
* Történettagolás
* Több nyelvi áttételes információ visszakeresése
* Nagy pontosságú dokumentum visszakeresése
* Automatikus tartalom kivonatolása
* Entitás beazonosítása
* Kapcsolat/Viszony felismerése
* Összegzés
* Dokumentummegértési konferencia
* Információ-gazdag átírás
* Hatékony és megfizethető beszédfelvétel újrahasznosítás
* Beszéd írássá való átalakítása
* Meta-adatok kinyerése
* Beszélők naplózása
* Akadozott beszéd felismerése
* Beszédhatár felismerése
* Találkozókon folytatott felismerés
* Beszéd írott szöveggé való átalakítása
* Meta-adat kinyerése
* Beszélő naplózása
 
Ezekről (például szöveg visszakeresése vagy a beszélő felismerése) konferenciákat és további ismertetőket is szerveznek, de az egész alkalmazott nyelvészeti kutatásügy lényegében az Egyesült Államok Védelmi Minisztériumának az ARDA (Advanced Research and Development Activity = ARDA) nevű fejlett K+F kutatási projektjébe tartozik, mivel az finanszírozza.
 
'''Alkalmazott nyelvészeti kutatások Magyarországon'''
 
A magyar kutatók több egyetemen is foglalkoznak alkalmazott nyelvészeti témákkal, de nem szükségszerűen a nyelvészeti oktatási (bölcsészkari) programokon belül.
 
Például a [[BME]] (Távközlési és Médiainformatikai Tanszék) a témákat a doktorandusz képzésben vezetik elő, ahol a kiindulási pont, a társadalmi igény az interneten keletkező információmennyiség hatékony kezelése, rendszerezése, lekérdezése és keresése. Feltételezve, hogy a nagy portálok [yahoo, google, origo stb.] hierarchikus kategóriarendszerekben tárolt és kikeresett dokumentumgyűjteményeit a felhasználói visszakeresés során a felhasználás szempontjai szerint hasonló strukturált szerkezetben kell tárolni, olyan módszerekre van szükség, amelyek ezt az előkeresett anyagot minél kevesebb ráfordítással lehetőleg automatikusan és természetesen minél kisebb hibával lehessen besorolni a (felhasználó szempontjából) megfelelő kategóriákba. Az egyik lehetséges módszer kategorizálási módszer hiánya esetén a dokumentumoknak valamilyen hasonlósági reláció alapján való csoportosítása, idegen szóval klaszterezése. (A dokumentumok természetesen nem csak szöveges adatok, hanem tetszőleges entitások, például képek, paraméterek stb. is lehetnek)
 
A praktikus alkalmazás területei magukba foglalják a többnyelvű dokumentum-osztályozási feladatokat (multi-lingual categorization); képek megfelelő feldolgozását és osztályozását, az orvosi diagnosztizáló, döntéstámogató rendszer kidolgozását ismert kórismék és kórtörténetek alapján; többnyelvű tematikus glosszáriumok automatikus készítése stb.) témákat.
 
''Tipikus témák:''
 
* Dokumentumgyűjtemények automatikus osztályozása, erre szolgáló algoritmusok
* Mintafelismerési algoritmusok alkalmazása képek osztályozására.
* Számítógépes nyelvtechnológia módszerek alkalmazása szöveges dokumentumok hatékonyabb feldolgozására
* Orvosi diagnosztizáló-döntéstámogató rendszer ismert kórismék és kórtörténetek alapján
 
Ugyanazon a BME tanszéken Olaszy Gábor és Németh Géza foglalkozik a beszédfelismeréssel, szintetikus magyar beszédgenerálással, illetve írott szövegből hangzó beszéd generálásával. (Ugyanezzel a témával az MTA egyik intézete is foglalkozik.)
 
A különböző beszélő ill. beszéddel vezérelt alkalmazások (e-levél és SMS felolvasás, automatizált tudakozó stb.) képezik az alkalmazott nyelvészet tárgyát. Különösen és konkrétan foglalkoznak a beszédtechnológiai technológiák, keretrendszerek és felhasználói felületek felmérésével és elemzésével különös tekintettel a nyelvfüggési és mobil technológiai szempontokra, foglalkoznak keretrendszerek és felhasználói felületek továbbfejlesztésével és implementálásával, illetve interdiszciplináris megközelítésű, újszerű minta és tesztrendszerek tervezésével és megvalósításával, valamint felhasználó orientált értékelésével.
 
További kutatási téma a beszédkeltési eljárásokban egyre növekvő szerepet kaptak a nagy mennyiségű természetes beszédből álló adatbázis címkézésére, feldolgozására és az így kialakított elemek összefűzésére építő módszerek. Ennek viszonylag nagy -de kötött- szókészletű alkalmazási területeken (például időjárásjelentés, menetrend) van az elsődleges alkalmazási területe. Azonban egyre több esetben merül fel ezen technikák alkalmazása kötetlen szókészletű szövegfelolvasó rendszerekben is.
 
E témákhoz a szó- vagy mondat alapú beszédkeltési módszerek vizsgálata, kritikai elemzése és megvalósítása szükséges a fenti tanszéken fejlesztett Profivox TTS rendszerkörnyezetben. A fenti kutatási témában ismerni kell a korpusz alapú adatbázis módszereket és a Profivox rendszert. A kutatás konkrétan adott személy spektrális és prozódia jellemzőinek vizsgálatára irányul, változó beszédprofilok kialakítása céljából. (v.ö. fent a beszélő felismerés témával)
 
Olaszy Gábor publikációi: http://fonetika.nytud.hu/og/publist_hu.htm
 
'''Az alkalmazott nyelvész „profilja”'''