Számítógépes nyelvészet
A számítógépes nyelvészet olyan műszaki tudomány, amely a természetes nyelvű szövegek számítógépes feldolgozásával foglalkozik, de minden olyan elméleti és gyakorlati tevékenység ide tartozik, amely kapcsolatban van a természetes nyelvekkel. Egy interdiszciplína, vagyis olyan szakterület, amely több terület eredményeire és tudására épül, mint pl. az informatika, a matematika és a nyelvészet.[1]
A számítógépes nyelvészet története
szerkesztésA számítógépes nyelvészet az 50-es és a 60-as években a gépi fordításból indult el. A kutatást elsősorban gazdasági és politikai okok mozgatták az Amerikai Egyesült Államokban, Kínában és az akkori Szovjetunióban. Több elnevezése ismert pl. kibernetika, információelmélet vagy nyelvtechnológia. A fogalom nem összetévesztendő a programozási nyelvvel, amelynek szinonimájaként a számítógépes nyelv is használatos.
A 60-as évek végéig az általánosan használt háttértároló a mágnesszalag volt, amely nemcsak lassúsága miatt, hanem alacsony tárolókapacitása miatt sem volt alkalmas nagy mennyiségű adatok tárolására. Később a mágnesszalagot felváltotta a mágneslemez és a virtuális memória.[2] A számítógép valóságos forradalmat okozott az alkalmazott nyelvtudományban, robbanásszerűen kiszélesítette a felhasználási területeket.[3]
A számítógépes nyelvészet elsőszámú célterülete a gépi fordítás, de emellett egyre több igény jelent meg e nyelvészeti ággal szemben. Mint például az automatikus kivonatolás és statisztikai jellegű információk előállítása az előbb említett nagyhatalmak számára, egymás újságjaiból és napilapjaiból. Majd ezekből a kivonatolt információkból szöveges összefoglalók készítése.[2] Ma már a számítógépes nyelvészet jelen van a nyelvi statisztikák készítésében, a fordítás és szótárkészítés segítésében, nagy terjedelmű szövegek tárolásában a korpusznyelvészetben, a helyesírás-ellenőrző programok készítésében és az internetes keresőrendszerek létrehozásában.
Először 1954-ben, New Yorkban fordított egy IBM-701-es számítógép néhány mondatot angolról oroszra,[4] majd 1957-ben készült el az első magyar-orosz gépi fordítási program. Ez a program csak olyan válogatott mondatokat tudott lefordítani, amelyekben sok mechanikusan ismétlődő rész volt.[5] A gépi fordítási mozgalom nagy lendülete a 60-as évek elejéig tartott, mert kiderült, hogy a probléma sokkal bonyolultabb és a nyelv sokkal összetettebb struktúra annál, mint ahogy azt először gondolták.[6]
A számítógépes nyelvészet céljai és eszközei
szerkesztésA gép a nyelvet szövegként, sőt betűk sorozataként érzékeli, számára ezek számkódok (egyesek és nullák) sorozata, ahol az egyes számkódok betűket és írásjeleket képviselnek. Nemcsak tárolnia és megjelenítenie kell a szöveget, hanem fel kell ismernie a benne lévő nyelvi szerkezeteket is. A természetes nyelvekben szabályszerűségek vannak és ezeket kell megtalálnia. Legalapvetőbb leírási szintje a számítógépes morfológia és szintaxis, amelyeknek bonyolultsága nyelvfüggő.[1] Automatikus, használható fordítási kulcsot nem lehet létrehozni, minden esetben a felhasználó aktív közreműködése szükséges, a gép (még) nem tud az ember helyett fordítani. A fordítógépek programjaitól nem várhatunk többet, mint más nyelvtani összeállításoktól.[5][6]A szavak és mondatok valódi tartalmának felismeréséhez és megfelelő kezeléséhez világismeretre van szükség.[1]
Ma már nem is mesterséges intelligenciáról, hanem inkább nyelvtechnológiáról beszélünk, aminek a mindennapokban is használt sikerei közé tartozik például a helyesírás-ellenőrzés, a szövegkivonatolás, a bankszámlaegyenleg lekérdezése, a mozijegyrendelés és bizonyos területeken (mint például a kanadai időjárás-jelentés) a gépi fordítás. Ezek és más hasonló alkalmazások a nyelvtechnológia egyes részfeladatainak megoldásával jöhettek létre.[7]
- Beszédfelismerés: a hallgató szerepében a gép első feladata a felhasználó által adott akusztikus jelek felismerése és a folyamatos hanghullám nyelvi egységekre bontása.
- Beszédszintézis: a dialógus másik oldalán a gépnek tudnia kell beszédhangokat szintetizálni és ezeket folyamatos beszéddé alakítani.
- Parsing (elemzés): a nyelvelemzés során a feladat a szöveg különböző szintű elemeinek rendszerezése, az elemek közötti függőségek megállapítása. A mondatok szintjén a szavak szerveződését vizsgáljuk (pl. mi minek a jelzője, birtokosa, tárgya stb.), a szavak szintjén pedig a szótő és a toldalékok viszonya az elemzés tárgya (pl. a szavak szófajának megállapítása és a végződések kategorizálása).
- Szemantikai elemzés: a szöveg értelmezéséhez ismerni kell nemcsak a szavak jelentését, hanem a szöveg körülményeitől függő ún. deiktikus kifejezések utalási szándékát is. Az akkor, tegnap, ő, itt szavak például csak a szövegkörnyezethez és/vagy a fizikai környezethez viszonyítva értelmezhetők.
- Generálás: nyelvgenerálásnak nevezzük valamilyen tudás nyelvi kódolását, vagyis természetes nyelven – megformált mondatokban, szövegben – való kifejezését. Tekinthető ez úgy, mint a parsing és a szemantikai elemzés fordított irányú alkalmazása.
- Inferencia: egy bonyolultabb, háttértudással vagy tanulómemóriával rendelkező rendszer logikai következtetések levonására is alkalmas lehet, amivel input hiányában is kinyerhet új információt. Ezt a folyamatot nevezzük inferenciának.[7]
Jegyzetek
szerkesztés- ↑ a b c [[Kenesei István (nyelvész)|]] (szerk.): A nyelv és a nyelvek. Akadémiai Kiadó, Budapest, 2004.
- ↑ a b Prószéky Gábor: Számítógépes nyelvészet. Számítástechnika-Alkalmazási Vállalat, Budapest, 1989.
- ↑ Papp Ferenc: Alkalmazott nyelvtudomány: Akadémiai székfoglaló: 1986. május 19. Akadémiai Kiadó, Budapest, 1986.
- ↑ 701 Translator, IBM sajtóközlemény, 1954 jan. 8. - oroszról angolra
- ↑ a b Simigné Fenyő Sarolta: Bevezetés az alkalmazott nyelvészetbe, Miskolci Egyetem, 2003.
- ↑ a b Fodor István: Mire jó a nyelvtudomány? Gondolat, Budapest, 1968.
- ↑ a b Babarczy Anna: Számítógépes nyelvészet
Források
szerkesztés- Babarczy Anna: Számítógépes nyelvészet
- Fodor István: Mire jó a nyelvtudomány? Gondolat, Budapest, 1968
- Kenesei István (szerk.): A nyelv és a nyelvek. Akadémiai Kiadó, Budapest, 2004
- Papp Ferenc: Alkalmazott nyelvtudomány: Akadémiai székfoglaló: 1986. május 19. Akadémiai Kiadó, Budapest, 1986
- Prószéky Gábor: Számítógépes nyelvészet. Számítástechnika-Alkalmazási Vállalat, Budapest, 1989
- Simigné Fenyő Sarolta: Bevezetés az alkalmazott nyelvészetbe, Miskolci Egyetem, 2003
- Alberti Gábor: Matematika a természetes nyelvek leírásában, Budapest, Tinta Könyvkiadó, 2006
- Klaudy Kinga (szerkesztő): Papp Ferenc olvasókönyv Papp Ferenc válogatott nyelvészeti tanulmányai, Budapest, Tinta Könyvkiadó, 2006
- Szirmai Monika: Bevezetés a korpusznyelvészetbe A korpusznyelvészet alkalmazása az anyanyelv és az idegen nyelv tanulásában és tanításában, Budapest, Tinta Könyvkiadó, 2006