Számítógépes nyelvészet

A számítógépes nyelvészet olyan műszaki tudomány, amely a természetes nyelvű szövegek számítógépes feldolgozásával foglalkozik, de minden olyan elméleti és gyakorlati tevékenység ide tartozik, amely kapcsolatban van a természetes nyelvekkel. Egy interdiszciplína, vagyis olyan szakterület, amely több terület eredményeire és tudására épül, mint pl. az informatika, a matematika és a nyelvészet.^[1]

A számítógépes nyelvészet története

A számítógépes nyelvészet az 50-es és a 60-as években a gépi fordításból indult el. A kutatást elsősorban gazdasági és politikai okok mozgatták az Amerikai Egyesült Államokban, Kínában és az akkori Szovjetunióban. Több elnevezése ismert pl. kibernetika, információelmélet vagy nyelvtechnológia. A fogalom nem összetévesztendő a programozási nyelvvel, amelynek szinonimájaként a számítógépes nyelv is használatos.

A 60-as évek végéig az általánosan használt háttértároló a mágnesszalag volt, amely nemcsak lassúsága miatt, hanem alacsony tárolókapacitása miatt sem volt alkalmas nagy mennyiségű adatok tárolására. Később a mágnesszalagot felváltotta a mágneslemez és a virtuális memória.^[2] A számítógép valóságos forradalmat okozott az alkalmazott nyelvtudományban, robbanásszerűen kiszélesítette a felhasználási területeket.^[3]

A számítógépes nyelvészet elsőszámú célterülete a gépi fordítás, de emellett egyre több igény jelent meg e nyelvészeti ággal szemben. Mint például az automatikus kivonatolás és statisztikai jellegű információk előállítása az előbb említett nagyhatalmak számára, egymás újságjaiból és napilapjaiból. Majd ezekből a kivonatolt információkból szöveges összefoglalók készítése.^[2] Ma már a számítógépes nyelvészet jelen van a nyelvi statisztikák készítésében, a fordítás és szótárkészítés segítésében, nagy terjedelmű szövegek tárolásában a korpusznyelvészetben, a helyesírás-ellenőrző programok készítésében és az internetes keresőrendszerek létrehozásában.

Először 1954-ben, New Yorkban fordított egy IBM-701-es számítógép néhány mondatot angolról oroszra,^[4] majd 1957-ben készült el az első magyar-orosz gépi fordítási program. Ez a program csak olyan válogatott mondatokat tudott lefordítani, amelyekben sok mechanikusan ismétlődő rész volt.^[5] A gépi fordítási mozgalom nagy lendülete a 60-as évek elejéig tartott, mert kiderült, hogy a probléma sokkal bonyolultabb és a nyelv sokkal összetettebb struktúra annál, mint ahogy azt először gondolták.^[6]

A számítógépes nyelvészet céljai és eszközei

A gép a nyelvet szövegként, sőt betűk sorozataként érzékeli, számára ezek számkódok (egyesek és nullák) sorozata, ahol az egyes számkódok betűket és írásjeleket képviselnek. Nemcsak tárolnia és megjelenítenie kell a szöveget, hanem fel kell ismernie a benne lévő nyelvi szerkezeteket is. A természetes nyelvekben szabályszerűségek vannak és ezeket kell megtalálnia. Legalapvetőbb leírási szintje a számítógépes morfológia és szintaxis, amelyeknek bonyolultsága nyelvfüggő.^[1] Automatikus, használható fordítási kulcsot nem lehet létrehozni, minden esetben a felhasználó aktív közreműködése szükséges, a gép (még) nem tud az ember helyett fordítani. A fordítógépek programjaitól nem várhatunk többet, mint más nyelvtani összeállításoktól.^[5]^[6]A szavak és mondatok valódi tartalmának felismeréséhez és megfelelő kezeléséhez világismeretre van szükség.^[1]

Ma már nem is mesterséges intelligenciáról, hanem inkább nyelvtechnológiáról beszélünk, aminek a mindennapokban is használt sikerei közé tartozik például a helyesírás-ellenőrzés, a szövegkivonatolás, a bankszámlaegyenleg lekérdezése, a mozijegyrendelés és bizonyos területeken (mint például a kanadai időjárás-jelentés) a gépi fordítás. Ezek és más hasonló alkalmazások a nyelvtechnológia egyes részfeladatainak megoldásával jöhettek létre.^[7]

Beszédfelismerés: a hallgató szerepében a gép első feladata a felhasználó által adott akusztikus jelek felismerése és a folyamatos hanghullám nyelvi egységekre bontása.
Beszédszintézis: a dialógus másik oldalán a gépnek tudnia kell beszédhangokat szintetizálni és ezeket folyamatos beszéddé alakítani.
Parsing (elemzés): a nyelvelemzés során a feladat a szöveg különböző szintű elemeinek rendszerezése, az elemek közötti függőségek megállapítása. A mondatok szintjén a szavak szerveződését vizsgáljuk (pl. mi minek a jelzője, birtokosa, tárgya stb.), a szavak szintjén pedig a szótő és a toldalékok viszonya az elemzés tárgya (pl. a szavak szófajának megállapítása és a végződések kategorizálása).
Szemantikai elemzés: a szöveg értelmezéséhez ismerni kell nemcsak a szavak jelentését, hanem a szöveg körülményeitől függő ún. deiktikus kifejezések utalási szándékát is. Az akkor, tegnap, ő, itt szavak például csak a szövegkörnyezethez és/vagy a fizikai környezethez viszonyítva értelmezhetők.
Generálás: nyelvgenerálásnak nevezzük valamilyen tudás nyelvi kódolását, vagyis természetes nyelven – megformált mondatokban, szövegben – való kifejezését. Tekinthető ez úgy, mint a parsing és a szemantikai elemzés fordított irányú alkalmazása.
Inferencia: egy bonyolultabb, háttértudással vagy tanulómemóriával rendelkező rendszer logikai következtetések levonására is alkalmas lehet, amivel input hiányában is kinyerhet új információt. Ezt a folyamatot nevezzük inferenciának.^[7]

Jegyzetek

↑ ^a ^b ^c [[Kenesei István (nyelvész)|]] (szerk.): A nyelv és a nyelvek. Akadémiai Kiadó, Budapest, 2004.
↑ ^a ^b Prószéky Gábor: Számítógépes nyelvészet. Számítástechnika-Alkalmazási Vállalat, Budapest, 1989.
↑ Papp Ferenc: Alkalmazott nyelvtudomány: Akadémiai székfoglaló: 1986. május 19. Akadémiai Kiadó, Budapest, 1986.
↑ 701 Translator, IBM sajtóközlemény, 1954 jan. 8. - oroszról angolra
↑ ^a ^b Simigné Fenyő Sarolta: Bevezetés az alkalmazott nyelvészetbe, Miskolci Egyetem, 2003.
↑ ^a ^b Fodor István: Mire jó a nyelvtudomány? Gondolat, Budapest, 1968.
↑ ^a ^b Babarczy Anna: Számítógépes nyelvészet

Források

Babarczy Anna: Számítógépes nyelvészet
Fodor István: Mire jó a nyelvtudomány? Gondolat, Budapest, 1968
Kenesei István (szerk.): A nyelv és a nyelvek. Akadémiai Kiadó, Budapest, 2004
Papp Ferenc: Alkalmazott nyelvtudomány: Akadémiai székfoglaló: 1986. május 19. Akadémiai Kiadó, Budapest, 1986
Prószéky Gábor: Számítógépes nyelvészet. Számítástechnika-Alkalmazási Vállalat, Budapest, 1989
Simigné Fenyő Sarolta: Bevezetés az alkalmazott nyelvészetbe, Miskolci Egyetem, 2003
Alberti Gábor: Matematika a természetes nyelvek leírásában, Budapest, Tinta Könyvkiadó, 2006
Klaudy Kinga (szerkesztő): Papp Ferenc olvasókönyv Papp Ferenc válogatott nyelvészeti tanulmányai, Budapest, Tinta Könyvkiadó, 2006
Szirmai Monika: Bevezetés a korpusznyelvészetbe A korpusznyelvészet alkalmazása az anyanyelv és az idegen nyelv tanulásában és tanításában, Budapest, Tinta Könyvkiadó, 2006

Külső hivatkozások

[kenesei-1] [[Kenesei István (nyelvész)|]] (szerk.): A nyelv és a nyelvek. Akadémiai Kiadó, Budapest, 2004.

[proszeky-2] Prószéky Gábor: Számítógépes nyelvészet. Számítástechnika-Alkalmazási Vállalat, Budapest, 1989.

[papp-3] Papp Ferenc: Alkalmazott nyelvtudomány: Akadémiai székfoglaló: 1986. május 19. Akadémiai Kiadó, Budapest, 1986.

[4] 701 Translator, IBM sajtóközlemény, 1954 jan. 8. - oroszról angolra

[simigne-5] Simigné Fenyő Sarolta: Bevezetés az alkalmazott nyelvészetbe, Miskolci Egyetem, 2003.

[fodor-6] Fodor István: Mire jó a nyelvtudomány? Gondolat, Budapest, 1968.

[banna-7] Babarczy Anna: Számítógépes nyelvészet

[1]

[2]

[3]

[4]

[5]

[6]

[7]