A számítástechnika és a számítógép alapú telekommunikáció szóhasználatában a karakter az információ egy egysége (ez nagyjából egybeesik a graféma értelmezésével), vagy a természetes nyelv írott nyelvi formájának egy szimbóluma.

Például karakter egy betű, szám, vagy elválasztó jel, valamint a speciális karakterek, mint például a %,$, @ stb. Megegyezés szerint karakternek számítanak a vezérlő karakterek, amelyek ugyan nincsenek kapcsolatban a természetes nyelvekkel, viszont információt hordoznak a nyomtatott forma feldolgozásánál és/vagy megjelenítésénél, különösen nyomtatók vagy más egyéb megjelenítők esetében.

Karakterkódolás szerkesztés

A számítógépek és a kommunikációs berendezések a különböző karaktereket kódolt formában karakterkódokként kezelik, azaz minden karakterhez hozzárendelnek valamit – tipikusan egy egészet, ahol a mennyiséget bitek sorozatával határozzák meg – hogy a tárolás vagy a hálózaton keresztüli továbbítás egyszerűen megoldható legyen. A legtöbbet használt kódolási rendszer az ASCII kódolás, ennél sokoldalúbb a Unicode rendszer, ami gyorsan népszerű lett. Míg a számítástechnikában használatos karakterkódtáblák a karaktereket számokká és/vagy bitsorozatokká alakítják, addig a távíró karakterek (morzekód) továbbítása különböző hosszúságú elektromos impulzusok sorozatával történik.

Meghatározás szerkesztés

Történetileg a karakter kifejezés széles körben használt volt az műszaki tudományok egyes területein, főként kódolt karakter értelemben (gyakran csak programozási nyelveknél használt APIt jelentette). Ugyancsak széles körben használt volt a karakterkészlet kifejezés is, mint absztrakt karakterek halmazának a bizonyos megjelenése, amelyeket különböző kódtáblák rögzítettek. Az Unicode és a bit-orientált kódolási formák megjelenése sokkal precízebb meghatározást igényel.

Fontos, hogy ugyanabban a környezetben különbséget tegyünk a karakter mint az információ egysége, és annak sajátos fizikai megjelenése között. Például, az Álef ("א") mint a héber abc egy betűje a matematikusok számára gyakran jelöli bizonyos végtelenek egy csoportját, de használják rendes héber nyelvű szövegben is. Az Unicode megkülönbözteti az eltérő jelentéseket, két különböző karakterként értelmezi, és eltérő kóddal azonosítja a "különböző" karaktereket. Ellenkezőleg viselkedik a vizet jelentő kínai szókép ("水") esetében. Egy japán szövegben – azonos megjelenése ellenére – kicsit különböző jelentéssel bír a szókép, mint egy kínai szövegben. Ennek ellenére, az Unicode azonosnak tekinti a jelentést, egy kód és egy megjelenési forma tartozik hozzá.

Egy speciális kifejezés, a glifa jelenti a karakter fizikai megjelenítést. A legtöbb számítógép által használt font tulajdonképpen glifákat tartalmaz, az Unicode azokból választja ki a kódolt karakter megjelenési formáját.

Az Unicode közösen meghatározást ad a karakterre és az absztrakt karakterre egyaránt, a The Unicode Standard és az ISO/IEC 10646 szabvány szerint ez "az adat szervezésére, ellenőrzésére vagy megjelenítésére használt elemek halmazának egy tagja" Unicode meghatározását kiegészíti egy magyarázó megjegyzés, miszerint arra kell biztatni az megjelenített "kép" olvasóját, hogy tegyen különbséget a karakterek, a grafémák, és glifák és egyebek között. A szabvány szintén különbséget tesz ezek között az absztrakt karakterek valamint a kódolt karakterek és dekódolt karterek között, hogy létrehozhassa azokat a párokat, amelyek a numerikus kódot és annak megjelenését összekapcsolják a számítógépben.

Kapcsolódó szócikk szerkesztés

Külső, idegen nyelvű hivatkozások szerkesztés

  • ISO/IEC TR 15285:1998 összefoglalja az ISO/IEC karakter modelljét, a karakterek és glifák közötti különbségek terminológiai meghatározására fókuszál