„Karakterkódolás” változatai közötti eltérés

[ellenőrzött változat][ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
TurkászBot (vitalap | szerkesztései)
a →‎Elterjedt karakterkódolások: Átirányítások javítása (Turkásznivalók), replaced: WindowsWindows
a dupla a-k megszüntetése AWB
16. sor:
Egy '''karakterkészlet''' vagy '''karakterrepertoár''' (character repertoire) a rendszer által támogatott karakterek teljes készlete. Ez a készlet lehet zárt, azaz nem megengedett a bővítés, amíg egy új szabvány változat életbe nem lép (mint az ASCII és a legtöbb ISO-8859 sorozat esetében), vagy lehet nyitott, azaz a bővítés megengedett (mint a Uncode esetében, és korlátozottan a [[Windows code pages]] esetében). Hogy mit tekintünk egy adott karakter készlet esetén egy elemnek, azaz egy karakternek, az attól függ, hogy az adott írásrendszerben milyen lineáris információegységeket határozhatunk meg. Alapesetben a latin, görög, cirill ábécék feloszthatók betűkre, számokra, elválasztó jelekre és néhány speciális karakterre, mint például a szóköz, amelyek lineáris sorozatot alkotnak, abban az értelemben, hogy olyan sorrendben jeleníthetők meg, amilyen sorrendben azokat olvasni is fogják. Még ezeknél az ábécéknél is komplikációt jelentenek az úgynevezett [[diakritikus jelek]], amelyek kezelhetők, mint különálló karakterek, vagy mint karakter és diakritikus jel együttesen (a modern terminológiában ez az úgynevezett "előre összeállított karakter"). Más írás rendszerek esetében, mint például az arab vagy héber, a karakterkészletnek sokkal komplexebbnek kell lennie, tekintettel a kétirányú (bidirectional) megjelenítésre, valamint arra a tényre, hogy az egymáshoz csatlakozó [[glifa|glifák]] különböző helyzetekben különbözőek lehetnek.
 
A '''kódolt karakterhalmaz''', (coded character set) határozza meg azt, ahogyan megjeleníti a karakterkészlet egy adott elemét, egy nem negatív, egész számként, amit '''kód''' vagy '''kód pont''' néven is neveznek. Például, egy adott karakterkészlet esetében egy karakterhez, ami a Latin ábécé nagy "A" betűjét jelenti, a 65 egész értéket rendelhetjük, a a "B" karakterhez a 66-ot, és így tovább. Az összes kezelni kívánt karakter a hozzájuk tartozó egész számokkal együtt alkotja a kódolt karakterek halmazát. A többszörösen kódolt karakterek halmaza, lehet megosztott, mint például az [[ISO-8859-1]] és az IBM code pages [[code page 037|037]] és [[code page 500|500]]. A karakterek azonosak, azonban más kódok tartoz(hat)nak hozzájuk. Egy kódolt karakterhalmazban egy kódérték, vagy kódpont csak egy karaktert jelölhet ki.
 
A '''karakterkódolási forma''' (character encoding form – CEF) írja le azt a konverziót, ami meghatározza, hogyan lesznek a kódolt karakterek halmazában lévő egész értékekből (a kódpontok) a korlátozott hosszúságú egészek, a '''kódértékek''', amiket a rendszer tárolni tud, azaz fix hosszúságú, bináris számként megjeleníteni. Például, egy rendszer, ami a numerikus információkat 16 bites egységekben tárolja, a 0 és a 65 535 közé eső egész számokat képes egy egységben tárolni. A nagyobb egészeket viszont csak úgy tudja ábrázolni, ha több, mint egy 16 bites egységet használ. Ez az, amit a CEF meghatároz: meghatároz egy leképezési eljárást, amely a lehetséges egyedi kód'''pont'''ok tartományát, amely legyen mondjuk 0 és 1,4 millió közötti, átviszi ''egy vagy több'', mondjuk a 0 és a 65 535 közé eső tartományba eső értékek sorozatává, ami a kód''érték''.