„Karakterkódolás” változatai közötti eltérés

[ellenőrzött változat][ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
3 forrás archiválása és 0 megjelölése halott linkként. #IABot (v2.0beta4)
BinBot (vitalap | szerkesztései)
a Szövegegyszerűsítés, gördülékenyebbé tétel (hogy hogyan → hogyan)
8. sor:
 
== Egyszerű kódkészlet ==
Konvencionálisan a karakterkészlet és a karakterkódolás kifejezéseket azonos értelemben használják, mert néhány szabvány meghatározza a karaktereket és azt, hogy hogyan lehet ezeket a karaktereket kódolni, pontosabban „visszakódolni” egy kódsorozatból (ami általában egy karakter kódegységenként). Történeti okokból, a [[MIME]] és azok a rendszerek, amelyek az ún. '''charset''' kifejezést használják, a karakterek sorozatát byte-ok sorozatára alakítják át.
 
== A modern kódolási modell ==
22. sor:
Az egyszerűbb karakterkódolási formát (CEF) használó kódok egyszerűen elegendően nagy egységet választanak a kódértékek tárolására, tehát a kódolt karakterek halmazát egy-az-egy megfeleltetésbe hozzák az adott egységen tárolható értékek halmazával. Az eljárás jól működik addig, amíg a kódolt karakterek halmaza megfeleltethető 8 biten tárolható értékek halmazának (ami igaz a régebbi nem CJK kódokra), illetve megfeleltethető 16 biten tárolható értékek halmazának (a Unicode korábbi változata). Azonban a kódolt karakterek halmazának mérete egyre növekszik (a modern Unicode legalább 21 bitet igényel karakterenként), az egyszerű módszer egyre kevésbé hatékony, és egyre nehezebb a létező rendszerekben megvalósítani a nagyobb/hosszabb kód értékek használatát. Ezért a legtöbb rendszer a Unicode régebbi változatait használja, vagy az [[UTF-8]]-at, ahol a Unicode kód pontjait változó hosszúságú, 8 bites értékek sorozatára, vagy az [[UTF-16]]-ot, ahol a Unicode kód pontjait változó hosszúságú, 16 bites értékek sorozatára konvertálja.
 
Végül, egy '''karakterkódolási séma''', (character encoding scheme – CES) határozza meg, hogy hogyan lehet a fix hosszúságú, egész számot, a kód értékét, ami egy 8 bites egységekből álló sorozatként tárolni, akár a memóriában, akár egy fájlrendszerben vagy így továbbítani adatátviteli vonalon. A Unicode a legtöbb esetben egy egyszerű karakterkódolási sémát használ: egyszerűen meghatározza, hogy egy egész byte-jainak big-[[endian]] vagy little-endian elrendezésűnek kell lennie (az UTF-8 estén még ez sem szükséges). Bár léteznek összetett karakter dekódolási sémák is, amelyek eszkép szekvenciákat használnak a számos egyszerű séma közötti átkapcsolásra (mint az [[ISO 2022]]), és léteznek tömörítő sémák, amelyek megpróbálják minimalizálni a kódegységekre jutó byte-ok számát (úgy mint [[Standard Compression Scheme for Unicode|SCSU]], [[BOCU]] és [[Punycode]]).
 
== A karakterkódolás története ==