A Unicode-karakterek elhelyezkedése

A Unicode 1 114 112 (= 2²⁰ + 2¹⁶ vagy 17 × 2¹⁶, hexadecimálisan 110000) kódérték számára biztosít helyet.

A Unicode 5.0.0 esetében a kódértékek közül 101 063 (9,1%) karakterekhez van hozzárendelve, 137 468 (12,3%) van fenntartva saját használatra, a maradék 875 441 (78,6%) szabad. A karakterekhez rendelt kódértékek közül:

98 884 a graféma

140 a formázó karakter

65 a vezérlő karakter és

2 048 az úgynevezett pótló karakter.

Az első 256 kód megegyezik az ISO 8859-1 kiosztásával – az egyik legismertebb karakterkódolási szabvány a nyugati nyelvekre. Végeredményben az első 128 karakter megegyezik az ASCII karaktereivel.

A Unicode-karakterek számára fenntartott kódterület 17 lapra (plane) van felosztva, minden egyes lap 65 536 (= 2¹⁶) kódpontot tartalmaz, azonban jelenleg csak néhány lap van használatban:

0. lap (0000–FFFF): Alap többnyelvű lap - Basic Multilingual Plane (BMP)
1. lap (10000–1FFFF): Kiegészítő többnyelvű lap – Supplementary Multilingual Plane (SMP)
2. lap (20000–2FFFF): Kiegészítő lap a szókép lapokhoz – Supplementary Ideographic Plane (SIP)
3. laptól a 13. lapig (30000–DFFFF) nem használt
14. lap (E0000–EFFFF): Kiegészítő lap a speciális felhasználású laphoz – Supplementary Special-purpose Plane (SSP)
15. lap (F0000–FFFFF) saját használatú terület céljára fenntartva – Private Use Area (PUA)
16. lap (100000–10FFFF) saját használatú terület céljára fenntartva – Private Use Area (PUA)

A 2²⁰ feletti kódpontok (nem értve ide a 16. lapot) azért vannak, hogy biztosítsák a kompatibilitást az UTF-16 kódolással, amely címei ebbe a tartományba esnek (lásd később). Jelenleg a Unicode-kódterület mintegy 10%-a van kihasználva. A jövőben a különféle karaktertartományokat feltöltik az ismert írásokkal (lásd: [1]), és lehetséges, hogy szüksége lesz a Unicode-nak egy másik lapra a szóképek kezelésére, de van tíz nem használt lap még arra a célra, ha előre nem látott, eddig ismeretlen írások bukkannának fel. Jelenleg úgy látszik, hogy a 21 bites korlátot a Unicode a közeljövőben nem fogja meghaladni.

Alap többnyelvű lap szerkesztés

Az első lap (Nulladik lap), az Alap többnyelvű lap - Basic Multilingual Plane, (BMP) - az, amelyen a legtöbb karakterkód található. A BMP főként a modern nyelvek karaktereit tartalmazza, valamint nagy számú speciális karaktert is. A BMP-ben legtöbb "helyet" a kínai, japán és koreai (CJK) karakterek foglalják el.

Az alap többnyelvű lap térképe. Minden számozott négyzet 256 kódértéket jelöl.

A jobb oldali képen az Alap többnyelvű lap (BMP) kiosztásának vizuális képe látható. A használt színek jelentései:

fekete = Latin írás és szimbólumok
világoskék = Nyelvészeti karakterek
kék = Egyéb európai írások
narancssárga = Közép-Kelet és délnyugat-ázsiai írások
világosnarancs = Afrikai írások
zöld = Dél-ázsiai írások
bíbor = délkelet-ázsiai írások
piros = Kelet-ázsiai írások
világospiros = Egyszerűsített CJK Han
sárga = Aborigin írások
lila = Szimbólumok
sötét szürke = Diakritikus jelek
világosszürke = UTF-16 pótlók és saját használatra fenntartott
cián = Vegyes karakterek
fehér = Nem használt

2005-ben a BMP a következő írásokat és/vagy nyelveket kezeli (a megadott számok hexadecimális értékek):

latin alap (0000–007F)
latin-1 kiegészítés (0080–00FF)
latin A-bővítéssel (0100–017F)
latin B-bővítéssel (0180–024F)
IPA bővítések (0250–02AF)
fonetikus jelek (02B0–02FF)
kombinált diakritikus jelek (0300–036F)
görög és kopt (0370–03FF)
cirill (0400–04FF)
cirill kiegészítés (0500–052F)
örmény (0530–058F)
héber (0590–05FF)
arab (0600–06FF)
szír (0700–074F)
arab kiegészítés (0750–077F)
thaana (0780–07BF)
n’ko (07C0–07FF)
szamaritán (0800–083F)
mandai (0840–085F)
Indiai írások:
- dévanágari (0900–097F)
- bengáli (0980–09FF)
- gurmukhi (0A00–0A7F)
- gudzsarati (0A80–0AFF)
- orija (0B00–0B7F)
- tamil (0B80–0BFF)
- telugu (0C00–0C7F)
- kannada (0C80–0CFF)
- malajálam (0D00–0D7F)
- szingaléz (0D80–0DFF)
thai (0E00–0E7F)
lao (0E80–0EFF)
tibeti (0F00–0FFF)
burmai (1000–109F)
grúz (10A0–10FF)
hangul jamo (1100–11FF)
etióp (1200–137F)
etióp kiegészítés (1380–139F)
cseroki (13A0–13FF)
egyszerűsített kanadai bennszülött jelek (1400–167F)
ogham (1680–169F)
rúnaírás (16A0–16FF)
Fülöp-szigeti írások:
- tagalog (1700–171F)
- hanunóo (1720–173F)
- buhid (1740–175F)
- tagbanwa (1760–177F)
khmer (1780–17FF)
mongol (1800–18AF)
limbu (1900–194F)
tai le (1950–197F)
új tai lü (1980–19DF)
khmer szimbólumok (19E0–19FF)
buginéz (1A00–1A1F)
lanna (1A20–1AAF)
szundanéz (1B80–1BBF)
fonetikus kiegészítések (1D00–1D7F)
fonetikus bővítések kiegészítései (1D80–1DBF)
kombinált diakritikus jelek kiegészítései (1DC0–1DFF)
latin bővítések kiegészítései (1E00–1EFF)
bővített görög(1F00–1FFF)
szimbólumok:
- általános elválasztó jelek (2000–206F)
- alsó- és felsőindexek (2070–209F)
- pénzjelek (20A0–20CF)
- kombinált diakritikus jelek szimbólumokhoz (20D0–20FF)
- betűszerű szimbólumok (2100–214F)
- szám formátumok (2150–218F)
- nyilak (2190–21FF)
- matematikai műveleti jelek (2200–22FF)
- vegyes technikai jelek (2300–23FF)
- Irányító képek – Control Pictures (2400–243F)
- OCR karakterek (2440–245F)
- Enclosed Alphanumerics (2460–24FF)
- rajz dobozok (2500–257F)
- blokk szimbólumok(2580–259F)
- geometrikus alakzatok (25A0–25FF)
- vegyes szimbólumok (2600–26FF)
- Dingbats (2700–27BF)
- vegyes matematikai szimbólumok-A (27C0–27EF)
- nyilak-A kiegészítés (27F0–27FF)
- Braille jelek (2800–28FF)
- nyilak-B kiegészítés (2900–297F)
- vegyes matematikai szimbólumok-B (2980–29FF)
- kiegészítő matematikai műveleti jelek (2A00–2AFF)
- vegyes szimbólumok és nyilak (2B00–2BFF)
glagolita (2C00–2C5F)
Latin C-bővítéssel (2C60–2C7F)
kopt (2C80–2CFF)
grúz kiegészítések(2D00–2D2F)
tifinagh (2D30–2D7F)
bővített etióp (2D80–2DDF)
elválasztó jelek kiegészítés (2E00–2E7F)
CJK gyökök kiegészítése (2E80–2EFF)
kangxi gyökök (2F00–2FDF)
ideografikus leíró karakterek(2FF0–2FFF)
CJK szimbólumok és elválasztók (3000–303F)
hiragana (3040–309F)
katakana (30A0–30FF)
kínai nyelv (3100–312F)
hangul Compatibility Jamo (3130–318F)
kanbun (3190–319F)
bopomofo bővítés (31A0–31BF)
CJK ecsetvonások (31C0–31EF)
katakana fonetikus bővítések (31F0–31FF)
Enclosed CJK Letters and Months (3200–32FF)
CJK kompatibilis (3300–33FF)
CJK egyszerűsített szókép bővítés A (3400–4DBF)
Yijing hexagram szimbólumok (4DC0–4DFF)
CJK egyszerűsített szóképek (4E00–9FFF)
ji jelek (A000–A48F)
ji gyökök (A490–A4CF)
hang módosító betűk (A700–A71F)
Latin D-bővítéssel (A720–A7FF)
Syloti Nagri (A800–A82F)
Hangul jelek (AC00–D7AF)
magas pótlók (D800–DB7F)
magas sajátnál használt pótlók (DB80–DBFF)
alacsony pótlók (DC00–DFFF)
saját célra fenntartott (E000–F8FF)
CJK komtibilis szóképek (F900–FAFF)
alfabetikus megjelenítési formák (FB00–FB4F)
arab prezentációs formák-A (FB50–FDFF)
kijelölés változatok(FE00–FE0F)
függőleges formák (FE10–FE1F)
kombinált fél jelzők (FE20–FE2F)
CJK kompatibilis formák (FE30–FE4F)
kisebb forma változatok (FE50–FE6F)
arab prezentációs formák-B (FE70–FEFF)
félszélességű és teljes szélességű formák (FF00–FFEF)
speciális jelek (FFF0–FFFF)

A következő felülvizsgálatok során várhatóan számos írás fog bekerülni az Unicode rendszerbe. Néhány írás és azok javasolt elhelyezkedési tartományai a következők:

bali (1B00–1B7F)
lepcha (rong) (1C00–1C4F)
santali (Ol Cemet' / Ol Chiki) (2DE0–2DFF)
vai (A500–A61F)
phags-pa (A840–A87F)
saurashtra (AB00–AB5F)

Néhány egyéb írás, amit a BMP-be felvételre javasoltak:

avestan és pahlavi (0800–085F)
cham (18B0–18FF)
batak (1A20–1A5F)
lanna (ős tai lü) (1A80–1AEF)
meithei/manipuri (1C80–1CDF)
varang kshiti (AA00–AA3F)
sorang sompeng (AA40–AA6F)

Kiegészítő többnyelvű lap szerkesztés

Az 1. lap, a Kiegészítő többnyelvű lap' – Supplementary Multilingual Plane - (SMP) használatos számos, történelmi írás (mint például a lineáris B írás) kódolására, de ez használható a zenei és matematikai szimbólumok kezelésére is.

A 2005-ös Unicode 4.1 szerint, az 1. lap a következő írásokat tartalmazza:

lineáris B írás jelei (10000–1007F)
lineáris B-írás ideogramjai (10080–100FF)
égei számok (10100–1013F)
ősi görög számok (10140–1018F)
ősi olasz (10300–1032F)
gót (10330–1034F)
ugariti (10380–1039F)
ős perzsa (103A0–103DF)
deseret (10400–1044F)
shavian (10450–1047F)
osmanya (10480–104AF)
ciprusi jelek (10800–1083F)
kharoshthi (10A00–10A5F)
bizánci zenei jelek (1D000–1D0FF)
zenei jelek (1D100–1D1FF)
ősi görög zenei jelek és kotta jelölések (1D200–1D24F)
Taj Hszüan Csing (Tai Xuan Jing) szimbólumok (1D300–1D35F)
alfanumerikus matematikai szimbólumok (1D400–1D7FF)

A 2006-os, Unicode 5.0 változat a következő írásokkal egészült ki:

föníciai (10900–1091F)
sumér-akkád ékírás (12000–1236E és 12400–12473)

Néhány egyéb írást is javasoltak még az 1. lapra, többek között:

Saját használatú terület szerkesztés

A saját használatú terület – Private Use Area (PUA) egy a több olyan tartományból, amelyek saját használat céljára vannak fenntartva. Ezekhez a területekhez a Unicode semmilyen karaktereket nem rendel hozzá.

Az alap többnyelvű lap esetében ez a terület az U+E000 és az U+F8FF (57344–63743) közötti tartomány. A Tizenötödik lap (U+F0000 és U+FFFFF között), valamint a Tizenhatodik lap (U+100000 és U+10FFFF között) teljesen saját használat céljára fenntartott.

A saját használatú terület – PUA koncepciója bizonyos ázsiai nyelvek kódolási rendszereiből öröklődött. Ezek a rendszerek rendelkeztek saját célra használható területekkel, mivel a japánban a gaidzsi (ritka, a személy-nevekben előforduló karakterek) alkalmazás specifikus kezelését ilyen módon oldották meg. Hasonló a ConScript Unicode Registry megoldása, amely segíti a még nem kezelt, vagy a Unicode által visszautasított írásoknak az Unicode PUA területén való elhelyezést. A Unicode középkori iniciálé betűtípus szintén a PUA területet használja a középkori szövegekben előforduló különféle ligatúrák, előre összeállított karakterek, és szimbólumok kódolására.

A saját használatú terület kihasználásának egy jó példája az Apple Computer által használt U+F8FF terület az Apple által használt betűtípusok és a logó tárolására és megjelenítésére.

Egyéb lapok szerkesztés

A 2. lap, a tartalmazza a Kiegészítő szókép lap – Supplementary Idiograme Plane (SIP) területet, ami annak a hozzávetőleg 40 000 ritka kínai karakternek a kezelésére használható , amelyek legtöbbje ugyan történeti, azonban mai írásokban is előfordulnak. A 14. lap (E hexadecimálisan), a Kiegészítő lap a speciális felhasználású laphoz – Supplementary Special-purpose Plane (SSP), aktuálisan néhány támogatásra nem javasolt nyelv karaktereit, illetve különböző szempontok alapján kiválasztott karaktereket tartalmazza.

További információk szerkesztés

Részletes kódtáblázat az irodalmi kínai karakterek nélkül, 5.2.0 verzió (PDF fájl, angol)
Kiegészítő kínai (CJK) kódtáblázat (PDF fájl, angol, nagy méretű)
Kínai (CJK) gyök szerinti teljes index (PDF fájl, angol)
The Unicode Standard (a hivatalos honlap, angol nyelven)

Informatikai portál • összefoglaló, színes tartalomajánló lap