Hajrá

A szerkesztői lapodon írt tevékenységre igen nagy szükség van, úgyhogy hajrá! Bináris ide  Kampány a számok helyes írásáért 2010. január 8., 18:57 (CET)Válasz

UTF-8

Szia! Mire alapozod, hogy az UTF-8 lehet 6 bájtos? Az rfc3629 kifejezetten 1-4 bájtot ír (pontosabban az UTF-16 által leírható U+0000..U+10FFFF tartományt, ami még az UTF-8-cal 4 bájton kódolható tartománynak is alig több, mint a fele). Amit a hátrányról írtál, azt pedig egyáltalán nem értem. Milyen tömörítési eljárás? – TgrvitaIRCWPPR 2010. január 8., 20:20 (CET)Válasz


Tudomásom szerint, az Unicode kódolás karakterenként 4 byte-on jelöli a "karakternek" az értékes jegyeit. Az UTF-8 kódolás lehagyja a nullákat a karakterek elejéről, és így spórol helyet a kisebb számoknál, azonban a byte-ok elején valahol jelölni kell a hovatartozásukat, ezért hogyha egy olyan karaktert ütsz be, amelynél az Unicode már egy olyan 4 bytes számot feltet meg, ami 1-el kezdődik, akkor az utf-8 "hovatartozási" jelivel együtt összesen már 6 byte-ot is elfoglal.

00000000 00000000 00000000 0xxxxxxx <-> 0xxxxxxx
00000000 00000000 00000xxx xxxxxxxx <-> 110xxxxx 10xxxxxx
00000000 00000000 xxxxxxxx xxxxxxxx <-> 1110xxxx 10xxxxxx 10xxxxxx
00000000 000xxxxx xxxxxxxx xxxxxxxx <-> 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
000000xx xxxxxxxx xxxxxxxx xxxxxxxx <-> 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0xxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx <-> 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Forrás --Javító vita 2010. január 8., 20:38 (CET)Válasz

A Unicode önmagában nem kódolás, hanem egy betűket definiáló szabvány; amire te gondolsz, az az UTF-32. Elvben tényleg lehetne alkalmazni az UTF-8 logikáját hat bájtra (sőt, hétre is, és akkor leírhatná mind a 2^32 négy bájton elkódolható kódpontot), a gyakorlatban némi nyomozás után ez tűnik az autoritatív definíciónak (92. oldal végétől), és ez egyértelműen 4 bájtban definiálja a jólformált UTF-8 kódegységet. Ha jól értem, a régebbi ISO/IEC 10646 szabvány még hat bájtról beszélt, részben innen származik a keveredés. – TgrvitaIRCWPPR 2010. január 8., 23:37 (CET)Válasz

Az Unicode meghatározza hogy milyen betűnek hányas száma van. Ezt max 4 bytes számokig teszi. Erre gondoltam.
Nem mellesleg az általam feldolgozott fájlokban is előfordult már több mint 4 byte, és szerintem, tekintve hogy az algoritmus 6byte-ig tökéletesen működik, és majd minden program értelmezi is, nem a szabvány a mérvadó, hanem a tényleges működés. A 7. byte azért nem nagyon működhet mert (még?) nincs olyan karakter ami oda kerülne, és azért egy kicsi kavarás bekerül, mert több mint 4 byte-ot ír le:
xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx <-> 11111110 100000xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
Bár biztosan előfordul ilyen is egy-egy elvetemült dokumentumban, szerintem a max 6 byte jellemzőbb. Jelölhetünk 7 byte-ot is, de ettől függetlenül a 4 a gyakorlatban gond nélkül átléphető, specifikáció ide vagy oda. --Javító vita 2010. január 9., 09:25 (CET)Válasz

Celsius

Az U+2103 szemantikailag kétségkívül korrektebb, mint a külön fokjel + C, de a legtöbb standard fontban nincs benne, ezért nagyon csúnyán megtöri a betűképet. FF3.5/WinXP alatt pl. így néz ki a szakaszcím:   Szerintem a karakterkódokról szóló szakaszon kívül jobb lenne kerülni. – TgrvitaIRCWPPR 2010. január 8., 20:36 (CET)Válasz
Elnézést... Nekem megjelent, és hol így, hol úgy volt alkalmazva.--Javító vita 2010. január 8., 20:38 (CET)Válasz