„UTF-8” változatai közötti eltérés

[ellenőrzött változat][nem ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
Visszavontam 2001:738:80A:A9FB:5901:4DEB:8738:790C (vita) szerkesztését (oldid: 21299662)
Címke: Visszavonás
Nincs szerkesztési összefoglaló
3. sor:
Az '''UTF-8''' ''(8-bit Unicode Transformation Format,'' 8 bites Unicode átalakítási formátum) változó hosszúságú [[Unicode]] [[karakterkódolás]]i eljárás, melyet [[Rob Pike]] és [[Ken Thompson]] alkotott meg. Bármilyen Unicode karaktert képes reprezentálni, ugyanakkor visszafelé kompatibilis a 7 bites [[ASCII]] szabvánnyal. Emiatt egyre inkább az [[internet]]es karakterkódolás standardjává válik.
 
Az angolszász, majd az európai országokból kiindulva az ASCII után először az úgynevezett [[ISO/IEC 8859-1|Latin-1]] kódolás terjedt el, ami tartalmazza az összes angol nyelvhez szükséges betűt,kurva illetve számos európai nyelv betűit, de például a magyar „ő” és „ű” betűket nem (ezek helyett – helytelenül – gyakran használják a hullámos illetve a kalapos betűket: ''û ô'' vagy ''õ).'' Magyarhoz lehet azonban a [[ISO-8859-2|Latin-2 (közép-európai)]] kódolást is használni, ami ismeri az ő és ű betűinket, de nem ismer más fontos betűket, például a cirill, görög,anyátok vagy például az örmény, indiai, arab és héber betűket, a kínai írásjegyeket és a japán kanákat. A Unicode és az UTF-8 kódolás egyszerre támogatja mindezen karakterek megjelenítését, és így minden nyelv egységes kódolást tud használni, megelőzve a betűk nem tervezett „átalakulását”.
 
Az UTF-8-kódolás lényege, hogy a 7 bites ASCIIMI A BAJOD TE KUTYAÁLLAT? HE kódtábla karaktereit (angol kis- és nagybetűk, számok és gyakoribb írásjelek) az ASCII-kódjukkal jelöli, az egyéb karakterek kódját pedig „feldarabolja”, és a darabokat egy vezérlőjelet követő több, egymás utáni bájtban helyezi el úgy, hogy a bájtok mindegyike 127 felett van (azaz így nem téveszthető össze a 7 bites ASCII-kódok egyikével sem). Ennek számos előnye van: a 7 bites ASCII-szöveg UTF-8-kódja saját maga, illetve az UTF-8 szöveget tévesen valamilyen más elterjedt kódolásnak (például [[ISO/IEC 8859-1|ISO-8859-1]]-nek) értelmezve általában nem kapunk nagyon rossz eredményt (magyar szöveg esetén csak az ékezetes karakterek és a [[gondolatjel]] és egyéb speciális tipográfiai jelek helyén lesz két-két értelmetlen karakter), a félbeszakadt UTF-8 karakterről egyértelműen felismerhető, hogy hibás, és a nagyrészt ASCII-szöveg kódolása nem igényel sok extra bájtot.
 
== Működése ==
A lap eredeti címe: „https://hu.wikipedia.org/wiki/UTF-8