Inne:UTF-8
Z Almanachu Historycznego.
UTF-8 to system kodowania Unikodu.
Jego zalety to:
- każdy tekst w ASCII jest tekstem w UTF-8
- żaden znak z poza ASCII nie zawiera bajtu z ASCII
- zachowuje porządek sortowania UCS-4
- typowy tekst ISO-Latin-X rozrasta się w bardzo niewielkim stopniu po przekonwertowaniu do UTF-8.
- nie zawiera bajtów 0xFF i 0xFE, więc łatwo można rozróżnić go od tekstu UTF-16.
- o każdym bajcie wiadomo czy jest początkiem znaku czy też leży w jego środku (co nie jest prawdą np. w kodowaniu EUC)
- nie ma problemów z low-endian vs. high-endian
Wady to:
- Znaki CJK zajmują po 3 bajty zamiast 2.
- UTF-8 nie używa przesunieć zasięgów, co stanowi dodatkowe utrudnienie dla implementacji UTF-8 (szczegóły poniżej)
| Autorzy strony: | Sauron(ZCS) |
