(Sztokholm 1998)Kodowanie polskich liter w ISO 10646 | (Jesli nie widzisz polskich liter wybierz: Widok-Kodowanie-UTF-8) |
Polskie znaki diaktryczne dla przetwarzania danych powinny być kodowane w standartowy sposób. W szczególności dla potrzeb przesyłania polskich znaków w sieci należy w najbliższym czasie stosować 8-bitowy standard ISO 8859-2 a w dalszej perspektywie 2-3 lat- 16-bitowy standard ISO 10646. Z drugiej strony notacja MS CP 1250 nie jest obowiązującą normą polską ani standartem wiodącym ANSI gdyż, oprócz tego, że używa obszarów wartości kodowych zastrzeżonych przez ISO dla znaków sterowniczych, dla polskich znaków różni się od notacji ISO 8859-2 i ISO 10646 w następujący sposób:
| Ą | Ć | Ę | Ł | Ń | Ó | Ś | Ź | Ż | ą | ć | ę | ł | ń | ó | ś | ź | ż | ISO 8859-2 | 161 | 198 | 202 | 163 | 209 | 211 | 166 | 172 | 175 | 177 | 230 | 234 | 179 | 241 | 243 | 182 | 188 | 191 | ISO 10646 | 260 | 262 | 280 | 321 | 323 | 211 | 346 | 377 | 379 | 261 | 263 | 281 | 322 | 324 | 243 | 347 | 378 | 380 | ISO 10646 HEX | 104 | 106 | 118 | 141 | 143 | 0D3 | 15A | 179 | 17B | 105 | 107 | 119 | 142 | 144 | 0F3 | 15B | 17A | 17C | Windows-EE | 165 | 198 | 202 | 163 | 209 | 211 | 140 | 143 | 175 | 185 | 230 | 234 | 179 | 241 | 243 | 156 | 159 | 191 |
Edytor MS Word 7 koduje polskie litery w tym standarcie, a przeglądarki Netscape 4.04 i wyżej oraz MS Explorer4.0 – odtwarzają litery polskie rosyjskie, greckie, szwedzkie (zapewne też kilka innych alfabetów).
MS Word 97 dla Windows pozwala na pisanie tekstów min. polskich, rosyjskich oraz wszystkich europejskich, jak również na kodowanie ich w ISO 10646. Sa możliwe dwie formy kodowania: kodowanie Unicode „zhatemelizowane” (nazywane też „dziesiętnym-numerycznym”) oraz kodowanie „znacznikowe” w Unicode (lub inaczej „czyste” bo potrzebujące jedynie 16 bitow na jedną literę).
Kodowanie zhatemelizowane jest rezultatem wdrożenia standardu html 4.0, w którym litery spoza podstawowej tablicy kodowej ISO 8859-1 (dokładniej – spoza 256 znakowej tablicy podstawowej), są przedstawiane w postaci: &#numer-Unicode-w-postaci-dziesiętnej.
Kodowanie czyste jest rezultatem wdrożenia standardu ISO 10 646 i polega na przedstawieniu danej litery jako numeru tablicy Unicode w postaci heksadecymalnej. Kodowanie to jest technicznie najprostsze: Komputer obsługujący kod heksadecymalny wstawia daną wartość w pole tekstowe danego dokumentu.
MS Word 97 jest przydatnym narzędziem do kodowania specyficznych liter alfabetu polskiego, rosyjskiego i wielu innych w Unicode. W trakcie pisania (może być wiele języków w jednym dokumencie) litery są kodowane w czystym Unicodzie (metoda II). Przy zapamiętywaniu dokumentu w postaci HTML specyficzne litery (spoza nieASCII) są przekodowywane na postać zhatemelizowaną.
Jakakolwiek operacja w edytorze html Word7 lub Netscape Composer powoduje zastąpienie kodowania zhatemelizowanego kodowaniem czystym. Wtedy należy wstawić w instrukcji META danego dokumentu html, wartość „charset=utf-8”.
Ponieważ ó oraz Ó należą do tablicy podstawowej nie są one konwertowane do postaci zhatemelizowanej (dziesiętnej-numerycznej). Przeglądarki natomiast z jakiś powodów „nie rozumieją” literek ó oraz Ó kodowanych w czystym Unicodzie obok liter w postaci zhatemelizowanej, i wyświetlają biały kwadracik.
W zależności od popytu na rynku polskim coraz więcej programów i sprzętu komputerowego będzie miało wbudowane przetworniki z wewnętrznych systemów kodowych na kod standartowy i odwrotnie.Od niedawna jest dostępny program freeware Ogonki 97 dla OS Windows, umożliwiający przekodowywanie polskich tekstów z i na tablice kodowanie w ISO 8859-2 i ISO 10646 (Unicode). Uniwersalnym programem do kodowania w Unicode i innych tablicach kodowych jest program WinCallis. Dla OS Unix istnieje program „yudit„kodujący teksty html w Unicode. Microsoft oferuje też na swojej stronie opracowane specjalnie dla czytania stron na internecie swoje nowe uniwersalne fonty (w Unicode) do Windows 95, Windows3.1x, Windows NT oraz oddzielnie do Apple Macintosh. Fonty Trebuchet, TNR, Arial i Courrier New zawierają także wersje centralno- wschodnioeuropejskie. Proszę zwrócić uwagę, że czcionki te nie działają pod Windows 3.1.
W praktyce przydatnym rozwiązaniem jest też przełączalna klawiatura Programisty (dostępna standartowo w Windows95), gdzie polskie litery wybiera się klawiszami Alt Gr + Litera Ogonkowa (np. Ą — poprzez Alt Gr + a + Shift).
|