Kodowanie polskich liter w ISO 10646

(Sztokholm 1998)

Kodowanie polskich liter w ISO 10646
(Jesli nie widzisz polskich liter wybierz:    Widok-Kodowanie-UTF-8)

Polskie znaki diaktryczne dla przetwarzania danych powinny być kodowane w standartowy sposób. W szczególności dla potrzeb przesyłania polskich znaków w sieci należy w najbliższym czasie stosować 8-bitowy standard ISO 8859-2 a w dalszej perspektywie 2-3 lat- 16-bitowy standard ISO 10646. Z drugiej strony notacja MS CP 1250 nie jest obowiązującą normą polską ani standartem wiodącym ANSI gdyż, oprócz tego, że używa obszarów wartości kodowych zastrzeżonych przez ISO dla znaków sterowniczych, dla polskich znaków różni się od notacji ISO 8859-2 i ISO 10646 w następujący sposób:

Ą
Ć
Ę
Ł
Ń
Ó
Ś
Ź
Ż
ą
ć
ę
ł
ń
ó
ś
ź
ż
ISO 8859-2
161
198
202
163
209
211
166
172
175
177
230
234
179
241
243
182
188
191
ISO 10646
260
262
280
321
323
211
346
377
379
261
263
281
322
324
243
347
378
380
ISO 10646 HEX
104
106
118
141
143
0D3
15A
179
17B
105
107
119
142
144
0F3
15B
17A
17C
Windows-EE
165
198
202
163
209
211
140
143
175
185
230
234
179
241
243
156
159
191

Edytor MS Word 7 koduje polskie litery w tym standarcie, a przeglądarki Netscape 4.04 i wyżej oraz MS Explorer4.0 – odtwarzają litery polskie rosyjskie, greckie, szwedzkie (zapewne też kilka innych alfabetów).

MS Word 97 dla Windows pozwala na pisanie tekstów min. polskich, rosyjskich oraz wszystkich europejskich, jak również na kodowanie ich w ISO 10646. Sa możliwe dwie formy kodowania: kodowanie Unicode “zhatemelizowane” (nazywane też “dziesiętnym-numerycznym”) oraz kodowanie “znacznikowe” w Unicode (lub inaczej “czyste” bo potrzebujące jedynie 16 bitow na jedną literę).

Kodowanie zhatemelizowane jest rezultatem wdrożenia standardu html 4.0, w którym litery spoza podstawowej tablicy kodowej ISO 8859-1 (dokładniej – spoza 256 znakowej tablicy podstawowej), są przedstawiane w postaci: &#numer-Unicode-w-postaci-dziesiętnej.

Kodowanie czyste jest rezultatem wdrożenia standardu ISO 10 646 i polega na przedstawieniu danej litery jako numeru tablicy Unicode w postaci heksadecymalnej. Kodowanie to jest technicznie najprostsze: Komputer obsługujący kod heksadecymalny wstawia daną wartość w pole tekstowe danego dokumentu.

Działanie MSWord 97

MS Word 97 jest przydatnym narzędziem do kodowania specyficznych liter alfabetu polskiego, rosyjskiego i wielu innych w Unicode. W trakcie pisania (może być wiele języków w jednym dokumencie) litery są kodowane w czystym Unicodzie (metoda II). Przy zapamiętywaniu dokumentu w postaci HTML specyficzne litery (spoza nieASCII) są przekodowywane na postać zhatemelizowaną.

Jakakolwiek operacja w edytorze html Word7 lub Netscape Composer powoduje zastąpienie kodowania zhatemelizowanego kodowaniem czystym. Wtedy należy wstawić w instrukcji META danego dokumentu html, wartość “charset=utf-8”.

Niedopasowanie ó oraz Ó

Ponieważ ó oraz Ó należą do tablicy podstawowej nie są one konwertowane do postaci zhatemelizowanej (dziesiętnej-numerycznej). Przeglądarki natomiast z jakiś powodów “nie rozumieją” literek ó oraz Ó kodowanych w czystym Unicodzie obok liter w postaci zhatemelizowanej, i wyświetlają biały kwadracik.

Oprogramowanie

W zależności od popytu na rynku polskim coraz więcej programów i sprzętu komputerowego będzie miało wbudowane przetworniki z wewnętrznych systemów kodowych na kod standartowy i odwrotnie.Od niedawna jest dostępny program freeware Ogonki 97 dla OS Windows, umożliwiający przekodowywanie polskich tekstów z i na tablice kodowanie w ISO 8859-2 i ISO 10646 (Unicode). Uniwersalnym programem do kodowania w Unicode i innych tablicach kodowych jest program WinCallis. Dla OS Unix istnieje program “yudit“kodujący teksty html w Unicode. Microsoft oferuje też na swojej stronie opracowane specjalnie dla czytania stron na internecie swoje nowe uniwersalne fonty (w Unicode) do Windows 95, Windows3.1x, Windows NT oraz oddzielnie do Apple Macintosh. Fonty Trebuchet, TNR, Arial i Courrier New zawierają także wersje centralno- wschodnioeuropejskie. Proszę zwrócić uwagę, że czcionki te nie działają pod Windows 3.1.

W praktyce przydatnym rozwiązaniem jest też przełączalna klawiatura Programisty (dostępna standartowo w Windows95), gdzie polskie litery wybiera się klawiszami Alt Gr + Litera Ogonkowa (np. Ą  — poprzez Alt Gr + a + Shift).