3.4 Ponumerować litery (ASCII)

...i jeszcze upewnić się, że różne komputery używają tej samej numeracji. Niewątpliwym standardem jest ASCII -- American Standard Code for Information Interchange. Poza literami i cyframi jest w nim jeszcze kilka przydatnych znaczków:

**Tablica:** Znaki i numery odpowiadające im w kodzie ASCII
$\begin{table} \begin{verbatim}32 ! 33 '' 34 ...$

Jedna litera to w ASCII jeden bajt. Bajt to osiem bitów, czyli liczba między 0 a 255. Tablica ASCII (3.2) kończy się przed numerem 127. Za to brak tam ąćęłń... Nawet jeśli pominiemy pierwsze 32 znaki (są tam różne dziwne kody), pozostaje nam jeszcze druga połowa^3.3. Niestety, znaki wszystkich alfabetów narodowych nie zmieszczą się tam (tj. między 128 a 255) ,,za jednym razem''. Dlatego dla różnych języków istnieją różne kodowania, czyli numeracje liter spoza ASCII. Dla języka polskiego obowiązującym w Internecie standardem jest ISO^3.4 8859-2. Zawiera on litery wystarczające do pisania (poza angielskim) w językach: Albanii, Bośni, Chorwacji, Czech, Finlandii, Węgier, Polski, Rumunii, Serbii, Słowacji i Słowenii. Wystarczają do tego (poza znakami z tablicy 3.2) następujące znaki:

$\includegraphics [width=9.5cm]{figures/8859-2.eps}$

Jako ciekawostkę zanotować warto, że w pionierskim okresie ,,polonizacji'' komputerów mieliśmy ok. 10 różnych ,,standardów'' kodowania polskich liter, co jest chyba swego rodzaju rekordem. Aktualnie poza ISO 8859-2 spotkać można jeszcze kodowanie używane w produktach firmy Microsoft -- Windows-1250.

Tak więc, aby prawidłowo wyświetlać tekst napisany w języku innym niż angielski, musimy:

wiedzieć, w jakim standardzie zakodowane są litery spoza ASCII,
mieć czcionkę (font) z literami danego języka, umieszczonymi w odpowiednich miejscach.

Właśnie wtedy, gdy nie jest spełniony któryś z tych warunków -- czasem po przeniesieniu tekstu do innego komputera -- w miejsce ąćęł... pojawiają się czasami dziwne ,,krzaczki'' albo znaki z zupełnie innych alfabetów.

Pomysł na globalne i ostateczne rozwiązanie tego problemu jest prosty: jeśli 255 to za mało, zarezerwujmy tyle miejsca, aby starczyło na litery wszystkich alfabetów naraz i ustalmy jeden globalny standard!

Ten standard już isnieje -- nazywa się UNICODE. Litery zapisujemy w nim na 16 bitach, co daje miejsce na ponad 65 tysięcy znaków^3.5. Niestety, zanim ten standard uratuje cyfrową wieżę Babel, komputery (a tak naprawdę systemy operacyjne i programy) muszą ,,zmienić swój sposób myślenia'' o literach -- wszak dotychczas jedna litera to był jeden bajt, a nie dwa! No i dopiero powstają czcionki ze znakami wszystkich alfabetów naraz: cyrylicy, hebrajskiego, chińskiego...

Dalej: 3.5 Korekcja błędów Do góry: 3. Maszyny cyfrowe Wstecz: 3.3 Zera i jedynki