Помощь в написании студенческих работ
Антистрессовый сервис

Кодирование текстовой информации

РефератПомощь в написанииУзнать стоимостьмоей работы

Код ASCII использует 8 бит для представления различных символов: десятичных цифр, символов латинского и национального алфавита, знаков препинания, символов, управляющих работой компьютера. Всего с помощью восьмибитного кода можно представить 256 символов. Коды 0−127 соответствуют символам в стандарте US-ASCII, коды 128−255 — символам национального алфавита либо специальным символам. Для… Читать ещё >

Кодирование текстовой информации (реферат, курсовая, диплом, контрольная)

Для представления текстовой информации используются различные кодировки: ASCII (American Standard Code for Information Interchange) — американский стандартный код для обмена информацией; Unicode — стандарт кодирования символов, обеспечивающий представление алфавита всех письменных языков; EBCDIC (Extended Binary Coded Decimal Interchange Code) — расширенный двоично-десятеричный код обмена информацией[1].

Коды ASCII

Код ASCII использует 8 бит для представления различных символов: десятичных цифр, символов латинского и национального алфавита, знаков препинания, символов, управляющих работой компьютера. Всего с помощью восьмибитного кода можно представить 256 символов. Коды 0−127 соответствуют символам в стандарте US-ASCII, коды 128−255 — символам национального алфавита либо специальным символам.

Коды ASCII приведены на рис. 3.3. Код символа вычисляется как сумма кода столбца и кода строки, на пересечении которых находится символ в соответствии с правилами шестнадцатеричной системы счисления. Например:

¦ цифра «1» — код 31 (30 + 1) в шестнадцатеричном представлении (110 001), или 49 (16 • 3 + 1) в десятичном;

¦ цифра «9» — код 39 (30 + 9) в шестнадцатеричном представлении (111 001), или 57 в десятичном;

¦ буква «b» — код 62 (60 + 2) в шестнадцатеричном представлении (1 100 010), или 98 в десятичном;

¦ буква «б» — код А1 (АО + 1) в шестнадцатеричном представлении (10 100 001), или 161 в десятичном и т. п.

Код ASCII изначально предназначался для обмена информации, в процессе которого используют символы-команды управления связью. Это так называемый набор спецсигналов: NUL, 00 — Null, пустой, последний символ любого текстового файла; STX, 02 — Start of Text, начало текста; ЕТХ, 03 — End of Text, конец текста; FF, ОС — Form Feed, новая страница; CR, 0D — Carriage Return, возврат каретки и др.

В ASCII возможно представление диакритики букв, например: Кодирование текстовой информации. (за счет совмещения двух символов при возврате каретки печатного устройства), подчеркивание символа (за счет.

Рис. 3.3. Коды ASCII.

Рис. 3.3. Коды ASCII.

наложения на основной символ символа подчеркивания), эффект полужирного шрифта.

Символы национальных кодировок используют кодовые страницы (code page) для обеспечения соответствия символов их кодовым эквивалентам. В число наиболее распространенных кодовых страниц для русского языка входят:

¦ Windows-1251 (СР1251) или ANSI Cyrillic для ОС Windows;

¦ семейство кодовых страниц КОИ-8 (код обмена информацией) для операционной среды UNIX;

¦ альтернативная кодировка КОИ-8 (866) для использования в ОС DOS и OS/2;

¦ кодовая страница MacCyrillic для использования на компьютерах Macintosh и др.

Применение кодов ASCII не решает ряда серьезных проблем, в частности:

¦ документы часто отображаются неправильно, требуется явное указание на используемую кодировку (либо отказ от всех национальных языков и внедрение единого письменного языка);

¦ набор символов весьма ограничен, нестандартные символы часто искажаются;

¦ преобразование одной кодировки в другую требует применения таблиц перекодировки для каждой пары кодировок либо использования единой кодировки, включающей в себя символы всех кодировок;

¦ затраты на подготовку шрифтов весьма велики, поскольку они создаются для каждой кодировки (в противном случае требуется создание единого реестра символов).

  • [1] Коды EBCDIC применялись в основном на больших ЭВМ (типа IBM), они поддерживают восьмибитовое представление букв латинского алфавита, арабских цифр, некоторых знаков пунктуации и управляющих символов.
Показать весь текст
Заполнить форму текущей работой