Аналитический раздел.
Разработка шифратора

РефератПомощь в написанииУзнать стоимостьмоей работы

Аналитический раздел. Разработка шифратора (реферат, курсовая, диплом, контрольная)

Двоичное кодирование

В настоящее время большая часть пользователей при помощи компьютера обрабатывает текстовую информацию, которая состоит из символов: букв, цифр, знаков препинания и др.

Традиционно для того чтобы закодировать один символ используют количество информации равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов можно закодировать (считая, что символы — это возможные события):

К = 2I= 28= 256,.

т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 0 до 11 111 111 или соответствующий ему десятичный код от 0 до 255.

Необходимо помнить, что в настоящее время для кодировки русских букв используют пять различных кодовых таблиц (КОИ — 8, СР1251, СР866, Мас, ISO), причем тексты, закодированные при помощи одной таблицы не будут правильно отображаться в другой кодировке. Наглядно это можно представить в виде фрагмента объединенной таблицы кодировки символов.

Одному и тому же двоичному коду ставится в соответствие различные символы. логический шифратор двоичный кодирование.


Двоичный код.	Десятичный код.	КОИ8.	СР1251.	СР866.	Мас.	ISO.
		б.	В.	;	;	Т.

Если кратко — информация каждого вида должна быть представлена в форме, понятной компьютеру.

При кодировании информации для представления ее в памяти ЭВМ используется двоичный способ, т. е. любая информация, будь то числа, текст, графическое изображение, звук или видео, представляется универсальным двоичным кодом. Алфавит этого кода составляют символы 0 и 1. Почему был выбран именно этот способ кодирования? Дело в том, что в некоторых из первых ЭВМ предпринимались попытки внедрить десятичный или троичный код, но ни один из этих вариантов кодирования не дожил до современности. Ответ на вопрос довольно прост: два существенно различных состояния, представляющих соответственно 0 или 1, технически реализовать значительно проще, чем все остальные случаи. Действительно, отсутствие напряжения может изображать 0, наличие— 1; отсутствие намагниченности участка носителя информации — 0, намагниченность — 1 и т. д. Поэтому другие варианты были просто изжиты.

Компьютер по праву считают универсальным преобразователем информации. Для того чтобы сохранить любую информацию, ее надо закодировать. Компьютер работает отдельно с каждым символом.

Текстовая информация состоит из символов: букв, цифр, знаков препинания, скобок и других символов. Тексты вводятся в память компьютера с помощью клавиатуры или из файлов. В оперативную память символы алфавита попадают в форме двоичного кода. В русском языке 33 буквы (символа) — для их кодирования достаточно 33 различных байтов. Если есть потребность различать прописные (заглавные) и строчные буквы, то потребуется 66 байтов. Для строчных и прописных букв английского языка хватит еще 52 символов — получается 118. Добавим сюда цифры (от 0 до 9), все возмож-ные знаки препинания: точку, запятую, тире, восклицательный и вопросительный знаки. Добавим скобки: круглые, квадратные и фигурные, а также знаки математических операций: «+», «-», «=», «/», «*». Добавим специальные символы, например, такие, как: «%», «$», «&», «@» , — все их мож-но выразить восемью битами, и при этом еще останутся свободные коды, которые можно исполь-зовать для других целей.

Чаще всего каждый символ текста кодируется восьмиразрядным двоичным кодом. Для представления текстовой информации в компьютере чаще всего используется алфавит мощностью 256 символов. Один символ такого алфавита несет 8 бит информации: 28 = 256, 8 бит = 1 байту, следовательно, двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 0 до 11 111 111. Этот код — просто порядковый номер символа в двоичной системе счисления.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки. В этой таблице должно быть 256 строк, в которых записывается, какой байт какому символу соответствует.

Для разных типов ЭВМ используются различные таблицы кодировки. С распространением персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки под названием ASCII (American Standart Code for Information Interchange) — Американский стандартный код для информационного обмена. Данную таблицу кодировки ввел в действие Институт стандартизации США (ANSI — AmericanNational Standard Institute). В системе ASCII закреплены две таблицы кодирования — базовая и расширенная (альтернативная). Базовая закрепляет значения кодов от 0 до 127, арасширенная относится к символам с номерами от 128 до 255. Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств. В этой области размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков, и, соответственно, эти коды не выводятся ни на экран, на устройство печати. Начиная с кода 32 по код 127 размещены коды символов английского алфавита, знаков препинания, цифр, арифметических действий и некоторых вспомогательных символов. В кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений.

За вторую половину кодовой таблицы — расширенную — коды от 128 (10 000 000) до 255 (11 111 111) стандарт ASCII не отвечает, они являются национальными. Разные страны могут здесь свои таблицы. Отсутствие единого стандарта в этой области привело к множественности одновременно действующих кодировок. Тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

Только в России можно указать три действующих стандарта кодировки и еще два устаревших (Windows-1251, КОИ-8, ISO, ГОСТ и ГОСТ-альтернативная). Кодировка символов русского языка, известная как кодировка Windows-1251,была введена «извне» — компанией Microsoft, но, учитывая широкое распространение операционных систем и других продуктов этой компании в России, она глубоко закрепилась и нашла широкое распространение. Это кодировка используется на большинстве локальных компьютеров, работающих на платформе Windows.

Другая распространенная кодировка носит название КОИ-8 (код обмена информацией, восьмизначный) — ее происхождение относится к временам действия Совета Экономической Взаимопомощи. Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета.

Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, носит название ISO (International Standard Organization — Международный институт стандартизации). На практике данная кодировка используется редко.

На компьютерах, работающих в операционных системах MS-DOS, могут действовать еще две кодировки (ГОСТ и кодировка ГОСТ-альтернативная). Первая из них считалась устаревшей даже в первые годы появления персональной вычислительной техники, но вторая используется и по сей день.

В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не 256 символов, а 216=65 536 различных символов — этого достаточно для размещения в одной таблице всех широкоупотребляемых языков.

Показать весь текст

Заполнить форму текущей работой