Кодирование информации в компьютере
Информация – содержание сообщения, сообщение – форма информации.
Любые сообщения измеряются в байтах, килобайтах, мегабайтах, гигабайтах, терабайтах, петабайтах и эксабайтах, а кодируются, например, в компьютере, с помощью алфавита из нулей и единиц, записываются и реализуются в ЭВМ в битах.
Приведем основные соотношения между единицами измерения сообщений:
1 бит (binary digit – двоичное число) = 0 или 1,
1 байт 8 битов,
1 килобайт (1К) = 213 бит,
1 мегабайт (1М) = 223 бит,
1 гигабайт (1Г) = 233 бит,
1 терабайт (1Т) = 243 бит,
1 петабайт (1П) = 253 бит,
1 эксабайт (1Э) = 263 бит.
Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т.е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1). Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц – машинным языком
Каждая цифра машинного двоичного кода несет количество информации равное одному биту.
Данный вывод можно сделать, рассматривая цифры машинного алфавита, как равновероятные события. При записи двоичной цифры можно реализовать выбор только одного из двух возможных состояний, а, значит, она несет количество информации равное 1 бит. Следовательно, две цифры несут информацию 2 бита, четыре разряда – 4 бита и т. д. Чтобы определить количество информации в битах, достаточно определить количество цифр в двоичном машинном коде
Кодирование текстовой информации
В настоящее время большая часть пользователей, при помощи компьютера, обрабатывает текстовую информацию, которая состоит из символов: букв, цифр, знаков.
Чтобы определить числовой код символа можно или воспользоваться кодовой таблицей, работая в текстовом процессоре Word. Для этого в меню нужно выбрать пункт Вставка►Символ, после чего на экране появляется диалоговая панель Символ (рисунок 6).
Рисунок 6 – Диалоговое окно Символ
В диалоговом окне появляется таблица символов для выбранного шрифта. Символы в этой таблице располагаются построчно, последовательно слева направо, начиная с символа Пробел (SPACE), расположенного в левом верхнем углу. Код знака показан в поле Код знака.
Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255.
Так, на рисунке 1 в поле Код знака содержится код 64, который соответствует символу @. Для быстрого ввода символа @ достаточно удерживая нажатой клавишу Alt набрать на цифровой клавиатуре код символа – 64.
Наиболее распространенные 8-разрядные таблицы кодировок: ASCII (принята в качестве стандарта в MS-DOS), Windows-1251 (CP1251), КОИ-8, ISO. UNICODE – 16-разрядная кодировка символов, позволяющая закодировать 216 = 65536 различных символов.
Одному и тому же двоичному коду могут ставиться в соответствие различные символы. Наглядно это можно представить в виде фрагмента объединенной таблицы кодировки символов (таблица 2).
Таблица 2
Кодирование текста
Двоичный код
| Десятичный код
| КОИ8
| СР1251
| СР866
| Мас
| ISO
|
|
| Б
| В
| -
| -
| Т
|
Причем тексты, закодированные при помощи одной таблицы, не будут правильно отображаться в другой кодировке. Впрочем, в большинстве случаев о перекодировке текстовых документов заботится не пользователь, а специальные программы – конверторы, которые встроены в приложения.
В различных кодировках: коды от 0 до 32 – соответствуют управляющим клавишам (Enter, Esc и т.п.); от 33 до 127 – латинским буквам, цифрам, знакам арифметическим операций и знакам препинания; от 128 до 255 (расширенная часть таблицы кодировки) – для символов национальных алфавитов.
Количество различных символов (N), которые можно закодировать с помощью какой-либо таблицы кодировки, определяется числом двоичных разрядов (k), отводимых под кодирование одного символа, и вычисляется по методу Хартли
N=2k (1)
где N – это так называемая мощность алфавита (конечное число символов, используемых для представления информации или конечное число символов в алфавите);
k –информационный вес символа.
Наибольшее распространение для внешнего представления текстов и другой символьной информации в компьютере получило 8-разрядное кодирование (на кодирование одного символа отводится 8 бит = 1 байт). Таким образом, байт вводится как информационный вес символа из алфавита мощностью 256 символов.
N=28=256 различных символов
Мощность русского алфавита (если считать, что е = ё) равна 32. А каждая буква русского алфавита несет информацию 5 бит (32 = 25).
Чем меньше знаков в используемом алфавите, тем длиннее сообщение. Так, например, в алфавите азбуки Морзе всего три знака (точка, тире, пауза), поэтому для кодирования каждой русской или латинской буквы нужно использовать несколько знаков, и текст, закодированный по Морзе, будет намного длиннее, чем при обычной записи.
Например: Сигнал SOS: 3 знака в латинском алфавите;
11 знаков в алфавите Морзе: ··· пауза – – – пауза ···.
Сообщение любой длины, использующее односимвольный алфавит, содержит нулевую информацию.
Предположим, что используемый алфавит состоит из одного символа, например, «1». Интуитивно понятно, что сообщить что-либо с помощью единственного символа невозможно.
Представьте себе толстую книгу в 1000 страниц, на всех страницах которой написаны одни единицы (единственный символ используемого алфавита).
Таблица 3
|