Кодирование информации в компьютере

Информация – содержание сообщения, сообщение – форма информации.

Любые сообщения измеряются в байтах, килобайтах, мегабайтах, гигабайтах, терабайтах, петабайтах и эксабайтах, а кодируются, например, в компьютере, с помощью алфавита из нулей и единиц, записываются и реализуются в ЭВМ в битах.

Приведем основные соотношения между единицами измерения сообщений:

1 бит (binary digit – двоичное число) = 0 или 1,

1 байт 8 битов,

1 килобайт (1К) = 2¹³ бит,

1 мегабайт (1М) = 2²³ бит,

1 гигабайт (1Г) = 2³³ бит,

1 терабайт (1Т) = 2⁴³ бит,

1 петабайт (1П) = 2⁵³ бит,

1 эксабайт (1Э) = 2⁶³ бит.

Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т.е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1). Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц – машинным языком

Каждая цифра машинного двоичного кода несет количество информации равное одному биту.

Данный вывод можно сделать, рассматривая цифры машинного алфавита, как равновероятные события. При записи двоичной цифры можно реализовать выбор только одного из двух возможных состояний, а, значит, она несет количество информации равное 1 бит. Следовательно, две цифры несут информацию 2 бита, четыре разряда – 4 бита и т. д. Чтобы определить количество информации в битах, достаточно определить количество цифр в двоичном машинном коде

Кодирование текстовой информации

В настоящее время большая часть пользователей, при помощи компьютера, обрабатывает текстовую информацию, которая состоит из символов: букв, цифр, знаков.

Чтобы определить числовой код символа можно или воспользоваться кодовой таблицей, работая в текстовом процессоре Word. Для этого в меню нужно выбрать пункт Вставка►Символ, после чего на экране появляется диалоговая панель Символ (рисунок 6).

Рисунок 6 – Диалоговое окно Символ

В диалоговом окне появляется таблица символов для выбранного шрифта. Символы в этой таблице располагаются построчно, последовательно слева направо, начиная с символа Пробел (SPACE), расположенного в левом верхнем углу. Код знака показан в поле Код знака.

Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255.

Так, на рисунке 1 в поле Код знака содержится код 64, который соответствует символу @. Для быстрого ввода символа @ достаточно удерживая нажатой клавишу Alt набрать на цифровой клавиатуре код символа – 64.

Наиболее распространенные 8-разрядные таблицы кодировок: ASCII (принята в качестве стандарта в MS-DOS), Windows-1251 (CP1251), КОИ-8, ISO. UNICODE – 16-разрядная кодировка символов, позволяющая закодировать 2¹⁶ = 65536 различных символов.

Одному и тому же двоичному коду могут ставиться в соответствие различные символы. Наглядно это можно представить в виде фрагмента объединенной таблицы кодировки символов (таблица 2).

Таблица 2

Кодирование текста

Двоичный код	Десятичный код	КОИ8	СР1251	СР866	Мас	ISO
		Б	В	-	-	Т

Причем тексты, закодированные при помощи одной таблицы, не будут правильно отображаться в другой кодировке. Впрочем, в большинстве случаев о перекодировке текстовых документов заботится не пользователь, а специальные программы – конверторы, которые встроены в приложения.

В различных кодировках: коды от 0 до 32 – соответствуют управляющим клавишам (Enter, Esc и т.п.); от 33 до 127 – латинским буквам, цифрам, знакам арифметическим операций и знакам препинания; от 128 до 255 (расширенная часть таблицы кодировки) – для символов национальных алфавитов.

Количество различных символов (N), которые можно закодировать с помощью какой-либо таблицы кодировки, определяется числом двоичных разрядов (k), отводимых под кодирование одного символа, и вычисляется по методу Хартли

N=2^k (1)

где N – это так называемая мощность алфавита (конечное число символов, используемых для представления информации или конечное число символов в алфавите);

k –информационный вес символа.

Наибольшее распространение для внешнего представления текстов и другой символьной информации в компьютере получило 8-разрядное кодирование (на кодирование одного символа отводится 8 бит = 1 байт). Таким образом, байт вводится как информационный вес символа из алфавита мощностью 256 символов.

N=2⁸=256 различных символов

Мощность русского алфавита (если считать, что е = ё) равна 32. А каждая буква русского алфавита несет информацию 5 бит (32 = 2⁵).

Чем меньше знаков в используемом алфавите, тем длиннее сообщение. Так, например, в алфавите азбуки Морзе всего три знака (точка, тире, пауза), поэтому для кодирования каждой русской или латинской буквы нужно использовать несколько знаков, и текст, закодированный по Морзе, будет намного длиннее, чем при обычной записи.

Например: Сигнал SOS: 3 знака в латинском алфавите;

11 знаков в алфавите Морзе: ··· пауза – – – пауза ···.

Сообщение любой длины, использующее односимвольный алфавит, содержит нулевую информацию.

Предположим, что используемый алфавит состоит из одного символа, например, «1». Интуитивно понятно, что сообщить что-либо с помощью единственного символа невозможно.

Представьте себе толстую книгу в 1000 страниц, на всех страницах которой написаны одни единицы (единственный символ используемого алфавита).

Таблица 3

Предыдущая 1 2 3 4 5 6 789 10 11 12 13 14 15 16 Следующая

ТОП 5 статей:

Экономическая сущность инвестиций - Экономическая сущность инвестиций – долгосрочные вложения экономических ресурсов сроком более 1 года для получения прибыли путем...
Тема: Федеральный закон от 26.07.2006 N 135-ФЗ - На основании изучения ФЗ № 135, дайте максимально короткое определение следующих понятий с указанием статей и пунктов закона...
Сущность, функции и виды управления в телекоммуникациях - Цели достигаются с помощью различных принципов, функций и методов социально-экономического менеджмента...
Схема построения базисных индексов - Индекс (лат. INDEX – указатель, показатель) - относительная величина, показывающая, во сколько раз уровень изучаемого явления...
Тема 11. Международное космическое право - Правовой режим космического пространства и небесных тел. Принципы деятельности государств по исследованию...