Кодирование информации Кодирование символов
Кодирование символов Текстовый файл • на экране (символы) • в памяти – двоичные коды 10000012 10000102 10000112 10001002 65 66 67 68 ! В файле хранятся не изображения символов, а их числовые коды в двоичной системе! 2
Кодировка 1 байт на символ 0 1 127 128 254 255 таблица ASCII кодовая (международная) страница ASCII = American Standard Code for Information Interchange 0 -31 управляющие символы: 7 – звонок, 10 – новая строка, 13 – возврат каретки, 27 – Esc. 32 пробел знаки препинания: . , : ; ! ? специальные знаки: + - * / () {} [] 48 -57 цифры 0. . 9 65 -90 заглавные латинские буквы A-Z 97 -122 строчные латинские буквы a-z Кодовая страница (расширенная таблица ASCII) для русского языка: CP-866 для системы MS DOS CP-1251 для системы Windows (Интернет) КОИ 8 -R для системы UNIX (Интернет) 3
Таблица ASCII Кодировка ASCII Кодовая страница 4
Кодировка CP-1251 Русские символы 5
Кодировка UNICODE (UTF-16) • Windows, MS Office, … • 16 бит на символ • 65536 или 216 символов в одной таблице можно одновременно использовать символы разных языков (Интернет) размер файла увеличивается в 2 раза 6
Кодирование символов 1. Сколько символов надо использовать одновременно? 256 или 65536 (UNICODE) 2. Сколько места надо выделить на символ: 256 = 28 8 бит на символ 3. Выбрать 256 любых символов (или 65536) - алфавит. 4. Каждому символу – уникальный код 0. . 255 (или 0. . 65535). Таблица символов: коды 65 66 67 68 … A B C D … 5. Коды – в двоичную систему. 7
Закодировать «to be» в таблице ASCII 1. Найти в кодировочной таблице код символов t -116 , o - 111, пробел -32 , b - 98, e - 101 2. Перевести коды из десятичной в двоичную системы счисления и впереди добавить незначащие нули до 8 знаков: t - 01110100 , o - 01101111, пробел - 00100000 , b - 01100010, e - 01100101 3. Записать все в одну строку: 01110100 01101111 00100000 01100010 01100101 8
Задание 1. Закодируйте, используя кодировочную таблицу ASCII фразу «I go. » 2. Считая, что каждый символ кодируется одним байтом, оцените информационный объем следующего предложения: «Мой дядя самых честных правил, Когда не в шутку занемог, Он уважать себя заставил И лучше выдумать не мог. » 1)108 бит 2)864 бит 3)108 кбайт 4)864 кбайт 3. Досье на сотрудников занимают 8 Mb. Каждое из них содержит 16 страниц (32 строки по 64 символа в строке). Сколько сотрудников в организации: 1)256; 2)512; 3)1024; 4)2048 4. Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально записанного в 16 -битном коде Unicode, в 8 -битную кодировку КОИ-8. При этом информационное сообщение уменьшилось на 720 бит. Какова длина сообщения в символах? 1) 90 2) 45 3) 180 4) 720 9
Задание 5. В кодировке Unicode на каждый символ отводится два байта. Определите информационный объем слова из двадцати четырех символов в этой кодировке. 1) 384 бита; 2) 192 бита; 3) 256 бит; 4) 48 бит. 6. Текстовый документ, состоящий из 3072 символов, хранился в 8 -битной кодировке КОИ-8. Этот документ был преобразован в 16 -битную кодировку Unicode. Укажите, какое дополнительное количество Кбайт потребуется для хранения документа. В ответе запишите только число. 7. В таблице ниже представлена часть кодовой таблицы ASCII: Каков шестнадцатеричный код символа “q” ? 1) 71 2) 83 3) А 1 4) В 3 10