Лекция_3_Кодирование_информации.ppt
- Количество слайдов: 42
Кодирование информации Информатика 1
Кодирование и декодирование Для обмена информацией с другими людьми человек использует естественные языки. Наряду с естественными языками были разработаны формальные языки для профессионального применения их в какойлибо сфере. Представление информации с помощью какого-либо языка часто называют кодированием. Код — набор символов (условных обозначений) для представления информации. Код — система условных знаков (символов) для передачи, обработки и хранения информации(со общения). Информатика 2
Кодирование и декодирование Кодирование — представления (сообщения) в виде кода. процесс информации Все множество символов, используемых для кодирования, называется алфавитом кодирования. Например, в памяти компьютера любая информация кодируется с помощью двоичного алфавита, содержащего всего два символа: 0 и 1. Информатика 3
Кодирование и декодирование Декодирование- процесс обратного преобразования кода к форме исходной символьной системы, т. е. получение исходного сообщения. Например: перевод с азбуки Морзе в письменный текст на русском языке. В более широком смысле декодирование — это процесс восстановления содержания закодированного сообщения. При таком подходе процесс записи текста с помощью русского алфавита можно рассматривать в качестве кодирования, а его чтение — это декодирование. Информатика 4
Способы кодирования информации Для кодирования одной и той же информации могут быть использованы разные способы; их выбор зависит от ряда обстоятельств: цели кодирования, условий, имеющихся средств. Если надо записать текст в темпе речи — используем стенографию; если надо передать текст за границу — используем английский алфавит; если надо представить текст в виде, понятном для грамотного русского человека, — записываем его по правилам грамматики русского языка. «Здравствуй, Саша!» «Zdravstvuy, Sasha!» Информатика 5
Способы кодирования информации Выбор способа кодирования информации может быть связан с предполагаемым способом ее обработки. Покажем это на примере представления чисел — количественной информации. Используя русский алфавит, можно записать число "тридцать пять". Используя же алфавит арабской десятичной системы счисления, пишем « 35» . Второй способ не только короче первого, но и удобнее для выполнения вычислений. Какая запись удобнее для выполнения расчетов: "тридцать пять умножить на сто двадцать семь" или "35 х 127"? Очевидно — вторая. Информатика 6
Шифрование сообщения В некоторых случаях возникает потребность засекречивания текста сообщения или документа, для того чтобы его не смогли прочитать те, кому не положено. Это называется защитой от несанкционированного доступа. В таком случае секретный текст шифруется. В давние времена шифрование называлось тайнописью. Шифрование представляет собой процесс превращения открытого текста в зашифрованный, а дешифрование —процесс обратного преобразования, при котором восстанавливается исходный текст. Шифрование — это тоже кодирование, но с засекреченным методом, известным только источнику и адресату. Методами шифрования занимается наука под 7 Информатика названием криптография.
Оптический телеграф Шаппа В 1792 году во Франции Клод Шапп создал систему передачи визуальной информации, которая получила название «Оптический телеграф» . В простейшем виде это была цепь типовых строений, с расположенными на кровле шестами с подвижными поперечинами, которая создавалась в пределах видимости одно от другого. Шесты с подвижными поперечинами — семафоры — управлялись при помощи тросов специальными операторами изнутри строений. Шапп создал специальную таблицу кодов, где каждой букве алфавита соответствовала определенная фигура, образуемая Семафором, в зависимости от положений поперечных брусьев относительно опорного шеста. Система Шаппа позволяла передавать сообщения на скорости два слова в минуту и быстро распространилась в Европе. В Швеции цепь станций оптического телеграфа действовала до 1880 года. Информатика 8
Первый телеграф Первым техническим средством передачи информации на расстояние стал телеграф, изобретенный в 1837 году американцем Сэмюэлем Морзе. Телеграфное сообщение — это последовательность электрических сигналов, передаваемая от одного телеграфного аппарата по проводам к другому телеграфному аппарату. Изобретатель Сэмюель Морзе изобрел удивительный код(Азбука Морзе, код Морзе, «Морзянка» ), который служит человечеству до сих пор. Информация кодируется тремя «буквами» : длинный сигнал (тире), короткий сигнал (точка) и отсутствие сигнала (пауза) для разделения букв. Таким образом, кодирование сводится к использованию набора символов, расположенных в строго определенном порядке. Самым знаменитым телеграфным сообщением является сигнал бедствия "SOS" (Save Our Souls - спасите наши души). Вот как он выглядит: « • • • – – – • • • » Информатика 9
Азбука Морзе A • − И • • P • − • Ш −−−− Б − • • • Й • −−− С • • • Щ −− • − В • −− К − • − Т − Ъ • −− • Г −− • Л • − • • У • • − Ь − • • − Д − • • М −− Ф • • − • Ы − • −− Е • H − • Х • • Э • • − • • Ж • • • − О −−− Ц − • Ю • • −− З −− • • П • −− • Ч −−− • Я • − Информатика 10
Азбука Морзе 1 • −−−− 9 −−−− • 2 • • −−− 0 −−−−− 3 • • • −− Точка 4 • • − Запятая 5 • • • / − • • − • 6 • • ? • • −− • • 7 −− • • • ! −− • • −− 8 −−− • • @ • −− • Информатика • • • • − • − 11
Неравномерность кода − • − − • • • −− • • − Характерной особенностью азбуки Морзе является переменная длина кода разных букв, поэтому код Морзе называют неравномерным кодом. Буквы, которые встречаются в тексте чаще, имеют более короткий код, чем редкие буквы. Это сделано для того, чтобы сократить длину всего сообщения. Но из-за переменной длины кода букв возникает проблема отделения букв друг от друга в тексте. Поэтому для разделения приходится использовать паузу (пропуск). Следовательно, телеграфный алфавит Морзе является троичным, т. к. в нем используются три знака: точка, тире, пропуск. Информатика 12
Первый беспроводной телеграф (радиоприемник) 7 мая 1895 года российский ученый Александр Степанович Попов на заседании Русского Физико. Химического Общества продемонстрировал прибор, названный им "грозоотметчик", который был предназначен для регистрации электромагнитных волн. Этот прибор считается первым в мире аппаратом беспроводной телеграфии, радиоприемником. В 1897 году при помощи аппаратов беспроводной телеграфии Попов осуществил прием и передачу сообщений между берегом и военным судном. В 1899 году Попов сконструировал модернизированный вариант приемника электромагнитных волн, где прием сигналов (азбукой Морзе) осуществлялся на головные телефоны оператора. В 1900 году благодаря радиостанциям, построенным на острове Гогланд и на российской военно-морской базе в Котке под руководством Попова, были успешно осуществлены аварийноспасательные работы на борту военного корабля "Генерал-адмирал Апраксин", севшего на мель у острова Гогланд. В результате обмена сообщениями, переданным методом беспроводной телеграфии, экипажу российского ледокола Ермак была своевременно и точно передана информация о финских рыбаках, находящихся на оторванной льдине. Информатика 13
Телеграфный аппарат Бодо Равномерный телеграфный код был изобретен французом Жаном Морисом Бодо в конце XIX века. В нем использовалось всего два разных вида сигналов. Не важно, как их назвать: точка и тире, плюс и минус, ноль и единица. Это два отличающихся друг от друга электрических сигнала. Длина кода всех символов одинаковая и равна пяти. В таком случае не возникает проблемы отделения букв друг от друга: каждая пятерка сигналов — это знак текста. Поэтому пропуск не нужен. Код называется равномерным, если длина кода всех символов равна. Код Бодо — это первый в истории техники способ двоичного кодирования, информации. Благодаря этой идее удалось создать буквопечатающий телеграфный аппарат, имеющий вид пишущей машинки. Нажатие на клавишу с определенной буквой вырабатывает соответствующий пятиимпульсный сигнал, который передается по линии связи. В честь Бодо была названа единица скорости передачи информации — бод. В современных компьютерах для кодирования текста также применяется равномерный двоичный код. Информатика Telex Это интересно: Отель, не имеющий телекса, не может иметь рейтинг "пять звезд". 14
Двоичное кодирование в компьютере Вся информация, которую обрабатывает компьютер должна быть представлена двоичным кодом с помощью двух цифр: 0 и 1. Эти два символа принято называть двоичными цифрами или битами. С помощью двух цифр 0 и 1 можно закодировать любое сообщение. Это явилось причиной того, что в компьютере обязательно должно быть организованно два важных процесса: кодирование и декодирование. Кодирование – преобразование входной информации в форму, воспринимаемую компьютером, т. е. двоичный код. Декодирование – преобразование данных из двоичного кода в форму, понятную человеку. Информатика 15
Почему двоичное кодирование С точки зрения технической реализации использование двоичной системы счисления для кодирования информации оказалось намного более простым, чем применение других способов. Действительно, удобно кодировать информацию в виде последовательности нулей и единиц, если представить эти значения как два возможных устойчивых состояния электронного элемента: 0 – отсутствие электрического сигнала; 1 – наличие электрического сигнала. Эти состояния легко различать. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим количеством простых элементов, чем с небольшим числом сложных. Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук. Информатика 16
Двоичное кодирование чис ла символы кодировщик рисунки 10101101110110101 звук • в такой форме можно закодировать все виды информации • нужны только устройства с двумя состояниями • практически нет ошибок при передаче • компьютеру легче обрабатывать данные • человеку сложно воспринимать двоичные коды ? Можно ли использовать не « 0» и « 1» , а другие символы, например, «А» и «Б» ? Информатика 17
Двоичное кодирование – это кодирование всех видов информации с помощью двух знаков (обычно 0 и 1). Передача электрических сигналов: сигнал с помехами U U сигнал с помехами 5 В « 1» 1 полезный сигнал время полезный сигнал Информатика 0 1 « 0» время 18
Кодирование чисел Информатика 19
Кодирование чисел (двоичная система) Алфавит: 0, 1 Основание (количество цифр): 2 10 2 19 18 1 2 9 8 1 2 4 4 0 2 2 2 0 2 10 43210 19 = 100112 2 1 0 1 система счисления 2 0 разряды 100112 = 1· 24 + 0· 23 + 0· 22 + 1· 21 + 1· 20 = 16 + 2 + 1 = 19 Информатика 20
Кодирование символов Информатика 21
Кодирование символов Текстовый файл • на экране (символы) • в памяти – двоичные коды 10000012 10000112 10001002 65 ! 10000102 66 67 68 В файле хранятся не изображения символов, а их числовые коды в двоичной системе! А где же хранятся изображения? Информатика 22
Кодирование символов 1. Сколько символов надо использовать одновременно? 256 или 65536 (UNICODE) 2. Сколько места надо выделить на символ: 256 = 28 8 бит на символ 3. Выбрать 256 любых символов (или 65536) алфавит. 4. Каждому символу – уникальный код 0. . 255 (или 0. . 65535). Таблица символов: коды 65 … 66 67 68 A B C D … 5. Коды – в двоичную систему. Информатика 23
Кодировка 1 байт на символ 0 127 1 таблица ASCII (международная) 128 254 255 кодовая страница ASCII = American Standard Code for Information Interchange 0 -31 управляющие символы: 7 – звонок, 10 – новая строка, 13 – возврат каретки, 27 – Esc. 32 пробел знаки препинания: . , : ; ! ? специальные знаки: + - * / () {} [] 48 -57 цифры 0. . 9 65 -90 заглавные латинские буквы A-Z 97 -122 строчные латинские буквы a-z Кодовая страница (расширенная таблица ASCII) для русского языка: CP-866 для системы MS DOS CP-1251 для системы Windows (Интернет) КОИ 8 -R для системы UNIX (Интернет) Информатика 24
Базовая таблица кодирования ASCII Информатика 25
Кодировка Windows 1251 Информатика 26
Кодировка UNICODE (UTF-16) • Windows, MS Office, … • 16 бит на символ • 65536 или 216 символов в одной таблице можно одновременно использовать символы разных языков (Интернет) размер файла увеличивается в 2 раза Информатика 27
Кодирование графической информации Информатика 28
Два типа кодирования рисунков • растровое кодирование точечный рисунок, состоит из пикселей фотографии, размытые изображения • векторное кодирование рисунок, состоит из отдельных геометрических фигур чертежи, схемы, карты Информатика 29
Растровое кодирование Шаг 1. Дискретизация: разбивка на пиксели. Пиксель – это наименьший элемент рисунка, для которого можно независимо установить цвет. ! Шаг 2. Для каждого пикселя определяется единый цвет. Есть потеря информации! • почему? • как ее уменьшить? Разрешение: число пикселей на дюйм, pixels per inch (ppi) экран 96 ppi, печать 300 -600 ppi, типография 1200 ppi Информатика 30
Растровое кодирование (True Color) Шаг 3. От цвета – к числам: модель RGB цвет = R + G + B red green красный зеленый 0. . 255 R = 218 G = 164 B = 32 blue синий 0. . 255 R = 135 G = 206 B = 250 Шаг 4. Числа – в двоичную систему. ? Сколько разных цветов можно кодировать? ? Сколько памяти нужно для хранения цвета 1 пикселя? 256· 256 = 16 777 216 (True Color) Глубина цвета R: 256=28 вариантов, нужно 8 бит = 1 байт R G B: всего 3 байта Информатика 31
Цветовая система RGB Информатика 32
Растровое кодирование с палитрой Шаг 1. Выбрать количество цветов: 2, 4, … 256. Шаг 2. Выбрать 256 цветов из палитры: 248 0 88 0 221 21 181 192 0 21 0 97 Шаг 3. Составить палитру (каждому цвету – номер 0. . 255) палитра хранится в начале файла 0 248 0 88 0 221 21 254 … 255 181 192 0 1 21 0 97 Шаг 4. Код пикселя = номеру его цвета в палитре 2 45 65 14 … Информатика 12 23 33
Растровое кодирование с палитрой Файл с палитрой: палитра ? коды пикселей Сколько занимает палитра и основная часть? Один цвет в палитре: 3 байта (RGB) 256 = 28 цветов: палитра рисунок 256· 3 = 768 байт 8 бит на пиксель Глубина цвета 16 цветов: палитра рисунок 16· 3 = 48 байт 4 бита на пиксель 2 цвета: палитра рисунок 2· 3 = 6 байт 1 бит на пиксель Информатика 34
Растровые рисунки • лучший способ для хранения фотографий и изображений без четких границ • спецэффекты (тени, ореолы, и т. д. ) • есть потеря информации (почему? ) • при изменении размеров рисунка он искажается • размер файла не зависит от сложности рисунка (а от чего зависит? ) ? Какие свойства цифрового рисунка определяют его качество? Информатика 35
Векторные рисунки Строятся из геометрических фигур: • отрезки, ломаные, прямоугольники • окружности, эллипсы, дуги • сглаженные линии (кривые Безье) Для каждой фигуры в памяти хранятся: • размеры и координаты на рисунке • цвет и стиль границы • цвет и стиль заливки (для замкнутых фигур) Форматы файлов: • WMF (Windows Metafile) • CDR (Corel. Draw) • AI (Adobe Illustrator) • FH (Free. Hand) Информатика 36
Векторные рисунки • лучший способ для хранения чертежей, схем, карт; • при кодировании нет потери информации; • при изменении размера нет искажений; • меньше размер файла, зависит от сложности рисунка; • неэффективно использовать для фотографий и размытых изображений Информатика 37
Кодирование звука Информатика 38
Оцифровка (перевод в цифровую форму) цифровой сигнал аналоговый сигнал 10110101010011 аналоговый сигнал ? • • Какой объем информации в аналоговом сигнале? Можно ли хранить его в памяти реального устройства? • Будет ли сигнал на выходе тот же самый? • Почему есть потеря информации? Информатика 39
Дискретизация по времени хранятся только значения сигнала в моменты 0, T, 2 T, … T – интервал дискретизации Частота дискретизации: f = 8 к. Гц, 11 к. Гц, 22 к. Гц, 44 к. Гц (CD) с 22 к. Гц 0 T 2 T ? ? Человек слышит 16 Гц … 20 к. Гц Что компьютер может выдать на выход? Как улучшить качество? Что при этом ухудшится? 0 T Информатика 2 T 40
Дискретизация по уровню У всех точек в одной полосе одинаковый код! 8 бит = 256 уровней 16 бит = 65536 уровней 32 бита = 232 уровней 64 бита = 264 уровней 4 3 2 1 0 0 T 2 T «Глубина» кодирования (разрядность звуковой карты) ! При оцифровке потерю информации дает дискретизация как по времени, так и по уровню! Информатика 41
Оцифровка – итог можно закодировать любой звук (в т. ч. голос, свист, шорох, …) • есть потеря информации • большой объем файлов ? Какие свойства цифрового звука определяют его качество? частота дискретизации 44 к. Гц, глубина кодирования 16 бит: Форматы файлов: WAV (Waveform audio format), часто без сжатия (размер!) MP 3 (MPEG-1 Audio Layer 3, сжатие с потерями) WMA (Windows Media Audio, потоковый звук, сжатие) Информатика 42


