КОДИРОВАНИЕ ИНФОРМАЦИИ ассистент кафедры теоретической и компьютерной гидроаэродинамики



















































КОДИРОВАНИЕ ИНФОРМАЦИИ.ppt
- Количество слайдов: 51
КОДИРОВАНИЕ ИНФОРМАЦИИ ассистент кафедры теоретической и компьютерной гидроаэродинамики мехмата Гетман Вероника Андреевна 1
Кодирование текстовых и символьных данных В двоичной системе счисления кодирование "внешних" символов основывается на сопоставлении каждому из них определенной группы двоичных знаков. Двоичное кодирование символьных данных производится заданием кодовых таблиц, в которых каждому символу ставится в соответствие одно- или двухбайтовый код. Восьми двоичных разрядов достаточно для кодирования 256 различных символов. Этого количества достаточно, чтобы выразить все символы английского и русского алфавита, а также знаки препинания, символы основных арифметических операций и некоторые специальные символы. Наиболее популярная таблица ASCII (American Standard Code for Information Interchange, американский стандартный код информационного обмена) разработана институтом стандартизации США (American National Standard Institute, ANSI) в 1981 году (табл. 1). 2
Кодирование текстовых и символьных данных (табл. 1 Базовая таблица кодировки ASCII) 3
Кодирование текстовых и символьных данных Коды с 0 до 127 составляют базовую (основную) таблицу, коды со 128 по 255 — расширенную (дополнительную) таблицу. Дополнительная таблица отдана национальным алфавитам и символам псевдографики. Аналогичные системы кодирования текстовых данных были разработаны и в других странах. Так, в СССР действовала система кодирования КОИ-8 (код информационного обмена восьмизначный). Компанией Microsoft была введена кодировка символов русского языка, известная как кодировка Windows-1251. 4
Кодирование текстовых и символьных данных Во многих азиатских странах 256 кодов не хватило. В 1991 году производители программных продуктов ( Microsoft , IBM , Apple ) выработали единый стандарт Unicode 3. 0. Этот код построен по 31 - битной схеме. Все текстовые документы в этой кодировке вдвое длиннее, зато она содержит буквы латинского и многих национальных алфавитов, спецсимволы и т. п. 5
Кодирование графических данных Различают три вида компьютерной графики: растровую, векторную и фрактальную. Они отличаются принципами формирования изображения при отображении на экране монитора или при печати на бумаге. Если графические объекты формируются в виде множества точек ( пикселей) разных цветов и разных яркостей, то это называется растровой графикой. 6
Кодирование графических данных В Интернете применяются только растровые иллюстрации. Основным элементом растрового изображения является точка. Если изображение экранное, то эта точка называется пикселем. В зависимости от того, на какое графическое разрешение экрана настроена операционная система компьютера, на экране могут размещаться изображения 640× 480, 800× 600, 1024× 768 и более пикселей. 7
Кодирование графических данных При кодировании растровых изображений в памяти компьютера должна храниться информация о каждом пикселе. С размером изображения непосредственно связано его разрешение. Этот параметр измеряется в dpi (dots per inch — точек на дюйм). В растровой графике общепринятым на сегодняшний день считается представление черно- белых иллюстраций в виде комбинации точек с 256 градациями серого цвета. 8
Кодирование графических данных Эти мельчайшие точки образуют характерный узор, называемый растром. Точно так же изображают информацию периферийные устройства печати. У растровых изображений два основных недостатка. Во-первых, очень большие объемы данных. Для активных работ с большеразмерными иллюстрациями типа журнальной полосы требуются компьютеры с большими размерами оперативной памяти (128 Мбайт и более). 9
Кодирование графических данных Во-вторых, растровые изображения невозможно значительно увеличить без серьезных искажений. Эффект искажения при увеличении точек растра называется пикселизацией. В отличие от растровой в векторной графике изображение представляет собой совокупность простых элементов: прямых линий, дуг, окружностей, эллипсов, прямоугольников и т. п. , которые называются графическими примитивами. 10
Кодирование графических данных Положение и форма графических примитивов задаются в системе графических координат, связанных с экраном. В векторной графике объем памяти, занимаемой, например линией, не зависит от размеров линии, поскольку линия представляется в виде формулы, а точнее в виде нескольких параметров. Перед выводом на экран каждого объекта программа векторной графики производит вычисление координат экранных точек в изображении объекта. 11
Кодирование графических данных Аналогичные вычисления производятся при выводе объектов на принтер. Векторная графика лишена недостатков растровой, но в ней сложно создавать художественные иллюстрации, поэтому чаще всего ее используют для чертежных и проектно-конструкторских работ. Фрактальная графика, как и векторная, — вычисляемая, но отличается от нее тем, что никакие объекты в памяти компьютера не хранятся. 12
Кодирование графических данных Изображение строится по уравнениям, поэтому ничего, кроме формулы, хранить не надо. Изменение коэффициентов в уравнении позволяет получить совершенно другую картину. Для кодирования цветных графических изображений применяется принцип декомпозиции — разложение произвольного цвета на основные составляющие. Существует множество различных типов цветовых моделей, но в компьютерной графике, как правило, применяется не более трех. Эти модели известны под названиями: RGB, CMYK и HSB. 13
Кодирование графических данных Цветовая модель RGB. В ней в качестве составляющих используются три цвета: красный (Red), зеленый (Green) и синий (Blue). Считается, что любой цвет состоит из этих трех компонент. Совмещение всех трех цветов дает нейтральный цвет (серый), который при большой яркости стремится к белому цвету. Метод получения нового оттенка суммированием яркостей составляющих компонент называется аддитивным. Он применяется всюду, где цвета изображения рассматриваются в проходящем цвете, т. е. на просвет: в мониторах, слайд-проекторах и т. п. 14
Кодирование графических данных Каждому из основных цветов для кодирования нужно восемь двоичных разрядов, для трех — 24, а млн. Таким образом, эта система обеспечивает однозначное определение 16. 5 млн. цветов, что близко к чувствительности человеческого глаза. Режим представления цветной графики с использованием 24 двоичных разрядов называется полноцветным (True Color). Цветовая модель CMYK. Эту модель используют для подготовки не экранных, а печатных изображений. Они отличаются тем, что видят их не в проходящем, а в отраженном цвете. 15
Кодирование графических данных Чем больше краски положено на бумагу, тем больше света она поглощает и меньше отражает. В отличие от модели RGB увеличение количества краски приводит не к увеличению визуальной яркости, а к ее уменьшению. Поэтому для подготовки печатных изображений используется не аддитивная модель, а субтрактивная (вычитающая) модель. Цветовыми компонентами этой модели являются не основные цвета, а дополнительные, т. е. те, которые получаются в результате вычитания основных цветов из белого: голубой (Cyan), пурпурный (Magenta) и желтый (Yellow). 16
Кодирование графических данных Так как цветные красители по отражающим свойствам не одинаковы, то для повышения контрастности применяется еще черный (Black) цвет. В типографиях цветные изображения печатаются в несколько приемов. Накладывая на бумагу поочередно голубой, пурпурный, желтый и черный отпечатки, получают полноцветную иллюстрацию. Цветовая модель HSB. Если модель RGB наиболее удобна для компьютера, модель CMYK — для типографии, то модель HSB наиболее удобна для человека. 17
Кодирование графических данных В модели HSB также три компонента: оттенок цвета (Hue), насыщенность (Saturation) и яркость цвета (Brightness). Регулируя эти три компоненты, можно получить столь же много произвольных цветов, как и при работе с другими моделями. Эта модель удобна для применения в тех графических редакторах, которые ориентированы не на обработку готовых изображений, а на их создание. Значение цвета выбирается как вектор, выходящий из центра окружности. Точка в центре соответствует белому цвету, а точки по периметру — чистым цветам. 18
Кодирование графических данных Направление вектора определяет цветовой оттенок и задается в модели HSB в угловых градусах. Длина вектора определяет насыщенность цвета. Яркость цвета задается на отдельной оси, нулевая точка которой имеет черный цвет. Проще всего в компьютере реализуется модель RGB. Это связано с методом кодирования цвета байтами, поэтому создавать и обрабатывать цветные изображения принято в модели RGB. При печати рисунка RGB на цветном принтере драйвер принтера преобразует рисунок в цветовую модель CMYK. 19
Кодирование графических данных Как уже отмечалось, режим представления цветной графики двоичным кодом из 24 разрядов называется полноцветным или True Color. Очевидно, графические данные занимают очень большие объемы на носителях. Например, если экран монитора имеет растр 800× 600 точек, изображение, представленное в режиме True Color, займет 800× 600× 3 = 1 440 000 байт. В случае, когда не требуется очень высокое качество отображения цвета, применяется режим High Color, который кодирует одну точку растра двумя байтами (16 разрядов дают тысяч цветов). 20
Кодирование графических данных Режим, который при кодировании одной точки растра использует один байт, называется индексным, в нем различаются 256 цветов. Этого недостаточно, чтобы передать весь диапазон цветов. Код каждой точки при этом выражает собственно не цвет, а некоторый номер цвета из таблицы цветов, называемой палитрой. Палитра должна прикладываться к файлам с графическими данными и используется при воспроизведении изображения. 21
Кодирование звуковой информации Методы работы со звуковой информацией пришли в вычислительную технику наиболее поздно. В итоге они далеки от стандартизации. Отдельные компании разработали свои корпоративные стандарты, однако можно выделить два основных подхода. Метод частотной модуляции (метод FM — Frequency Modulation) основан на разложении сигнала в виде суперпозиции элементарных гармоник с разными фазами, частотами и амплитудами. В природе звуковые сигналы имеют непрерывный спектр. 22
Кодирование звуковой информации Их разложение в гармонические ряды и представление в виде дискретных цифровых сигналов выполняют специальные устройства — аналого-цифровые преобразователи (АЦП). При воспроизведении происходит обратное преобразование — цифро-аналоговое (ЦАП). Конструктивно АЦП и ЦАП находятся в звуковой карте компьютера. При таких преобразованиях неизбежны потери информации, связанные с методом кодирования. Метод компактен, но качество звучания не очень высокое и соответствует качеству звучания простейших электромузыкальных инструментов. 23
Кодирование звуковой информации Метод таблично-волнового синтеза (Wave- Table) заключается в том, что образцы звуков для множества различных музыкальных инструментов (сэмплы) хранятся в особых таблицах. Числовые коды выражают тип инструмента, высоту тона, продолжительность и интенсивность звука, динамику его изменения и другие особенности. Затем при моделировании звуковой информации эти образцы смешиваются. Качество звука, полученное в результате синтеза, приближается к качеству звучания реальных музыкальных инструментов. 24
Структуры данных В современных ЭВМ данные всегда велики по объему. Работать с ними проще, если данные упорядочены, т. е. образуют заданную структуру. Существует три основные типа структур: линейная, табличная и иерархическая. Самая простая структура данных — линейная (список) — это упорядоченная структура, в которой адрес элемента однозначно определяется его номером. В качестве примера можно взять обычную книгу. При создании любой структуры данных надо решить, как разделять элементы данных между собой и как разыскивать нужные элементы. В качестве 25 разделителя обычно используется какой-нибудь
Структуры данных Табличные структуры отличаются от списочных лишь тем, что элементы данных определяются адресом ячейки, который состоит не из одного параметра, как в списке, а из нескольких. В двумерных таблицах разделителей должно быть два. Таблица может быть и трехмерная, тогда три числа характеризуют положение элемента и требуются три типа разделителей, а может быть и –мерная. Нерегулярные данные, которые трудно представить в виде списка или таблицы, представляются иерархически. Иерархическую структуру имеет система почтовых адресов. 26
Структуры данных В такой структуре адрес каждого элемента данных определяется путем доступа к нему (маршрута), ведущим от вершины структуры к данному элементу. Каждый из описанных видов структур данных имеет свои преимущества и недостатки. Например, списочные и табличные структуры являются простыми. Ими легко пользоваться, они легко упорядочиваются, однако их трудно обновлять. При обновлении нарушается вся списочная или табличная структура. Иерархические структуры данных сложнее, чем списочные или табличные, но они не создают проблем с обновление данных. Недостатком иерархических структур является относительная трудоемкость записи адреса 27 элемента данных и сложность упорядочивания.
Файлы и файловая структура В компьютерных технологиях единицей хранения данных является объект переменной длины, называемый файлом. Файл — это последовательность произвольного числа байтов, обладающая уникальным именем. Файловые системы создают для пользователей некоторое виртуальное представление внешних запоминающих устройств ЭВМ, позволяя работать с ними не на низком уровне команд управления физическими устройствами, а на высоком уровне наборов и структур данных. Таким образом, файловая система — это система управления данными. 28
Файлы и файловая структура Имя файла имеет особое значение — оно фактически несет в себе адресные функции в иерархических структурах. Кроме того, имя может иметь расширение, в котором хранятся сведения о типе данных. Если имена создаваемых файлов пользователь может задавать произвольно, то в использовании расширений следует придерживаться некоторой традиции. Например, в операционной системе MS DOS файлы с расширениями: com, exe, bat — исполняемые; bat, txt, doc — текстовые; pas, bas, c, for — тексты программ на известных языках программирования (Паскале, Бейсике, Си, Фортране соответственно); 30 dbf — файл базы данных.
Файлы и файловая структура В различных операционных системах существуют ограничения на длину имени и расширения имени файла. Так, в MS DOS длина имени файла не должна превышать восьми символов, а расширение — трех, т. е. используется стандарт 8. 3. В операционной системе Windows ограничения значительно менее жесткие. Для пользователя файл является основным и неделимым элементом хранения данных, который можно найти, изменить, удалить, сохранить либо переслать на устройство или на другой компьютер, но только целиком. 31
Файлы и файловая структура Файловая система — это часть операционной системы компьютера и поэтому всегда несет на себе отпечаток свойств конкретной операционной системы. Файловая система скрывает от пользователя картину реального расположения информации во внешней памяти, обеспечивает независимость программ от особенностей конкретной конфигурации ЭВМ, т. е. логический уровень работы с файлами. При работе с файлами пользователю предоставляются средства для создания новых файлов, операции по считыванию и записи информации и т. п. , не затрагивающие конкретные вопросы программирования работы канала по пересылке данных, по управлению 32 внешними устройствами.
Файлы и файловая структура Наиболее распространенным видом файлов, внутренняя структура которых обеспечивается файловыми системами различных операционных систем, являются файлы с последовательной структурой. Файлы в этом случае представляются в виде набора составных элементов, называемых логическими записями произвольной длины и с последовательным доступом. В ряде операционных систем предусматривается использование более сложных логических структур файлов, например, древовидной структуры. 33
Файлы и файловая структура На физическом уровне блоки файла могут размещаться в памяти непрерывной областью или храниться несмежно. Вся учетная информация о расположении файлов на магнитном диске сводится в одно место — каталог или директорию диска. Каталог представляет собой список элементов, каждый из которых описывает характеристики конкретного файла, используемые для организации доступа к нему — имя файла, его тип, местоположение на диске, размер. 34
Файлы и файловая структура Каталогов может быть большое число, и они связываются в информационные структуры, например, в иерархическую (древовидную) систему каталогов. Каждый каталог рассматривается как файл и имеет собственное имя. Полное имя каталога или файла в такой структуре задает путь переходов между каталогами и файлами в логической структуре каталогов (рис. 1). 35
Файлы и файловая структура Рис. 1 Иерархическая система каталогов 36
Файлы и файловая структура Структура самых файлов может быть тривиальной. Например, текст может сохраняться в виде последовательности байтов, соответствующих кодировке таблицы ASCII. Однако в большинстве случаев вместе с данными приходится хранить и некоторую дополни тельную информацию. Способ организации данных в файле, т. е. структура файла, называется форматом. Формат файла определяет способ правильной интерпретации хранимых данных. Существует довольно много различных форматов файлов. 37
Файлы и файловая структура Некоторые из них стандартизированы и поддерживаются любой операционной системой, некоторые специфичны только для данных операционных систем. Часто заголовок файла включает идентификатор формата файла. Современные программные системы позволяют одновременно включать в файл данные разных видов, т. е. файл может иметь очень сложный формат. Например, в документ MS Word можно включать текст, картинки, таблицы, формулы и многое другое. В большинстве случаев пользователю ничего не нужно знать о внутреннем устройстве файлов. Это уровень абстракции 38 интерфейса операционных систем.
Измерение и представление информации Любая классификация всегда относительна. Один и тот же объект может быть классифицирован по разным признакам или критериям. Часто в зависимости от условий внешней среды объект может быть отнесен к разным классификационным группировкам. В основу классификации информации, циркулирующей между объектами, положены пять наиболее общих признаков: место возникновения информации; стадия ее обработки; способ отображения информации; стабильность информации; функция управления информацией. 39
Измерение и представление информации По первому признаку информацию можно разделить на входную, выходную, внутреннюю и внешнюю. Входная информация — это информация, поступающая на вход какого-нибудь устройства или объекта. Выходная информация — это информация на выходе объекта, предназначенная для передачи другому объекту. Одна и та же информация может быть входной для одного объекта и выходной для другого. Внутренняя информация возникает внутри объекта, внешняя за его пределами. 40
Измерение и представление информации По второму признаку информация разделяется на первичную, вторичную, промежуточную и результатную. Первичная информация возникает непосредственно в процессе деятельности объекта и регистрируется на начальной стадии. Вторичная получается в результате обработки первичной информации, промежуточная используется в качестве исходных данных для последующих расчетов, результатная применяется для выработки 41
Измерение и представление информации По способу отображения информация подразделяется на текстовую и графическую. Текстовая информация — это совокупность алфавитных, цифровых и специальных символов, графическая — это различного рода графики, диаграммы, схемы, рисунки. По стабильности информация может быть переменной (текущей) и постоянной. Постоянная информация подразделяется на справочную, нормативную и плановую. 42
Измерение и представление информации Наконец, по функциям управления обычно классифицируют информацию экономического типа. При этом информация подразделяется на плановую, нормативно- справочную и оперативную (текущую). Плановая информация — это информация о параметрах объекта на будущий период, нормативно-справочная содержит различные нормативные и справочные данные, оперативная характеризует текущий момент. 43
Измерение и представление информации Определить понятие "количество информации" довольно сложно. При анализе информации социального плана на первое место выходят такие ее свойства, как истинность, своевременность, ценность, полнота и т. п. Обращение к качественной стороне информации породило синтаксический, семантический и прагматический подход к ее оценке. 44
Измерение и представление информации При синтаксическом подходе учитывают формально-структурные характеристики информации без рассмотрения ее смыслового содержания. Это тип носителя, способ представления информации, скорость передачи и обработки, размеры кодов и т. п. Все это — внешняя сторона структурных характеристик информации. 45
Измерение и представление информации Семантический (смысловой) подход определяет степень соответствия образа объекта и самого объекта. Эта сторона учитывает смысловые связи, содержание информации, служит для формирования понятий и их обобщения. Прагматический подход отражает отношение информации и ее потребителя, соответствие информации целям управления. Этот подход связан с ценностью и полезностью использования информации для принятия решений. 46
Измерение и представление информации Все эти соображения, тем не менее, не противоречат важному результату теории информации о том, что в определенных, весьма широких условиях, можно, пренебрегая качественными особенностями информации, выразить ее количество числом, а следовательно, сравнивать количество информации, содержащейся в различных группах данных. Количеством информации называют числовую характеристику информации, отражающую ту степень неопределенности, которая исчезает после 47
Измерение и представление информации Исторически возникли два подхода к определению количества информации в синтаксическом смысле: вероятностный и "объемный". Вероятностный подход развил в конце 1940 гг. американский математик Шеннон (Клод Элвуд Шеннон (1916— 2001 гг. ) — американский математик), а "объемный" возник с изобретением ЭВМ. Понятия "информация", "неопределенность", "возможность выбора" тесно связаны. Получаемая информация уменьшает число возможных вариантов выбора (т. е. неопределенность), а полная информация 48 не оставляет вариантов вообще.
Измерение и представление информации "Объемный" подход самый простой. За единицу информации здесь принимается один бит. При этом невозможно нецелое число битов. Это количество информации, при котором неопределенность уменьшается вдвое, т. е. это ответ на вопрос, требующий односложного разрешения — да или нет. Однако бит слишком мелкая единица измерения информации. На практике чаще применяются более крупные единицы, например, байт и производные от него: 49
Измерение и представление информации 1 Килобайт (Кбайт) = 1024 байт = байт; 1 Мегабайт (Мбайт) = 1024 Кбайт = байт; 1 Гигабайт (Гбайт) = 1024 Мбайт = байт; 1 Терабайт (Тбайт) = 1024 Гбайт = байт. За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации. Такая единица существует, но используется в компьютерной технике редко, что связано с аппаратными возможностями 50
Измерение и представление информации 1 Килобайт (Кбайт) = 1024 байт = байт; 1 Мегабайт (Мбайт) = 1024 Кбайт = байт; 1 Гигабайт (Гбайт) = 1024 Мбайт = байт; 1 Терабайт (Тбайт) = 1024 Гбайт = байт. За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации. Такая единица существует, но используется в компьютерной технике редко, что связано с аппаратными возможностями 51
ЖДУ ВАС НА СЛЕДУЮЩЕМ ЗАНЯТИИ!!! 52

