Лекция Арх тема 1.3.pptx
- Количество слайдов: 33
Архитектура ЭВМ и ВС Тема 1. 3. Преподаватель: Шершова Л. Н.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды. 1) Виды информации и способы ее представления в ЭВМ q Первая форма (вид) представления информации называется аналоговой или непрерывной. Величины, представленные в такой форме, могут принимать любые значения, в каком – то диапазоне. Они могут быть сколь угодно близки друг к другу и изменяться в произвольные моменты времени. q Вторая форма (вид) представления информации называется цифровой или дискретной. Для дискретных сообщений характерно наличие фиксированного набора элементов, из которых в некоторые (вполне определенные) моменты времени формируются различные последовательности. В отличие от непрерывной величины количество значений дискретной величины всегда будет конечным. q Первая форма используется в аналоговых вычислительных машинах. Эти машины предназначены для решения задач, описываемых системами дифференциальных уравнений: исследования поведения подвижных объектов, моделирования ядерных реакторов, электромагнитных полей. Но АВМ не могут решать задачи, связанные с хранением и обработкой больших объемов информации, которые легко решаются при использовании цифровой формы представления информации, реализуемой цифровыми вычислительными машинами (ЦВМ).
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды. 2) Классификация информационных единиц, обрабатываемых ЭВМ q Кодирование информации это процесс формирования определенного представления информации. В более узком смысле под термином "кодирование" часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки. q Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д. ) для обработки на компьютере должна быть преобразована в числовую форму. q Например, чтобы перевести в числовую форму музыкальный звук, можно через небольшие промежутки времени измерять интенсивность звука на определенных частотах, представляя результаты каждого измерения в числовой форме. С помощью программ для компьютера можно выполнить преобразования полученной информации, например "наложить" друг на друга звуки от разных источников. q Аналогичным образом на компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв (символов) и числами называется кодировкой символов. q Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей). Иными словами, компьютеры обычно работают в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми. Ввод чисел в компьютер и вывод их для чтения человеком может осуществляться в привычной десятичной форме, а все необходимые преобразования выполняют программы, работающие на компьютере. q За основу представления данных в ЭВМ, как правило, принята двоичная система счисления.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды. 3) Структуры данных и их разновидности Основные структуры данных: линейная, иерархическая и табличная q Пример: книга разобрали на отдельные листы и смешали, набор данных есть, но подобрать адекватный метод получения информации трудно. Если же собрать все листы в правильной последовательности, мы получим простейшую структуру данных – ЛИНЕЙНУЮ. Однако читать придется с самого начала до конца, что не всегда удобно. q Для быстрого поиска требуемой информации применяется ИЕРАРХИЧЕСКАЯ структура. Оглавление – разделы – параграфы и т. д. Элементы структуры более низкого уровня обязательно входят в элементы более высокого уровня. q Теперь представьте, мы связали линейную и иерархическую структуры, то есть связали разделы, главы, параграфы с номерами страниц (содержание). Тем самым, мы создали НАВИГАТОРА, который еще более упростит поиск – ТАБЛИЧНАЯ структура.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды. 3) Структуры данных и их разновидности Обработка данных или преобразование данных включает следующие операции: q сбор данных; q формализация данных, приведение к единому формату; q фильтрация данных, уменьшение уровня «шума» ; q сортировка данных, повышение доступности информации; q архивация данных, организация хранения; q защита данных; q транспортировка данных; q преобразование данных, важнейшая и наиболее дорогая задача информатики, как правило, связанная с изменением носителя. Центр обработки данных Google в Калифорнии
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды. 3) Форматы файлов q Основное назначение файлов хранить информацию. Они также предназначены для передачи данных от программы к программе и от системы к системе. Другими словами, файл - это хранилище стабильных и мобильных данных. Но, файл это нечто большее, чем просто хранилище данных. Обычно файл имеет имя, атрибуты, время модификации и время создания. Понятие файла менялось с течением времени. q Операционные системы первых больших ЭВМ представляли файл, как хранилище для базы данных и, поэтому файл являлся набором записей. Обычно все записи в файле были одного размера, часто по 80 символов каждая. При этом много времени уходило на поиск и запись данных в большой файл. q В конце 60 х годов наметилась тенденция к упрощению операционных систем, что позволило использовать их на менее мощных компьютерах. Это нашло свое отражение и в развитии операционной системы Unix. В Unix под файлом понималась последовательность байтов. Стало легче хранить данные на диске, так как не надо было запоминать размер записи. Unix оказал очень большое влияние на другие операционные системы ПК. Почти все они поддерживают идею Unix о том, что файл - это просто последовательность байтов. Файлы, представляющие собой поток данных, стали использоваться при обмене информацией между компьютерными системами. q Итак, файл - это поименованная последовательность байтов.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды. 3) Форматы файлов q Файловая структура представляет собой систему хранения файлов на запоминающем устройстве, например, диске. Файлы организованы в каталоги (директории или папки). Любой каталог может содержать произвольное число подкаталогов, в каждом из которых могут храниться файлы и другие каталоги. q Способ, которым данные организованы в байты, называется форматом файла. Для того чтобы прочесть файл, например, электронной таблицы, необходимо знать, каким образом байты представляют числа (формулы, текст) в каждой ячейке; чтобы прочесть файл текстового редактора, надо знать, какие байты представляют символы, а какие шрифты или поля, а также другую информацию. Программы могут хранить данные в файле таким способом, какой выберет программист. Зачастую предполагается, однако, что файлы будут использоваться различными программами. По этой причине многие прикладные программы поддерживают некоторые наиболее распространенные форматы, так что другие программы могут понять данные в файле. Компании по производству программного обеспечения (которые хотят, чтобы их программы стали "стандартами"), часто публикуют информацию относительно форматов, которые они создали, чтобы их можно было бы использовать в других приложениях. q Все файлы условно можно разделить на две части - текстовые и двоичные.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды. 3) Форматы файлов q Текстовые файлы - наиболее распространенный тип данных во всем компьютерном мире. Для хранения каждого символа чаще всего отводится один байт, а кодирование текстовых файлов выполняют с помощью специальных таблиц, в которых каждому символу соответствует определенное число, не превышающее 255. Файл, для кодировки которого используется только 127 первых чисел, называется ASCII-файлом (сокращение от American Standard Code for Information Interchange американский стандартный код для обмена информацией), но в таком файле не могут быть представлены буквы, отличные от латиницы (в том числе и русские). q Большинство национальных алфавитов можно закодировать с помощью восьмибитной таблицы. Для русского языка наиболее популярны на данный момент три кодировки: Koi 8 -R, Windows-1251 и, так называемая, альтернативная (alt) кодировка. Такие языки, как китайский, содержат значительно больше 256 символов, поэтому для кодирования каждого из них используют несколько байтов. Для экономии места зачастую применяется следующий прием: некоторые символы кодируются с помощью одного байта, в то время как для других используются два или более байтов. q Одной из попыток обобщения такого подхода является стандарт Unicode, в котором для кодирования символов используется диапазон чисел от нуля до 65 536. Такой широкий диапазон позволяет представлять в численном виде символы языка людей из любого уголка планеты. q Но чисто текстовые файлы встречаются все реже. Люди хотят, чтобы документы содержали рисунки и диаграммы и использовали различные шрифты. В результате появляются форматы, представляющие собой различные комбинации текстовых, графических и других форм данных. q Двоичные файлы, в отличие от текстовых, не так просто просмотреть и в них, обычно, нет знакомых нам слов лишь множество непонятных символов. Эти файлы не предназначены непосредственно для чтения человеком. Примерами двоичных файлов являются исполняемые программы и файлы с графическими изображениями.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Числовые типы данных. Кодирование чисел q Существуют два основных формата представления чисел в памяти компьютера. Один из них используется для кодирования целых чисел, второй (так называемое представление числа в формате с плавающей точкой) используется для задания некоторого подмножества действительных чисел. Множество целых чисел, представимых в памяти ЭВМ, ограничено. Диапазон значений зависит от размера области памяти, используемой для размещения чисел. В k разрядной ячейке может храниться 2 k различных значений целых чисел. Чтобы получить внутреннее представление целого положительного числа N, хранящегося в k разрядном машинном слове, необходимо: q перевести число N в двоичную систему счисления; q полученный результат дополнить слева незначащими нулями до k разрядов. q Пример. Получить внутреннее представление целого числа 1607 в 2 х байтовой ячейке. q Переведем число в двоичную систему: 160710 = 11001000111 2. Внутреннее представление этого числа в ячейке будет следующим: 0000 0110 0100 0111. q Для записи внутреннего представления целого отрицательного числа ( N) необходимо: q получить внутреннее представление положительного числа N; q обратный код этого числа заменой 0 на 1 и 1 на 0; q полученному числу прибавить 1. q Пример. Получим внутреннее представление целого отрицательного числа 1607. Воспользуемся результатом предыдущего примера и запишем внутреннее представление положительного числа 1607: 0000 0110 0100 0111. Инвертированием получим обратный код: 1111 1001 1011 1000. Добавим единицу: 1111 1001 1011 1001 это и есть внутреннее двоичное представление числа 1607.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Числовые типы данных. Кодирование чисел q Формат с плавающей точкой использует представление вещественного числа R в виде произведения мантиссы m на основание системы счисления n в некоторой целой степени p, которую называют порядком: R = m * n p. Представление числа в форме с плавающей точкой неоднозначно. Например, справедливы следующие равенства: q 12. 345 = 0. 0012345 x 104 = 1234. 5 x 10 2 = 0. 12345 x 102 q Чаще всего в ЭВМ используют нормализованное представление числа в форме с плавающей точкой. Мантисса в таком представлении должна удовлетворять условию: 0. 1 p <= m < 1 p. Иначе говоря, мантисса меньше 1 и первая значащая цифра не ноль (p основание системы счисления). q В памяти компьютера мантисса представляется как целое число, содержащее только значащие цифры (0 целых и запятая не хранятся), так для числа 12. 345 в ячейке памяти, отведенной для хранения мантиссы, будет сохранено число 12345. Для однозначного восстановления исходного числа остается сохранить только его порядок, в данном примере это 2.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Числовые типы данных. Кодирование чисел q Если надо закодировать целое число со знаком, то старший бит регистра (ячейки памяти) используется для хранения знака (0 при положительном знаке числа и 1 при отрицательном) – формат с фиксированной запятой. q Исходные возможности компьютера позволяют ему работать только с целыми числами, к тому же не самыми большими. Даже в случае 2 х байтового слова, мы можем записать максимальное число 65536, учитывая необходимость отображения, как положительных чисел, так и отрицательных получаем только половину всех числовых значений. Способы представления чисел и программное обеспечение позволяют значительно расширить возможности компьютера. Для кодирования действительных чисел используют 80 разрядное кодирование. При этом число предварительно преобразуется в нормализованную форму: 3, 1415926 = 0, 31415926 * 101 500 000 = 0, 5 * 106 123 456 789 = 0, 1 * 1010 Первая часть числа называется мантиссой М, а вторая – порядком q
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Числовые типы данных. Кодирование чисел q Основными типами данных в вычислительной технике являются: бит, байт и слово. Компьютеры работают в основном с байтами, которые являются основной операционной единицей компьютерных данных. Машинное слово (слово) технический термин, означающий 16 бит или 2 байта одновременно. Двойное слово – 4 байта, расширенное слово – 8 байт. q Для представления данных существует три основных формата: v двоичный с фиксированной запятой; v двоичный с плавающей запятой; v двоично-кодированный десятичный (BCD).
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Числовые типы данных. Кодирование чисел q Для того чтобы оперировать дробными числами или числами очень большой длины, используется понятие плавающей запятой. Плавающая запятая действует по принципу экспоненциального формата. q Необходимо отметить что, вычисления с целыми числами выполняются очень быстро, в то время как вычисления с плавающей запятой в сотни раз медленнее.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Числовые типы данных. Кодирование чисел q Для реализации скоростных вычислений с плавающей запятой применяются числовые сопроцессоры (FPU – floating point unit). Данные в нем хранятся в 80 ти разрядных регистрах. В двоично кодированном десятичном формате каждая десятичная цифра представляется в виде 4 х битного двоичного эквивалента. Существует две основные разновидности этого формата: упакованный и неупакованный. В упакованном BCD формате цепочка десятичных цифр хранится в виде последовательности 4 х битовых групп. В неупакованном формате каждая десятичная цифра находится в младшей тетраде байта, а содержимое старшей тетрады определяется используемой ЭВМ конкретной системой кодирования, и в данном случае несущественно. Аналогичным образом (в виде двоичных чисел) кодируются команды – инструкции на выполнение каких либо операций со словами данных. Например, трехадресная команда в двухбайтовом формате будет выглядеть следующим образом: q Кроме этого, данные бывают в виде строк – непрерывная последовательность бит или байт, символьные данные, поддерживаемые кодом ASCII и данные типа указатель. Более подробно мы с ними познакомимся после изучения архитектуры компьютера.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Нечисловые типы данных. Кодирование текста q Множество символов, используемых при записи текста, называется алфавитом. Количество символов в алфавите называется его мощностью. q Для представления текстовой информации в компьютере чаще всего используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации, т. к. 28 = 256. Но 8 бит составляют один байт, следовательно, двоичный код каждого символа занимает 1 байт памяти ЭВМ. q Все символы такого алфавита пронумерованы от 0 до 255, а каждому номеру соответствует 8 разрядный двоичный код от 0000 до 1111. Этот код является порядковым номером символа в двоичной системе счисления. q Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице. Международным стандартом на персональных компьютерах является уже упоминавшаяся таблица кодировки ASCII.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Кодирование текста q Принцип последовательного кодирования алфавита заключается в том, что в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений. q Стандартными в этой таблице являются только первые 128 символов, т. е. символы с номерами от нуля (двоичный код 0000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000) и кончая 255 (1111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Кодирование графической информации q В видеопамяти находится двоичная информация об изображении, выводимом на экран. Почти все создаваемые, обрабатываемые или просматриваемые с помощью компьютера изображения можно разделить на две большие части растровую и векторную графику. q Растровые изображения представляют собой однослойную сетку точек, называемых пикселами (pixel, от англ. picture element). Код пиксела содержит информацию о его цвете. Для черно белого изображения (без полутонов) пиксел может принимать только два значения: белый и черный (светится не светится), а для его кодирования достаточно одного бита памяти: 1 белый, 0 черный. Пиксел на цветном дисплее может иметь различную окраску, поэтому одного бита на пиксел недостаточно. Для кодирования 4 цветного изображения требуются два бита на пиксел, поскольку два бита могут принимать 4 различных состояния. Может использоваться, например, такой вариант кодировки цветов: 00 черный, 10 зеленый, 01 красный, 11 коричневый.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Кодирование графической информации q На RGB мониторах все разнообразие цветов получается сочетанием базовых цветов красного (Red), зеленого (Green), синего (Blue), из которых можно получить 8 основных комбинаций: R 0 0 R 1 1 G 0 0 1 1 B цвет 0 черный 1 синий 0 зеленый 1 голубой B цвет 0 красный 1 розовый 0 коричневый 1 белый q Разумеется, если иметь возможность управлять интенсивностью (яркостью) свечения базовых цветов, то количество различных вариантов их сочетаний, порождающих разнообразные оттенки, увеличивается. Количество различных цветов К и количество битов для их кодировки N связаны между собой простой формулой: 2 N = К.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Кодирование графической информации q В противоположность растровой графике векторное изображение многослойно. Каждый элемент векторного изображения - линия, прямоугольник, окружность или фрагмент текста располагается в своем собственном слое, пикселы которого устанавливаются независимо от других слоев. Каждый элемент векторного изображения является объектом, который описывается с помощью специального языка (математических уравнения линий, дуг, окружностей и т. д. ). Сложные объекты (ломаные линии, различные геометрические фигуры) представляются в виде совокупности элементарных графических объектов. q Объекты векторного изображения, в отличии от растровой графики, могут изменять свои размеры без потери качества (при увеличении растрового изображения увеличивается зернистость).
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Кодирование звука q Из курса физики вам известно, что звук это колебания воздуха. Если преобразовать звук в электрический сигнал (например, с помощью микрофона), мы увидим плавно изменяющееся с течением времени напряжение. Для компьютерной обработки такой аналоговый сигнал нужно каким то образом преобразовать в последовательность двоичных чисел. q Поступим следующим образом. Будем измерять напряжение через равные промежутки времени и записывать полученные значения в память компьютера. Этот процесс называется дискретизацией (или оцифровкой), а устройство, выполняющее его аналого цифровым преобразователем (АЦП). q Для того чтобы воспроизвести закодированный таким образом звук, нужно выполнить обратное преобразование (для него служит цифро аналоговый преобразователь ЦАП), а затем сгладить получившийся ступенчатый сигнал.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Кодирование звука q Чем выше частота дискретизации (т. е. количество отсчетов за секунду) и чем больше разрядов отводится для каждого отсчета, тем точнее будет представлен звук. Но при этом увеличивается и размер звукового файла. Поэтому в зависимости от характера звука, требований, предъявляемых к его качеству и объему занимаемой памяти, выбирают некоторые компромиссные значения. q Описанный способ кодирования звуковой информации достаточно универсален, он позволяет представить любой звук и преобразовывать его самыми разными способами. Но бывают случаи, когда выгодней действовать по-иному.
Тема 1. 3. Представление информации в ЭВМ Занятие 8. 1) Виды информации и способы ее представления в ЭВМ. 2) Классификация Занятие 8. 1) Виды информационных единиц, обрабатываемых ЭВМ. 3) Типы данных, структуры данных и их разновидности, форматы файлов. 4) Числовые и нечисловые типы данных и их виды Кодирование звука q Человек издавна использует довольно компактный способ представления музыки нотную запись. В ней специальными символами указывается, какой высоты звук, на каком инструменте и как сыграть. Фактически, ее можно считать алгоритмом для музыканта, записанным на особом формальном языке. В 1983 г. ведущие производители компьютеров и музыкальных синтезаторов разработали стандарт, определивший такую систему кодов. Он получил название MIDI. q Конечно, такая система кодирования позволяет записать далеко не всякий звук, она годится только для инструментальной музыки. Но есть у нее и неоспоримые преимущества: чрезвычайно компактная запись, естественность для музыканта (практически любой MIDI редактор позволяет работать с музыкой в виде обычных нот), легкость замены инструментов, изменения темпа и тональности мелодии. q Заметим, что существуют и другие, чисто компьютерные, форматы записи музыки. Среди них следует отметить формат MP 3, позволяющий с очень большим качеством и степенью сжатия кодировать музыку. При этом вместо 18 20 музыкальных композиций на стандартный компакт диск (CDROM) помещается около 200. Одна песня занимает примерно 3, 5 Mb, что позволяет пользователям сети Интернет легко обмениваться музыкальными композициями.
Тема 1. 3. Представление информации в ЭВМ Занятие 9. 1) Кодирование символьной информации. Символьные коды: ASCII, UNICODE и др. Занятие 9. 1) Кодирование 2) Кодирование графической информации. Двоичное кодирование звуковой информации. 3) Сжатие информации. 4) Кодирование видеоинформации. q Любая информация, обрабатываемая в ЭВМ, должна быть представлена двоичными цифрами {0, 1}, т. е. должна быть закодирована комбинацией этих цифр. Различные виды информации (числа, тексты, графика, звук) имеют свой правила кодирования. Коды отдельных значений, относящиеся к различным видам информации, могут совпадать. Поэтому расшифровка кодированных данных осуществляется по контексту при выполнении команд программы. Представление числовой информации в ЭВМ q Байт - основная единица представления информации в компьютере. В зависимости от решаемой задачи байт может содержать закодированное представление различных типов данных. Простейшим и исторически первым является кодирование целых чисел. Целые числа представляются в двоичном виде следующим образом: 0000 = 010 00000001 = 110 . . 1111 = 25510 q Диапазон целых чисел, кодируемых одним байтом, определяется числом возможных комбинаций из восьми нулей и единиц. Это число равно 28, т. е. 256. Если надо закодировать число больше 255, то два байта объединяются вместе и используется 16 битов. Это дает 216, т. е. 65536 комбинаций. Еще большие целые числа можно представить с помощью 4 байтов или 32 битов. Для представления чисел со знаком один бит отводится под знак. q В ЭВМ используются три вида чисел: с фиксированной точкой (запятой), с плавающей точкой (запятой) и двоично-десятичное представление. Точка (запятая) это подразумеваемая граница целой и дробной частей числа.
Тема 1. 3. Представление информации в ЭВМ Занятие 9. 1) Кодирование символьной информации. Символьные коды: ASCII, UNICODE и др. Занятие 9. 1) Кодирование 2) Кодирование графической информации. Двоичное кодирование звуковой информации. 3) Сжатие информации. 4) Кодирование видеоинформации. q q Кодирование символьной информации Для кодирования символьной или текстовой информации применяются различные системы: при вводе информации с клавиатуры кодирование происходит при нажатии клавиши, на которой изображен требуемый символ, при этом в клавиатуре вырабатывается так называемый scan код, представляющий собой двоичное число, равное порядковому номеру клавиши. Номер нажатой клавиши никак не связан с формой символа, нанесенного на клавише. Опознание символа и присвоение ему внутреннего кода ЭВМ производятся специальной программой по специальным таблицам: ДКОИ, КОИ 7, КОИ 8, ASCII (http: //school 497. ru/download/u/02/les 10/les. html). Важно, что присвоение символу конкретного кода это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и так далее). Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания. Коды с 128 по 255 являются национальными, то есть в национальных кодировках одному и тому же коду соответствуют различные символы. К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв (КОИ 8, СР 1251, СР 866, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой. В настоящее время широкое распространение получил международный стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не 256 символов, а N = 216 = = 65536 различных символов. Эту кодировку поддерживают последние версии платформы Microsoft Windows и Office (начиная с 1997 года). Вид кодировочной таблицы Unicode на сайте: http: //db maker. narod. ru/indexrus. htm? page=unicode. htm
Тема 1. 3. Представление информации в ЭВМ Занятие 9. 1) Кодирование символьной информации. Символьные коды: ASCII, UNICODE и др. Занятие 9. 1) Кодирование 2) Кодирование графической информации. Двоичное кодирование звуковой информации. 3) Сжатие информации. 4) Кодирование видеоинформации. ASCII (American Standard Code for Information Interchange) — американская стандартная кодировочная таблица dec 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 hex 0 1 2 3 4 5 6 7 8 9 A B C D E F 10 11 12 13 14 15 16 17 18 19 1 A 1 B 1 C 1 D 1 E 1 F симв NUL SOH STX EOT ENQ ACK BEL BS** TAB** LF** VT FF CR** SO SI DLE DC 1 DC 2 DC 3 DC 4 NAK SYN ETB CAN EM SUB ESC FS GS RS US пояснение Пустой символ Начало заголовка Начало текста Конец передачи Запрос Подтвержд. получения Звуковой сигнал Обратный ход каретки Горизонт. табуляция Начало строки Вертикальная табуляция Начало формы Возврат каретки Передача Прием Закр. канала связи Упр. устройством 1 Упр. устройством 2 Упр. устройством 3 Упр. устройством 4 Отрицание получения Синхронизация Конец пакета Отмена Закрытие среды Замена Завершение Разделитель файлов Разделитель групп Разделитель записей Разделитель модулей dec 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 hex 20 21 22 23 24 25 26 27 28 29 2 A 2 B 2 C 2 D 2 E 2 F 30 31 32 33 34 35 36 37 38 39 3 A 3 B 3 C 3 D 3 E 3 F симв пробел ! " # $ % & ' ( ) * + , . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? dec 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 hex 40 41 42 43 44 45 46 47 48 49 4 A 4 B 4 C 4 D 4 E 4 F 50 51 52 53 54 55 56 57 58 59 5 A 5 B 5 C 5 D 5 E 5 F симв @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ ] ^ _ dec 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 hex 60 61 62 63 64 65 66 67 68 69 6 A 6 B 6 C 6 D 6 E 6 F 70 71 72 73 74 75 76 77 78 79 7 A 7 B 7 C 7 D 7 E 7 F симв ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~
Тема 1. 3. Представление информации в ЭВМ Занятие 9. 1) Кодирование символьной информации. Символьные коды: ASCII, UNICODE и др. Занятие 9. 1) Кодирование 2) Кодирование графической информации. Двоичное кодирование звуковой информации. 3) Сжатие информации. 4) Кодирование видеоинформации. dec 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 hex 80 81 82 83 84 85 86 87 88 89 8 A 8 B 8 C 8 D 8 E 8 F 90 91 92 93 94 95 96 97 98 99 9 A 9 B 9 C 9 D 9 E 9 F симв € ‚ ƒ „ … † ‡ ˆ ‰ Š ‹ Œ Ž ‘ ’ “ ” • – — ˜ ™ š › œ ž Ÿ dec 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 hex A 0 A 1 A 2 A 3 A 4 A 5 A 6 A 7 A 8 A 9 AA AB AC AD AE AF B 0 B 1 B 2 B 3 B 4 B 5 B 6 B 7 B 8 B 9 BA BB BC BD BE BF симв пробел ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ® ¯ ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿ dec 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 hex C 0 C 1 C 2 C 3 C 4 C 5 C 6 C 7 C 8 C 9 CA CB CC CD CE CF D 0 D 1 D 2 D 3 D 4 D 5 D 6 D 7 D 8 D 9 DA DB DC DD DE DF симв А Б В Г Д Е Ж З И Й К Л М Н О П Р C Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я dec 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 hex E 0 E 1 E 2 E 3 E 4 E 5 E 6 E 7 E 8 E 9 EA EB EC ED EE EF F 0 F 1 F 2 F 3 F 4 F 5 F 6 F 7 F 8 F 9 FA FB FC FD FE FF симв а б в г д е ж з и й к л м н о п р с т у ф х ц ч ш щ ъ ы ь э ю я
Тема 1. 3. Представление информации в ЭВМ Занятие 9. 1) Кодирование символьной информации. Символьные коды: ASCII, UNICODE и др. Занятие 9. 1) Кодирование 2) Кодирование графической информации. Двоичное кодирование звуковой информации. 3) Сжатие информации. 4) Кодирование видеоинформации. ASCII коды используются также для определения нажатой клавиши программировании. Для стандартной QWERTY клавиатуры таблица кодов выглядит следующим образом: Escape 27 `ё 192 1 49 F 1 112 2 50 F 2 113 3 51 F 3 114 4 52 F 4 115 5 53 F 5 116 6 54 F 6 117 7 55 F 7 118 8 56 F 8 119 9 57 F 9 120 0 48 F 10 121 189 F 11 122 =+ 187 Tab 9 Q 81 W 87 E 69 R 82 T 84 Y 89 U 85 I 73 O 79 P 80 [ 219 ] 221 Caps Lock A 65 Z 90 win S 83 X 88 Alt 18 D 68 C 67 F 70 V 86 G H 71 72 B N 66 78 Space Bar 32 J 74 M 77 K 75 , < 188 L 76. > 190 Alt 18 ; ж 186 / 191 win 'э 222 Shift 16 list 20 Shift 16 Ctrl 17 F 12 123 Back Space Enter 13 | 220 Ctrl 17 8 Print Screen Scroll Lock 145 Insert Home 45 36 Delete End 46 35 Pause 19 Page Up Num Lock 33 Page Down 34 144 / доп. * доп. 111 106 7 доп. 8 доп. 9 доп. + доп. 103 104 105 107 4 доп. 5 доп. 6 доп. 100 101 102 Up 1 доп. 2 доп. 38 97 98 99 Left Down Right Ins/0 Del/. Enter 37 40 39 45/96 46/1 доп. 13
Тема 1. 2. Арифметические основы ЭВМ, Тема 1. 3. Представление информации в ЭВМ Выводы q Информация устраняет неопределенность, уменьшает хаос и энтропию системы. Информация – динамический объект, образующийся в ходе информационного процесса. q Информационный процесс состоит из сбора, хранения, обработки и передачи информации. q Данные – представление информации в формализованном виде, пригодном для передачи и обработки в некотором информационном процессе. q Для удобства работы с данными их структурируют. Существуют следующие важнейшие структуры: линейная (сетевая), табличная, иерархическая. Кроме того все данные подразделяются на несколько типов, понятие тип связывается с представлением данных в адресном пространстве и со способом их обработки. q Любые данные могут быть отнесены к одному из двух типов: основному (простому), форма представления которого определяется архитектурой ЭВМ, или сложному, конструируемому пользователем для решения конкретных задач. Данные простого типа это - символы, числа и т. п. элементы, дальнейшее дробление которых не имеет смысла. Из элементарных данных формируются структуры (сложные типы) данных. q
Тема 1. 2. Арифметические основы ЭВМ Тема 1. 3. Представление информации в ЭВМ Выводы q Массив – простая совокупность элементов данных одного типа. Запись – совокупность элементов данных разного типа. В простейшем случае запись содержит постоянное количество элементов, которые называют полями (нп. , запись – строка в списке студентов и т. п. ). Совокупность записей одинаковой структуры называется файлом (текст, рисунок, таблица, программа и т. п. ). q Файл – это поименованная последовательность байт (именованная область на диске, содержащая набор однотипных данных). Назначение файлов – хранить информацию. Файл имеет имя, атрибуты, время модификации и создания. q Файловая система (ФС) функциональная часть ОС, т. е. это порядок хранения и организации файлов на диске. q Способ, которым данные организованы в байты, называется форматом файла. Многие прикладные программы поддерживают некоторые распространенные форматы. q Информация с которой работает компьютер делится на числовую (двоичную) и символьную (текстовую). К символьной можно также отнести графическую (видео) и звуковую. q Два основных формата представления чисел в памяти компьютера – с фиксированной точкой (естественная форма) и с плавающей точкой (нормальная форма). q Если машинное слово для данного компьютера равно одному байту, то такую машину называют 8 разрядной (8 бит); если машинное слово состоит из 2 байтов, то это 16 -разрядный компьютер; 4 -байтовое слово у 32 -разрядных ЭВМ и т. д. Рассмотрим пример с 16 -разрядным представлением чисел. q Чтобы получить внутреннее представление целого положительного числа N в форме с фиксированной точкой нужно: 1) перевести число N в двоичную систему счисления; 2) полученный результат дополнить слева незначащими нулями до 16 разрядов. q Например, N = 160710= 110010001112. Внутреннее представление этого числа в машинном слове будет следующим: 0000 0110 0100 0111 q В сжатой шестнадцатеричной форме этот код запишется так: 0647.
Тема 1. 2. Арифметические основы ЭВМ Тема 1. 3. Представление информации в ЭВМ Выводы q Формат с фиксированной точкой формат представления вещественного числа в памяти ЭВМ в виде целого числа. В современных компьютерах естественная форма представления используется как вспомогательная и только для целых чисел. q Формат с плавающей точкой - форма представления действительных чисел, в которой число хранится в форме мантиссы и показателя степени. При этом число с плавающей запятой имеет фиксированную относительную точность и изменяющуюся абсолютную. Наиболее часто используемое представление утверждено в стандарте IEEE 754. Реализация математических операций с числами с плавающей запятой в вычислительных системах может быть как аппаратная, так и программная. q Для представления двоичных чисел с учетом знака используют специальные коды: прямой, обратный и дополнительный. q
Тема 1. 2. Арифметические основы ЭВМ Тема 1. 3. Представление информации в ЭВМ Выводы q Структурные единицы памяти компьютера — бит, байт и машинное слово. Понятия бита и байта универсальны и не зависят от модели компьютера, а размер машинного слова зависит от типа процессора ЭВМ. 1 бит=либо 1 либо 0, 1 байт=8 бит. q Байт — это минимальный объем данных, который реально может использовать компьютерная программа. Даже чтобы изменить значение одного бита в памяти, надо сначала считать байт, содержащий его. Биты в байте нумеруют справа налево, от нуля до семи, нулевой бит часто называют младшим битом, а седьмой — старшим. q Байт может принимать до 28 = 256 разных значений. Байт используют для представления целых чисел от 0 до 255, целых чисел со знаком от 128 до +127, набора символов ASCII или переменных, принимающих менее 256 значений, например для представления десятичных чисел от 0 до 99. q Следующий по размеру базовый тип данных — полуслово. Размер одного полуслова — два байта. Биты с 0 по 7 составляют младший байт слова, а биты с 8 по 15 — старший. В полуслове содержится 16 бит, а значит, оно может принимать до 216 = 65 536 разных значений. Слово состоит из 32 бит или 4 байт. Двойное слово состоит из 64 бит или 8 байт. q Байты, полуслова, слова и двойные слова — основные типы данных. q Размер символьного компьютерного алфавита 28 = 256; объем памяти, занимаемый символом 1 байт (8 бит)=1 символу. q Таблица кодировки пронумерованный символьный алфавит; код символа порядковый номер символа (от 0 до 255). Внутренний код – порядковый номер в двоичной системе счисления.
Тема 1. 2. Арифметические основы ЭВМ Тема 1. 3. Представление информации в ЭВМ Выводы q Таблица кодировки ASCII (американская стандартная кодировочная таблица). Структура таблицы кодировки коды от 0 до 127 – стандартная часть; от 128 до 255 – альтернативная часть; от 0 до 31 – управляющие символы. q UNICODЕ стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. q Графическая информация может быть представлена в компьютере с помощью растровой или векторной графики. Растровые изображения представляют собой однослойную сетку точек, называемых пикселами. Код пиксела содержит информацию о его цвете. векторное изображение многослойно. Каждый элемент векторного изображения линия, прямоугольник, окружность или фрагмент текста располагается в своем собственном слое, пикселы которого устанавливаются независимо от других слоев. Каждый элемент векторного изображения является объектом, который описывается с помощью специального языка. q Звук (аналоговый сигнал) преобразуется в последовательность двоичных чисел. Этот процесс преобразования называется дискретизацией – выполняет его устройство АЦП (аналого цифровой преобразователь). Для того, чтобы потом раскодировать звук служит другое устройство – ЦАП (цифро аналоговый преобразователь) q Сжатие информации – процесс обеспечивающий уменьшение объема данных. Сжатие может осуществляться программным, аппаратным или комбинированных методом. q В связи с большим объемом видео информации обычно применяют кодирование со сжатием потока данных на входе с использованием алгоритмов семейства MPEG/JPEG.
Контрольные вопросы: