1 Понятие информации. Свойства информации.ppt
- Количество слайдов: 116
Понятие информации. Свойства информации. Количество информации. Предмет информатики 1
ПОНЯТИЕ ИНФОРМАЦИИ Термин «информация» используется во многих науках и во многих сферах человеческой деятельности. Он происходит от латинского слова «informatio» , что означает сведения, разъяснения, изложение. Несмотря на привычность этого термина, строгого и общепринятого определения не существует. В рамках рассматриваемой нами науки «информация» – является первичным и, следовательно, неопределимым понятием, подобно понятиям «точка» в математике, «тело» в механике, «поле» в физике. Несмотря на то, что этому понятию невозможно дать строгое определение, имеется возможность описать его через проявляемые свойства. Далее мы попытаемся это сделать. 2
Как известно, в материальном мире все физические объекты, окружающие нас, являются телами, либо полями. Физические объекты, взаимодействуя друг с другом, порождают сигналы различных типов. Сигналы могут порождать в физических телах изменения свойств. Это явление называется регистрацией сигналов. Сигналы, зарегистрированные на материальном носителе, называются данными. Данные могут храниться на различных носителях. Наиболее часто используемые носители – бумага, поверхности покрытые ферромагнитным материалом, поверхности оптических дисков и др. 3
Данные несут информацию о событии, но не являются самой информацией, так как одни и те же данные могут восприниматься (отображаться или еще говорят интерпретироваться) в сознании разных людей совершенно по-разному. Например, текст, написанный на русском языке (т. е. данные), даст различную информацию человеку, знающему алфавит и язык и человеку, не знающему их. Чтобы получить информацию, имея данные, необходимо к ним применить методы, которые преобразуют данные в понятия, воспринимаемые человеческим сознанием. Методы, в свою очередь, тоже различны. Например, человек, знающий русский язык, применяет адекватный метод, читая русский текст. Соответственно, человек, не знающий русский язык и алфавит, применяет неадекватный метод, пытаясь понять русский текст. 4
Заключая вышесказанное, можно сказать, что информация – это продукт взаимодействия данных и адекватных методов. Объекты материально го мира – поля, тела Взаимо действия Сигналы регистрация Данные Информационный процесс ИНФОР МАЦИЯ Методы Информация не является статическим объектом, она появляется и существует в момент слияния методов и данных, все прочее время она находится в форме данных 5
РЕЗЮМЕ Информация – это продукт взаимодействия данных и адекватных методов. С помощью информации человек принимает решения (управляет, созидает), осмысливает происходящие явления, представляет ход течения процессов. На основе информации происходит рассудочная деятельность человеческого интеллекта. 6
СВОИСТВА ИНФОРМАЦИИ Понятие информация, имеет большое количество разнообразных свойств, используется многими научными дисциплинами, но каждая дисциплина обращает внимание на те свойства информации, которые ей наиболее важны. В рамках нашего рассмотрения наиболее важными являются такие свойства, как дуализм, полнота, достоверность, адекватность, доступность, актуальность. Рассмотрим их подробнее. 7
ДУАЛИЗМ Дуализм информации характеризует ее двойственность. С одной стороны, информация объективна в силу объективности данных, с другой, она субъективна, в силу субъективности применяемых методов. Иными словами, методы могут вносить в большей или меньшей степени субъективный фактор и таким образом влиять на информацию в целом. Например, два человека читают одну и ту же книгу и получают подчас весьма разную информацию, хотя прочитанный текст, т. е. данные, были одинаковы. Более объективная информация применяет методы с меньшим субъективным элементом. 8
ПОЛНОТА Полнота информации характеризует степень достаточности данных для принятия решения или создания новых данных на основе имеющихся. Неполный набор данных оставляет большую долю неопределенности, т. е. большое число вариантов выбора, а это потребует применение дополнительных методов, например, экспертных оценок, бросание жребия и т. п. Избыточный набор данных затрудняет доступ к нужным данным, создает повышенный информационный шум, что также вызывает необходимость дополнительных методов, например, фильтрация, сортировка. И неполный и избыточный наборы данных затрудняют принятие на их основе адекватного решения, получение вторичной информации. 9
АДЕКВАТНОСТЬ Информация используется человеком для осмысления процессов, объектов, явлений. Результат может быть в той или иной мере соответствовать реальному объекту. Адекватность информации выражает степень соответствия создаваемого с помощью информации образа реальному объекту, процессу, явлению. Полная адекватность достигается редко, т. к. обычно приходится работать с не самым полным набором данных, т. е. присутствует неопределенность, затрудняющая принятие адекватного решения. Получение адекватной информации также затрудняется при недоступности адекватных методов. 10
ДОСТОВЕРНОСТЬ Достоверность информации – это свойство, характеризующее точность соответствия информации реальному объекту. При работе с неполным набором данных достоверность информации может характеризоваться вероятностью, например, можно сказать, что при бросании монеты с вероятностью 50% выпадет герб. 11
ДОСТУПНОСТЬ Доступность информации – это возможность получения информации при необходимости. Доступность складывается из двух составляющих: из доступности данных и доступности методов. Отсутствие хотя бы одного породит неадекватную информацию. 12
АКТУАЛЬНОСТЬ Актуальность информации. Информация существует во времени, так как существуют во времени все информационные процессы. Информация, актуальная сегодня, может стать совершенно ненужной по истечении некоторого времени. Например, программа телепередач на нынешнюю неделю будут неактуальна для многих телезрителей на следующей неделе. 13
Понятие количества информации Свойство полноты информации негласно предполагает, что имеется возможность измерять количество информации. Важнейшим результатом теории информации является вывод о том, что в определенных, весьма широких условиях, можно пренебрегая качественными особенностями информации, выразить её количество числом, а, следовательно, сравнивать количество информации, содержащейся в различных группах данных. 14
Дуализм затрудняет определение количества информации. Существует несколько подходов к понятию количество информации. 1. Текстовый. Единица информации символ, количество символов есть количество информации. 2. Шенона. За единицу информации принимается один бит (англ. bit — binary digit — двоичная цифра). Это количество информации, при котором неопределенность, уменьшается вдвое или другими словами, это ответ на вопрос, требующий односложного разрешения – да или нет. 15
Широко используются ещё более крупные производные единицы информации: 1 триада = 3 бита 1 тетрада = 4 бита 1 байт = 8 бит 210 байт = 1024 байт =1 Килобайт (Кбайт) 220 байт = 1024 Кбайт =1 Мегабайт (Мбайт) 230 байт = 1024 Мбайт =1 Гигабайт (Гбайт) 240 байт = 1024 Гбайт = 1 Терабайт (Тбайт) 16
Объемы информации необходимые для нормальной жизни современного общества чрезвычайно велики Человеческих возможностей для работы с ними не хватает возникает необходимость создания техники способной помочь (вычислительной техники). 17
Информационные процессы Момент слияния данных и методов называется информационным процессом. Основные виды ИП: Сбор данных – это деятельность субъекта по накоплению данных с целью обеспечения достаточной полноты. Передача данных – это процесс обмена данными. Хранение данных – это поддержание данных в форме постоянно готовой к выдаче потребителю. Обработка данных – это процесс преобразования информации от исходной ее формы до определенного результата. 18
Информация в жизни человечества В истории человечества были четыре информационные революции На первых этапах носителем данных была память, когда человеческой памяти стало не хватать появилась письменность. Изобретение ее характеризует первую информационную революцию. Письменные труды одного человека могли быть достоянием небольшого окружения создание печатного станка разрешило возникшее противоречие Эта веха в истории цивилизации характеризуется как вторая информационная революция (началась в XVI веке). 19
Третья информационная революция связывается с открытием электричества и появлением (в конце XIX века) на его основе новых средств коммуникации – телефона, телеграфа, радио. 20
Наше время отмечается как четвертая информационная революция. Пользователями информации стали миллионы людей. Средства связи получили повсеместное распространение, а компьютеры для совместного участия в информационном процессе соединяются в компьютерные сети, появилась всемирная компьютерная сеть Интернет. Значительная часть населения планеты пользуется услугами Интернет, оперативно получая и обмениваясь данными, т. е. формируется единое мировое информационное пространство. 21
Появляется, так называемое, информационное общество, где акцент внимания и значимости смещается с традиционных видов ресурсов на информационный ресурс, который, хотя всегда существовал, но не рассматривался ни как экономическая, ни как иная категория. Информационные ресурсы – это отдельные документы и массивы документов в информационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах). 22
Развитие мировых информационных ресурсов позволило: повысить обоснованность и оперативность принимаемых решений в фирмах, банках, биржах, промышленности, торговле и др. за счет своевременного использования необходимой информации. превратить деятельность по оказанию информационных услуг в глобальную человеческую деятельность; сформировать мировой и внутригосударственный рынок информационных услуг; 23
Предмет и структура информатики Термин информатика, как название науки, получил распространение с середины 80 -х годов Информатика – это наука изучающая: методы реализации информационных процессов средствами вычислительной техники (СВТ); состав, структуру, общие принципы функционирования СВТ; принципы управления СВТ. Кроме того, информатика – практическая наука, которая не только занимается описательным изучением перечисленных вопросов, но и во многих случаях предлагает способы их решения. В этом смысле информатика технологична и часто смыкается 24 с информационными технологиями.
Рассмотрим отдельно каждую составляющую. 1. Методы реализации процессов средствами техники (СВТ); информационных вычислительной В этом разделе изучаются вопросы: представление различных типов данных (числа, символы, текст, звук, графика, видео и т. д. ) в виде, удобном для обработки СВТ (кодирование данных), их форматы представления данных (предполагается, что одни и те же данные могут быть представлены разными способами); теоретические проблемы сжатия данных; структуры данных, т. е. способы хранения с целью удобного доступа к данным. 25
2. Состав, структура, общие принципы функционирования СВТ; В этом разделе изучаются вопросы: основы построения элементов цифровых устройств, принципы функционирования цифровых вычислительных устройств; архитектура СВТ – основные принципы функционирования систем, предназначенных для автоматической обработки данных; приборы и аппараты, составляющие аппаратную конфигурацию вычислительных систем; приборы и аппараты, составляющие аппаратную конфигурацию компьютерных сетей. 26
3. Принципы управления СВТ. В разработке методов управления средствами цифровой вычислительной техники этот раздел известен как программное обеспечение (ПО) СВТ. В этом разделе изучаются вопросы: средства взаимодействия аппаратного и программного обеспечения; средства взаимодействия человека с аппаратным и программным обеспечением, объединяемые понятием интерфейс; программное обеспечение СВТ (ПО); 27
Представление (кодирование) данных Типы данных: Формы представления -Числовые данных: -Текстовые -Непрерывная -Звуковые -Дискретная -Графические Чтобы обрабатывать различные типы информации их надо представить в виде воспринимаемом самим компьютером, т. е. закодировать. -Видео -Запахи -Вкусы -ДНК СВТ (компьютеры) -И т. д. 28
Чтобы создать возможность работы с данными различных видов, необходимо унифицировать форму их представления, а это можно сделать с помощью кодирования. Кодированием мы занимаемся довольно часто, например, человек мыслит весьма расплывчатыми понятиями, чтобы донести мысль от одного человека к другому, применяется язык. Язык – это система кодирования понятий. Чтобы записать слова языка, применяется, опять же, кодирование – азбука. Проблемами универсального кодирования занимаются различные области науки, техники, культуры. Вспомним, что чертежи, ноты, математические выкладки являются тоже некоторым кодированием различных информационных объектов. 29
Кодирование данных для обработки на компьютере (представление данных) в информатике имеет свою специфику, связанную с электроникой. Рассмотрим ее. Например, мы хотим проводить расчеты на компьютере. При этом нам придется закодировать цифры, которыми записаны числа. На первый взгляд, представляется вполне естественным кодировать цифру ноль состоянием электронной схемы, где напряжение на некотором элементе будет равно 0 вольт, цифру единица – 1 вольт, двойку – 2 вольт, и т. д. девятку – 9 вольт. Для записи каждого разряда числа в этом случае потребуется элемент электронной схемы, имеющий десять состояний. Однако, элементная база электронных схем имеет разброс параметров, что может привести к появлению напряжения, скажем, 3, 5 вольт, а оно может быть истолковано и как тройка и как четверка, т. е. потребуется на уровне электронных схем объяснить компьютеру, где заканчивается тройка, а где начинается четверка. Кроме того, придется создавать весьма непростые электронные элементы для производства арифметических операций с числами, т. е. на схемном уровне должны быть созданы таблица умножения - 10 х10=100 схем и таблица сложения – тоже 100 схем. Для электроники сороковых годов (время, когда появились первые вычислительные машины) это была непосильная задача. Еще сложнее выглядела бы задача обработки текстов, ведь русский алфавит содержит 33 буквы. Очевидно, такой путь 30 построения вычислительных систем не состоятелен.
В то же время, весьма просто реализуются электронные схемы с двумя устойчивыми состояниями: есть ток – 1, нет тока – 0, есть электрическое (магнитное) поле – 1, нет – 0. Взгляды создателей вычислительной техники были обращены на двоичное кодирование, как универсальную форму представления данных разных типов для дальнейшей обработки их компьютерной техникой. 31
Предполагается, что данные располагаются в некоторых ячейках, представляющих упорядоченную совокупность из двоичных разрядов, а каждый может временно содержать одно из состояний – 0 или 1. Тогда группа из двух двоичных разрядов (двух бит) может закодировать 22= 4 различных комбинации кодов (00 01 10 11); аналогично, три бита дадут 2 3= 8 комбинаций, восемь бит или 1 байт - 28= 256 и т. д. 32
Итак, внутренняя азбука компьютера очень бедна, содержит всего два символа 0, 1, и возникает проблема представления всего многообразия типов данных – чисел, текстов, звуков, графических изображений, видео и других, только этими двумя символами, с целью дальнейшей обработки средствами вычислительной техники. 33
Системы счисления Совокупность приемов записи и наименования чисел называется системой счисления. Системы счисления подразделяются на позиционные и непозиционные. Если для записи числа используется бесконечное множество символов, то система счисления называется непозиционной. Пример (достаточно плохой) – римская с. с. 34
Позиционные системы счисления для записи чисел используют конечный набор символов, называемых цифрами, и величина числа зависит от набора цифр и от того, в какой последовательности записаны цифры, (т. е. от позиции, занимаемой цифрой, например, 125 и 215. ) Количество цифр, используемых для записи числа, называется основанием системы счисления, в дальнейшем обозначим q. По основанию именуется система счисления, например десятичная двоичная. 35
В повседневной жизни мы пользуемся десятичной позиционной системой счисления, q=10, т. е. используется 10 цифр: 0 1 2 3 4 5 6 7 8 9. Число в позиционной системе счисления с основанием q может быть представлено в виде разложения по степеням q. Например, в десятичной системе число 123, 45(10)= 1*102+2*101+3*100+4*10 -1+5*10 -2 36
в общем виде это запишется так X(q)=xn-1 qn-1+xn-2 qn-2+…+x 1 q 1+x 0 q 0+ +x-1 q-1+x-2 q-2+…+x-mq-m Здесь X(q) – запись числа в системе счисления с основанием q; xi – цифры от 0 до 9; n – число разрядов целой части; m– число разрядов дробной части. Записывая слева направо цифры числа, мы получим закодированную запись числа в q -ичной системе счисления: X(q)=xn-1 xn-2 x 1 x 0 , x-1 x-2 x-3 37
В информатике, большое значение имеет двоичная система счисления, q=2 т. к. таблица сложения и таблица умножения будут иметь по четыре правила: 38
Это очень упростит конструкцию аппаратной части компьютера, но запись числа в двоичной с. с. длиннее записи того же числа в десятичной с. с. в log 210 раз (примерно в 3. 3 раза). Что делает невозможным применение двоичной с. с. в повседневной жизни 39
Восьмеричная система счисления имеет восемь цифр: 0 1 2 3 4 5 6 7. Шестнадцатеричная - шестнадцать: 0 1 2 3 4 5 6 7 8 9 A B C D E F. Например, число 231, записанное в десятичной системе, запишется в двоичной, восьмеричной и шестнадцатеричной системах счисления так: 231(10)=11100111(2)=347(8)=E 7(16) 40
Образование числа в различных системах счисления 41
Преобразование чисел из одной системы счисления в другую. Преобразование чисел из произвольной недесятичной (q 10) системы в десятичную удобно выполнять на основе разложения по степеням q: 11100111(2)= 1 27+1 26+1 25+0 24+0 23+1 22+1 21+1 20= 128+64+32+4+2+1=231(10), или 347(8)= 3 82+4 81+7 80=3 64+4 8+7=231(10) 42
Преобразование из десятичной в прочие системы счисления проводится с помощью правил умножения-деления. Рассмотрим алгоритм на примере перевода десятичного числа 231 в двоичную систему, перевод из десятичной системы в любую q -ичную будет совершенно аналогичен. 43
231=115 21+1 20. Число 115 (такой двоичной цифры нет) тоже может быть разделено нацело на 2, т. е. 115 2=57 и остаток 1. По аналогии запишем 231=(57 2+1) 2+1= 57 22+1 21+1 20 аналогично продолжим процесс дальше 57 2=28 остаток 1; 231=((28 2+1) 2+1= 28 23+1 22+1 21+1 20 28 2=14 остаток 0; 231=(((14 2+0) 2+1) 2+1=14 24+1 22+1 21+1 20 14 2=7 остаток 0; 231=((((7 2+0) 2+1) 2+1=7 25+1 22+1 21 44 +1 20
7 2=3 остаток 1; 231=(((((3 2+1) 2+0) 2+1) 2+1=3 26+1 25+1 22+1 21+1 20 3 2=1; остаток 1; далее процесс продолжать нельзя т. к. 1 не делится нацело на 2 231=((((((1 2+1) 2+0) 2+1) 2+1=1 27+1 26+1 25+1 22+1 21+1 20 Таким образом, последовательное деление нацело позволяет разложить число по степеням двойки, а это в краткой записи и есть двоичное изображение числа. 231 =1 27+1 26+1 25+0 24+0 23 +1 22+1 21+1 20 = 11100111(2) 45
Эти выкладки можно сократить, записав процесс в виде алгоритма последовательного деления. Читая частное и остатки от деления в порядке обратном получению, получим двоичную запись числа. Алгоритм применим для любого основания. 46
Для дробных чисел правило последовательного деления заменяется правилом последовательного умножения. В итоге получаем, что 0. 8125(10) =1 2 -1+1 2 -2+1 2 -4=0. 1101(2). 47
Попутно заметим, что в десятичной системе счисления правильная дробь переводится в десятичную дробь в конечном виде только в том случае, если ее знаменатель в качестве множителей имеет только степени двоек и пятерок. Все же остальные дроби переводятся в бесконечные периодические дроби. Аналогично, в двоичной системе счисления конечный вид получают дроби, где в знаменателе только степени двойки, т. е. большинство десятичных конечных дробей в двоичной системе счисления будут бесконечными периодическими дробями 48
Перевод из 2 8 и 2 16 Для того, чтобы перевести число из двоичной системы в шестнадцатеричную, надо от десятичной запятой вправо и влево выделить группы по четыре цифры (они называются тетрадами) и каждую группу независимо от других перевести в одну шестнадцатеричную цифру. Аналогичное правило для восьмеричной системы. 231(10)=11100111(2) = 1 27+1 26+1 25+0 24+0 23+1 22 +1 21 +1 20 =(1 23+1 22+1 21+0 20)*24+(0 23+1 22 +1 21 +1 20)*20 = 14*16+7=Е 7(16) Длина записи числа в десятичной и шестнадцатеричной примерно одинаковы, но перевод чисел из 16 2 много проще, чем 10 2, поэтому наряду с двоичной системой счисления для краткости используется шестнадцатеричная. 49
Представление чисел в двоичном коде. Все данные содержатся в памяти компьютера в одном или нескольких последовательных байтах. Оптимального представления для всех действительных чисел создать невозможно, поэтому создатели вычислительных систем пошли по пути разделения единого по сути множества чисел на типы (например, целые в диапазоне от … до…, приближенные с плавающей точкой с количеством значащих цифр…и т. д. ). Для каждого типа в отдельности создается собственный способ представления. 50
Целые числа Целые положительные числа от 0 до 255 можно представить непосредственно в двоичной с. с. (двоичном коде). Такие числа будут занимать один байт в памяти компьютера. В такой форме представления легко реализуется на компьютерах двоичная арифметика. 51
Если нужны и отрицательные числа, то знак числа может быть закодирован отдельным битом, обычно это старший бит; ноль интерпретируется как плюс, единица как минус. В таком случае одним байтом может быть закодированы целые числа в интервале от – 127 до +127, причем аппаратная реализация двоичной арифметики будет несколько усложнена, т. к. в этом случае существуют два кода, изображающих число ноль 0000 и 1000 0000 (+0 и -0), и в компьютерах на аппаратном уровне это потребуется предусмотреть. 52
Рассмотренный способ представления целых чисел называется прямым кодом. Положение с отрицательными числами несколько упрощается, если использовать, так называемый, дополнительный код. В дополнительном коде положительные числа совпадают с положительными числами в прямом коде, отрицательные же числа получаются в результате вычитания из 1 0000 соответствующего положительного числа. Например, число – 3 получит код _ 1 0000 0011 1101 53
В дополнительном коде хорошо реализуется арифметика, т. к. каждый последующий код получается из предыдущего прибавлением единицы с точностью до бита в девятом разряде. Например, 5 -3=5+(-3) Это двоичное 5 + 0000 0101 1111 1101 Это двоичное 1 0000 0010 3 Результат 2 Старший разряд отбрасываем т. е. отбрасывая подчеркнутый старший разряд 54 получим 2
Аналогично целые числа от 0 до 65535 и целые числа от -32768 до 32767 в двоичной (шестнадцатеричной) системе счисления представляются в двухбайтовых ячейках. Существуют представления целых чисел и в четырехбайтовых ячейках. 55
Действительные числа в математике представляются конечными или бесконечными дробями, т. е. точность представления чисел не ограничена. Однако в компьютерах числа хранятся в регистрах и ячейках памяти, которые представляют собой последовательность байтов с ограниченным количеством разрядов. Следовательно, бесконечные или очень длинные числа усекаются до некоторой длины и в компьютерном представлении выступают как приближенные. 56
Для представления действительных чисел, как очень маленьких, так и очень больших, удобно использовать форму записи чисел в виде следующего произведения X = m · qp, где m — мантисса числа, q – основание системы счисления, p — целое число, называемое порядком. Такой способ записи чисел называется представлением числа с плавающей точкой. Т. е. число 1234. 56 может быть записано в одном из видов 1234. 56=123. 456*101=12. 3456*102 =1. 23456*103 =0. 123456*104 57
Если мантисса находится в диапазоне 1/q |m|
Действительные числа в различных компьютерных системах записываются по-разному, тем не менее, всеми поддерживаются несколько международных стандартных форматов, различающихся по точности, но имеющих одинаковую структуру. Рассмотрим на примере 4 байтного числа. 32 31 30 24 Смещенный порядок Знак числа 23 22 21 2 1 М а н т и с с а Так как порядок может быть положительным или отрицательным, нужно решить проблему его знака. 59
Величина порядка представляется характеристикой (или смещенным порядком). Для получения характеристики необходимо к порядку прибавить смещение. Например, при использовании для хранения порядка семи бит (диапазон от 0 до 127), используется смещение 64, для хранения значений от – 64 до +63, т. е. Смещенный порядок получается как m′=m+64. Использование смещенной формы позволяет производить операции над порядками, как над беззнаковыми числами, что упрощает операции сравнения, сложения и вычитания порядков, а также упрощает операцию сравнения самих нормализованных чисел. 60
Мантисса кодируется как текст (суть двоичнодесятичного кодирования) т. е. каждая десятичная цифра изображается двоичным кодом в одной тетраде (4 -х битах). Например, 1234. 567 будет представляться так 1234. 567=0. 1234567*104 смещенный порядок m′=64+4=68=1000100(2) 1 байт 0 1 0 0 0 2 байт 1 0 0 3 байт 0001 0010 0011 0100 1 Знак числа смещенный порядок 2 3 4 байт 4 0101 0110 5 6 Цифры мантиссы. Десятичные, но в двоичном коде Последняя цифра 7 урезается, представление числа является приближенным. 61
Чем больше разрядов отводится под запись мантиссы, тем выше точность представления числа. Чем больше разрядов занимает порядок, тем шире диапазон от наименьшего отличного от нуля числа до наибольшего числа, представимого в компьютере при заданном формате. Как и в случае целых чисел, в программных системах могут использоваться несколько типов данных, реализующих модель с плавающей точкой. 62
Понятие типа данных. Как уже говорилось, минимально адресуемой единицей памяти является байт, но представление числа требует большего объема. Очевидно, такие числа займут группу байт, а адресом числа будет адрес первого байта группы. Следовательно, произвольно взятый из памяти байт ничего нам не скажет о том, частью какого информационного объекта он является целого числа, числа с плавающей запятой или команды, таким образом, можно сделать вывод, что кроме задачи представления данных в двоичном коде, параллельно решается обратная задача – задача интерпретации кодов, т. е. как из кодов восстановить первоначальные данные. 63
Для представления основных видов информации (числа целые, числа с плавающей запятой, символы, звук и т. д. ) в системах программирования используют специального вида абстракции - типы данных. Каждый тип данных определяет логическую структуру представления и интерпретации для соответствующих данных. В дальнейшем для каждого типа данных будут определены и соответствующие ему операции обработки. Некоторые типы данных стандартизуются. 64
Представление символьных и текстовых данных Тексты являются важнейшим источником информации. Для записи слов были изобретены буквы, для указания оттенков речи - знаки препинания. В настоящее время известно множество средств, позволяющих разнообразить письменные документы - шрифты, абзацы, заголовки, для создания четкой структуры документа используются главы, параграфы, оглавления, аннотации. Рассмотрим, как кодируются символы, символьные строки, текстовые документы. 65
Символы. Двоичное кодирование символьных данных производится заданием кодовых таблиц, согласно которым каждому символу ставят в соответствие одно или двухбайтовый код. Обратная задача - интерпретация кодов осложнена тем, что в одном языке, как правило, существуют несколько кодовых таблиц. Это связано с тем, что кодовые таблицы разрабатывались в разных странах в разные времена. 66
таблица CP 866 (ASCII 1981 г. использовалась в MS-DOS. ) Для представления одного символа используется один байт (8 бит), т. е. кодовая таблица описывает 28 =256 различных кодов. Коды с 0 до 127 составляют базовую (основную) таблицу; коды со 128 по 255 расширенную (дополнительную) таблицу. В основной таблице управляющие команды, спецсимволы, знаки арифметических действий и знаки препинания, цифры, латинские буквы прописные и строчные. Дополнительная таблица отдана национальным алфавитам и символам псевдографики. 67
таблица CP 1251 Она же Windows 1251 ASCII 1991 г. используется в OS WINDOWS. Однобайтовая таблица. Базовая часть осталась прежней, а расширенная – изменилась, ввиду того, что отпала необходимость в символах псевдографики. Обе однобайтовые таблицы неудобны тем, что не позволяют работать более чем с двумя алфавитами латинским и национальным. При передаче сообщения между странами использующими не латинский алфавит возникает проблема системных связей, преодолевается с помощью драйверов. Кроме того 256 символов для 68
Unicode 3. 0 В 1991 году производители программных продуктов (Microsoft, IBM, Apple) и стандартизаторы пришли к соглашению о выработке единого стандарта ISO 10646 -1 (он же Unicode 3. 0). Код построен по 31 битной схеме, но используются только два байта для кодирования одного символа. Два байта 16 бит создает 216 = 65536 кодов, которые описывают цифры, буквы латинского и многих национальных алфавитов, спецсимволы, знаки арифметических операций и т. д. Все текстовые документы в этой кодировке длиннее вдвое, что сначала задерживало ее внедрение, но сейчас это возможно. В настоящее время распространенный текстовый редактор Word, начиная с версии Word 8. 0 (Microsoft Office 97) использует шрифты Unicode 3. 0. 69
Текстовые строки. Текстовая (символьная строка) - это конечная последовательность символов. Это может быть осмысленный текст или произвольный набор, короткое слово или целая книга. Длина символьной строки - это количество символов в ней. Записывается в память символьная строка двумя способами: либо число, обозначающее длину текста, затем текст, либо текст затем разделитель строк. 70
Текстовые документы используются для хранения и обмена данными. Сплошной, не разбитый на логические фрагменты текст воспринимается тяжело. Структурирование теста достигается форматированием - специфическим расположением текста при подготовке его к печати. Для анализа структуры текста были разработаны языки разметки, которые анализируют текстовые метки (маркеры или теги), используемые для обозначения частей документа, записанные вместе с основным текстом в текстовом формате. Программы, интерпретирующие считывают теги и структурируют текст. 71
Представление звуковых данных в двоичном коде Звук – это упругая продольная волна в воздушной среде. Чтобы ее представить в виде, читаемом компьютером, необходимо: - звуковой сигнал преобразовать в электрический аналог звука с помощью микрофона, электрический аналог полученный в непрерывной форме и не пригоден для обработки на цифровом компьютере; - аналог звукового сигнала пропускается его через аналогоцифровой преобразователь (АЦП). При воспроизведении происходит обратное преобразование цифро-аналоговое (через ЦАП). Конструктивно АЦП и ЦАП находятся в звуковой карте компьютера. 72
73
Во время оцифровки сигнал дискретизируется по времени и по уровню. Дискретизация по времени предполагает, что весь период времени T разбивается на малые интервалы времени t, точками t 1, t 2…tn Предполагается, что в течение интервала t уровень может считаться постоянным. Величина =1/ t называется частотой дискретизации. Она измеряется в герцах (гц) – количество измерений 74 в течение секунды.
Дискретизация по уровню, она еще называется квантованием, выполняется так: область изменения сигнала от самого малого значения Xmin до самого большого значения Xmax разбивается на N равных квантов, промежутков величиной X= ( Xmax- Xmin) N Точками X 1, X 2, …Xn, где Xi=Xmin+ X (i-1). Если 75
Возникают две задачи: -как часто по времени надо измерять сигнал, -с какой точностью надо измерять сигнал. Ответ на первую задачу дает теорема Найквиста, которая утверждает, что, если сигнал оцифрован с частотой , то высшая «слышимая» частота будет не более /2. Вторая задача решается подбором числа уровней так, чтобы звук не имел высокого уровня шума и «электронного» оттенка звучания. 76
Высокое качество воспроизведения получается в формате лазерного аудио диска при следующих параметрах оцифровки: частота дискретизации - 44. 1 кгц, квантование - 16 бит, т. е. x=(Xmax-Xmin)/216. Таким образом, 1 сек. стерео звука займет 2 байт*44100 измер/сек*2 кан*1 сек=176 400 байт дисковой памяти. Качество звука при этом получается очень высоким. Для телефонных переговоров удовлетворительное качество получается при частоте дискретизации 8 кгц и частоте квантования 255 уровней, т. е. 1 байт, при этом 1 сек звуковой записи займет на диске 1 байт*8000 байт/сек*1 сек=8000 байт 77
Представление графических данных в двоичном коде Есть два основных способа представления изображений. Первый - графические объекты создаются как совокупности линий, векторов, точек - называется векторной графикой. Второй - графические объекты формируются в виде множества точек (пикселей) разных цветов распределенных по строкам и столбцам - называется растровой графикой. В конечном итоге на экране монитора оба способа реализуются растровой графикой. 78
Модель RGB. Чтобы оцифровать цвет, прежде необходимо его измерить. Немецкий ученый Грасман сформулировал 3 закона смешения цветов: закон непрерывности - к любому цвету можно подобрать бесконечно близкий; закон 3 х-мерности - любой цвет может быть представлен комбинацией трех основных цветов; закон аддитивности - цвет смеси зависит только от яркости составляющих. За основные три цвета приняты красный (Red), зеленый (Green), синий (Blue). Эта модель (называется аддитивной) применяется для создания графических образов в устройствах, излучающих свет – мониторах, телевизорах. 79
Модель CMYK. В полиграфических системах напечатанный на бумаге графический объект сам не излучает световых волн. Изображение формируется на основе отраженной волны от окрашенных поверхностей. Цвета красителей должны быть дополняющими: голубой (Cyan=B+G), дополняющий красного; пурпурный (Magenta=R+B) дополняющий зеленого; желтый (Yellow=R+G) дополняющий синего. Но т. к. цветные красители по отражающим свойствам не одинаковы, то для повышения контрастности применяется еще черный (blac. K). Модель CMYK названа по первым буквам слов Cyan, Magenta, Yellow и последней букве слова blac. K. Т. к. цвета вычитаются, модель называется субстрактивной. 80
Оцифровка изображения. изображение проецируется на светочувствительную матрицу m строк и n столбцов, называемую растром. Каждый элемент матрицы - мельчайшая точка, в случае цветного изображения состоящая из трех светочувствительных датчиков красного, зеленого, желтого цвета. Далее оцифровывается яркость каждой точки по каждому цвету последовательно по всем строкам растра. Если для кодирования яркости каждой точки использовать по одному байту (8 бит) на каждый из трех цветов (всего 3*8=24 бита), то система обеспечит представление 224 16. 7 млн. распознаваемых цветов, что близко цветовосприятию человеческого зрения. Режим представления цветной графики двоичным кодом из 24 81 разрядов называется полноцветным или True Color.
Очевидно, графические данные занимают очень большие объемы на носителях. Например, экран монитора с растром 800 600 точек, в режиме True Color займет 800 600 3= 1 440 000 байт. В случае, когда не требуется высокое качество отображения цвета, применяют режим High Color, который кодирует одну точку растра двумя байтами (16 разрядов дают 216 65. 5 тысячи цветов). Режим, который при кодировании одной точки растра использует один байт, называется индексным, в нем различаются 256 цветов. Этого не достаточно, чтобы передать весь диапазон цветов, код каждой точки при этом выражает собственно не цвет, а некоторый номер цвета (индекс) из таблицы цветов, называемой палитрой. Палитра должна прикладываться к файлам с 82 графическими данными и используется при
Проблема сжатия информации Большие размеры файлов порождают проблему сжатия информации. Теоретически доказано, что любой массив данных содержит избыточную информацию, которая улучшает восприятие основной информации. Проблема сжатия тесно связанная с моделями представления информации. Разработаны и применяется два типа алгоритмов сжатия: сжатие с изменением структуры данных (оно происходит без потери данных) и сжатие с частичной потерей данных. Первые предусматривают восстановление данных точно в исходном виде. Вторые не позволяют полностью восстановить оригинал и, потому применяются для хранения графики или звука, для текстов. 83
Структуры данных Доступность информации обеспечивается созданием структур различают следующие структуры: линейные (списки), табличные, иерархические (дерево). Линейная структура данных (или список) - это упорядоченная структура, в которой адрес данного однозначно определяется его номером (индексом). В линейной структуре необходим разделитель между элементами. Поиск осуществляется по разделителям. Если элементы списка одной длины, структура называется вектором данных, разделители не требуются. 84
Табличная структура данных - это упорядоченная структура, в которой адрес данного однозначно определяется двумя числами - номером строки и номером столбца, на пересечении которых находится ячейка с данным. Если элементы располагаются в строчку, нужно внести два разделительных знака - разделительный знак между элементами строки и разделительный знак между строками. Если элементы таблицы одной длины, структура называется матрицей данных, разделители в ней не требуются. Таблица может быть и трехмерная, тогда три числа характеризуют положение элемента и требуются три типа разделителей, а может быть и n-85 мерная.
Иерархическая структура. Нерегулярные данные, которые трудно представляются в виде списка или таблицы, могут быть представлены в иерархической структуре, в которой адрес каждого элемента определяется путем (маршрутом доступа), идущим от вершины структуры к данному элементу. 86
В линейной и табличной структурах доступ к данным прост, но изменение адреса одного данного может изменить адреса других данных. В иерархической структуре введение нового элемента не нарушает структуры дерева, недостатком ее является трудоемкость записи адреса и сложность поиска. Реально существующие структуры часто представляют комбинации трех вышеописанных. Например, полный адрес: Россия, Ростов-на-Дону, пл Гагарина, дом 1, корпус 1, аудитория 305. есть комбинация иерархической => линейной =>табличной. 87
Хранение данных Здесь мы ответим на вопрос как хранить громадные массивы закодированных данных. Единицей адресуемой информации в компьютерной технике является байт, но это слишком маленькая единица. В килобайты или мегабайты тоже не могут быть единицей хранения. Единицей хранения информации является файл. Файл – это: • поименованная область на внешнем носителе произвольной длины, • содержащая данные различных типов, объединенные по какому либо признаку, • данные представлены в двоичном коде. 88
Компьютерные системы хранят сотни тысяч файлов, доступ к ним осуществляется с помощью специального программного обеспечения называемого файловыми системами (ФС). Имя файла уникально (в рамках ФС) и несет в себе адресные функции в иерархической структуре реализуемой ФС. Имя может иметь расширение, в котором хранятся сведения о типе данных (текстовые, графические и т. д. ), одновременно по расширению определяется программа, работающая с этими данными. 89
Физически файл является последовательностью байтов, на внешнем носителе (жесткий диск, CD). Способ отображения, т. е. интерпретация определяется форматом файла. Естественно, что для хранения различных видов информации, необходимо использовать по-разному устроенные файлы. Способ организации данных в файле (структура файла) называют его форматом. 90
Некоторые форматы файлов стандартизированы и поддерживаются многими приложениями (JPEG, MP 3, AVI). Некоторые специфичны для конкретных приложений, (. DOC, . XLS). Некоторые создаются самими программистам. Структура файла может быть тривиальной. (Например, текст может сохраняться в виде последовательности байтов. ) Но чаще вместе с данными приходится дополнительно сохранять служебную информацию. Рассмотрим примеры. 1. Форматированный текст. Здесь нужно иметь два типа кодов: для кодирования самого текста, и для указания символов управляющих форматированием. 2. Таблица. Здесь также два типа кодов: для размера таблицы и для самих значений таблицы. 91
ЗАГОЛОВОК Собственно сохраняемые (служебная данные в двоичном коде инфомация) Программы начинают свою работу с чтения служебной информации и проверки, возможности работы с форматом предложенного им файла, а затем по интерпретируют файл, в виде привычной информации – текст, видео. Современные программы, позволяют одновременно включать в файл данные разных видов, а это требует разработки очень сложных форматов. Например, работая с программой MS Word, мы можем включать в один документ текст, картинки, таблицы и др. Например, для хранения документов MS Office строятся так называемые структурированные хранилища — фактически целые файловые системы, спрятанные в едином с точки зрения пользователя файле. 92
Подавляющей части пользователей практически ничего не нужно знать о внутреннем устройстве файлов, с которыми они работают. Этот уровень абстракции интерфейса операционных систем — одно из самых больших достижений компьютерных технологий. Попутно заметим, что наличие разных форматов для хранения данных одного и того же типа затрудняет переносимость их из среды одного приложения (программы) в среду другого. Проблема обычно решается использованием специальных программ, называемых конверторами. 93
Математические основы информатики. (Алгебра высказываний) Под простым высказыванием понимается предложение, о котором можно сказать, истинно оно или ложно. Высказывания обозначаются буквами, они могут иметь два значения ИСТИНА и ЛОЖЬ. Например, высказывание А состоит в том, что 3>5, является ложным, т. е. А = ЛОЖЬ. Часто для краткости значение ИСТИНА заменяют символом 1, а ЛОЖЬ – 0, в нашем случае можно сказать А=0. Два высказывания A и B называются равносильными, если они имеют одинаковые значения истинности, записывается A=B. 94
Логические операции Операцией отрицания A называют высказывание Ā ( A) ( говорят не A), которое истинно, тогда когда A ложно и ложно, тогда когда A истинно. Это определение можно представить в виде следующей таблицы (таблицы истинности). А Ā 0 1 1 0 Отрицание - унарная (т. е. для одного операнда) логическая операция. Ей соответствует языковая конструкция, использующая частицу НЕ. 95
Конъюнкцией двух высказываний A и B является новое высказывание C, которое истинно только тогда, когда истинны оба высказывания, записывается C=A B или C=A B (при этом говорят C равно A и B). A B C=A B 0 0 1 1 1 96
Дизъюнкцией двух высказываний A и B является новое высказывание C, которое истинно, если истинно хотя бы одно высказывание. Записывается C=A B (при этом говорят C равно A ИЛИ B). A B C=A B 0 0 1 1 1 0 1 1 97
Импликацией двух высказываний A (называется посылкой) и B (называется заключением) является новое высказывание C, которое ложно только тогда, когда посылка истина, а заключение ложно, записывается C=A B (при этом говорят, из A следует B). A B C=A B 0 0 1 1 1 98
Эквиваленцией двух высказываний A и B является новое высказывание C, которое истинно только тогда, когда оба высказывания имеют одинаковые значения истинности, записывается C=A B (C=A B) A B C=A B 0 0 1 0 1 0 0 1 1 1 99
Логические выражения С помощью логических операций из простых высказываний (логических переменных и констант) можно построить логические выражения, которые также называются булевскими функциями. Например, C=((Ā B) B) А Порядок операций: -операции в скобках -отрицание -конъюнкция и дизъюнкция слева на право -импликация, эквиваленция. 100
Зависимости между логическими операциями Операции не являются независимыми, одни из них могут быть выражены через другие с помощью следующих соотношений: A B = Ā B A=A закон двойного отрицания. A B=B A коммутативный закон для конъюнкции A B=B A коммутативный закон для дизъюнкции (A B) C=A (B C) ассоциативный закон для конъюнкции (A B) C=A (B C) ассоциативный закон для дизъюнкции 101
A (B C)=(A B) (A C) дистрибутивные законы A (B C)=(A B) (A C) (A B)=A B законы де Моргана (A B)=A B A 1=A закон единицы для конъюнкции A 0=0 закон нуля для конъюнкции A 1=1 закон единицы для дизъюнкции A 0=A закон нуля дизъюнкции 102
Одну и ту же зависимость между логическими переменными можно выразить различными формулами, важно иметь возможность приводить формулы к неким стандартным формам. Первая из них – дизъюнктивная нормальная форма (ДНФ), имеет вид дизъюнкции A 1 A 2 … An, где каждое из составляющих есть конъюнкция простых высказываний и их отрицаний, например B=(X 1 X 2 X 3) (X 1 X 2) здесь A 1= X 1 X 2 X 3, A 2= X 1 X 2 Вторая – конъюнктивная нормальная форма (КНФ), имеет вид A 1 A 2 … An, где каждое из составляющих есть дизъюнкция простых высказываний и их отрицаний, например B=(X 1 X 2 X 3) ( X 1 X 2 X 3) 103
Мудрая мысль Любую логическую функцию можно привести к ДНФ и КНФ. Докажем это на примере логической функции трех аргу- ментов заданной таблично F=F(X 1, X 2, X 3) 104
№ X 1 X 2 X 3 F 1 0 0 2 0 0 1 1 3 0 1 0 0 4 0 1 1 1 5 1 0 0 0 6 1 0 1 1 7 1 1 0 0 8 1 1 Это называется конституентой единицы X 1 X 2 X 3 Для каждой строки, где значение функции 1, построим конъюнкцию по принципу – 1 в аргументе заменим именем аргумента, 0 – отрицанием имени. X 1 X 2 X 3 Всевозножные Некоторые комбинации 3 значения функции, в аргументов нашем сл любые F(X 1, X 2, X 3)=(X 1 X 2 X 3) ДНФ Непосредственной проверкой убеждаемся, что полученной выражение выполняется для каждой строки таблицы. 105
Еще более мудрая мысль Любое преобразование (обработка) двоичной информации может быть представлена системой логических функций. А каждую из функций системы можно представить в КНФ или ДНФ. Если создать электронное устройство, способное моделировать двоичный сигнал и устройства выполняющие отрицание, конъюнкцию и дизъюнкцию сигналов, то комбинируя такие устройства можно обрабатывать информацию. Если же добавить еще устройство хранящее информацию, то возможна работа по программе. 106
Синтез цифровых устройств Всякое импульсное (цифровое) устройство работает под управлением тактового генератора (ТГ), который через равные промежутки времени вырабатывает синхронизирующие для всей схемы импульсы. За один такт цифровая схема переходит из одного состояния в другое, т. е. за один такт может быть сделана какая-либо элементарная операция. Временная диаграмма ТГ t 107
Моделировать двоичный сигнал в виде электрического тока можно подавая на некотором участке электрической цепи токовые импульсы разного напряжения. Например, логическую единицу связать с токовым импульсом, ноль с бестоковым, длительность импульсов задает тактовый генератор. Очевидно, чем выше тактовая частота, тем быстрее работает устройство. ТГ Это единица Это нуль х2 х1 х2 t х1 Цепь моделирующая двоичные сигналы Временная диаграмма двоичных сигналов t 108
Обработка двоичных данных в виде электрических импульсов осуществляется электронными устройствами реализующими логические операции И, ИЛИ, НЕ. Схемы устройств не сложные, но мы их не приводим. Далее показаны условные обозначения схем выполняющих логические операций и их временные диаграммы. 109
110
Очевидно возможно создание устройств выполняющих конъюнкцию трех и более сигналов х1 х2 х3 & & х1 х1&х2 &х3 х2 & х1&х2 &х3 х3 111
ПРИМЕР. Рассмотрим синтез цифрового устройства, реализующего функцию заданную в ДНФ, с помощью комбинации электронных устройств И, ИЛИ, НЕ F(X 1, X 2, X 3)=(X 1 X 2 X 3) 112
F(X 1, X 2, X 3)=(X 1 X 2 X 3) x 1 x 2 x 3 & 1 & & & 113
Построение элементов памяти цифровых устройств Для хранения данных необходимы элементы, которые получив импульс в одном такте запоминали бы его и сохраняли после снятия напряжения, т. е. в последующих тактах. Элемент памяти, который хранит значение одной булевой переменной называется триггером. 114
Триггеры строятся на основе логических элементов И, ИЛИ, НЕ. Схема не приводится. 1 2 S R T 3 4 Условное обозначение триггера 1 и 2 называются входами 3 и 4 выходами. Вход 1 (S) предназначен для записи в триггер единичного значения переменной, вход 2 (R) записывает нулевое значение переменной или обнуляет триггер. На выходах 3 и 4 всегда присутствуют разные значения сигнала, если выходе 3 сигнал равен единице, то выходе 4 он равен нулю и наоборот. Записать в триггер единицу – значит подать на вход S единицу в этом случае на выходе 3 (единичном ) будет выставлен единичный сигнал. Ноль в триггер записывается подачей единицы на вход R, тогда на единичном выходе (3) 115 будет сигнал нуль.
Триггер служит основой для построения функциональных узлов, способных хранить двоичные коды, осуществлять передачу и запись, а так же выполнять с ними некоторые специальные операции. Такие функциональные узлы называются регистрами. 116


