Информационные системы в
















































































Информационные системы в экономике. кандидат технических наук, доцент Полупанов Дмитрий Васильевич Лекция 8. Глобальная сеть Интернет
Цель лекции l дать понятие глобальной сети Интернет, рассмотреть историю её создания; l рассмотреть наиболее популярные сервисы Интернета; l дать понятие всемирной паутины – World Wide Web; l рассмотреть основные виды веб-сайтов; l дать понятие интернет-протокола, рассмотреть основные протоколы; l исследовать систему доменных имен; l рассмотреть основные способы подключения к Интернет; l рассмотреть управление Интернет. l рассмотреть проблему поиска информации в сети Интернет; l дать понятие релевантности поиска; l рассмотреть основные информационные пространства Интернет; l исследовать преимущества и недостатки подбора ссылок, каталогов, поисковых и метапоисковых систем. 2
8. 1. Понятие Интернет l Интернет - это всемирная компьютерная сеть, объединяющая компьютерные сети по всему миру на базе единых стандартных соглашений (протоколов) о способах обмена информацией и единой системой адресации. l Интернет одновременно является и средством общемирового вещания, и механизмом распространения информации, и средой для сотрудничества и общения людей, охватывающей весь земной шар. 3
История сети Интернет l 1957 - МО США DARPA. l 1993 - начало Internet в l 1964 - концепция России. децентрализованной сети l 1994 - RUNnet сеть (Rand Corporation). “Университеты России”. l 1972 - первый выход l 1996 - RBnet сеть высшей ARPAnet. школы. l 1983 - стандарт UNIX l 1998 - организована систем в сети. Ростелеком-Интернет. l 1990 - ARPAnet l 1999 - 5 миллионов превратилась в Internet. пользователей в России. l 1998 - в Баш. ГУ создан центр Интернет. 4
Наиболее популярные сервисы Интернет l World Wide Web – всемирная паутина - глобальная распределенная информационная гипертекстовая мультимедиа-система http: //www. bsunet. ru l Поисковые службы (роботы, каталоги) http: //www. google. com www. nigma. ru www. yandex. ru l Файловые архивы – хранилища программного обеспечения, музыки, фильмов ftp: //ftp. informika. ru l Википедия – интерактивная энциклопедия http: //ru. wikipedia. org 5
Сервисы коммуникации на основе Интернет l Электронная почта – e-mail l Форумы l Сервис «Живой журнал» (блоги) l Сервис хранения цифровых фотографий, видео, текстов и ссылок. l Общение в реальном времени: чаты, ICQ, ip-телефония, видео-конференции 6
8. 2. Всемирная паутина l World Wide Web – всемирная паутина - глобальная распределенная информационная гипертекстовая мультимедиа-система. l позволяет связать в единое целое разрозненную информацию, хранящуюся на разных компьютерах. l узлами Всемирной паутины являются сайты. 7
Сайт l от англ. site – местоположение, участок l это набор из нескольких десятков, сотен или даже тысяч web-страниц, связанных вместе единой темой, общим оформлением, взаимными гипертекстовыми ссылками и, как правило, близким размещением. l это собственное место в виртуальной реальности, своего рода открытый дом, куда может войти каждый желающий. 8
Адресация сайтов URL – Universal Resource Locator – универсальный указатель ресурса l указывает точное местонахождение документа в сети. http: //www. microsoft. com/cio/industry. htm протокол имя файла обмена имя сайта имя раздела (путь) 9
Основные свойства веб-сайтов l Изначально веб-сайты представляли собой совокупность статичных документов, типа — сайт-визитка. По мере развития коммуникаций, количество внутренних и внешних ссылок увеличивалось. Сайт стал выполнять не только роль справки, аннотации, но и функционального офиса, новостного или медийного центра. В настоящее время большинству из них свойственна динамичность и интерактивность. l В большинстве случаев в Интернете одному веб-сайту соответствует одно доменное имя. Именно по доменным именам сайты идентифицируются в глобальной сети. Возможны иные варианты: один сайт на нескольких доменах или несколько сайтов под одним доменом. Обычно несколько доменов используют крупные сайты (веб-порталы) чтобы логически отделить разные виды предоставляемых услуг (mail. google. com, news. google. com, maps. google. com). Нередки и случаи выделения отдельных доменов для разных стран или языков. Например, google. ru и google. fr логически являются сайтом Google на разных языках, но технически это разные сайты. l Аппаратные сервера для хранения веб-сайтов называются веб- серверами. Сама услуга хранения называется веб-хостингом. Раньше каждый сайт хранился на своём собственном сервере, но с ростом Интернета, технологическим улучшением серверов на одном компьютере стало возможно размещение множества сайтов (виртуальный хостинг). Сейчас сервера для хранения только одного сайта называются выделенными. 10
Интересный факт l Первый в мире сайт info. cern. ch появился в 1990 году. Его создатель, Тим Бернерс-Ли, опубликовал на нём описание новой технологии World Wide Web, основанной на протоколе передачи данных HTTP, системе адресации URI и языке гипертекстовой разметки HTML. Также на сайте были описаны принципы установки и работы серверов и браузеров. Сайт стал и первым в мире интернет-каталогом, так как позже Тим Бернерс-Ли разместил на нём список ссылок на другие сайты. 11
Основные виды сайтов l Веб-страница (англ. Web page) — документ или информационный ресурс Всемирной паутины, доступ к которому осуществляется с помощью веб-браузера. Веб-страницы обычно создаются на языках разметки HTML или XHTML и могут содержать гиперссылки для быстрого перехода на другие страницы. l Интернет-портал— веб-сайт, предоставляющий пользователю Интернета различные интерактивные сервисы, работающие в рамках одного веб-сайта, такие как почта, поиск, погода, новости, форумы, обсуждения, голосования и т. д. l Веб-кольцо (англ. webring) — объединение веб-сайтов с похожей тематикой. При этом каждый участник такого кольца размещает у себя на страничке ссылки на следующего и предыдущего члена кольца. Таким образом, переходя по ссылкам можно посетить сайты всех членов кольца. Является способом упорядочивания сайтов в сети, наряду с каталогами и поисковыми системами. Было популярно в начале развития Веба, но на данный момент встречается довольно редко 12
Гипертекст l Гипертекст – документ, содержащий текст, аудио- и видеоинформацию, связанный ссылками с подобными же документами. l термин, введён Тедом Нельсоном в 1965 году для обозначения «текста ветвящегося или выполняющего действия по запросу» . l Обычно гипертекст представляется набором текстов, содержащих узлы перехода между ними, которые позволяют избирать читаемые сведения или последовательность чтения. 13
HTML l HTML (от англ. Hyper. Text Markup Language — «язык разметки гипертекста» ) — стандартный язык разметки документов во Всемирной паутине. Большинство веб- страниц создаются при его помощи. Язык HTML интерпретируется браузером и отображается в виде документа, в удобной для человека форме. l Язык HTML был разработан британским учёным Тимом Бернерсом-Ли приблизительно в 1991— 1992 годах в стенах Европейского совета по ядерным исследованиям в Женеве (Швейцария). l Текстовые документы, содержащие код на языке HTML (такие документы традиционно имеют расширение. html или . htm), обрабатываются специальными приложениями, которые отображают документ в его форматированном виде. 14
Браузер, броузер (англ. browse – пролистать) – программа для просмотра гипертекста. Браузеры предоставляют пользователю удобный интерфейс для запроса веб- страниц, их просмотра (и вывода на иные внешние устройства) и, при необходимости, отправки введённых пользователем данных на сервер. Самые популярные браузеры: l Microsoft Internet Explorer l Netscape Communicator l Opera l Mozilla Fire. Fox 15
8. 3. Адресация в сети, Интернет- протоколы l MAC (Media Access Control) адрес – уникальный физический адрес сетевого адаптера, состоит из 12 шестнадцатеричных цифр, «работает» на канальном уровне модели OSI. l IP (Internet Protocol) адрес – уникальный логический адрес узла сети, состоит из 4 двоичных восьмибитовых числа, «работает» на сетевом уровне модели OSI. 16
IP-адресация в Интернет l Основой логического единства Интернет является протокол IP (протокол межсетевого взаимодействия), определяющий формат адреса компьютера и отвечающий за доставку пакетов данных по назначению. l Пример IP адреса: 212. 193. 62. 1 (физико-технический лицей № 1 г. Саратова) l Выдачей IP-адресов распоряжается единый орган – Inter. NIC (Internet Network Information Center). l На основе IP-адресов происходит маршрутизация – выбор оптимального пути доставки пакета данных. 17
Протоколы транспортного уровня l Сеть полностью гарантирует правильную доставку данных. Это обеспечивает протокол TCP (Transmission Control Protocol). l Сеть не гарантирует правильности передачи данных, весь контроль осуществляется прикладными программами. В этом случае применяется протокол UDP (User Datagram Protocol). l Стек протоколов TCP/IP – стандартный набор коммуникационных протоколов. Это два протокола нижнего уровня, являющиеся основой связи в сети Интернет. Протокол TCP разбивает передаваемую информацию на порции и нумерует все порции. С помощью протокола IP (Internet Protocol) все части передаются получателю. Далее с помощью протокола TCP проверяется, все ли части получены. При получении всех порций TCP располагает их в нужном порядке и собирает в единое целое. 18
Наиболее известные протоколы, используемые в сети Интерне l HTTP (Hyper Text Transfer Protocol) — это протокол передачи гипертекста. Протокол HTTP используется при пересылке Web-страниц с одного компьютера на другой. l FTP (File Transfer Protocol) — это протокол передачи файлов со специального файлового сервера на компьютер пользователя. FTP дает возможность абоненту обмениваться двоичными и текстовыми файлами с любым компьютером сети. Установив связь с удаленным компьютером, пользователь может скопировать файл с удаленного компьютера на свой или скопировать файл со своего компьютера на удаленный. l POP (Post Office Protocol) — это стандартный протокол почтового соединения. Серверы POP обрабатывают входящую почту, а протокол POP предназначен для обработки запросов на получение почты от клиентских почтовых программ. l SMTP (Simple Mail Transfer Protocol) — протокол, который задает набор правил для передачи почты. Сервер SMTP возвращает либо подтверждение о приеме, либо сообщение об ошибке, либо запрашивает дополнительную информацию. l TELNET — это протокол удаленного доступа. TELNET дает возможность абоненту работать на любой ЭВМ сети Интернет, как на своей собственной, то есть запускать программы, менять режим работы и так далее. На практике возможности лимитируются тем 19 уровнем доступа, который задан администратором удаленной машины.
Система доменных имен DNS – Domain Name System l Классификационная схема, которая группирует узлы Интернет по разным категориям (доменам). l Основа распределенной базы данных, которая позволяет находить узлы Интернет. l DNS классифицирует узлы по типу или стране: образовательные учреждения, бизнес, государственные органы, страны. 20
Сеть доменов первого уровня l com – коммерческие предприятия l edu – организации системы образования l gov – правительство США l int – международные организации l mil – министерство обороны США l net – сетевые организации l org – некоммерческие организации 21
Географические домены l ca – Канада l kz – Казахстан l cn – Китай l pl – Польша l de – Германия l ru – Россия l fi – Финляндия l se – Швеция l fr – Франция l uk – Англия l il – Израиль l uа – Украина l it – Италия l za – ЮАР l jr – Япония l рф –Россия, кириллический домен, с апреля 2010 г. 22
Поддомены //yceum 1. ssu. runnet. ru узел поддомен домен второго уровня домен первого уровня 23
8. 4. Подключение к Интернет 24
Подключение к Интернет. Каналы связи l Цифровые и аналоговые. Для использования аналоговых каналов требуется устройство – модем. l Коммутируемые и выделенные. l По физическому устройству каналы бывают электрические проводные, оптические и радиоканалы. 25
8. 5. Управление Интернет l Координация административной деятельности – открытая общественная организация Сообщество Интернета (Internet Society, ISOC), которая объединяет коллективных и индивидуальных членов интернет-сообщества. http: //www. isoc. org/ l Разработка, отладка и внедрение в действие протоколов – IETF (Internet Engineering Task Force) – международное объединение исследователей, разработчиков и производителей сетевых решений. http: //www. ietf. org/ l Вопросы регулирования адресного пространства – международная некоммерческая ассоциация ICANN (Internet Corporation for Assigned Names and Numbers) http: //www. icann. org/ 26
Управление Рунет l Адреса основных узлов российского сегмента управляются Рос. НИИРОС (НИИ развития общественных сетей). Эта организация именуется также RIPN (Russian Institute for Public Networks) http: //www. ripn. net: 8080/ l С 2006 года Рос. НИИРОС поручил техническую поддержку доменов второго уровня в домене RU и доменов третьего уровня в доменах общего пользования регистратору АНО "Региональный сетевой информационный центр" (RU-CENTER) http: //www. nic. ru/ 27
8. 6. Процесс поиска l Возникновение информационной потребности. l Формализация информационной потребности сводится к выделению ключевых слов. Множество ключевых слов с отношениями между ними называется запросом. l Система на множестве документов называется информационно-поисковым пространством. Список отобранных документов называют выдачей или откликом. 28
Релевантность – мера соответствия отклика запросу l Смысловая релевантность – мера соответствия отклика информационной потребности пользователя. l Формальная релевантность – мера соответствия отклика запросу, как набору ключевых слов. l Информационный шум – документы, не соответствующие информационной потребности, но соответствующие запросу. 29
Релевантность отклика документы, содержащие информацию о России, гостиница Россия соответствующие информационной потребности Российская документы, содержащие Федерация, последовательность букв РФ Россия, формально релевантные запросу 30
Релевантность отклика l Документы, которые были выданы информационно-поисковой системой, будем называть выданными. l Документы, соответствующие информационной потребности пользователя, будем называть релевантными. 31
Основные характеристики результатов поиска пространство документов Интернет релевантные выданные документы выданные релевантные документы 32
Основные характеристики результатов поиска l Полнота результата поиска отражает, как много документов, соответствующих информационной потребности пользователя, попала в число выданных документов. 33
Основные характеристики результатов поиска пространство документов пространство Интернет документов, к которым данная релевантные система имеет документы, доступ недоступные для данной поисковой системы выданные документы выданные релевантные документы, документы доступные для данной поисковой системы 34
Основные характеристики результатов поиска l Точность результата поиска отражает качество соответствия отклика информационной потребности пользователя. 35
Факторы, влияющие на точность и полноту отклика l Качество запроса l Правильный выбор информационно-поискового пространства l Поиск осуществляется не на реальном пространстве документов сети, а в некоторой модели, содержание которой отличается от действительного содержания Интернет в момент проведения поиска 36
Основные характеристики результатов поиска документы, представленные в поисковой системе, пространство отсутствующие в документов сети на момент Интернет проведения поиска пространство документов, документы, представленные в представленных в сети на поисковой системе, которых осуществляется поиск присутствующие в сети на момент проведения поиска 37
Основные характеристики результатов поиска l Актуальность – характеристика, показывающая наличие в отклике информации о существующих документах. l Скорость получения результатов – характеристика, зависящая от • каналов связи между компьютером пользователя и поисковым сервером, • загруженности этих каналов, • алгоритмов обработки запросов, • запроса пользователя. 38
8. 7. Основные информационные пространства Интернет l Документально-информационные ресурсы: • документы, представленные в WWW • файловые архивы FTP • базы данных • система wiki-wiki l Коммуникационные ресурсы: • система электронной почты • система телеконференций • форумы • блоги (живые журналы) • система on-line коммуникаций 39
ок ис сыл борк Под ата логи К «Продвинутые» Поисковые каталоги системы Метапоиск 40 Классификация поисковых средств
8. 7. Подборки ссылок l Самый распространенный инструмент поиска l Содержит простейший список сайтов. l В некоторых случаях информация о сайтах сгруппирована в рубрики. l Механизмы поиска отсутствуют. l Занесение сайта в подборку производится вручную лично автором подборки или после обращения к нему. 41
Специфика l Значительный интерес представляют подборки ссылок на специализированных сайтах l Эти подборки ссылок чаще всего отражают экспертные знания по заданной теме l Таким образом, войдя на специализированный сайт, Вы сможете получить квалифицированную подборку ресурсов интернета по данной теме. 42
Преимущества l Одно из преимуществ коллекций ссылок – оперативность обновления и практически полное отсутствие «мусора» . l Часто ссылки сопровождаются небольшим описанием и экспертной оценкой. 43
8. 8. Каталоги l Каталог – иерархически упорядоченная база данных (рубрикатор) документов, информация в которую заносится человеком l Основная характеристика каталога – объем базы данных, то есть количество представленных документов. l 1994 г. , Дэвид Фило и Джерри Янг, Yahoo l www. list. ru, www. city. ru, www. ru 44
●В каталогах информация о сайтах упорядочена в соответствии с рубрикатором ●В отличие от подборок ссылок имеется механизм поиска ●Но работа поисковых механизмов ограничивается поиском в кратких аннотациях сайтов 45
Устройство каталогов l Кроме основных разделов многие каталоги имеют дополнительные, в которых сайты классифицированы по другому основанию: l региону, стране, l алфавиту, l популярности. 46
Особенность каталогов в том, что они более эффективны при поиске подборок информации на определенную общую тему, например, «студенческое профсоюзное движение» , «редакции газет Уфы» , а не при поиске ответа на конкретный вопрос! 47
«Продвинутые» каталоги l Данный тип каталогов отличается расширенной, а иногда и полной индексацией содержимого сайтов. l К имеющимся возможностям каталогов (рубрикатор и поиск по аннотациям) добавляются мощные механизмы поиска в материалах сайтов. 48
8. 9. Поисковые системы l Как видно на схеме, поисковые системы (ПС) имеют пересечение с «продвинутыми» каталогами. l Многие современные поисковые ресурсы совмещают в себе возможности каталога и ПС, позволяя искать информацию не только в содержимом каталога, но и во всем интернете. 49
Поисковые машины и гибридные системы l Поисковая машина – активная система, самостоятельно исследующая сеть с целью пополнения своих баз данных документов (www. ya. ru, www. altavista. com). l 1995 г. , корпорация Digital (теперь Compaq), Alta. Vista l Гибридная система (универсальная поисковая машина) сочетает в себе функции как каталога, так и поисковой машины (www. yandex. ru). 50
Универсальные поисковые машины Глобальные Региональные (Ру. Нет) l www. google. com l www. yandex. ru l www. yahoo. com l www. rambler. ru l www. lycos. com l www. yahoo. ru l www. go. com l www. aport. ru 51
Составляющие поисковой машины l Поисковый робот – специальная программа, осуществляющая сканирование сети. l Индекс – база данных документов. l Интерфейсная часть, предназначенная для взаимодействием с пользователем. 52
Составляющие поисковой машины На Яндексе в каждый момент времени вас обслуживает минимум 21 машина системы. Одна из них – web- сервер – именно с ней вы общаетесь напрямую, остальные работают по ее заказу, параллельно отрабатывая свою часть задачи. 53
Характеристики поисковой машины l Объем индекса (измеряется в млн. страниц). l Период обновления информации о документах. l Представление документа при индексировании (возможность робота различать заголовки, подписи к рисункам и т. д. ). l Глубина индексирования – количество страниц одного сайта, заносимых в индекс. l Особенности организации ввода запроса. l Ранжирование документов. l Поиск картинок. l Вывод дополнительной информации. 54
Мета-поисковые системы l Мета-поисковые системы не имеют собственных баз данных. Их основная задача состоит в том, чтобы передавать запрос настоящим поисковым системам. Мета-поисковые системы бывают двух видов: • представленные в виде web-сайта (www. search. com, www. raya. ru); • программы, устанавливаемые на компьютер пользователя (Internet Explorer). 55
Проблемы составления запросов l Составление запроса – это процесс выражения информационной потребности с помощью ключевых слов и комбинирования этих ключевых слов с помощью средств информационно-поискового языка системы. l На качество запроса оказывают воздействие следующие факторы: • знание пользователем особенностей естественного языка; • знание структуры и особенностей информационно поискового языка. 56
Учет особенностей естественного языка Снижение точности поиска: l Полисемия – многозначность слова (близкая по смыслу): пассаж, партия; l Омонимия – сходство звучания и написаний слов при разном значении: очки, мина; l Наличие омографов – слов, которые произносятся по- разному, но совпадают при написании: зáмок – замóк; l Наличие омоформ – слов, совпадающих в своем звучании и/или написании в определенных формах: существительное «печь» и глагол «печь» . 57
Учет особенностей естественного языка Повышение точности поиска: l использование профессионализмов; l использование редких терминов; l использование названий и фамилий. 58
Учет особенностей естественного языка Повышение полноты отклика: l использование синонимов – слов, различающихся по написанию, но тождественных по смыслу; l использование гипонимов – слов, обозначающих родовое понятие: для слова «береза» гипоним «дерево» . 59
Информационно-поисковый язык l Оператор поискового языка – служебные слова, которые используются для комбинирования ключевых слов запроса с целью повышения точности: • логические операторы; • операторы расстояния; • операторы выбора части документа, по которой осуществляется поиск; • операторы выбора подмножества документов. 60
Логические операторы Оператор Rambler Яndex Aport & AND And пробел Логическое & (в пределах И предложения) пробел && + (в пределах документа) Логическое Or OR | ИЛИ | ~ Логическое NOT (в пределах предложения) NOT НЕ ! ~~ – (в пределах документа) 61 Группировка () ()
Уточнение запроса l Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минус. l Например (для www. yandex. ru): путеводитель по Франции -агентство –тур l Например (для www. rambler. ru): путеводитель по Франции !агентство !тур 62
Уточнение запроса l Чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. l Например (для www. yandex. ru): школьное оборудование +проектор 63
Поиск цитаты l Чтобы найти документ, в котором встречается определенная фраза, возьмите эту фразу в кавычки. l Например: «быть или не быть» 64
Используйте синонимы l Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|) l Например: норма|норматив|правило 65
расширенный поиск 66
Расширенный поиск l Словарный фильтр l Дата создания документа l Поиск на определенном сайте l Поиск изображения по названию или альтернативной надписи l Поиск специальных объектов l Поиск документов на определенном языке l Поиск документов определенного формата 67
искать в найденном 68
Дополнительные службы поиска l Картинки l Товары в интернет-магазинах l Новости l Словари l Географические карты 69
Поиск картинок l www. yandex. ru l www. yahoo. ru 70
Поиск картинок размер рисунка в пикселях и Кбайтах месторасположение картинки 71
8. 9. Метапоиск l Разработка метапоисковых систем поиска является перспективным направлением развития поисковых сервисов. l В отличие от ПС и каталогов, метапоисковые системы не имеют собственных баз данных и не регистрируют адреса сайтов. 72
Суть метапоисковых систем l Метапоисковая система – посредник между пользователем и множеством поисковых систем. l Метапоисковая система не предназначена для индексирования и накопления информации, назначение ее – чистый поиск и обработка результатов поиска. l Метапоисковые системы часто называют клиентами к поисковым серверам. l Основной чертой метапоисковых систем является объединение поисковых серверов различных специализаций. В рамках одной метапоисковой системы можно осуществлять поиск информации различного типа. 73
Работа систем метапоиска l Система метапоиска позволяет, в соответствии с пожеланиями пользователя, ограничить свой поиск определенными поисковыми серверами, проверять существование ресурсов, на которые указывают результаты поиска, осуществлять уточненный поиск в результатах поиска и т. д. 74
Плюсы метапоисковых систем l Они экономят достаточно много времени, избавляя от необходимости вводить запрос в каждой отдельной поисковой системе. Результаты, в большинстве случаев - в высшей степени релевантны. l Метапоисковые системы могут использоваться владельцами сайтов для выяснения, присутствует ли их сайт в главных ПС, какие у него рейтинги. 75
Минусы метапоисковых систем l Так как пока не существует единого языка запросов для поисковых систем, применение этих технологий приведет либо к отсутствию ответа с некоторых ПС, либо результаты запроса будут совершенно нерелевантны. 76
Русскоязычные лидеры метапоиска l Интеллектуальная поисковая система Nigma www. nigma. ru l Отличается тем , что обладает собственными возможностями для индексирования web-страниц. l Общее количество документов для поиска – свыше 1 млрд. 77
Nigma www. nigma. ru 78
Nigma www. nigma. ru l Особенностью системы является еще и то, что она сразу предоставляет возможность выбрать ПС для поиска. l Таким образом, можно сразу предусмотреть все последствия использования языка запросов. 79
Метапоисковыми системами мы завершаем описание средств поиска в интернете. ок ки ссыл бор Под логи Ката Поисковые «Продвинутые» системы каталоги Метапоиск 80

