ИС. Лекция 8.ppt
- Количество слайдов: 80
Информационные системы в экономике. кандидат технических наук, доцент Полупанов Дмитрий Васильевич Лекция 8. Глобальная сеть Интернет
Цель лекции l l l дать понятие глобальной сети Интернет, рассмотреть историю её создания; рассмотреть наиболее популярные сервисы Интернета; дать понятие всемирной паутины – World Wide Web; рассмотреть основные виды веб-сайтов; дать понятие интернет-протокола, рассмотреть основные протоколы; исследовать систему доменных имен; рассмотреть основные способы подключения к Интернет; рассмотреть управление Интернет. рассмотреть проблему поиска информации в сети Интернет; дать понятие релевантности поиска; рассмотреть основные информационные пространства Интернет; исследовать преимущества и недостатки подбора ссылок, каталогов, поисковых и метапоисковых систем. 2
8. 1. Понятие Интернет l l Интернет - это всемирная компьютерная сеть, объединяющая компьютерные сети по всему миру на базе единых стандартных соглашений (протоколов) о способах обмена информацией и единой системой адресации. Интернет одновременно является и средством общемирового вещания, и механизмом распространения информации, и средой для сотрудничества и общения людей, охватывающей весь земной шар. 3
История сети Интернет l l l 1957 - МО США DARPA. 1964 - концепция децентрализованной сети (Rand Corporation). 1972 - первый выход ARPAnet. 1983 - стандарт UNIX систем в сети. 1990 - ARPAnet превратилась в Internet. l l l 1993 - начало Internet в России. 1994 - RUNnet сеть “Университеты России”. 1996 - RBnet сеть высшей школы. 1998 - организована Ростелеком-Интернет. 1999 - 5 миллионов пользователей в России. 1998 - в Баш. ГУ создан центр Интернет. 4
Наиболее популярные сервисы Интернет l l World Wide Web – всемирная паутина глобальная распределенная информационная гипертекстовая мультимедиа-система http: //www. bsunet. ru Поисковые службы (роботы, каталоги) http: //www. google. com www. nigma. ru www. yandex. ru Файловые архивы – хранилища программного обеспечения, музыки, фильмов ftp: //ftp. informika. ru Википедия – интерактивная энциклопедия http: //ru. wikipedia. org 5
Сервисы коммуникации на основе Интернет l l l Электронная почта – e-mail Форумы Сервис «Живой журнал» (блоги) Сервис хранения цифровых фотографий, видео, текстов и ссылок. Общение в реальном времени: чаты, ICQ, ip-телефония, видео-конференции 6
8. 2. Всемирная паутина l l l World Wide Web – всемирная паутина глобальная распределенная информационная гипертекстовая мультимедиа-система. позволяет связать в единое целое разрозненную информацию, хранящуюся на разных компьютерах. узлами Всемирной паутины являются сайты. 7
Сайт l l l от англ. site – местоположение, участок это набор из нескольких десятков, сотен или даже тысяч web-страниц, связанных вместе единой темой, общим оформлением, взаимными гипертекстовыми ссылками и, как правило, близким размещением. это собственное место в виртуальной реальности, своего рода открытый дом, куда может войти каждый желающий. 8
Адресация сайтов URL – Universal Resource Locator – универсальный указатель ресурса l указывает точное местонахождение документа в сети. http: //www. microsoft. com/cio/industry. htm протокол обмена имя файла имя сайта имя раздела (путь) 9
Основные свойства веб-сайтов l l l Изначально веб-сайты представляли собой совокупность статичных документов, типа — сайт-визитка. По мере развития коммуникаций, количество внутренних и внешних ссылок увеличивалось. Сайт стал выполнять не только роль справки, аннотации, но и функционального офиса, новостного или медийного центра. В настоящее время большинству из них свойственна динамичность и интерактивность. В большинстве случаев в Интернете одному веб-сайту соответствует одно доменное имя. Именно по доменным именам сайты идентифицируются в глобальной сети. Возможны иные варианты: один сайт на нескольких доменах или несколько сайтов под одним доменом. Обычно несколько доменов используют крупные сайты (веб-порталы) чтобы логически отделить разные виды предоставляемых услуг (mail. google. com, news. google. com, maps. google. com). Нередки и случаи выделения отдельных доменов для разных стран или языков. Например, google. ru и google. fr логически являются сайтом Google на разных языках, но технически это разные сайты. Аппаратные сервера для хранения веб-сайтов называются вебсерверами. Сама услуга хранения называется веб-хостингом. Раньше каждый сайт хранился на своём собственном сервере, но с ростом Интернета, технологическим улучшением серверов на одном компьютере стало возможно размещение множества сайтов (виртуальный хостинг). Сейчас сервера для хранения только одного сайта называются выделенными. 10
Интересный факт l Первый в мире сайт info. cern. ch появился в 1990 году. Его создатель, Тим Бернерс-Ли, опубликовал на нём описание новой технологии World Wide Web, основанной на протоколе передачи данных HTTP, системе адресации URI и языке гипертекстовой разметки HTML. Также на сайте были описаны принципы установки и работы серверов и браузеров. Сайт стал и первым в мире интернет-каталогом, так как позже Тим Бернерс-Ли разместил на нём список ссылок на другие сайты. 11
Основные виды сайтов l l l Веб-страница (англ. Web page) — документ или информационный ресурс Всемирной паутины, доступ к которому осуществляется с помощью веб-браузера. Веб-страницы обычно создаются на языках разметки HTML или XHTML и могут содержать гиперссылки для быстрого перехода на другие страницы. Интернет-портал— веб-сайт, предоставляющий пользователю Интернета различные интерактивные сервисы, работающие в рамках одного веб-сайта, такие как почта, поиск, погода, новости, форумы, обсуждения, голосования и т. д. Веб-кольцо (англ. webring) — объединение веб-сайтов с похожей тематикой. При этом каждый участник такого кольца размещает у себя на страничке ссылки на следующего и предыдущего члена кольца. Таким образом, переходя по ссылкам можно посетить сайты всех членов кольца. Является способом упорядочивания сайтов в сети, наряду с каталогами и поисковыми системами. Было популярно в начале развития Веба, но на данный момент встречается довольно редко 12
Гипертекст l Гипертекст – документ, содержащий текст, аудио- и видеоинформацию, связанный ссылками с подобными же документами. l термин, введён Тедом Нельсоном в 1965 году для обозначения «текста ветвящегося или выполняющего действия по запросу» . Обычно гипертекст представляется набором текстов, содержащих узлы перехода между ними, которые позволяют избирать читаемые сведения или последовательность чтения. l 13
HTML l l l HTML (от англ. Hyper. Text Markup Language — «язык разметки гипертекста» ) — стандартный язык разметки документов во Всемирной паутине. Большинство вебстраниц создаются при его помощи. Язык HTML интерпретируется браузером и отображается в виде документа, в удобной для человека форме. Язык HTML был разработан британским учёным Тимом Бернерсом-Ли приблизительно в 1991— 1992 годах в стенах Европейского совета по ядерным исследованиям в Женеве (Швейцария). Текстовые документы, содержащие код на языке HTML (такие документы традиционно имеют расширение. html или. htm), обрабатываются специальными приложениями, которые отображают документ в его форматированном виде. 14
Браузер, броузер (англ. browse – пролистать) – программа для просмотра гипертекста. Браузеры предоставляют пользователю удобный интерфейс для запроса вебстраниц, их просмотра (и вывода на иные внешние устройства) и, при необходимости, отправки введённых пользователем данных на сервер. Самые популярные браузеры: l Microsoft Internet Explorer l Netscape Communicator l Opera l Mozilla Fire. Fox 15
8. 3. Адресация в сети, Интернетпротоколы l l MAC (Media Access Control) адрес – уникальный физический адрес сетевого адаптера, состоит из 12 шестнадцатеричных цифр, «работает» на канальном уровне модели OSI. IP (Internet Protocol) адрес – уникальный логический адрес узла сети, состоит из 4 двоичных восьмибитовых числа, «работает» на сетевом уровне модели OSI. 16
IP-адресация в Интернет l l Основой логического единства Интернет является протокол IP (протокол межсетевого взаимодействия), определяющий формат адреса компьютера и отвечающий за доставку пакетов данных по назначению. Пример IP адреса: 212. 193. 62. 1 (физико-технический лицей № 1 г. Саратова) Выдачей IP-адресов распоряжается единый орган – Inter. NIC (Internet Network Information Center). На основе IP-адресов происходит маршрутизация – выбор оптимального пути доставки пакета данных. 17
Протоколы транспортного уровня l l l Сеть полностью гарантирует правильную доставку данных. Это обеспечивает протокол TCP (Transmission Control Protocol). Сеть не гарантирует правильности передачи данных, весь контроль осуществляется прикладными программами. В этом случае применяется протокол UDP (User Datagram Protocol). Стек протоколов TCP/IP – стандартный набор коммуникационных протоколов. Это два протокола нижнего уровня, являющиеся основой связи в сети Интернет. Протокол TCP разбивает передаваемую информацию на порции и нумерует все порции. С помощью протокола IP (Internet Protocol) все части передаются получателю. Далее с помощью протокола TCP проверяется, все ли части получены. При получении всех порций TCP располагает их в нужном порядке и собирает в единое целое. 18
Наиболее известные протоколы, используемые в сети Интерне l l l HTTP (Hyper Text Transfer Protocol) — это протокол передачи гипертекста. Протокол HTTP используется при пересылке Web-страниц с одного компьютера на другой. FTP (File Transfer Protocol) — это протокол передачи файлов со специального файлового сервера на компьютер пользователя. FTP дает возможность абоненту обмениваться двоичными и текстовыми файлами с любым компьютером сети. Установив связь с удаленным компьютером, пользователь может скопировать файл с удаленного компьютера на свой или скопировать файл со своего компьютера на удаленный. POP (Post Office Protocol) — это стандартный протокол почтового соединения. Серверы POP обрабатывают входящую почту, а протокол POP предназначен для обработки запросов на получение почты от клиентских почтовых программ. SMTP (Simple Mail Transfer Protocol) — протокол, который задает набор правил для передачи почты. Сервер SMTP возвращает либо подтверждение о приеме, либо сообщение об ошибке, либо запрашивает дополнительную информацию. TELNET — это протокол удаленного доступа. TELNET дает возможность абоненту работать на любой ЭВМ сети Интернет, как на своей собственной, то есть запускать программы, менять режим работы и так далее. На практике возможности лимитируются тем уровнем доступа, который задан администратором удаленной машины. 19
Система доменных имен DNS – Domain Name System l l l Классификационная схема, которая группирует узлы Интернет по разным категориям (доменам). Основа распределенной базы данных, которая позволяет находить узлы Интернет. DNS классифицирует узлы по типу или стране: образовательные учреждения, бизнес, государственные органы, страны. 20
Сеть доменов первого уровня l l l l com – коммерческие предприятия edu – организации системы образования gov – правительство США int – международные организации mil – министерство обороны США net – сетевые организации org – некоммерческие организации 21
Географические домены l l l l ca cn de fi fr il it jr – Канада – Китай – Германия – Финляндия – Франция – Израиль – Италия – Япония l l l l kz – Казахстан pl – Польша ru – Россия se – Швеция uk – Англия uа – Украина za – ЮАР рф –Россия, кириллический домен, с апреля 2010 г. 22
Поддомены //yceum 1. ssu. runnet. ru узел поддомен второго уровня домен первого уровня 23
8. 4. Подключение к Интернет 24
Подключение к Интернет. Каналы связи l l l Цифровые и аналоговые. Для использования аналоговых каналов требуется устройство – модем. Коммутируемые и выделенные. По физическому устройству каналы бывают электрические проводные, оптические и радиоканалы. 25
8. 5. Управление Интернет l l l Координация административной деятельности – открытая общественная организация Сообщество Интернета (Internet Society, ISOC), которая объединяет коллективных и индивидуальных членов интернет-сообщества. http: //www. isoc. org/ Разработка, отладка и внедрение в действие протоколов – IETF (Internet Engineering Task Force) – международное объединение исследователей, разработчиков и производителей сетевых решений. http: //www. ietf. org/ Вопросы регулирования адресного пространства – международная некоммерческая ассоциация ICANN (Internet Corporation for Assigned Names and Numbers) http: //www. icann. org/ 26
Управление Рунет l l Адреса основных узлов российского сегмента управляются Рос. НИИРОС (НИИ развития общественных сетей). Эта организация именуется также RIPN (Russian Institute for Public Networks) http: //www. ripn. net: 8080/ С 2006 года Рос. НИИРОС поручил техническую поддержку доменов второго уровня в домене RU и доменов третьего уровня в доменах общего пользования регистратору АНО "Региональный сетевой информационный центр" (RU-CENTER) http: //www. nic. ru/ 27
8. 6. Процесс поиска l l l Возникновение информационной потребности. Формализация информационной потребности сводится к выделению ключевых слов. Множество ключевых слов с отношениями между ними называется запросом. Система на множестве документов называется информационно-поисковым пространством. Список отобранных документов называют выдачей или откликом. 28
Релевантность – мера соответствия отклика запросу l l l Смысловая релевантность – мера соответствия отклика информационной потребности пользователя. Формальная релевантность – мера соответствия отклика запросу, как набору ключевых слов. Информационный шум – документы, не соответствующие информационной потребности, но соответствующие запросу. 29
Релевантность отклика документы, содержащие информацию о России, соответствующие информационной потребности Российская Федерация, РФ Россия гостиница Россия документы, содержащие последовательность букв Россия, формально релевантные запросу 30
Релевантность отклика l l Документы, которые были выданы информационно-поисковой системой, будем называть выданными. Документы, соответствующие информационной потребности пользователя, будем называть релевантными. 31
Основные характеристики результатов поиска пространство документов Интернет выданные документы релевантные документы выданные релевантные документы 32
Основные характеристики результатов поиска l Полнота результата поиска отражает, как много документов, соответствующих информационной потребности пользователя, попала в число выданных документов. 33
Основные характеристики результатов поиска пространство документов Интернет релевантные документы, недоступные для данной поисковой системы пространство документов, к которым данная система имеет доступ выданные документы релевантные документы, доступные для данной поисковой системы выданные релевантные документы 34
Основные характеристики результатов поиска l Точность результата поиска отражает качество соответствия отклика информационной потребности пользователя. 35
Факторы, влияющие на точность и полноту отклика l l l Качество запроса Правильный выбор информационно-поискового пространства Поиск осуществляется не на реальном пространстве документов сети, а в некоторой модели, содержание которой отличается от действительного содержания Интернет в момент проведения поиска 36
Основные характеристики результатов поиска пространство документов Интернет пространство документов, представленных в сети на которых осуществляется поиск документы, представленные в поисковой системе, отсутствующие в сети на момент проведения поиска документы, представленные в поисковой системе, присутствующие в сети на 37 момент проведения поиска
Основные характеристики результатов поиска l l Актуальность – характеристика, показывающая наличие в отклике информации о существующих документах. Скорость получения результатов – характеристика, зависящая от • • каналов связи между компьютером пользователя и поисковым сервером, загруженности этих каналов, алгоритмов обработки запросов, запроса пользователя. 38
8. 7. Основные информационные пространства Интернет l l Документально-информационные ресурсы: • документы, представленные в WWW • файловые архивы FTP • базы данных • система wiki-wiki Коммуникационные ресурсы: • система электронной почты • система телеконференций • форумы • блоги (живые журналы) • система on-line коммуникаций 39
к о сыл ис борк Под логи ата К «Продвинутые» каталоги Поисковые системы Метапоиск Классификация поисковых средств 40
8. 7. Подборки ссылок l l l Самый распространенный инструмент поиска Содержит простейший список сайтов. В некоторых случаях информация о сайтах сгруппирована в рубрики. Механизмы поиска отсутствуют. Занесение сайта в подборку производится вручную лично автором подборки или после обращения к нему. 41
Специфика l l l Значительный интерес представляют подборки ссылок на специализированных сайтах Эти подборки ссылок чаще всего отражают экспертные знания по заданной теме Таким образом, войдя на специализированный сайт, Вы сможете получить квалифицированную подборку ресурсов интернета по данной теме. 42
Преимущества l l Одно из преимуществ коллекций ссылок – оперативность обновления и практически полное отсутствие «мусора» . Часто ссылки сопровождаются небольшим описанием и экспертной оценкой. 43
8. 8. Каталоги l l Каталог – иерархически упорядоченная база данных (рубрикатор) документов, информация в которую заносится человеком Основная характеристика каталога – объем базы данных, то есть количество представленных документов. 1994 г. , Дэвид Фило и Джерри Янг, Yahoo www. list. ru, www. city. ru, www. ru 44
●В каталогах информация о сайтах упорядочена в соответствии с рубрикатором ●В отличие от подборок ссылок имеется механизм поиска ●Но работа поисковых механизмов ограничивается поиском в кратких аннотациях сайтов 45
Устройство каталогов l Кроме основных разделов многие каталоги имеют дополнительные, в которых сайты классифицированы по другому основанию: l l l региону, стране, алфавиту, популярности. 46
Особенность каталогов в том, что они более эффективны при поиске подборок информации на определенную общую тему, например, «студенческое профсоюзное движение» , «редакции газет Уфы» , а не при поиске ответа на конкретный вопрос! 47
«Продвинутые» каталоги l l Данный тип каталогов отличается расширенной, а иногда и полной индексацией содержимого сайтов. К имеющимся возможностям каталогов (рубрикатор и поиск по аннотациям) добавляются мощные механизмы поиска в материалах сайтов. 48
8. 9. Поисковые системы l l Как видно на схеме, поисковые системы (ПС) имеют пересечение с «продвинутыми» каталогами. Многие современные поисковые ресурсы совмещают в себе возможности каталога и ПС, позволяя искать информацию не только в содержимом каталога, но и во всем интернете. 49
Поисковые машины и гибридные системы l l l Поисковая машина – активная система, самостоятельно исследующая сеть с целью пополнения своих баз данных документов (www. ya. ru, www. altavista. com). 1995 г. , корпорация Digital (теперь Compaq), Alta. Vista Гибридная система (универсальная поисковая машина) сочетает в себе функции как каталога, так и поисковой машины (www. yandex. ru). 50
Универсальные поисковые машины Глобальные l www. google. com l www. yahoo. com l www. lycos. com l www. go. com Региональные (Ру. Нет) l www. yandex. ru l www. rambler. ru l www. yahoo. ru l www. aport. ru 51
Составляющие поисковой машины l l l Поисковый робот – специальная программа, осуществляющая сканирование сети. Индекс – база данных документов. Интерфейсная часть, предназначенная для взаимодействием с пользователем. 52
Составляющие поисковой машины На Яндексе в каждый момент времени вас обслуживает минимум 21 машина системы. Одна из них – webсервер – именно с ней вы общаетесь напрямую, остальные работают по ее заказу, параллельно отрабатывая свою часть задачи. 53
Характеристики поисковой машины l l l l Объем индекса (измеряется в млн. страниц). Период обновления информации о документах. Представление документа при индексировании (возможность робота различать заголовки, подписи к рисункам и т. д. ). Глубина индексирования – количество страниц одного сайта, заносимых в индекс. Особенности организации ввода запроса. Ранжирование документов. Поиск картинок. Вывод дополнительной информации. 54
Мета-поисковые системы l Мета-поисковые системы не имеют собственных баз данных. Их основная задача состоит в том, чтобы передавать запрос настоящим поисковым системам. Мета-поисковые системы бывают двух видов: • • представленные в виде web-сайта (www. search. com, www. raya. ru); программы, устанавливаемые на компьютер пользователя (Internet Explorer). 55
Проблемы составления запросов l l Составление запроса – это процесс выражения информационной потребности с помощью ключевых слов и комбинирования этих ключевых слов с помощью средств информационно-поискового языка системы. На качество запроса оказывают воздействие следующие факторы: • знание пользователем особенностей естественного языка; • знание структуры и особенностей информационно поискового языка. 56
Учет особенностей естественного языка Снижение точности поиска: l l Полисемия – многозначность слова (близкая по смыслу): пассаж, партия; Омонимия – сходство звучания и написаний слов при разном значении: очки, мина; Наличие омографов – слов, которые произносятся поразному, но совпадают при написании: зáмок – замóк; Наличие омоформ – слов, совпадающих в своем звучании и/или написании в определенных формах: существительное «печь» и глагол «печь» . 57
Учет особенностей естественного языка Повышение точности поиска: l использование профессионализмов; l использование редких терминов; l использование названий и фамилий. 58
Учет особенностей естественного языка Повышение полноты отклика: l использование синонимов – слов, различающихся по написанию, но тождественных по смыслу; l использование гипонимов – слов, обозначающих родовое понятие: для слова «береза» гипоним «дерево» . 59
Информационно-поисковый язык l Оператор поискового языка – служебные слова, которые используются для комбинирования ключевых слов запроса с целью повышения точности: • • логические операторы; операторы расстояния; операторы выбора части документа, по которой осуществляется поиск; операторы выбора подмножества документов. 60
Логические операторы Оператор Логическое И Rambler And & пробел Яndex & пробел (в пределах предложения) && (в пределах документа) Логическое ИЛИ Or | | Aport AND & пробел + OR | ~ Логическое НЕ NOT ! (в пределах предложения) ~~ NOT – (в пределах документа) Группировка () () () 61
Уточнение запроса l l l Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минус. Например (для www. yandex. ru): путеводитель по Франции -агентство –тур Например (для www. rambler. ru): путеводитель по Франции !агентство !тур 62
Уточнение запроса l l Чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Например (для www. yandex. ru): школьное оборудование +проектор 63
Поиск цитаты l l Чтобы найти документ, в котором встречается определенная фраза, возьмите эту фразу в кавычки. Например: «быть или не быть» 64
Используйте синонимы l l Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|) Например: норма|норматив|правило 65
расширенный поиск 66
Расширенный поиск l l l l Словарный фильтр Дата создания документа Поиск на определенном сайте Поиск изображения по названию или альтернативной надписи Поиск специальных объектов Поиск документов на определенном языке Поиск документов определенного формата 67
искать в найденном 68
Дополнительные службы поиска l l l Картинки Товары в интернет-магазинах Новости Словари Географические карты 69
Поиск картинок l l www. yandex. ru www. yahoo. ru 70
Поиск картинок размер рисунка в пикселях и Кбайтах месторасположение картинки 71
8. 9. Метапоиск l l Разработка метапоисковых систем поиска является перспективным направлением развития поисковых сервисов. В отличие от ПС и каталогов, метапоисковые системы не имеют собственных баз данных и не регистрируют адреса сайтов. 72
Суть метапоисковых систем l l Метапоисковая система – посредник между пользователем и множеством поисковых систем. Метапоисковая система не предназначена для индексирования и накопления информации, назначение ее – чистый поиск и обработка результатов поиска. Метапоисковые системы часто называют клиентами к поисковым серверам. Основной чертой метапоисковых систем является объединение поисковых серверов различных специализаций. В рамках одной метапоисковой системы можно осуществлять поиск информации различного типа. 73
Работа систем метапоиска l Система метапоиска позволяет, в соответствии с пожеланиями пользователя, ограничить свой поиск определенными поисковыми серверами, проверять существование ресурсов, на которые указывают результаты поиска, осуществлять уточненный поиск в результатах поиска и т. д. 74
Плюсы метапоисковых систем l l Они экономят достаточно много времени, избавляя от необходимости вводить запрос в каждой отдельной поисковой системе. Результаты, в большинстве случаев - в высшей степени релевантны. Метапоисковые системы могут использоваться владельцами сайтов для выяснения, присутствует ли их сайт в главных ПС, какие у него рейтинги. 75
Минусы метапоисковых систем l Так как пока не существует единого языка запросов для поисковых систем, применение этих технологий приведет либо к отсутствию ответа с некоторых ПС, либо результаты запроса будут совершенно нерелевантны. 76
Русскоязычные лидеры метапоиска l l l Интеллектуальная поисковая система Nigma www. nigma. ru Отличается тем , что обладает собственными возможностями для индексирования web-страниц. Общее количество документов для поиска – свыше 1 млрд. 77
Nigma www. nigma. ru 78
Nigma l l www. nigma. ru Особенностью системы является еще и то, что она сразу предоставляет возможность выбрать ПС для поиска. Таким образом, можно сразу предусмотреть все последствия использования языка запросов. 79
Метапоисковыми системами мы завершаем описание средств поиска в интернете. ок ссыл ки бор Под логи Ката «Продвинутые» каталоги Поисковые системы Метапоиск 80


