web-02_bow_tie_and_search1.ppt
- Количество слайдов: 26
Курс «Интернет-технологии» Лекция 2 Поиск информации и его документирование 1
Поиск информации и его документирование План лекции Рекомендуемая литература Общая организация поиска по теме Модель веб-пространства Базовая структура HTML-документа Особенности лабораторных работ, связанных с поиском 2
Поиск информации и его документирование Рекомендуемая литература Общая: 1. Кузьмин А. В. , Золотарева Н. Н. Поиск в Интернете. Как искать, чтобы найти. – СПб. : Наука и техника, 2006. – 160 с. 2. Крупник А. Поиск в Интернете: самоучитель. СПб: Питер, 2001. – 272 с. 3. Байков В. Д. Интернет: поиск информации и продвижение сайтов. - СПб. : БХВ – Санкт-Петербург, 2000. – 288 с. 3
Поиск информации и его документирование Рекомендуемая литература Общая: 1. Кузьмин А. В. , Золотарева Н. Н. Поиск в Интернете. Как искать, чтобы найти. – СПб. : Наука и техника, 2006. – 160 с. 2. Крупник А. Поиск в Интернете: самоучитель. СПб: Питер, 2001. – 272 с. 3. Байков В. Д. Интернет: поиск информации и продвижение сайтов. - СПб. : БХВ – Санкт-Петербург, 2000. – 288 с. По ведущим поисковым системам: 4 1. Абрамзон М. Яндекс для всех. – СПб. : БХВ-Петербург, 2007. – 544 с. 2. Гусев В. С. Google: эффективный поиск. Краткое руководство. – М. : «Вильямс» , 2006. – 240 с.
Поиск информации и его документирование Рекомендуемая литература История поисковых компаний: 1. Вайз Д. А. , Малсид М. Google. Прорыв в духе времени. – М. : Эксмо, 2007. 2. Вламис Э. , Смит Б. Бизнес-путь: Yahoo! Секреты самой популярной в мире Интернет-компании. – СПб. : Идательство «Крылов» , 2003. – 256 с. 5
Поиск информации и его документирование Рекомендуемая литература История поисковых компаний: 1. Вайз Д. А. , Малсид М. Google. Прорыв в духе времени. – М. : Эксмо, 2007. 2. Вламис Э. , Смит Б. Бизнес-путь: Yahoo! Секреты самой популярной в мире Интернет-компании. – СПб. : Идательство «Крылов» , 2003. – 256 с. Теория поиска: 6 1. Ашманов И. , Иванов А. Оптимизация и продвижение сайтов в поисковых системах. СПб: Питер, 2008. – 400 с. 2. Ландэ Д. В. Поиск знаний в INTERNET. Профессиональная работа. : Пер. с англ. – М. : «Вильямс» , 2005.
Поиск информации и его документирование Учебные курсы Yandex Поиск информации в Интернете http: //pechischev. pp. ru/index/0 -4 Иван Михайлович Печищев Пермский государственный университет Информационно-поисковые системы “http: //ru. wikipedia. org/wiki/Поисковая система” Теория информационного поиска http: //dwl. kiev. ua/ Дмитрий Владимирович Ландэ, докт. техн. наук, Соломонов Университет, Киев 7
Поиск информации и его документирование Общая организация поиска по теме в рамках курсах «Интернеттехнологии» 8
Поиск информации и его документирование 3 -11 недели 9
Поиск информации и его документирование Пример поисковой таблицы 10
Поиск информации и его документирование Требования к поиску В таблицы включаются результаты только по наиболее характерным и показательным запросам (минимум на трех языках минимум по 5 -7 запросов на каждом языке) с использованием ведущих поисковых систем (5 -7), ориентированных на украиноязычные, русскоязычные и англоязычные ресурсы. При этом обязательными являются следующие запросы: 1. Тема выпускной работы на различных языках 2. Слова и/или словосочетания, входящие в название темы 3. Руководитель и тематика его исследований 4. Слова и/или словосочетания по различным аспектам и задачам темы 11
Поиск информации и его документирование Основные поисковые системы: Русскоязычные: Google. ru (www. google. ru): <количество страниц> Yandex (www. yandex. ru): <количество страниц> Rambler (www. rambler. ru): <количество страниц> Украиноязычные: Google. ua (www. google. com. ua): <количество страниц> Yandex. ua (www. yandex. ua): <количество страниц> Meta (www. meta. ua): <количество документов> 12 Англоязычные: Google (www. google. com): <количество страниц> Yahoo (www. yahoo. com): <количество документов> MSN (www. msn. com): <количество страниц>
Поиск информации и его документирование Рост объемов информации в Интернет (http: //news. netcraft. com/, 2006 Количество активных хостов с 2000 года выросло с 5 млн до 50 млн 13
Поиск информации и его документирование Рост объемов информации в Интернет Открытый Web: > 20 млрд. документов > 100 млн. web-сайтов Рост: ~10 млн. документов в месяц ~ 1 млн. сайтов в месяц 14 Скрытый Web: 20 -50 млрд. документов
Поиск информации и его документирование Рост объемов информации в Интернет Открытый Web: > 20 млрд. документов > 100 млн. web-сайтов Рост: ~10 млн. документов в месяц ~ 1 млн. сайтов в месяц 15 Скрытый Web: 20 -50 млрд. документов
Поиск информации и его документирование Модель Web-пространства Bow Tie (А. Брёдер) Институт поиска и анализа текстов (США) на базе исследования 200 млн страниц, 1999 год 27% CSS 22% IN 22% OUT 22% «отростки» 7 % «острова» 16
Поиск информации и его документирование Основные свойства модели Брёдера 1. Пропорции основных категорий web-страниц в течение времени остаются неизменными, несмотря на значительное увеличение общего объема webресурсов. 2. Модель Bow Tie примерно одинакова для различных подмножеств web-пространства, т. е. обладает фрактальными свойствами 3. С большой вероятностью случайно выбранные webстраницы окажутся никак не связанными 17
Поиск информации и его документирование Дополнительные свойства модели Брёдера 1. Среднее расстояние между страницами с односторонними связями – 16 2. Среднее расстояние между страницами с двусторонними связями – 7 -8 3. Никакие поисковые машины не могут найти «острова» , если на них не ведут гиперссылки Недостаток модели: недооценка количества «островов» По оценке компании Bright. Planet в 2000 году число скрытых ресурсов в интернете было в сотни раз больше, чем доступных через поисковые системы! 18
Поиск информации и его документирование Скрытый Web (deep Web, invisible Web): 1. Динамически генерируемые страницы 2. Информация из баз данных 3. Файлы нераспознаваемых форматов 4. Системы интерактивного взаимодействия с пользователем 5. Сайты, защищенные паролем 6. Прочее 19
Поиск информации и его документирование Скрытый Web (deep Web, invisible Web): Сайты, защищенные паролем и берущие плату за доступ, по некоторым оценкам, составляют всего 10% скрытого Web Пример: Система БД Dialog 20 www. dialog. com Создана в 1965 году. Содержит 900 баз данных, доступных 700 тыс. пользователей, которые просматривают более 17 млн. документов в час! Услугами Dialog пользуются в более чем 100 странах
Поиск информации и его документирование Скрытый Web (deep Web, invisible Web): Крупнейший каталог скрытых ресурсов: www. completeplanet. com Содержит более 100 тыс. ссылок Другие известные каталоги – www. bighub. com www. invisible-web. net 21
Поиск информации и его документирование Веб-пространство и поисковые системы A, B, C, D –области, охватываемые поисковыми системами (10 -30%) 22 1 – часть ядра, охватываемая всеми поисковыми системами 2 – видимое ядро 3 – невидимое ядро 4 – доступный системе А скрытый Web 5 – полностью скрытый Web
Поиск информации и его документирование Базовая структура HTML-документа 23
Поиск информации и его документирование Базовая структура HTML-документа 24
Поиск информации и его документирование Повышение эффективности поиска: Opera 9. Х – экспресс-панель 25
Поиск информации и его документирование Лабораторная работа: ПОИСК ИНФОРМАЦИИ И ЕГО ДОКУМЕНТИРОВАНИЕ Цель работы: Первичный поиск информации по теме выпускной работы и его документирование. 26 Задание: Выполнить тематический поиск информации и оформить отчет о результатах поиска. Найти в интернете принципы работы поисковых систем. Понимать разницу в работе Википедии, Вольфрама и поисковых систем.


