a93b03c55f9ea778e319fe1f00760c87.ppt
- Количество слайдов: 77
Поиск информации в интернете Занятие 4. Средства поиска информации. Поисковые системы
Средства поиска в интернете На прошло занятии мы рассмотрели классификацию В. В. Дудихина и описали поисковые возможности каталогов и «продвинутых» каталогов. Это занятие посвящено поисковым системам.
к о сыл ис борк Под логи ата К «Продвинутые» каталоги Поисковые системы Метапоиск Классификация поисковых средств по В. В. Дудихину
Поисковые системы Как видно на схеме, поисковые системы (ПС) имеют пересечение с «продвинутыми» каталогами. Многие современные поисковые ресурсы совмещают в себе возможности каталога и ПС, позволяя искать информацию не только в содержимом каталога, но и во всем интернете.
Поиск с помощью ПС Работа пользователя с ПС основывается на формировании запроса, по которому происходит отбор нужных документов из базы данных. Запрос формируется с помощью ключевых слов (одного или нескольких). Результаты поиска выдаются пользователю в виде списка адресов (гиперссылок) и краткой аннотации к ним.
Ключевое слово Это лексическая единица, являющаяся существительным, прилагательным, глаголом, числительным, наречием или местоимением, которая в наибольшей степени отражает содержание всего искомого документа. При формировании запроса могут использоваться не только отдельные ключевые слова, но и словосочетания, состоящие из нескольких ключевых слов.
Запрос - это набор соединенных операторами ключевых слов, с помощью которых поисковая система автоматически ведет поиск и отбор необходимых документов. Другими словами, запрос - это инструкция (команда) для ПС на поиск нужных документов.
Виды запросов Запросы бывают двух типов: простые и сложные (или расширенные, advanced). Простые запросы состоят из отдельных ключевых слов или словосочетаний. Сложные запросы, кроме ключевых слов, содержат логические и другие операторы.
Работа ПС Когда идет обслуживание конкретного запроса, ПС сравнивает ключевые слова, введенные пользователем, с ключевыми словами, полученными в процессе индексации и хранящимися в базе данных. При совпадении этих слов пользователю выдается адрес данного документа. Процедура поиска по ключевым словам очень напоминает работу с обычной книгой, в которой есть алфавитный указатель.
Поисковые системы Для реализации поиска ПС проводит индексацию сайтов интернета. Индексация - это процедура автоматического создания базы данных, в которой хранятся ключевые слова, аннотации документов и адреса, по которым размещены эти документы. В базе данных каждому документу ставится в соответствие свой набор ключевых слов и адресов.
Роботы на службе ПС Индексация документов, размещенных на различных серверах, производится поисковыми системами автоматически с помощью специальных программ – роботов.
Роботы на службе ПС Программа-робот автоматически периодически «посещает» сайты и собирает сведения о их содержимом и местоположении. Эта программа постоянно сканирует сеть, запоминает расположение информации на сайтах, чтобы потом показать пользователю точное место хранения документа.
Скорость поиска Фактически роботы начинают поиск задолго до обслуживания конкретного запроса. Этим объясняется потрясающе высокая скорость поиска нужной информации.
Алгоритм работы ПС Таким образом, можно схематически изобразить алгоритм работы поисковых систем: Поисковый робот Информация о сайтах Запрос Пользователь База данных Результат поиска
Как работает ПС Более детально работу поисковой системы мы рассмотрим на следующем занятии.
Тенденции развития ПС Современные наиболее быстродействующие ПС стремятся произвести индексацию всего документа, а не только его названия и первых предложений текста. Наиболее совершенные роботы при индексации сканируют не только главную страницу, но и по гиперссылкам заходят вглубь сайта.
Зарубежные лидеры поисковых систем
Зарубежные лидеры ПС Google www. google. com Yahoo! Search search. yahoo. com Alta. Vista www. altavista. com www. av. com Alltheweb www. alltheweb. com
Статистика (кол-во документов) Google Alltheweb Alta. Vista Yahoo! более 8 млрд. более 600 млн. более 550 млн. более 1. 5 млн. (в каталоге)
Google www. google. com Название поисковой системы происходит от измененного слова googol (гугол), которое означает величину 10100, т. е. единицу со ста нулями. По мнение автора термина, математика Э. Каснера, во всей Вселенной нет ни одного материального объекта в количестве гугола единиц.
Google www. google. com Назвав свою систему Google и явно ассоциируя это название с термином «гугол» , основатели ПС хотели выразить необъятный масштаб интернета.
Google www. google. com ПС автоматически определяет из какого региона поступил запрос и в соответствии с этим отображается на одном из 26 языков. Так, существует сайт www. google. ru, куда автоматически отсылаются пользователи из России.
Google www. google. ru
История Google Один из основателей Google – Сергей Брин. Его семья уехала из СССР в 1979 году, когда Сергею было шесть лет. Закончив школу, в 1990 году он поступил в университет Мэриленд. Досрочно получив «красный» диплом бакалавра по математике и компьютерным системам, он продолжил учебу в Стэнфордском университете.
История Google Научная работа Сергея Брина, как и его друга Ларри Пейджа, касалась поиска информации. «Мы не читали в интернете гороскопов и объявлений. Нас интересовал поиск – та информация, которая по-настоящему влияет на жизнь людей» , - рассказывает Брин.
История Google Одну работающую программу поиска Сергей написал в 1994 году. Она автоматически искала на сайте «Плейбоя» новые картинки и закачивала их на рабочий стол в компьютере Брина.
История Google Осенью 1996 года на сайте Стэнфордского университета заработала поисковая страница. Это была практическая часть научной работы Брина и Пейджа. А необходимый для работы поисковика сервер объемом 1024 Гб располагался прямо в комнате Брина в университетском общежитии.
История Google В основе поисковой системы лежал запатентованный в 1996 г. алгоритм Page. Rank. Принцип действия: все многочисленные найденные страницы ранжировались по числу ссылающихся на них других страниц. Таким образом наверху оказывались самые востребованные страницы.
История Google Поисковая система оказалась настолько удобной, что к лету 1998 года к ней обращалось около 10 тысяч пользователей. Брин и Пейдж взяли академический отпуск и 7 сентября 1998 года основали компанию Google Inc.
История Google В 1999 году Google стала самой популярной ПС и с тех пор ее рейтинг не уменьшался. В языке американцев появилось новое слово – «гуглить» , т. е. искать в интернете (как само собой разумеющееся) с помощью Google.
Поисковая система Google В США Google предпочитают 34, 7% пользователей. В мире доля Google для англоязычного поиска достигает 43, 3%! Google позволяет производить поиск web-документов, изображений, новостей, сообщений форумов, а также сайтов из собственного каталога
Yahoo! Search search. yahoo. com Самый близкий преследователь Google в рейтинге ПС – компания Yahoo! Традиционно служба Yahoo! позиционировалась как развитый каталог ресурсов интернета, но возможности поиска все же присутствовали: до 2004 года в каталоге использовалась поисковая технология Google.
Yahoo! Search search. yahoo. com С 2004 года начала работу глобальная ПС Yahoo! Search. ПС позволяет искать web-документы, изображения, новости, сообщения форумов. Возможет поиск и в собственном каталоге. Существует также уникальная технология борьбы с поисковым мусором и фильтрация избыточных ссылок.
Yahoo! www. yahoo. com
Yahoo! Search search. yahoo. com
Компания Yahoo! Компании Yahoo! с 2003 года принадлежат поисковые службы Inktomi, Fast и Alta. Vista.
Alta. Vista www. av. com Служба Alta. Vista появилась в 1995 г. Преимущество системы – развитые, мощные средства сложного поиска Сервис осуществляет поиск на 25 языках. ПС не имеет собственного каталога и производит поиск web-документов, новостей, изображений, музыки и видео.
Alta. Vista www. av. com
Alta. Vista www. av. com Поисковая система Alta. Vista в отличие от других ПС не занимается морфологической обработкой текстов. Все слова для нее, независимо от языка, лишь последовательности символов. Это привлекает к Alta. Vista многих пользователей. ПС Alta. Vista принадлежит компании Yahoo!
Alltheweb www. alltheweb. com Основана в Норвегии в 1997 году. В 2002 году на некоторое время ПС Alltheweb стала лидером по количеству документов в базе данных – более 2 млрд. Сегодня поисковая система Alltheweb получила название Fast. Она считается наиболее близкой к Google по своим возможностям.
Alltheweb www. alltheweb. com
Alltheweb www. alltheweb. com ПС отличается высокой скоростью. Время ответа на поисковый запрос не превышает 0, 05 секунды! Alltheweb обеспечивает поиск webдокументов, новостей, изображений, музыки, видео. ПС Alltheweb принадлежит компании Yahoo!
Российские лидеры поисковых систем
Российские лидеры ПС Яндекс www. yandex. ru Рамблер www. rambler. ru Апорт www. aport. ru
Яндекс www. yandex. ru Официально поисковая машина Yandex. Ru была анонсирована 23 сентября 1997 года на выставке Softool. Слово «Яndex» было придумано за несколько лет до этого и означало «Языковой index» , или, если по-английски, «Yandex» — «Yet Another indexer» .
Яндекс www. yandex. ru
Яндекс www. yandex. ru Основными отличительными чертами ПС Яндекс были и остаются: проверка уникальности документов (исключение копий в разных кодировках), учет морфологии русского языка, поиск с учетом расстояния, оценка релевантности (соответствия ответа запросу).
Яндекс www. yandex. ru В ноябре 1997 года был реализован естественно-языковый запрос. К Яндексу можно обращаться просто «порусски» , задавать длинные запросы и получать точные ответы. Средняя длина запроса в ПС сейчас — 2, 7 слова. В 1997 году она составляла 1, 2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.
Яндекс www. yandex. ru В 1998 году на Яндексе появилась возможность найти «похожий документ» , список найденных серверов, а также поиск в заданном диапазоне дат, сортировка результатов поиска по времени последнего изменения.
Яндекс www. yandex. ru В марте 2004 г. были реализованы новые возможности: система может отличать мнения людей от технической, вспомогательной и рекламной информации; система автоматически определяет, в каком городе находится пользователь и предлагает уточнение поиска по региону.
Яндекс www. yandex. ru Яндекс позволяет производить поиск web-документов, изображений, новостей, сообщений блогов, товаров из интернет-магазинов, адресов предприятий и организаций, а также сайтов из собственного каталога
Яндекс www. yandex. ru ПС поддерживает шесть языков: русский, английский, украинский, белорусский, французский и немецкий. Язык документа определяется автоматически. Нужным языком можно ограничить область поиска.
Яндекс www. yandex. ru С 2001 года, по опросам исследовательских компаний Gallup Media и Комкон, Яндекс является самым популярным поисковым ресурсом в рунете. Сегодня ежедневная аудитория Яндекса (включая зарубежных пользователей) – 12 млн. человек
Яндекс – интернет-портал Яндекс – не просто поисковая система или каталог, а весьма продвинутый интернет-портал, обладающий широким набором вспомогательных сервисов:
Яндекс – интернет-портал Народ. Ру www. narod. ru narod. yandex. ru Служба бесплатного хостинга и набор средств, позволяющий каждому желающему создать свой сайт с форумами, чатами, гостевыми книгами и бесплатной почтой.
Яндекс – интернет-портал Яндекс. Деньги money. yandex. ru Система оплаты цифровой наличностью. На виртуальный счет можно переводить деньги, переводить на другие счета, оплачивать услуги, снимать и обналичивать
Яндекс – интернет-портал Яндекс. Новости news. yandex. ru Сервис предлагает автоматическое выделение главных тем дня в различных информационных агентствах и объединение их в информационные блоки.
Яндекс – интернет-портал Яндекс. Энциклопедии encycl. yandex. ru Поиск в энциклопедиях, справочниках и толковых словарях.
Рамблер www. rambler. ru В 1996 году программист Дмитрий Крюков написал поисковую программу для ресурсов интернета. Она сразу же была введена в эксплуатацию на www. rambler. ru Слово «rambler» означает «скиталец, странник, бродяга»
Рамблер www. rambler. ru
Rambler's Top 100 Весной 1997 года появляется Rambler's Top 100 - уникальный рейтинг-классификатор, который не только оценивает на основе объективных данных популярность российских ресурсов, но и позволяет одним «кликом» попасть на них.
Rambler's Top 100 Возникновение универсального счетчика, способного направлять аудиторию на разные ресурсы, создало в рунете динамичную конкурентную среду. Авторы сайтов стали более тщательно работать над своими сайтами, стремясь занять в Топ 100 более высокие строчки. Хороший рейтинг давал дополнительные преимущества - быстрый рост аудитории.
Рамблер www. rambler. ru В июне 2003 года Рамблер запустил новую версию поисковой машины, которая отличается от предыдущей по двум основным параметрам: во-первых, значительно увеличилась скорость поиска; во-вторых, благодаря новой архитектуре системы обновление поискового индекса происходит несколько раз в день.
Rambler Mass Media - одна из крупнейших информационных площадок рунета. Проект круглосуточно взаимодействует с более чем 50 ведущими российскими и зарубежными СМИ. Использование большого количества информационных источников позволяет Rambler Mass Media предоставлять аудитории полную и достоверную информационную картину дня.
Апорт www. aport. ru Поисковая система Апорт появилась в интернете в 1996 году. В 2000 году была официально представлена новая версия – «Апорт 2000» . Поиск в ПС производится в таких сегментах интернете, как web-сайты, рефераты, товары, работа, знакомства, музыка, новости, энциклопедия «Кругосвет» , а также в собственном каталоге.
Апорт www. aport. ru
Апорт www. aport. ru Разработчики Апорта удачно использовали некоторые идеи, впервые реализованные в системе Google: в конечном итоге поиска одними из первых выдаются сайты, чей «ранг страницы» выше, т. е. чем больше сайтов ссылаются на данный сайт, тем он выше в списке. Система ранжирования (похожая на Page. Rank у Google) была реализована и в ПС Апорт.
Опрос зарубежных пользователей интернета
Наиболее популярные ПС в мире (по данным Nielsen//Net. Ratings за февраль 2006 г. )
Опрос российских пользователей интернета
Опрос: какими поисковыми системами Вы пользуетесь? (март 2006 г. , 1800 человек в 7 округах РФ, ЦМи. СИ)
Каким количеством ПС Вы пользуетесь? (март 2006 г. , 1800 человек в 7 округах РФ, ЦМи. СИ)
Среди тех, кто использует одну ПС: Какой именно ПС Вы пользуетесь? (март 2006 г. , 1800 человек в 7 округах РФ, ЦМи. СИ)
Задание по поиску в каталогах
Задание по поиску в каталогах Вы планируете выпуск информационноразвлекательной газеты. Большей частью Ваше издание будет представлять собой интернет-дайджест. Вам необходимо найти источники (интернет-сайты) для наполнения тематических разделов газеты.
Тематические разделы газеты Новости страны и мира Курьезы и забавные случаи Необъяснимые явления и происшествия Новости из мира звезд Советы домохозяйкам Советы автовладельцам Гороскоп Кроссворды Анекдоты
Источники информации Дудихин В. В. , Дудихина О. В. Конкурентная разведка в Интернет. – М. : ООО «Изд-во АСТ» : изд-во «НТ Пресс» , 2004. Ландэ Д. В. Поиск знаний в INTERNET. Профессиональная работа. : Пер. с англ. – М. : «Вильямс» , 2005. Синебрюхов Л. Американский гражданин Сергей Михайлович Брин // Известия, № 79. 05. 2006 г. © И. М. Печищев