b94161c07466fd948652a74a1aab4267.ppt
- Количество слайдов: 14
Поисковые службы Интернет. Поисковые серверы WWW. Работа с поисковыми серверами.
Поисковые службы Интернет. Поиско вая систе ма — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернетмагазинах, а также информацию в группах новостей Usenet. Как правило, основной частью поисковой системы является поиско вая маши на (поиско вый движо к) - комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность(степень соответствия запроса и найденного, т. е. уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.
Поисковые службы Интернет. По данным компании Net Applications в декабре 2007 года рыночная доля Google в мире составляла 77. 04 %, Yahoo — 12. 46 %, MSN — 3. 33 %, Microsoft Live Search — 2. 57 %, AOL — 2. 12 %, Ask — 1. 38 %, Alta. Vista — 0. 13 %, Excite — 0. 07 %, Lycos — 0. 02 %, All the Web — 0. 02 %. По данным аналитической компании com. Score все поисковые сайты в декабре 2007 года обработали 66 млрд 221 млн поисковых запросов [2] [3]. Яндекс попал в статистику и находится на 9 -ом месте.
Поисковые серверы WWW.
Поисковые серверы WWW.
Поисковые серверы WWW.
Поисковые серверы WWW.
Поисковые серверы WWW.
Поисковые серверы WWW.
Работа с поисковыми серверами. Поисковые cистемы обычно состоят из трех компонент: Øагент (паук или кроулер), который перемещается по Сети и собирает информацию; Øбаза данных, которая содержит информацию, собираемую пауками; всю Øпоисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
Работа с поисковыми серверами. ØАгенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма. ØОбщий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма. ØКроулеры просматривают заголовки и возращают только первую ссылку. ØРоботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.
Работа с поисковыми серверами. База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.
Работа с поисковыми серверами. Веб-робот - это программа, которая перемещается по гипертекстовой структуре Сети, запрашивает документ и рекурсивно возвращает все документы, на которые данный документ ссылается. Эти программы также иногда называют "пауками", " странниками", или " червями" и эти названия, возможно, более привлекательны, однако, могут ввести в заблуждение, поскольку термин "паук" и "странник" cоздает ложное представление, что робот сам перемещается, а термин "червь" мог бы подразумевать, что робот еще и размножается подобно интернетовскому вирусу-червю. В действительности, роботы реализованы как простая программная система, которая запрашивает информацию из удаленных участков Интернет, используя стандартные cетевые протоколы.
Работа с поисковыми серверами. Зазеркаливание - популярный механизм поддержания FTP архивов. Зеркало рекурсивно копирует полное дерево каталогов по FTP, и затем регулярно перезапрашивает те документы, которые изменились. Это позволяет распределить загрузку между несколькими серверами, успешно справиться с отказами сервера и обеспечить более быстрый и более дешевый локальный доступ, так же как и автономный доступ к архивам. В Сети Интернет зазеркаливание может быть осуществлено с помощью робота, однако на время написания этой статьи никаких сложных средств для этого не существовало. Конечно, существует несколько роботов, которые восстанавливают поддерево страниц и сохраняют его на локальном сервере, но они не имеют средств для обновления именно тех страниц, которые изменились. Вторая проблема - это уникальность страниц, которая состоит в том, что ссылки в скопированных страницах должны быть перезаписаны там, где они ссылаются на страницы, которые также были зазеркалены и могут нуждаться в обновлении. Они должны быть измененены на копии, а там, где относительные ссылки указывают на страницы, которые не были зазеркалены, они должны быть расширены до абсолютных ссылок. Потребность в механизмах зазеркаливания по причинам показателей производительности намного уменьшается применением сложных кэширующих серверов, которые предлагают выборочную модернизацию, что может гарантировать, что кэшированный документ не обновился, и в значительной степени самообслуживается. Однако, ожидается, что cредства зазеркаливания в будущем будут развиваться должным образом.
b94161c07466fd948652a74a1aab4267.ppt