Правила поиска Самигуллина.ppt
- Количество слайдов: 17
Правила поиска информационных ресурсов в мировых информационных сетях Выполнила студент группы 991 ПИ Самигуллина Айгуль
История зарождения поисковых систем Первая интернет-страница, при создании которой была применена технология HTTP, появилась сравнительно недавно - в 1990 году. Ее создателем является британский ученный Тим Бернерс-Ли, который также является изобретателем URI, URL, HTTP, World Wide Web. Созданный им сайт info. cern. ch является прародителем не только современных информационных ресурсов, но и первым в мире доступным каталогом интернет-сайтов. С этого момента Интернет начал набирать популярность не только среди научных кругов, но и среди простых обладателей персональных компьютеров. В 1993 году была создана первая в мире поисковая система для Всемирной сети «Wandex» . В ее основу был заложен World Wide Web Wanderer бот, разработанный Метью Греем из Массачусетского технологического института. Через несколько месяцев после рождения поисковой системы «Wandex» была создана конкурирующая система «Aliweb» , которая в отличие от индекса «Wandex» работает до сих пор. В 1994 году была запущена первая полнотекстовая ( «crawler-based» , то есть индексирующая ресурсы при помощи робота) поисковая система «Web. Crawler» . Основным отличием поисковой системы от своих предшественников является предоставление возможности пользователям осуществлять поиск по любым ключевым словам на любой веб-странице. Сегодня эта технология является стандартом поиска любой поисковой системы. Поисковая система «Web. Crawler» стала первой системой, о которой было известно широкому кругу пользователей. Первой поисковой системой, которая была доступна русскоязычным пользователям Интернета, стала поисковая машина «Alta. Vista» , которая в 1996 году запустила морфологическое расширение для русского языка. В этом же году были запущены первые отечественные поисковые системы – «Rambler. ru» и «Aport. ru» . Появление первых отечественных поисковых систем ознаменовало новый этап развития Рунета, позволяя русскоязычным пользователям осуществлять запрос на родном языке, а также оперативно реагировать на изменения, происходящие внутри Сети. С запуском в 1997 году поисковой системы «Яндекс» отечественные поисковые машины начали конкурировать между собой, улучшая систему поиска и индексации сайтов, выдачи результатов, а также предлагая новые сервисы и услуги. В западных странах переломный момент в развитии поисковых систем наступил с появлением в 1997 году поисковой системы Google. Компания Google разработала собственную поисковую машину, которая дала пользователям возможность осуществлять качественный поиск с учетом морфологии, ошибок при написании слов, а также повысить релевантность в результатах выдачи запросов. Сегодня компания Google обрабатывает более 40 миллиардов запросов в месяц, что соответствует 62, 4 % всех поисковых запросов в мире.
Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее. За последние века человечество придумало только три способа поиска информации: - ссылки (в Internet они называются гиперссылки ) - каталоги и справочники; поисковые системы (предметный указатель).
Первый способ – гиперссылки, использует указатели на нужные интернет-страницы. Ссылки в Интернете гипертекстовые Второй способ. Этому способу в Интернете соответствуют каталоги и справочники, в которых страницы размещены по рубрикам. Поиск по каталогам вначале был основным методом. В каталогах имеются иерархические тематические рубрики, которые указывают человеку каким образом следует двигаться в каталоге. Среди иностранных каталогов выделяют Yahoo (www. Yahoo. com. 14 разделов, 25000 рубрик), Lycos (www. lycos. com) лучший российский Rambler, Nigma. ru. Третий способ – поисковые порталы (например, google. com, yandex. ru, bing. com) – в их основе алфавитный список важных терминов - ключевые слова и адреса всех страниц, на которых эти слова встречаются.
Сегодня в интернете существует огромное количество самых разнообразных поисковых систем. По информации Newmann Bauer marketing group (http: //www. nbmarketing. ru/poisksystem/) «расстановка сил» среди них в русскоязычном интернете на середину 2010 года выглядит следующим образом Очевидно доминирование yandex. ru, google. com, mail. ru и rambler. ru. Суммарно они обслуживают более 90% запросов Рунета.
В сегменте «. com» ситуация еще более драматична. В нем google. com побеждает «за явным превосходством» Тут следует указать, что признавая сегодня первенство google. com, разные источники приводят различные цифры оценки рейтингов мировых поисковых систем. Для google. com эта величина варьируется от 60% до 90% объема рынка, только в некоторых региональных зонах он отходит на вторые позиции.
Современные поисковые системы имеют многоуровневую организацию, и в основе своей все они состоят из пяти программных компонентов: Spider (паук) — эта браузероподобная программа планомерно путешествует по Сети и скачивает все попавшиеся ей на пути Web-узлы (страницы по глобальным URL-ссылкам). По сути, Spider работает точно так же, как и любой Web-браузер, только ничего не визуализирует, а лишь считывает HTML-код; Crawler (сборщик, или путешествующий паук) — это порождаемый Spider’ом процесс, который углубляет поиск, перемещаясь по всем локальным ссылкам, найденным на странице. Как и Spider, сборщик тоже скачивает страницы, но уже способен их анализировать в поисках перекрестных ссылок. Собственно, его основные задачи — сканирование Интернет-ресурсов в поисках изменений на страницах и определение того, куда он должен идти дальше, основываясь на найденных ссылках или исходя из заранее заданного списка адресов; Indexer (индексатор) — ключевая программа поисковой системы, которая анализирует Web-страницы, скачанные пауками, определяет их тематическую принадлежность, актуальность, популярность у пользователей и т. д. Индексатор разбирает страницу на части и анализирует такие ее элементы, как заголовки страниц, ссылки, тексты, структурные элементы, стилевые элементы и т. д. По окончании анализа он индексирует ресурсы, то есть строит базы данных по ключевым словам и сохраняет эти базы данных в удобном для поиска виде; Database (база данных) — хранилище скачанных и обработанных индексатором страниц. Такая база данных требует огромных ресурсов для хранения информации и нуждается в эффективных алгоритмах доступа; Gateway (шлюз) или Search engine/Results engine (собственно поисковая машина) — принимает запросы от пользователей, анализирует их и извлекает результаты поиска из базы данных. Именно эта система решает, какие страницы удовлетворяют запросу пользователя, и предоставляет ему интерфейс для просмотра и уточнения этих результатов.
Язык поисковых запросов Практически в каждой поисковой системе имеется «расширенный поиск» (advanced search), который позволяет при помощи удобных форм и логических условий «и» , «или» и шаблонов поиска организовать достаточно сложный поиск. Кроме того, каждая поисковая система имеет свой собственный язык запросов. К сожалению, единого стандарта не существует, поэтому просто приведем примеры поисковых запросов поисковой системы www. apоrt. ru: Запрос Результат поиска мировые ресурсы Страницы, содержащие слово «мировые» и слово «ресурсы» . Для простых русских слов Aport также будет искать различные формы слов: ресурс, ресурсов, мировой, мировых и т. д. (мировые) or (ресурсы) Страницы, содержащие слово «мировые» или слово «ресурсы» . «(мировые) or (ресурсы)» Страницы, содержащие слово «(мировые)» и слово «or» и слово «(ресурсы)» . Условие or и другие специальные слова в кавычках игнорируются и считаются простым текстом. ((NOT из*) and (!яблоко)) or (шампунь)) Скобки означают порядок применения операторов «or» и «and» . Звездочка означает любое количество произвольных символов, т. е. из* соответствует словам «изморозь» , «известковый» и т. д. NOT — документ не должен содержать слово, следующее за этим оператором, т. е. (NOT из*) означает, что в странице не должны содержаться слова, начинающиеся на «из» . Восклицательный знак означает «только эта форма слова» , т. е. не будут учитываться слова «яблоки» , «яблокам» и т. д. сл 7(выбирать грабли) в найденных страницах, между словами «выбирать» и «грабли» должно быть не более 7 слов. пр2(выбирать грабли) в найденных страницах, слова «выбирать» и «грабли» должны находится в пределах 2 -х предложений (пингвин) and (url=www. microsoft. com) будут найдены все страницы на сервере www. microsoft. com, содержащие слово «пингвин» (пингвин) and (date=O 1/01/9801/02/99) страницы, содержащие слово «пингвин» и созданные между 01. 98 и 01. 02. 99 (пингвин) and (date : <01/02/99) страницы, содержащие слово «пингвин» и созданные до 01. 02. 99
Каждый из операторов имеет сокращенное обозначение: AND (&) — все термины, соединенные AND, должны присутствовать в предлагаемом документе. Некоторые поисковые системы используют значок «+» вместо AND; OR (|) — как минимум одно из ключевых слов, соединенных OR, должно присутствовать в искомом документе; NOT (!) — ключевое слово (слова), следующее за NOT, не должно появляться в искомом документе. Некоторые поисковые системы используют значок «-» вместо NOT; ^ FOLLOWED BY — одно из ключевых слов должно следовать непосредственно за другим; NEAR — одно из слов должно отстоять на определенное количество слов от другого;
Что же можно найти в Интернете?
Поиск текстовой информации Исторически сложилось, что поиск текстовой информации был первым поисковым сервисом, который предоставлял Интернет. Для поиска текстов используются различные приемы и системы Поиск изображений Если необходимо найти изображение по текстовому описанию, то в строку поиска вводятся ключевые слова, описывающие его. Эту опцию предоставляют большое количество поисковых порталов. Например,
При поиске изображений главная проблема состоит в том, как объяснить поисковой системе, что именно нам нужно. Сервис http: //www. tineye. com/ достаточно новое слово в поисковых технологиях. Он позволяет искать изображения не по ключевым словам, как в обычных поисковиках, а непосредственно по самой картинке. От исходного файла найденные изображения могут отличаться разрешением, размером, графикой, цветом и т. д. Картинку для поиска можно загрузить изображение со своего компьютера или вставить ее адрес картинки в Интернет. В первом случае загружаемое изображение не будет индексироваться сервисом, и картинка с вашего компьютера останется недоступной другим пользователям. Во втором - изображение будет проиндексировано системой, если, конечно, она этого еще не сделала. Сервис предоставляет возможность найти в Сети полное изображение по его фрагменту, или цветную картинку, если имеете маленькую чернобелую. Можно проследить сайты, на которых имеются подобные графические файлы. В этой поисковой системе при вводе какое-либо изображения для поиска, создается его оригинальный цифровой код, который служит "отпечатками пальцев" для данного изображения. Сравнивая цифровые отпечатки картинок со своей базой данных, система находит идентичные файлы. Нужно заметить, что сервис не может распознавать отдельные образы или предметы на картинках. Также поисковик пока не умеет распознавать файлы, основанные на Flashтехнологии.
Поиск видео Рассматривая поиск видеоматериалов, следует упомянуть о видеохостингах - сайтах, позволяющий загружать и просматривать видео непосредственно в браузере или через специальный плеер. Первым реально работающим видеохостингом был сервис http: //www. youtube. com (сегодня он принадлежит компании Google). В России пальма первенства принадлежит http: //video. mail. ru. Далее, число хранилищ видеосюжетов только росло и умножалось. Появились http: //rutube. ru/, http: //vision. rambler. ru , http: //smotri. com, http: //myvi. ru и многие, многие другие. Тут следует отметить достаточно любопытные экземпляры: http: //video. i. ua, http: //www. metacafe. com/, хостер новостей http: //www. thenewsmarket. com, еврейский ресурс http: //www. jewtube. com , хранилище приколов и развлечений http: //www. break. com и т. д. . Естественно, реальный список видеохостеров и средств поиска видеосюжетов много шире списка перечисленных ресурсов. Поиск видеоматериалов осуществляется с помощью различных атрибутов, таких как названия, описания видеороликов, метки и т. п. Учитывается пользовательский рейтинг видеороликов, а в остальном используются алгоритмы поиска обычно используемые в Yandex. С некоторыми оговорками к полезным ресурсам можно также отнести клуб Яндекс Видео http: //clubs. ya. ru/video/ и справочник http: //video. yandex. ru/help. Из зарубежных ресурсов можно отметить http: //www. ovguide. com. Рубрики, по которым он ведет поиск – это кино, телевидение, знаменитости, спорт, музыка, мульфильмы и прочее.
Файлообменники Файлообменник или файловый хостинг — сервис, предоставляющий пользователю место под его файлы и круглосуточный доступ к ним. Такой сервис позволяет удобно «обмениваться» . На специальной странице файлообменника (чаще всего на главной) пользователь загружает файл на сервер файлообменника, а файлообменник отдает пользователю постоянную ссылку. Перейдя по такой ссылке, любой другой пользователь может скачать изначальный файл Примеры файлообменников многочисленны и многообразны - https: //www. rapidshare. com/, http: //ifolder. com/, http: //depositfiles. com/ru/, http: //megaupload. com/ и т. д. . Однако как правило там ничего невозможно найти, по весьма банальной причине - т. к. поиск просто не предполагается. А поисковые системы Google, Yandex, Rambler, Yahoo другие дают ссылки не на файлохранилище, а на сайт, где эти ссылки могут быть. В большинстве своём на сайтах эти ссылки без регистрации не доступны. Поэтому были созданы поисковые сервисы по файлохранилищам. www. searchshared. com Онлайн инструмент, который обеспечивает выборочный поиск по 64 файлообменникам. Кроме этого, сервис имеет мощную систему поиска торрентов и трейлеров к фильмам. Для Internet Explorer и Firefox предусмотрены плагины. Еще несколько примеров средств поиска в файлообменниках http: //daleya. com/ , http: //filecrop. com/ , http: //www. filecrop. com/, http: //jqd. org/, http: //www. filestube. com/ и др.
Скрытый интернет Существует еще невидимый и закрытый Интернет. Более того Подавляющее большинство документов в Интернете сегодня относятся к т. н. «Невидимому Интернету» (также используются термины «глубинный» или «скрытый» Интернет, «Invisible Web» , «Hidden Web» ). Видимый Интернет – это та часть ресурсов, содержимое которых может быть обнаружено с помощью традиционных поисковых машин. Соответственно, невидимый Интернет - ресурсы, которые реально существуют, но доступ к которым, можно получить если знать где они находятся так как по целому ряду причин они не индексируются традиционными поисковыми системами. Существуют различные оценки объема невидимого интернета, колеблющиеся от 50% до 80% и более. Невидимый Интернет существует в силу целого ряда причин, как технического, так и организационного характера. Скрытый (невидимый) Интернет – это неиндексируемая поисковыми системами часть Интернет. Это динамически формируемые web-страницы, содержание которых храниться в базах данных, многочисленные системы интерактивного взаимодействия с пользователями, web-страницы, зарегистрированные на бесплатных серверах, webстраницы, которые не связаны с другими страницами - это содержимое страниц без обратных ссылок, а также частные сайты, защищенные паролем. Разные типы контента по разным причинам могут стать частью невидимого Интернета. 1. Быстрое устаревание или изменение информации. 2. Ресурсы состоят преимущественно из документов в таких форматах, которые не поддерживаются поисковыми машинами. 3. Содержимое страницы генерируется по запросу и формируется пошагово. 4. Содержимое баз данных. 5. Страница не вводилась в форму добавления сайта, не вводилась ни в какие формы проверки рейтинга на поисковых системах и при этом на нее не ведут никакие ссылки. Эти страницы, кстати, могут представлять большой интерес для конкурентной разведки, так как на них обычно содержатся эксклюзивная информация. Может случиться так, что интернет-ресурс будет содержать элементы и видимого, и невидимого Интернета.
Системы для скрытого интернета http: //Deep. Dyve. com Это профессиональная англоязычная поисковая система для «скрытого интернета» . В основном она эффективна поиск научных статей, тексты которых не индексируются обычными поисковыми системами. Доступ к результатам платный. Бесплатно можно просмотреть первые страницы текстов или рефераты статей. В описании указывается, что система индексирует содержание форумов. Специальная команда добровольцев регистрируется на них, тем самым давая возможность Deep. Dyve индексировать форумы. Системе также доступно содержимое некоторых SQL-баз данных, при условии, что становятся известны параметры доступа к ним. http: //www. incywincy. com/ Система поиска для скрытого Интернета. Ищет в сети, каталогах, изображениях и прочем. Этот проект продвигается американской компанией Loop. IP. По утверждению ее авторов Incy. Wincy оснащен уникальной поисковой системой с уникальным алгоритмом нахождения релевантности и каталогом ресурсов. При определенных навыках ее использование может оказаться весьма полезным. http: //www. deepwebtech. com/ Система предоставляет несколько поисковых систем (http: //www. deepwebtech. com/product-trial/try-it-now/) по определенным темам. Поисковики охватывают науку, медицину и бизнес с помощью их можно сформировать запросы к основным базам данных в скрытом Интернете. http: //lawcrawler. lp. findlaw. com Эту поисковую систему, которая производит поиск в базе данных американского законодательства, ее с некоторой натяжкой также можно отнести к системам поиска в скрытом Интернете.