Поиск информации в Интернет Архитектура WAIS

Скачать презентацию Поиск информации в Интернет Архитектура WAIS

кс_2009_19_Поисковые системы Интернет.ppt

Количество слайдов: 44

Поиск информации в Интернет

Архитектура WAIS

Поиск информации в Интернет Поиск информации – это процесс отыскания в массиве документов, соответствующих сформированному запросу. Методы поиска: Составление имени ресурса Использование списков ссылок Использование поисковых каталогов Использование поисковых систем

Составление имени ресурса Пример: www. ibm. com Задание 1. Соствьте URL сайтов следующих корпораций: Ford, Microsoft, Sony, ПО «Горизонт» , МАЗ, ВАЗ

Основные информационные ресурсы Интернет электронная почта и почтовые роботы; глобальная система телеконференций Usenet, региональные и специализированные телеконференции; списки рассылки; он-лайновые средства коммуникации пользователей; системы поиска людей и организаций; базы данных Hytelnet; система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата; базы данных Gopher и поисковая система Veronica; гипертекстовая информационная система World Wide Web (WWW); каталоги ресурсов - глобальные, локальные, специализированные (в среде WWW); поисковые машины, или автоматические индексы - глобальные, локальные, специализированные (в среде WWW); баннерные системы (в среде WWW); активные информационные каналы (в среде WWW).

Основные принципы информационного поиска На основе анализа текста документа создается список терминов, характерных для этого документа, в котором образуется словарь документа. Как правило, термины используются в качестве указателей (индексов) документа. Список терминов документа образует поисковый образ документа. Совокупность поисковых образов документов образует поисковый массив (индекс). После создания индекса к нему обращаются с помощью запросов. Запрос переводится на язык индексирования – поисковое предписание. Выполняется сравнение поисковых образов с поисковым предписанием. Результаты сравнения представляют собой список документов, отсортированных по релевантности.

Информационно-поисковая систем 1. 2. 3. 4. Основные элементы ИПС: массив документов (текстов, записей), выступающих в качестве объекта поиска; информационно-поисковый язык (ИПЯ) - искусственный язык, предназначенный для описания содержания и формы документов и (или) запросов для осуществления поиска; правила индексирования (алгоритмы, методы), следуя которым производится описание средствами ИПЯ документов и запросов (перевод их с естественного языка на информационно-поисковый). В результате индексирования документа получается поисковый образ документа (ПОД), а при индексировании запроса - поисковые предписания (ПП); правила (алгоритмы, методы) поиска документов, соответствующих запросу, которые задаются в виде критерия соответствия (критерия выдачи).

Семантические средства ИПС • • • ИПЯ Методы индексирования Методы поиска Обработка документа семантическими средствами где Li - запрос на естественном языке; Si - представление запроса на ИПЯ (поисковое предписание); Ld - текст документа на естественном языке; Sd - представление документа на ИПЯ (поисковый образ документа; - операция индексирования; - операция сопоставления ПОД и ПП в соответствии с заданным критерием выдачи.

Поисковый образ документа (вектор документа) Каждый документ, хранящийся в ИПС, имеет адрес (поисковый номер), позволяющий идентифицировать его в процессе поиска. Смысловое содержание документа описывается перечнем слов (индексов) ИПЯ, образующих его поисковый образ. Количество слов ИПЯ в ПОД может быть любым. ПОДi некоторого документа (i) представляет собой множество терминов ИПЯ, часто называемый вектором документа. где Si - поисковый образ i-го документа; t 1, t 2, t 3, . . . , tm - термины ИПЯ. Множество поисковых образов документов образуют матрицу массива документов, состоящего из векторов Si поисковых образов документов (ПОД).

Поисковый массив (матрица документов)

Запрос к ИПС (поисковое предписание) Запрос, направляемый в поисковую систему, обрабатывается таким же образом, как и поступающий в нее документ. Он анализируется по своему предметному содержанию и описывается в терминах имеющегося словаря (терминов). где Qi - вектор запроса (поисковое предписание). В процессе поиска, поисковое предписание (ПП), сравнивается с поисковыми образами документов (ПОД).

Классификация ИПС по составу словаря Со свободным словарем, т. е. словарем, состав которого жестко не фиксируется, в словарь может быть занесено любое слово за исключением слов, несущественных для передачи основного содержания анализируемого текста. С контролируемым словарем. Состав терминов, используемых для индексирования, заранее определяется либо вручную, либо автоматически на основе анализа некоторого множества документов, принадлежащих той предметной области, для которой строится ИПС. При автоматизированном составлении словаря основной задачей является определение информативности слов в тексте. Для этих целей используются статистические методы анализа.

Анализ лексики Выделяются отдельные слова, входящие в тексты документов или тексты запросов. Некоторые слова, например функциональные, встретившиеся в стоп-словаре, исключаются из словников документов и запросов. Для преобразования словника в список основ слов используется одна из двух процедур отсечения суффиксов: метод словоформ, заключающийся в отсечении только окончаний, и обычный процесс выделения основ слов, состоящий в отсечении всех нормальных суффиксов. Исходя из частоты встречаемости основ слов в текстах документов или формулировках запросов, основам слов приписываются веса. Полученные взвешенные векторы основ слов, представляющие документы и запросы, сравниваются между собой, и для каждой пары "документ-запрос" вычисляется коэффициент корреляции, отражающий сходство (близость) между соответствующими векторами.

Обобщенная блок-схема информационно-поисковой системы

Семантические показатели эффективности ИПС Релевантность - объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса полнота выдачи (ПВ) = точность выдачи (ТВ) = потери информации (ПИ) = информационный шум (ИШ) =

Автоматическое индексирование Порядок операций, выполняемых при автоматическом индексировании включает в себя: выбор слова, встречающегося в документе в соответствии с некоторыми правилами; статистическую обработку выбранных слов в соответствии с используемыми статистическими методами с целью отбора из всего множества выбранных слов набора терминов;

Статический анализ текста Первый закон Зипфа Вероятность вхождения слова в документ определяется отношением частоты вхождения слова в документ к общему числу слов в тексте документа: где - частота вхождения слова k в документ i, N - число слов в документов. Зипфом было обнаружено, что произведение вероятности обнаружения слова в тексте на ранг частоты является величиной постоянной. где R - ранг частоты вхождения слова в документ. Если преобразовать эту формулу, то получим Значение константы K различно для разных языков. Так, например, для английского языка K=0. 1, для русского 0. 06 0. 07. Но для языков одной языковой группы значение K неизменно.

Статический анализ текста Первый закон Зипфа

Статический анализ текста Второй закон Зипфа Если построить график, на котором по оси Х отложить частоту вхождения слов, а по оси Y - количество слов с данной частотой вхождения , то получившееся кривая будет сохранять свой характер для всех без изменения текстов, созданных человеком, независимо от языка, на котором написан текст.

Определения значимости терминов и назначение весовых коэффициентов Среди теорий индексирования, учитывающих всю совокупность документов, наиболее известны три теории: частотная модель; модель, учитывающая различительную силу термина; модель, в основе которой лежит динамическая оценка информативности.

Частотная модель Наибольший вес получают термины, имеющие высокую частоту появления в некоторых документах набора. где - вес термина; TF - частота появления термина в документах; IDF - обратная документная частота.

Модель, основанная на различительной силе термина Наибольший вес получают термины, которые делают документы максимально непохожими друг на друга. где – значение различительной силы термина.

Модель динамической оценки информативности Каждому термину присваивается специальный параметр, называемый информативностью. В начальный момент для всех терминов значения информативности полагаются равными одной и той же величине, например 1. В ходе работы для изменения начальных значений некоторых терминов динамически применяется функция модификации веса. Так, если данный термин встречается и в запросе и в найденном документе, оцененном как релевантный, его значение информативности медленно повышается вплоть до максимального значения 2. Если же документ оценивается как нерелевантный, значение информативности термина постепенно снижается до минимального, т. е. 0. iv – информативность термина.

Процедура поиска Формулирование запроса Поиск Коррекция запроса Просмотр Результатов поиска Окончание поиска

Типы запросов Возможны два основных варианта формулировки запроса к ИПС: запрос с использованием специального языка запросов (четкий поиск); запрос на естественном языке (нечеткий поиск).

Четкий запрос Состоит из слов или словосочетаний естественного языка, объединенных операциями алгебры логики, а также специальными операциями, позволяющими задать условия одновременного вхождения слов в один фрагмент текста: AND, OR, NOT, Near N.

Нечеткий запрос Запрос на естественном языке: процесс индексирования документов информационно-поисковой системой рецепт приготовления черепахового супа

Обобщенная схема информационно-поисковой системы

Архитектура информационно-поисковой системы Интернет

Классификация поисковых систем Интернет по масштабам массива документов

Характеристики поисковых систем Интернет Показатели индексирования

Характеристики поисковых систем Интернет Особенности поисковых языков

Поисковые системы Интернет Динамика изменения доли проиндексированных документов (1998/1999 гг. ) Изменение числа заиндекированных на май 1999 года документов (правый столбец) в процентах от их общего количества в Паутине по отношению к апрелю 1998 года (левый столбец) для различных поисковых машин: 1 -Alta. Vista, 2 -Northern Light, 3 - Hot. Bot , 4 - Excite, 5 – Lycos, 6 – Infoseek, 7 – Web. Crawler (по материалам Science magazine и Forrester Research)

Число проиндексированных страниц (декабрь 2001) GG=Google, FAST=FAST, AV=Alta. Vista, INK=Inktomi, NL=Northern Light

Динамика роста числа проиндексированных документов GG=Google, FAST=FAST, AV=Alta. Vista, INK=Inktomi, NL=Northern Light

Динамика роста числа проиндексированных документов в течение 2001 года GG=Google, FAST=FAST, AV=Alta. Vista, INK=Inktomi, NL=Northern Light

Поисковые машины – Internet. Google – http: //www. google. com cамая мощная в мире на сегодня Search Engine (поисковая машина). Поиск по. htm, . doc, . rtf, . pdf, . txt, . xls документам. Поиск по-русски. Поиск по новостям Usenet (группы, ранее – Dejanews. com ) Поиск изображений. Возможность узнать число ссылок на сайт и другую информацию Обзор возможностей http: //www. searchengineshowdown. co m/features/google/review. html FAST http: //www. alltheweb. com/ • Поиск по текстам, аудио, видео, изображениям, файлам mp 3 • Поиск по свежим новостям ( собирает до 800 новостей в минуту ) Altavista http: //www. altavista. com • В недавнем прошлом лидирующая система • Мигрирует в сторону каталога

Поисковые машины - Рунет Яндекс – http: //www. yandex. ru cамый мощный в Рунет по состоянию на конец 2001 года Search Engine(сведения компании Яндекс). Поиск по интернет, новостям, товарам, энциклопедиям, картинкам НИНИ-индекс http: //www. yandex. ru/nini. html Индекс цитирования http: //www. yandex. ru/info/ci. html Обзор возможностей: http: //www. yandex. ru/info/? 2 Рамблер http: //www. rambler. ru • • Поиск по новостям, товарам, рейтингу Top 100 Обзор возможностей http: //www. rambler. ru/doc/about. shtml

Поисковые машины - Беларусь All. by – http: //all. by - cамый мощный в РБ на конец 2001 года поисковик. Ограничен белорусским ресурсами Индекс цитирования. Рейтинг белорусских сайтов Обзор возможностей: http: //www. all. by/help. html Poisk. com http: //www. poisk. com/ Поиск по белорусским и русским ресурсам. Дополнителен к каталогу. Белорусский рейтинг http: //www. br. by • Поиск по сайтам, каталогу, новостям

Каталоги ресурсов. Каталог – средство организации документов в иерархическую структуру (аналог - систематический каталог в библиотеке). Каталоги существуют как отдельно ( например, отраслевые), так и в составе поисковых машин. Каталог позволяет быстро найти сайты определенной тематики за счет деления на категории. Ведение каталога – либо средствами редакторского коллектива с предварительным аудитом сайтом, либо добровольцами, либо посетителями Каталог удобен при «погружении» в новую область знаний, деятельности. Каталог – неоценимый помощник при подборе источников информации по новой для журналиста тематике. Каталог часто совмещен с поисковой системой и наоборот, поисковая система чаще всего содержит и каталог. Дополнительную ценность каталогу придает наличие в его составе рейтинга ресурсов. Наиболее посещаемые ( = наиболее востребованные ? ! ) ресурсы располагаются в начале списка.

Сравнение поисковых каталогов по числу ссылок Система Тип Число редакторов Каталогов Ссылок Дата Open Directory К 36, 000 361, 000 2. 6 млн. 04/2001 Look. Smart К 200, 000 2. 5 млн. 08/2001 Yahoo К 100+ n/a 1. 5 -1. 8 млн 08/2000 Alta. Vista ПС См. Look. Smart Excite ПС См. Look. Smart Hot. Bot Lycos ПС См. Open Directory К См. Open Directory MSN Search ПС См. Look. Smart Netscape ПС См. Open Directory

Каталоги ресурсов (примеры). Интернет в целом Россия http: //www. yahoo. com/ http: //www. lycos. com/ http: //www. list. ru/ http: //www. rambler. ru/ http: //www. ru/ Беларусь http: //www. all. by/ http: //www. br. by/ http: //www. poisk. com/

Планирование поисковой процедуры 1. Лексический анализ информации Сформировать максимально широкий набор ключевых слов (терминов) с учетом профессионального слэнга. 2. Технологический этап С помощью текстовых запросов из 1 -2 -х ключевых слов к метапоисковым и крупным ИПС определяется наиболее представительные источники информации