Поиск информации в Интернет Методы поиска информации

Скачать презентацию Поиск информации в Интернет Методы поиска информации

Поиск.ppt

Количество слайдов: 43

Поиск информации в Интернет

Методы поиска информации в Интернет n n Методы поиска: Составление имени ресурса Использование списков ссылок Использование поисковых каталогов Использование поисковых систем

Основные информационные ресурсы Интернет n n n n гипертекстовая информационная система World Wide Web (WWW); каталоги ресурсов - глобальные, локальные, специализированные (в среде WWW); поисковые машины, или автоматические индексы - глобальные, локальные, глобальная система телеконференций Usenet, региональные и специализированные телеконференции; электронная почта и почтовые роботы; списки рассылки; он-лайновые средства коммуникации пользователей; системы поиска людей и организаций; базы данных Hytelnet; система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата; базы данных Gopher и поисковая система Veronica; баннерные системы (в среде WWW); активные информационные каналы (в среде WWW).

Жизненный цикл информационного ресурса

Информационно-поисковые системы

Два вида ИПС n n n Поиск информации – это процесс отыскания в массиве документов, соответствующих сформированному запросу. ИПС представляет собой функциональную систему, предназначенную для хранения и поиска информации. Системы часто разделяют на фактографические и документальные. n n Фактографические системы в ответ на конкретные запросы о данных выдают конкретные ответы, содержащие по мере возможности только действительно запрашиваемые данные, факты. Что же касается документальных систем, то они в ответ на запросы выдают подборки документов. Документальная информационно-поисковая система не информирует пользователя о предмете запроса в том смысле, что она не изменяет его знания по этому предмету. Она информирует его лишь о наличии (или отсутствии) документов, имеющих отношение к его запросу, и о том, где эти документы можно найти.

Информационно-поисковые системы и системы поиска данных (базы данных) n n n ИПС следует отличать от системы поиска данных (традиционно их называют базами данных), которые осуществляют поиск и выдачу пользователю фактических значений данных в буквенной либо цифровой форме. Очевидно, что поиск данных есть частный случай поиска документов, при котором "документами" являются отдельные значения показателей либо текстовые фрагменты. В системах поиска данных информация представляется в виде таблиц.

Информационно-поисковая система n 1. 2. 3. 4. Основные элементы ИПС: массив документов (текстов, записей), выступающих в качестве объекта поиска; информационно-поисковый язык (ИПЯ) - искусственный язык, предназначенный для описания содержания и формы документов и (или) запросов для осуществления поиска; правила индексирования (алгоритмы, методы), следуя которым производится описание средствами ИПЯ документов и запросов (перевод их с естественного языка на информационно-поисковый). В результате индексирования документа получается поисковый образ документа (ПОД), а при индексировании запроса - поисковые предписания (ПП); правила (алгоритмы, методы) поиска документов, соответствующих запросу, которые задаются в виде критерия соответствия (критерия выдачи).

Семантические средства ИПС • • • ИПЯ Методы индексирования Методы поиска Обработка документа семантическими средствами где Li - запрос на естественном языке; Si - представление запроса на ИПЯ (поисковое предписание); Ld - текст документа на естественном языке; Sd - представление документа на ИПЯ (поисковый образ документа; - операция индексирования; - операция сопоставления ПОД и ПП в соответствии с заданным критерием выдачи.

Поисковый образ документа (вектор документа) Каждый документ, хранящийся в ИПС, имеет адрес (поисковый номер), позволяющий идентифицировать его в процессе поиска. Смысловое содержание документа описывается перечнем слов (индексов) ИПЯ, образующих его поисковый образ. Количество слов ИПЯ в ПОД может быть любым. ПОДi некоторого документа (i) представляет собой множество терминов ИПЯ, часто называемый вектором документа. где Si - поисковый образ i-го документа; t 1, t 2, t 3, . . . , tm - термины ИПЯ. Множество поисковых образов документов образуют матрицу массива документов, состоящего из векторов Si поисковых образов документов (ПОД).

Поисковый массив (матрица документов)

Запрос к ИПС (поисковое предписание) Запрос, направляемый в поисковую систему, обрабатывается таким же образом, как и поступающий в нее документ. Он анализируется по своему предметному содержанию и описывается в терминах имеющегося словаря (терминов). где Qi - вектор запроса (поисковое предписание). В процессе поиска, поисковое предписание (ПП), сравнивается с поисковыми образами документов (ПОД).

Семантические показатели эффективности ИПС Релевантность - объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса полнота выдачи (ПВ) = точность выдачи (ТВ) = потери информации (ПИ) = информационный шум (ИШ) =

Основные этапы информационного поиска 1. 2. 3. 4. 5. 6. 7. На основе анализа текста документа создается список терминов, характерных для этого документа, в котором образуется словарь документа. Как правило, термины используются в качестве указателей (индексов) документа. Список терминов документа образует поисковый образ документа. Совокупность поисковых образов документов образует поисковый массив (индекс). После создания индекса к нему обращаются с помощью запросов. Запрос переводится на язык индексирования – поисковое предписание. Выполняется сравнение поисковых образов с поисковым предписанием. Результаты сравнения представляют собой список документов, отсортированных по релевантности.

Обобщенная блок-схема информационно-поисковой системы

Индексирование документов n n Под индексированием в теории информационно-поисковых систем понимается процесс присвоения документу набора ключевых слов или кодов, служащих указателем (индексом) содержания документа и используемых для его поиска. На ранних стадиях развития ИПС индексирование преимущественно выполнялось вручную высококвалифицированным специалистом (индексатором), который должен был обладать широким набором знаний в различных областях. Качество поискового образа при индексировании вручную в значительной мере предопределяется субъективным фактором. Смысловой анализ - это творческая работа, которая заключается в выделении понятий и отборе из текста документа терминов, достаточно полно отражающих содержание этого документа и заслуживающих включения в поисковый образ.

Классификация ИПС по составу словаря n n Со свободным словарем, т. е. словарем, состав которого жестко не фиксируется, в словарь может быть занесено любое слово за исключением слов, несущественных для передачи основного содержания анализируемого текста. С контролируемым словарем. Состав терминов, используемых для индексирования, заранее определяется либо вручную, либо автоматически на основе анализа некоторого множества документов, принадлежащих той предметной области, для которой строится ИПС. При автоматизированном составлении словаря основной задачей является определение информативности слов в тексте. Для этих целей используются статистические методы анализа.

Методы автоматического индексирования n n В автоматизированных ИПС со свободным словарем, т. е. словарем, состав которого жестко не фиксируется, в словарь может быть занесено любое слово за исключением слов, несущественных для передачи основного содержания анализируемого текста. При автоматизированном составлении словаря основной задачей является определение информативности слов в тексте. Для этих целей используются статистические методы анализа.

Статистический анализ текста Первый закон Зипфа Вероятность вхождения слова в документ определяется отношением частоты вхождения слова в документ к общему числу слов в тексте документа: где - частота вхождения слова k в документ i, N - число слов в документов. Зипфом было обнаружено, что произведение вероятности обнаружения слова в тексте на ранг частоты является величиной постоянной. где R - ранг частоты вхождения слова в документ. Если преобразовать эту формулу, то получим Значение константы K различно для разных языков. Так, например, для английского языка K=0. 1, для русского 0. 06 0. 07. Но для языков одной языковой группы значение K неизменно.

Статистический анализ текста Первый закон Зипфа

Статистический анализ текста Второй закон Зипфа Если построить график, на котором по оси Х отложить частоту вхождения слов, а по оси Y - количество слов с данной частотой вхождения , то получившееся кривая будет сохранять свой характер для всех без изменения текстов, созданных человеком, независимо от языка, на котором написан текст.

Автоматическое индексирование n n Порядок операций, выполняемых при автоматическом индексировании включает в себя: выбор слова, встречающегося в документе в соответствии с некоторыми правилами; статистическую обработку выбранных слов в соответствии с используемыми статистическими методами с целью отбора из всего множества выбранных слов набора терминов;

Анализ лексики n n n Выделяются отдельные слова, входящие в тексты документов или тексты запросов. Некоторые слова, например функциональные, встретившиеся в стоп-словаре, исключаются из словников документов и запросов. Для преобразования словника в список основ слов используется одна из двух процедур отсечения суффиксов: метод словоформ, заключающийся в отсечении только окончаний, и обычный процесс выделения основ слов, состоящий в отсечении всех нормальных суффиксов. Исходя из частоты встречаемости основ слов в текстах документов или формулировках запросов, основам слов приписываются веса. Полученные взвешенные векторы основ слов, представляющие документы и запросы, сравниваются между собой, и для каждой пары "документ-запрос" вычисляется коэффициент корреляции, отражающий сходство (близость) между соответствующими векторами.

Определения значимости терминов и назначение весовых коэффициентов n n n Среди теорий индексирования, учитывающих всю совокупность документов, наиболее известны три теории: частотная модель; модель, учитывающая различительную силу термина; модель, в основе которой лежит динамическая оценка информативности.

Частотная модель Наибольший вес получают термины, имеющие высокую частоту появления в некоторых документах набора. где - вес термина; TF - частота появления термина в документах; IDF - обратная документная частота.

Модель, основанная на различительной силе термина Наибольший вес получают термины, которые делают документы максимально непохожими друг на друга. где – значение различительной силы термина.

Модель динамической оценки информативности Каждому термину присваивается специальный параметр, называемый информативностью. В начальный момент для всех терминов значения информативности полагаются равными одной и той же величине, например 1. В ходе работы для изменения начальных значений некоторых терминов динамически применяется функция модификации веса. Так, если данный термин встречается и в запросе и в найденном документе, оцененном как релевантный, его значение информативности медленно повышается вплоть до максимального значения 2. Если же документ оценивается как нерелевантный, значение информативности термина постепенно снижается до минимального, т. е. 0. iv – информативность термина.

Процедура поиска

Типы запросов n n Возможны два основных варианта формулировки запроса к ИПС: запрос с использованием специального языка запросов (четкий поиск); запрос на естественном языке (нечеткий поиск).

Четкий запрос Состоит из слов или словосочетаний естественного языка, объединенных операциями алгебры логики, а также специальными операциями, позволяющими задать условия одновременного вхождения слов в один фрагмент текста: AND, OR, NOT, Near N.

Нечеткий запрос Запрос на естественном языке: 1. 2. процесс индексирования документов информацион-но-поисковой системой рецепт приготовления черепахового супа

Архитектура информационнопоисковой системы Интернет

Классификация поисковых систем Интернет по масштабам массива документов

Характеристики поисковых систем Интернет Показатели индексирования

Характеристики поисковых систем Интернет Особенности поисковых языков

Поисковые системы Интернет Динамика изменения доли проиндексированных документов (1998/1999 гг. ) Изменение числа заиндекированных на май 1999 года документов (правый столбец) в процентах от их общего количества в Паутине по отношению к апрелю 1998 года (левый столбец) для различных поисковых машин: 1 -Alta. Vista, 2 -Northern Light, 3 - Hot. Bot , 4 - Excite, 5 – Lycos, 6 – Infoseek, 7 – Web. Crawler (по материалам Science magazine и Forrester Research)

Число проиндексированных страниц (декабрь 2001) GG=Google, FAST=FAST, AV=Alta. Vista, INK=Inktomi, NL=Northern Light

Число документов проиндексированных различными поисковыми системами Интернет (сент. 2003) n На диаграмме показано количество документов (html, doc, pdf, txt и т. п. ) проиндексированных наиболее популярными поисковыми системами Обозначения: • GG=Google, • ATW=All. The. Web, • INK=Inktomi, • TMA=Teoma, • AV=Alta. Vista.

Динамика роста числа проиндексированных документов GG=Google, FAST=FAST, AV=Alta. Vista, INK=Inktomi, NL=Northern Light

Динамика роста числа проиндексированных документов в течение 2001 года GG=Google, FAST=FAST, AV=Alta. Vista, INK=Inktomi, NL=Northern Light

Каталоги ресурсов. n n n Каталог – средство организации документов в иерархическую структуру (аналог - систематический каталог в библиотеке). Каталоги существуют как отдельно ( например, отраслевые), так и в составе поисковых машин. Каталог позволяет быстро найти сайты определенной тематики за счет деления на категории. Ведение каталога – либо средствами редакторского коллектива с предварительным аудитом сайтом, либо добровольцами, либо посетителями Каталог удобен при «погружении» в новую область знаний, деятельности. Каталог – неоценимый помощник при подборе источников информации по новой для журналиста тематике. Каталог часто совмещен с поисковой системой и наоборот, поисковая система чаще всего содержит и каталог. Дополнительную ценность каталогу придает наличие в его составе рейтинга ресурсов. Наиболее посещаемые ( = наиболее востребованные ? ! ) ресурсы располагаются в начале списка.

Сравнение поисковых каталогов по числу ссылок Система Тип Число редакторов Каталогов Ссылок Дата Open Directory К 36, 000 361, 000 2. 6 млн. 04/2001 Look. Smart К 200, 000 2. 5 млн. 08/2001 Yahoo К 100+ n/a 1. 5 -1. 8 млн 08/2000 Alta. Vista ПС См. Look. Smart Excite ПС См. Look. Smart Hot. Bot Lycos ПС См. Open Directory К См. Open Directory MSN Search ПС См. Look. Smart Netscape ПС См. Open Directory

Планирование поисковой процедуры n n 1. Лексический анализ информации Сформировать максимально широкий набор ключевых слов (терминов) с учетом профессионального слэнга. 2. Технологический этап С помощью текстовых запросов из 1 -2 -х ключевых слов к метапоисковым и крупным ИПС определяется наиболее представительные источники информации