Скачать презентацию Лекция 8 Информационно-поисковые системы Интернет Системы и алгоритмы Скачать презентацию Лекция 8 Информационно-поисковые системы Интернет Системы и алгоритмы

Раздел Информационно-поисковые системы.ppt

  • Количество слайдов: 28

Лекция 8 Информационно-поисковые системы Интернет. Системы и алгоритмы поиска в Интернет. Информотеки и их Лекция 8 Информационно-поисковые системы Интернет. Системы и алгоритмы поиска в Интернет. Информотеки и их классификация

Информационно-поисковая система - совокупность информационно-поискового языка, правил перевода с естественного языка на информационно-поисковый и Информационно-поисковая система - совокупность информационно-поискового языка, правил перевода с естественного языка на информационно-поисковый и обратного перевода, а также критерия соответствия, предназначенная для осуществления информационного поиска. ИПС делятся на два основных типа: поисковые системы - программы, осуществляющие поиск в базе данных информации, удовлетворяющей запросу пользователей; каталоги - списки серверов, упорядоченных по категориям.

Информационно-поисковые системы Информационно-поисковые системы

Поисковые системы и каталоги n Поисковые системы обеспечивают автоматическую индексацию большого количества документов, но Поисковые системы и каталоги n Поисковые системы обеспечивают автоматическую индексацию большого количества документов, но не обладают развитыми средствами искусственного интеллекта для экспертной оценки смыслового содержания информации. Этим обусловлена низкая релевантность ответа поисковых систем (релевантность - степень адекватности результатов поиска запросу пользователя).

Поисковые системы и каталоги n Поисковые каталоги обеспечивают большую релевантность ответа за счет предварительной Поисковые системы и каталоги n Поисковые каталоги обеспечивают большую релевантность ответа за счет предварительной обработки документов редакторами в ручном режиме. Однако информационная полезность таких каталогов, как правило, ограничена небольшим количеством проиндексированных документов, большими затратами средств на поддержание актуальности базы проиндексированных документов и, следовательно, низкой оперативностью ее обновления.

Архитектура ИПС в Интернет n Сборщик-робот (crawler) – осуществляет сканирование Интернет-ресурсов в поисках изменений Архитектура ИПС в Интернет n Сборщик-робот (crawler) – осуществляет сканирование Интернет-ресурсов в поисках изменений на страницах; n Индексатор (indexer) – индексирует ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним; n Шлюз (gateway) – осуществляет прием запросов от пользователей и выдачу им информации из базы данных.

Совершенствование ИПС 1. Переход к распределенной модели вычислений; 2. Переход от модели «один поиск Совершенствование ИПС 1. Переход к распределенной модели вычислений; 2. Переход от модели «один поиск на всех» к модели персонального поиска; 3. Переход от критериев релевантности к критерию пертинентности; 4. Переход от поиска только текстовой информации к распознаванию и поиску мультимедийной информации.

Структурные элементы ИПС Структурные элементы ИПС

n Интернет Элементы ИПС ресурсы - это весь Internet или точнее - информационные ресурсы, n Интернет Элементы ИПС ресурсы - это весь Internet или точнее - информационные ресурсы, просмотр которых обеспечивается программами просмотра. n Клиент - это программа просмотра конкретного информационного ресурса. Наиболее популярны сегодня мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей. В свою очередь все эти информационные ресурсы являются объектом поиска информационно -поисковой системы.

Элементы ИПС n Интерфейс пользователя - это не просто программа просмотра, а также способ Элементы ИПС n Интерфейс пользователя - это не просто программа просмотра, а также способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска. n Поисковая машина - служит для трансляции запроса на информационнопоисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

Элементы ИПС n Индекс базы данных - индекс, который является основным массивом данных ИПС Элементы ИПС n Индекс базы данных - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети. n Запросы пользователя - сохраняются в его личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Элементы ИПС n Робот-индексировщик - служит для сканирования Internet и поддержания базы данных индекса Элементы ИПС n Робот-индексировщик - служит для сканирования Internet и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

Классификационные ИПС n В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Классификационные ИПС n В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов, а затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствуют.

Предметные ИПС n Предметные ИПС с точки зрения пользователя устроены наиболее просто. С их Предметные ИПС n Предметные ИПС с точки зрения пользователя устроены наиболее просто. С их помощью ищется название нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернета.

Словарные ИПС n Словарные ИПС. Основная идея построения словарной ИПС - создать словарь из Словарные ИПС n Словарные ИПС. Основная идея построения словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.

Алгоритм работы словарных ИПС n Алгоритм работы словарных ИПС основан на использовании ключевых слов Алгоритм работы словарных ИПС n Алгоритм работы словарных ИПС основан на использовании ключевых слов и дескрипторов. В первом случае для оценки содержимого документа используются только те слова, которые в нем встречаются. и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность.

Работа ИПС с дескрипторами При работе ИПС с дескрипторами индексируемые документы переводятся на некоторый Работа ИПС с дескрипторами При работе ИПС с дескрипторами индексируемые документы переводятся на некоторый дескрипторный информационный язык. Запрос пользователя при этом переводится в дескрипторы, а затем обрабатывается ИПС уже в этой форме. Такой подход более затратен по вычислительным ресурсам, но и потенциально более продуктивен, так как позволяет отказаться от критерия релевантности и работать непосредственно с пертинентностью документов. n

Повышение эффективности результатов поиска Ранжирование результатов поиска. Словарные ИПС способны выдавать списки документов, содержащие Повышение эффективности результатов поиска Ранжирование результатов поиска. Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки невозможно, да и не нужно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности (с точки зрения пертинентности) документов с тем, чтобы наиболее важные документы попадали бы в начало списка. Существующие ИПС делают это, исходя из критерия релевантности, и в настоящее время все ИПС уделяют основное внимание именно алгоритму определения релевантности для ранжирования полученных ссылок. n

Критерии при ранжировании в ИПС n Наличие слов из запроса в документе, их количество, Критерии при ранжировании в ИПС n Наличие слов из запроса в документе, их количество, близость к началу документа, близость к другу; n Наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы); n Количество ссылок на данный документ с других документов; n «Рекспектабельность» ссылающихся документов

Алгоритмы поиска информации в Интернет n Простой поиск. В поле запроса вводится одно или Алгоритмы поиска информации в Интернет n Простой поиск. В поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. n Расширенный поиск. В поле запроса всегда вводится запрос из группы слов. В этом случае разрешается связывать ключевые слова логическими операторами (И, ИЛИ, НЕ)

Алгоритмы поиска информации в Интернет n Контекстный поиск. При таком поиске документов требуется точное Алгоритмы поиска информации в Интернет n Контекстный поиск. При таком поиске документов требуется точное совпадение фразы или группы слов. Для ряда ИПС фраза должна быть заключена в «Все смешалось в доме Обломовых» n Специальный поиск. С помощью команд специального поиска разыскивается дополнительная информация, например, гиперссылки.

Виды поиска информационных ресурсов в Интернет n По ключевым словам; n С булевой логикой Виды поиска информационных ресурсов в Интернет n По ключевым словам; n С булевой логикой объединения слов; n По словосочетаниям; n С учетом расстояния между словами; n С учетом регистра; n По семантике (концептуальный); n По шаблону (подобию); n По полям документа.

Основные принципы работы поисковых машин в Интернет n Полнота n Точность n Актуальность n Основные принципы работы поисковых машин в Интернет n Полнота n Точность n Актуальность n Скорость поиска (Rambler обрабатывает 60 запросов в сек. )

Поисковая система Yandex n n n n Рубрикация данных; Поиск на естественном языке (лексический, Поисковая система Yandex n n n n Рубрикация данных; Поиск на естественном языке (лексический, морфологический, синтаксический анализ (частично)); «расширенный» поиск (язык запросов); Игнорирование регистра ввода; Поиск по видам ресурсов; Мультиязычность (русский, английский); Инструменты борьбы со спамом. Поиск только по ключевым словам; n При анализе учитываются только основы слов, морфологические формы слов, нет анализа синонимов; n Результат упорядоченный перечень ссылок на тексты, содержащие ключевые слова. n

Поисковая система «Alta. Vista» Одна из трех крупнейших поисковых систем мира. Основные характеристики: n Поисковая система «Alta. Vista» Одна из трех крупнейших поисковых систем мира. Основные характеристики: n Рубрикация данных; n Мультиязычность (25 языков); n Поиск по видам ресурсов (рисунки, видео и т. д. ); n Мультимедийный поиск, перевод на 9 языков; n Кластеризация (61 кластер поиска); n Поиск ответов на вопросы пользователя не осуществляется, запрос в форме вопроса преобразуется в форму запроса поиска по ключевым словам (не ключевые отбрасываются). К недостаткам системы следует отнести сохранение «мертвых» ссылок.

Информотеки и их классификация Информотека представляет собой систему, обеспечивающую сбор, накопление, хранение, обработку и Информотеки и их классификация Информотека представляет собой систему, обеспечивающую сбор, накопление, хранение, обработку и передачу полнотекстовых информационных ресурсов пользователям по их запросам. В зависимости от вида носителя информации можно провести их классификацию: 1. Библиотека. В ней фонды, каталоги и метаданные формируются на естественных и бумажных носителях, а для доставки документов по запросам пользователей применяются низкоскоростные естественные транспортные артерии.

Информотеки и их классификация 2. Электронная библиотека. Фонды формируются на естественных и бумажных носителях, Информотеки и их классификация 2. Электронная библиотека. Фонды формируются на естественных и бумажных носителях, а каталоги с метаданными создаются в электронном виде. Для доступа к каталогам используются высокоскоростные электронные транспортные артерии. Для доставки документов применяются низкоскоростные транспортные артерии. 3. Электронная информотека. Фонды и каталоги с метаданными формируются на электронных носителях, а для доставки электронных документов применяют высокоскоростные электронные транспортные артерии.

Структура взаимосвязей основных поисковых параметров в ИПС ЭИ Структура взаимосвязей основных поисковых параметров в ИПС ЭИ