Фрагмент_Лекция 2_ИО_Обработка запросов.ppt
- Количество слайдов: 38
Лингвистическое обеспечение ИС (продолжение). Информационные технологии поиска информации 1
Информационный поиск как процесс Поиск информации (данных) –вторая, после ввода, центральная процедура технологических процессов ИС. Поиск - процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные. Поисковые технологии унифицированные (оптимизированные в рамках конкретной ИС) последовательности эффективного использования отдельных средств поиска в процессе взаимодействия пользователя с системой для устойчивого получения конечного и промежуточных результатов. 2
Поиск информации Навигация как реализация процесса поиска по запросу в выбранной БД - целенаправленная, определяемая стратегией, последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата. Средства навигации позволяют пользователю осуществлять управление процессом поиска. Они предоставляются пользователю в виде интерфейса, позволяющего организовать более или менее эффективный процесс взаимодействия с БД. При этом "дружественность" интерфейса характеризуется не только эргономичностью и понятностью, но и вариантностью выбора операционных объектов. Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими. 3
Методы поиска Адресный поиск - процесс поиска документов по чисто формальным признакам, указанным в запросе. Условия: Наличие у документа точного адреса Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы. Адресами документов могут выступать адреса веб-серверов и вебстраниц и элементы библиографической записи, и адреса хранения документов в хранилище. Семантический поиск - поиск документов по их содержанию. Условия: перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса. составление поискового описания, в котором указывается дополнительное условие поиска. 4
Методы поиска Документальный поиск Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя. Два вида документального поиска: Библиотечный, направленный на нахождение первичных документов. Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей. [Фактографический поиск Процесс поиска фактов, соответствующих информационному запросу. К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения. 5
Методы поиска Документальный поиск - процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных - вторичных документов, соответствующих запросу пользователя. Два вида документального поиска: Библиотечный, направленный на нахождение первичных документов. Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей. Фактографический поиск - процесс поиска фактов, соответствующих информационному запросу. К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения. 6
Определения Поисковый образ документа (ПОД) - описание документа, выраженное средствами ИПЯ и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу. Поисковый образ запроса (ПОЗ)- записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска. ПОЗ+ логика = Поисковое предписание "Релевантность" - устанавливаемое при информационном поиске соответствие содержания документа информационному запросу или поискового образа документа поисковому предписанию. Метод поиска - совокупность моделей и алгоритмов реализации отдельных технологических этапов. 7
Составляющие процесса поиска информации Процесс поиска можно представить в виде следующих основных компонент: 1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запроса на соответствующем ИПЯ; 2) проведение поиска в одной или нескольких поисковых системах; 3) обзор полученных результатов (ссылок); 4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных и пертинентных (соответствующих потребности) данных; 5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов. 8
Что обеспечивает поиск? В ИС информационный поиск обеспечивают : q q Структурирование информации при вводе; Технология (методика) индексирования информации; Разработанные в соответствии с методикой словарные пособия (тезаурусы, классификаторы); Наличие в системе специалистов в отражаемой предметной области или автоматических процедур индексирования (в частности, в Интернет). 9
Индексирование и поиск информации в ИС (1) Быстрый поиск в огромных массивах информации осуществляется с помощью специальных методов организации данных в оперативной и внешней памяти вычислительных машин. Поиск и отбор данных в современных системах выполняется с помощью метода прямого доступа к информации. Прямой метод доступа характеризуется наличием 2 -х логически и физически разделенных областей – хранилища и справочника. Способ организации справочника – ноу-хау каждой из множества конкурирующих в настоящее время систем управления базами данных (СУБД). Справочник состоит из отдельных разделов. Каждый раздел обеспечивает поиск по специфическому ключу, составляемому из одного или более реквизитов (полей) хранящихся в БД записей. Значение ключей формируются для каждой записи при вводе в БД и заносится в соответствующий раздел справочника, не дублируясь. 10
Индексирование и поиск информации в ИС (2) 11
Индексирование и поиск информации в ИС (3) Поисковый образ документа (ПОД) является формализованным представлением (отображением) его смыслового содержания (центральной темы). ПОД формируется на основе правил информационно-поискового языка ИС. Процесс составления ПОД называют индексированием. Вне зависимости от типа автоматизированной системы, ввод информации в базы данных и последующий её поиск опирается на лексические средства информационнопоискового языка ИС, сосредоточенные, как правило, в формируемых специалистами ИС словарях, либо в иных справочных формах, создаваемых автоматически. Словари играют роль справочников, позволяющих индексаторам-специалистам (или программным средствам автоматического индексирования) осуществлять лексические преобразования и нормализацию входных потоков исходных документов и запросов. В результате формируются формализованные описаниям документов/запросов с нормированной лексикой. 12
Индексирование и поиск информации в ИС (4) Каждому значению ключа при вводе записи в БД приписывается внутрисистемный адрес (ВСА), который становится известным СУБД при вводе записи в хранилище. Таким образом, ВСА – это адрес в хранилище записи в БД, который однозначно определяет физический адрес записи. Значения ключей в справочнике упорядочиваются, т. е. сортируются по возрастанию или убыванию их значений. Поисковые образы запросов (ПОЗ), подготовленные на основании запросов пользователей или самими пользователями, должны содержать те же элементы данных, что и в формализованной информации, которая предназначена для поиска. При этом элементы данных имеют либо нормированные значения, либо произвольные. Поисковые предписания (ПП) это ПОД + грамматика 13
Индексирование и поиск информации в ИС(5) Соответственно, существует 3 типа ПП: 1. Поисковое предписание с нормированными значениями 2. Представляет собой логическую формулу, операндами которой служат значения элементов данных, объединяемые операциями "И", "ИЛИ" и "НЕ". При поиске и отборе требующихся записей из хранилища выполняются операции пересечения, объединения и вычитания множеств ВСА; 2. Поисковое предписание включает наименования элементов данных, связанные операциями сравнения ("больше", "меньше", "равно" и т. д. ) с возможными значениями (значением) элемента данных. Как правило, поиск выполняется с помощью проведения операций сравнения заданного в предписании значения со значением элемента данных записей поискового массива; 3. Смешанный тип ПП, включающий ПП первого и второго типа как части единого предписания. 14
Логические связки «И» , «ИЛИ» и «КРОМЕ» «И» «КРОМЕ» «ИЛИ» 15
Информационно-поисковый тезаурус Для индексирования документов применяется специальный словарь – ТЕЗАУРУС. Информационно-поисковый тезаурус — это контролируемый словарь терминов на естественном языке, явно указывающий отношения между терминами и предназначенный для информационного поиска. Основные цели разработки традиционных тезаурусов: q q обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска; обеспечение последовательного использования единиц индексирования; описание отношений между терминами; использование как поискового средства при поиске документов. 16
Дескрипторы – единицы тезауруса Понятие предметной области обычно имеет несколько возможных вариантов лексического представления в тексте, которые рассматриваются как синонимы. Среди таких синонимов выбирается дескриптор — термин, который рассматривается как основной способ ссылки на понятие в рамках тезауруса. Другие термины из синонимического ряда, включенные в тезаурус, называются аскрипторами или недескрипторами. Они используются как вспомогательные элементы, текстовые входы, помогающие найти подходящие дескрипторы. Дескрипторы тезауруса должны соответствовать выбранной предметной области тезауруса. Каждый дескриптор, внесенный в тезаурус, должен представлять отдельное понятие данной области. Дескриптор может быть однословным или многословным. 17
Дескрипторы (2) Набор дескрипторов должен удовлетворять следующим требованиям: q q посредством выделенных дескрипторов должно быть возможно описать темы абсолютного большинства текстов предметной области; для уменьшения субъективности индексирования множество дескрипторов не должно включать совокупности близких дескрипторов; дескриптор должен быть сформулирован однозначно, его подразумеваемое в рамках тезауруса значение должно быть понятно пользователю. Если однозначный и ясный дескриптор подобрать не удается, термин, взятый в качестве дескриптора, снабжается релятором (краткой пометкой) или комментарием. 18
Парадигматические отношения в тезаурусе Парадигматические отношения (связи) указывают общность или противопоставление значений и использования лексических единиц. Основная идея организации тезауруса заключается в накоплении и непрерывном обновлении словосочетаний, характеризующих данную тематику, и установлении между ними парадигматических (различных иерархических, синонимических, ассоциативных и пр. ) связей. Пример АНТЕННЫ ВЫСОКОЧАСТОТНЫЕ АНТЕННЫ (диапазон) НИЗКОЧАСТОТНЫЕ АНТЕННЫ (диапазон) 19
Пример фрагмента тезауруса, описывающий семантическое поле, связанное с понятием воровства. ВОРИШКА SYN ВОРОВКА SYN ВОРЮГА SYN ВОР ЖУЛИК SYN ВОР ЖУЛЬЕ SYN ВОР ВЫКРАДЫВАТЬ SYN ВОРОВАТЬ ВЫКРАСТЬ SYN ВОРОВАТЬ ИЗВОРОВАТЬСЯ SYN ВОРОВАТЬ КРАСТЬ SYN ВОРОВАТЬ ЛЯМЗИТЬ SYN ВОРОВАТЬ НАВОРОВАТЬ SYN ВОРОВАТЬ. . . ТИБРИТЬ SYN ВОРОВАТЬ ТЫРИТЬ SYN ВОРОВАТЬ УВОРОВАТЬ SYN ВОРОВАТЬ УВОРОВЫВАТЬ SYN ВОРОВАТЬ УКРАСТЬ SYN ВОРОВАТЬ ВОР BT ВОРОВСТВО ВОРОВАТЬ BT ВОРОВСТВО ВОРОВСКИ BT ВОРОВСТВО ВОРОВСКОЙ BT ВОРОВСТВО 20
Формирование и использование тезауруса 21
Лингвистический процессор Предметная область, проблемная область Базовые тематические словари (БТС) Привязка лексики, пополнение БТС Лексика внешних БД Лексика документов Входящая информация Ввод лексики Словари значений форматированных признаков БТСС Терминологический словарь (ТЕРС) Составление запроса. Поиск Фактографические словари (ФС) 22
Задание: составить словари по теме «Обучение в вузе» Этапы: 1. Составление словника; 2. Разделение на словари; 3. Формирование тезаурусов 23
Особенности обработки запросов в Интернет 24
В чем особенность Интернета как ИС По оценке специалистов в Интернете работает более 30 миллионов пользователей. Из них десятки тысяч - в режиме онлайн (англ. "on-line" - интерактивный доступ в любой момент времени) и количество таких пользователей постоянно растет. Особенности поисковых систем общего назначения, используемых в Интернете: n «всеядность» ; n огромное количество перерабатываемого входного материала; n разнообразными возможностями (видами) поиска информации; n разный уровень знаний пользователей о возможностях таких систем, особенно в области формирования запросов и обработки данных, полученных в результате выполнения этих запросов и т. д. n Значительный процент не имеющих никакого образования и навыков в области поиска информации пользователей. 25
Поисковые технологии ИС в Интернет 4 категории: 1. Тематические каталоги; 2. Специализированные каталоги (онлайновые справочники); 3. Средства метапоиска 4. Поисковые машины (полнотекстовый поиск) В Интернете ИПС размещается на одном или нескольких серверах. В ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе вебсерверов. В документах индексируются все значащие слова или только слова из заголовков. 1. Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации. Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат). 2. Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п. 26
Поисковые технологии ИС в Интернет n n При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска. К подобному классу можно отнести и "персональные программы поиска", позволяющие формировать свои собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы). Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС "Alta. Vista" более 56 млн. URL-адресов. 27
Поисковые возможности пользователя при использовании Интернета БД внешней ИС Поисковые машины: Google, Yandex, Rambler, Yahoo! ИР локальной БД Справочник БД Словари и классификаторы системы Классификаторы Rambler Поисковые программы Internet Рабочее место пользователя 28
Поисковые машины в Интернет Количество поисковых машин в Интернет исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др. ). Кроме того, бывают полнотекстовые, смешанные и другие поисковые машины. Для проведения поиска в Интернете (в WWW) функционирует множество сайтов и поисковых систем, поэтому необходимо не только ориентироваться в таких системах, но и уметь осуществлять в них эффективный поиск, то есть использовать соответствующие технологии. Технология поиска - совокупность правил и процедур, в результате выполнения которых пользователь получает ИР. 29
Особенности технологии работы поисковых машин Поисковые машины используют общие принципы работы, ориентированные на выполнение двух основных функций. Первая функция реализуется программой-роботом, автоматически просматривающей различные сервера в Интернете. Находя новые или изменившиеся документы, она осуществляет их индексацию и передаёт на базовый компьютер поисковой машины. "Робот" - автоматизированный браузер, загружающий вебстраницу, изучающий её и, при необходимости, переходящим к одной из её гиперсвязей. Когда ему попадается страница, не содержащая связей, робот возвращается на одну-две ступени назад и переходит по адресу, указанному в одной из обнаруженных ранее связей. Индексирующие роботы обрабатывают лишь HTML-файлы, игнорируя изображения и другие мультимедийные файлы. Они могут: обнаруживать связи с уже несуществующими страницами; устанавливать связь с наиболее популярными узлами, подсчитывая количество ссылок на них в других веб-страницах; регистрировать веб-страницы для оценки роста системы и др. 30
Поисковые технологии ИС в Интернет Вторая функция заключается в обработке выявленных документов. При этом учитывается все содержание страниц (не только полный текст, но и наличие иллюстраций, аудио и видео файлов, Java-приложений). Индексации подвергаются все слова в документе, что дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, составляют БД, к которой собственно и обращаются пользователи, вводя в поисковую строку ПОЗ (сочетания ключевых слов). Выдача результатов осуществляется с помощью специальной подсистемы, производящей интеллектуальное ранжирование результатов. "Роботы" имеют ряд разновидностей, одной из которых является "паук" (англ. "spider"). Он непрерывно "ползает по сети", переходя с одной веб-страницы к другой с целью сбора статистических данных о самой "паутине" (Web) и (или) формирования некоторой БД с индексами содержимого веб. 31
Поисковые машины К поисковым машинам возможно обращение: с простыми запросами (практически одинаково для всех поисковых машин); с расширенным запросом. Расширенный запрос на поисковые машины обрабатывают поразному. Перед постановкой запроса к поисковой системе нужно ответить на следующие вопросы: насколько точным должен быть запрос к поисковой системе? необходимо по максимуму указать слова, которые должны присутствовать в ответе на запрос; (может оказаться, что указанная комбинация слов отсутствует в индексе (технологический файл, ускоряющем процесс поиска) поисковой системы). В этом случае необходимо расширить запрос, убрав из него сомнительные/не обязательные для формирующего запрос пользователя слова. Но необходимо знать, что при этом может в несколько раз увеличиться количество выдаваемой на запрос информации; 32
ПРИМЕР СОСТАВЛЕНИЯ ТЕМАТИЧЕСКОГО ЗАПРОСА 33
ПРИМЕР СОСТАВЛЕНИЯ РАСШИРЕННОГО ТЕМАТИЧЕСКОГО ЗАПРОСА на Yandex. ru 34
Примеры использования запроса для поиска по рубрикатоу и на основе списка гиперссылок 35
Пример формулировки многоаспектного запроса (ИПС «Сокол» ВИНИТИ) 36
Word Wide Web (WWW) – технология навигации по гиперссылкам Файлы, загружаемые браузером в память компьютера, делятся на части – страницы, а каждая страница имеет, в свою очередь, ссылки на другие страницы. Браузер позволяет связываться с сервером для получения доступа к HTML-документам и соответствующим файлам в WWW или других сетях, а также следовать по цепочке от документа к документу или от страницы к странице. Технология WWW (web-технология), созданная по принципу «указалнажал» , в простой и наглядной форме позволяет пользователю четко формулировать свои запросы к сети, выбирая именно то, что ему нужно. Найти по web-технологии объект (ресурс) в Интернете или сделать на него ссылку помогает универсальный указатель ресурсов – URL (Universal Resource Locator). URL-адрес состоит из двух элементов: q q название используемого протокола доступа – левая часть URL-адреса до двоеточия (в Интернете представлены ресурсы различных типов, и webтехнология позволяет организовать взаимодействие компьютеров по разным протоколам: http, file, ftp, gopher, telnet); логическое (доменное) имя web-сервера (между символами // и /) и имя webресурса, т. е. файла с указанием полного пути к нему на удаленном компьютере. 37
Пример навигационного поиска 38
Фрагмент_Лекция 2_ИО_Обработка запросов.ppt