МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ Дмитрий Владимирович ЛАНДЭ Лекция 2 “Общие сведения об информационно-поисковых системах” © El. Visti
Информационно-поисковые системы Информационно-поисковая система (ИПС) – система, выполняющая функции: - хранения больших объемов информации; - быстрого поиска требуемой информации; - добавления, удаления и изменения хранимой информации; - вывода информации в удобном для человека виде. (Глоссарий. ru) Первые ИПС использовались преимущественно в библиотечном деле и в системах научно-технической информации. © El. Visti 2
Из истории информационнопоисковых систем 1965 – 1970 - Dialog, - MARK, - STAIRS 1990 – 1995 - Z 39. 50 - GALILEO - WAIS 1995 - … - Retrieval. Ware - Autonomy - Alta. Vista - Яндекс - Google… © El. Visti 3
Сетевые ИПС © El. Visti 4
Особенности языков запросов Не существует стандартного универсального языка запросов. Отличие от SQL особенностями: • интерпретация операций, зависящих от порядка расположения слов в тексте (операций контекстной близости слов и др. ) • реализация вычисления близости найденных документов запросам (релевантности) для представления результатов поиска • применение нестандартных функций, требующих, например, использования методов искусственного интеллекта (нахождение документов по принципу подобия, построение дайджестов из фрагментов документов и др. ) © El. Visti 5
Характеристики ИПС (TREC) Коэффициент полноты: p = a / (a + c) Коэффициент точности: n = a / (a + b) Коэффициент осадков: q = b / (a + b) Коэффициент специфичности: k = d / (b + d) Ошибка: Error = (b+c) / (a+b+c+d) F-мера: F = 2 / (1/p + 1/r) © El. Visti 6
11 -точечный график TREC (РОМИП) 11 -точечный график полноты/точности отражает изменение точности в зависимости от требований к полноте и дает более полную информацию, чем единая метрика в виде одной цифры. По оси абсцисс на графике откладываются значения полноты, по оси ординат – значение точности при условии, что рассматривается начальный отрезок результатов запроса, на котором достигается заданный уровень полноты. Пример (из отчета TREC 2003): коллекция документов содержит 20 документов, 4 из которых релевантны запросу. Система выдает в качестве результатов запроса все эти документы, ранжированные так, что релевантными являются первый, второй, четвертый и пятнадцатый. © El. Visti 7
Два аспекта полноты сетевых ИПС © El. Visti 8
Понятие пертинентности как характеристики информационнопоисковой системы, означающее соответствие полученной информации информационной потребности. © El. Visti 9
Дополнительные технологические характеристики - скорость обработки запросов - полнота охвата ресурсов - вероятность получения ответа от системы - нахождение документов, подобных найденным - возможность уточнения запросов - возможность применения разных критериев ранжирования выдачи - возможность подключения переводчиков … © El. Visti 10
Недостатки традиционных ИПС - недостаточная оперативность - зависимость от выбора источников - слабые поисковые возможности - отсутствие средств уведомления о нахождении новой информации - невозможность работы с мультимедиа - недостаточная защита данных - слабо развитые средства обобщения данных © El. Visti 11
Спасибо за внимание! Ландэ Д. В dwl@visti. net http: //poiskbook. kiev. ua МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ Киев, Украина © El. Visti