Лекция 5. • Информационные

Скачать презентацию Лекция 5.  • Информационные Скачать презентацию Лекция 5. • Информационные

Лекция_5.ppt

  • Количество слайдов: 27

>   Лекция 5.  • Информационные поисковые  системы (ИПС) • Internet Лекция 5. • Информационные поисковые системы (ИПС) • Internet Search Engines • Принципы автоматизированного поиска

>Информационно-поисковая система (ИПС) Каталоги – «вчерашний день» (Rambler Top 100 и пр. ) НО: Информационно-поисковая система (ИПС) Каталоги – «вчерашний день» (Rambler Top 100 и пр. ) НО: сохраняется принцип библиотеки (стеллажи, каталоги, пневмопочта для требований, система доставки книг и пр. ) Любая система, включающая в себя: • некоторый массив информации (напр. документов), представленной в виде электронной базы данных • средства поиска по этому массиву (с помощью фильтров и/или языка запросов) • возможность полного или частичного доступа пользователя к найденной информации (документам) Примеры ИПС • электронные базы данных и поисковые машины Интернет, Google, Yandex, Паблик. ру, anekdot. ru, сайт zakupki. gov. ru, сайты билетных агентов, туроператоров… 2

>Из чего состоит/ как работает ИПС • Не ищет по всему интернету. Состоит из: Из чего состоит/ как работает ИПС • Не ищет по всему интернету. Состоит из: веб-паук (для интернет ИПС) или технология заливки текстов (для баз СМИ) + база- индексатор + алгоритм поиска и оценки релевантности (степени соответствия документа запросу) • Примерный алгоритм: робот-браузер (веб-паук, обходчик, crawler и пр. ) скан содержимого скачивание информации импорт в базу данных индексация в базе данных наложение алгоритма поиска проверка/верификация найденного по запросу выдача пользователю • Google, Yandex (Rambler, Yahoo, MSN, Alexa…) – до десятка роботов (базовый краулер, индексатор картинок, индексатор зеркал, индексатор блогов, индексатор новостных потоков…) + «дятлов» /простукивалок… • Релевантность определяют на основе комплекса факторов: наличие слов, расстояния между словами, поиск по тем же словам, посещаемость, индекс цитируемости страницы, шрифт и положение искомого на странице, возраст сайта и пр. … Не всегда проникают «вглубь» /Не заходит за «шлюзы» / не всегда корректно работает со сниппетами (например соцсетей)… 3

>    4  Как производится поиск с помощью  информационно-поисковой системы 4 Как производится поиск с помощью информационно-поисковой системы Потребность в информации Поисковая система Средства поиска Поисковый Выдача найденного Результат поиска Пользователь запрос (найденная информация, документы) Массив информации, документов Результат удовлетворяет Уточнение поисковой ? НЕТ ДА Exit задачи / запроса качество, количество найденной информации

>      5 Параметры информационного поиска  • Релевантность (Relevance) 5 Параметры информационного поиска • Релевантность (Relevance) - мера соответствия результатов поиска задаче, поставленной в запросе • Коэффициент полноты поиска (Recall ratio) - отношение числа найденных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве • Коэффициент точности поиска (Precision ratio) - отношение числа найденных релевантных документов к общему числу выданных документов • Поисковый шум (Noise) - совокупность выданных нерелевантных документов • Коэффициент шума (Noise ratio) - отношение числа выданных нерелевантных документов в к общему числу выданных документов • Задача оптимизации поиска – добиться максимальной выдачи релевантных документов при минимизации шума

>     6 Релевантные документы, найденные и  ненайденные документы и 6 Релевантные документы, найденные и ненайденные документы и «шум» Документы исходного Исходный массива, отвечающие документов, по которым потребностям поиска производится поиск (теоретически релевантные) Ненайденные релевантные Найденные документы документы, отвечающие (упущенный потребностям полезный сигнал) поиска (эмпирически релевантные документы) Все найденные по запросу Поисковый шум документы (найденные нерелевантные документы)

>      7 Поисковый запрос Что такое поисковый запрос? 7 Поисковый запрос Что такое поисковый запрос? • Это совокупность настроек и «команд» к поисковой системе, ограничивающая область и предмет поиска в сообразно информационно-поисковой задаче Пользователя Элементы запроса могут быть заданы в неявном и/или явном виде • Явный - элементы запроса формируются с помощью языка запросов • Неявный – когда элементы запроса можно выбрать с помощью предлагаемых поисковой системой «флажков» (рубрик, диапазона дат, типов докуметов и т. п. ) – Пример информационно-поисковой системы, формирующей запрос в неявном виде – сайт почти любого туроператора (как правило, необходимо выбрать вариант из набора жестких параметров – страна, курорт, число туристов, параметры отеля, продолжительность отдыха и т. д. ) • Развитые поисковые системы позволяют комбинировать запрос в виде явно и неявно заданных элементов (Яндекс, Google, Паблик. ру, Factiva и др. ) • Наиболее удобные для «продвинутого» поиска системы (напр. Factiva, Lexis) позволяют задавать почти любые неявные элементы запроса в явном виде (вместо отметки всевозможных «флажков» можно задать все то же самое в командной строке запроса)

>   Атрибуты документов/     8    метаданные Атрибуты документов/ 8 метаданные для поиска • Заголовок (Название документа) • Автор Атрибуты документов, используемые в • Источник, Сайт, URL Информационно- • Дата, время правовой системе • Начало документа (лид, первый абзац), «Кодекc» конец документа • Подписи (теги) к фотографиям, • Название документа картинкам, видеороликам, • Вид документа • Принявший орган аудиороликам • Номер документа • Размер документа (в словах, печатных • Дата принятия документа знаках или килобайтах) • Дата и номер • Формат файла (html, doc, pdf и т. д. ) регистрации в Минюсте России • А также: Число просмотров • Тип документа (популярность), тональность, жанр, • Статус документа (действие/недействие) количество внешних ссылок на • Дата начала действия документ, атрибутируемые объекты и дата окончания действия внутри документа, ссылки на другие документы, уникальный номер или код документа и т. д. )

>9 9

>Google • Google занимает более 70% мирового рынка поиска. Около 150  тыс. ЭВМ. Google • Google занимает более 70% мирового рынка поиска. Около 150 тыс. ЭВМ. В день индексирует ~50 млн. поисковых запросов и свыше 8 млрд. веб-страниц. Всего ~10+ трлн. документов (700+ млн. на рус. ) • Собственная интеллектуальная техника анализа текстов (~словарь Романова). От содержания – к авторитетности (цитируемости) • Поиск с ограничением по объему выдачи (10, 20, 30, 50, 100 текстов/ страница), 101 языку и 237 странам мира, по 10 расширениям файла, срокам изменения страниц (за последние 3, 6, 12 месяцев), исключая или включая страницы с сайта / домена • Поиск по разделам: новости (4500+ источников, ~500 рус. ), блоги, группы, каталоги, научно-технические ресурсы (scholar) • Типы поисков: простой, расширенный (вкл. базовые логические – И, ИЛИ, НЕ, - и контекстные операторы), языком запросов, прямая работа с URL (если на сайте плох свой поиск) • Служба перевода страниц… • НО: Даже профессиональные аналитики обычно используют ~5% функций 10

>11 11

>Что делает Google по умолчанию?  • Допускает в запросе максимум 32 слова (слова+операторы) Что делает Google по умолчанию? • Допускает в запросе максимум 32 слова (слова+операторы) - блоги, -новости • Рекомендуемый простой запрос – до 150 символов (рус. ) • Исправление орфографии, другие варианты написания • Использование синонимов (англ), схожих написаний • Поиск с похожими условиями (англ) • Поиск по однокоренным словам: [прыгать] прыжки • Не учитывает морфологию языков! • Не учитываются: регистр (искл. : OR), знаки препинания и спецсимволы (@#$%^&*()=+[]. . . ) скобки для удобства! • Эквивалентны пробелу: !#%? ^{}"+$€£¥()[]`~<>—* • Игнорирует стоп-слова (артикли, предлоги, цифры, местоимения…) • Персонализация поиска (напр. , на основе данных о ранее посещенных сайтах) 12

>Базовые операторы Google • AND – пробел по умолчанию • OR или символ _|_ Базовые операторы Google • AND – пробел по умолчанию • OR или символ _|_ (пробелы!) • NOT (_-) [сочи -спорт -олимпиада] или [сочи -site: . ru] (пробел перед минусом, чтобы не путать с дефисом) • Точное словосочетание или слово «» [ «Александр Пушкин» ] ≠ Александр Сергеевич Пушкин; [ «Россия» ] ≠ РФ • Заполнение пропусков (_*_) – замена одного или нескольких неизвестных слов [ «мой дядя * честных правил» ] или [ «мой дядя ** правил» ] но [19 * 7] (не более ****) • Поиск по типу файла - filetype: [футбол filetype: pdf] • Поиск в пределах определенного веб-сайта - site: [ирак site: kommersant. ru] или определенного домена [ирак site: . ru] • Приоритетность запроса Google: слева направо [таксы длинношерстные | короткошерстные intext: «охотничьи собаки» filetype: pdf]; можно скобки для удобства: таксы (длинношерстные | короткошерстные) intext: (охотничьи собаки) filetype: pdf 13

>Некоторые полезные операторы • Поиск страниц со ссылками на определенный URL Некоторые полезные операторы • Поиск страниц со ссылками на определенный URL "link: " [link: google. ru] • Поиск похожих страниц "related: " [related: nytimes. com] • Оператор обязательного присутствия + [Елки +II] • Определение [define: трубопровод] • Поиск синонимов - ~ [виды ~млекопитающих] • Поиск с числами в пределах - [#. . #] [Олимпиада 1950. . 2012] • Поиск за последние месяцы - date: [Олимпиада date: 3] • Кэш сайта - cache: [cache: www. irs. gov] • Информация о странице - info: [info: www. theonion. com] • Операторы поиска по текстам ссылок на странице- allinanchor: [allinanchor: useful parenting sites] - все слова в ссылке; - inanchor: (одно слово в ссылке) • Поиск только по тексту на страницах allintext: [allintext: ingredients chicken lime]; intext: • Поиск по заголовкам страниц- allintitle: [allintitle: Google Advanced Operators] - все слова; - intitle: [Жириновский intitle: пьяный] • Операторы поиска по цепочке URL - allinurl: и - inurl: • Поиск с фильтром эдалт-контента - safesearch: 14

>15 15

>Особенности Яндекса • Синтаксический анализ - учитывает морфологию русского языка и  использует механизм Особенности Яндекса • Синтаксический анализ - учитывает морфологию русского языка и использует механизм нечеткого поиска • Простой и расширенный поиск (регион, дата обновления/ заливки, место, язык, формат страницы и тип документа – графика редко в HTML) • «Прошаривание сайтов» Яндексом иногда эффективнее, чем поиск по всей базе • Уточнение области поиска: поиск в регионе, поиск в найденном… • Поисковые колдунщики (прямой ответ на релевантных сайтах - погода, котировки, вики, химик… или предложение спецрубрик – маркет, новости, расписания…) • Сортировка по релевантности – по умолчанию (по дате – optional) • Подсказки: поисковые подсказки (обновляются по мере набора), исправления ошибок (иногда устоявшееся употребление расходится с правилами), puntо/ раскладка, связные запросы [вместе с … ищут …] • Быстрые ссылки в выдаче (переход сразу к разделам/ страницам) • Навигационная цепочка (соответствует структуре) • Сохраненный кэш • Обнаружение по ссылкам (даже если нет прямых вхождений запросных слов) 16

>17 17

>Язык поиска • Учитывает морфологию русского языка – все возможные формы слова (но не Язык поиска • Учитывает морфологию русского языка – все возможные формы слова (но не разные части речи) • Поиск регистрозависимый. Заглавная/ строчная [!лужков] • Поиск по словам, которые ссылаются на страницу ( «Ленинка» и РГБ) • Стоп-слова (предлоги, частицы, местоимения, цифры) обычно игнорируются. Ищутся: +на [Ростов +на Дону ] • Скобки формируют группы в сложных запросах мумие && (лечение | лечебный) Логическое «И» • пробел – нежесткое «И» : вначале – слова недалеко друг от друга, затем – в одном документе, затем – фактически переходит в «ИЛИ» • слова в пределах одного предложения _&_ [культура & Китая] • слова в пределах одного документа _&&_ [сканеры && Новосибирск] • принудительное/приоритетное _+ [технический прогресс +антирес] Логическое «НЕ» • _~_ слова не должно быть в предложении [кремль ~ Москва] • _~~_ слова не должно быть в документе [кремль ~~ Москва] • _- не всегда корректно работающая двойная ~~ Логическое «ИЛИ» • | [аэроплан | самолет] 18

>Полезные контекстные операторы • Слово в точной форме с заданным регистром ! [!День] • Полезные контекстные операторы • Слово в точной форме с заданным регистром ! [!День] • Слово в словарной форме !! [!!день] - искать день, дня и т. д. , но не производную форму слова девать • Точное значение «» • Пропуск слова/слов * • Расстояние в N слов в любую сторону /N [Александр /2 Иванов • Расстояние в N предложений в любую сторону &&/N [памятник Пушкину &&/3 площадь Искусств] • Расстояние в N слов в прямом порядке /+ (т. е. между заданными словами может встречаться одно слово) [Иван /+2 Тургенев] • Расстояние от 1 слов в обратном порядке до 2 слов в прямом /(-1 +2) [Всеволод /(-1 +2) Иванов] • Поиск по заголовкам документов [title: Максвелл] • Поиск по URL [url: …] • Поиск по фрагменту URL [inurl: …] • Поиск по одному типу файлов [mime: pdf] • Ограничение по языку [lang: en] • Ограничение по дате [date: 200712*] • по интервалу [date: 20071215. . 20120201], [date: >20091231] 19

>Полезные советы: составление запросов • Как должен выглядеть искомый ответ? (напр. : рынок стали) Полезные советы: составление запросов • Как должен выглядеть искомый ответ? (напр. : рынок стали) • Чем проще и короче запрос, тем лучше (предел усложнения – у всех разный) • Выбор ключевых слов для машины. Уже упоминавшиеся/ устоявшиеся слова/словосочетания (гипертрофия принципа: «заоптимизированные» SEO-рекламные тексты на сайтах) • Чем информативнее, тем лучше (ср. [популярные рингтоны] и [популярные мелодии]) • Ограничиваем запрос. Стараемся исключать слишком широко употребимые слова • Переформулируйте с использование синонимов! (Лужков- кепка-пасечник-старик Батурин-градоначальник-…) • «п. Еши прав. Ельно» НО! [ «превед медвед» ] или [пред. Инфарктный] • Разные варианты написания ищем по ИЛИ • Релевантность документа – не менее трех вхождений • Учитываем возможность омонимии 20

>Полезные советы: поиск в ISE • От простого к сложному (типичная ошибка – вакансия) Полезные советы: поиск в ISE • От простого к сложному (типичная ошибка – вакансия) • «Пристрелка» – последовательные итерации с уточнением. Смотрим на шум. Уточняем терминологию • Часто аннотаций в выдаче достаточно • Иногда проще задать вопрос живым языком • Не отбрасываем окончания слов (для Google!) • Поиск аналогов рус+англ • Не все в сети – иногда нужно скачать книгу/ pdf • Пользуемся кэшем - сохранённой копией, если ссылка битая • Используйте несколько поисковых систем • Некоторые сайты лучше «прошариваются» yandex/google, чем встроенным поиском • Редактируя url часто попадаем на неиндексируемое 21

>Статистика Запросов wordstat. yandex. ru     22 Статистика Запросов wordstat. yandex. ru 22

>Что найдут запросы в Яндексе •  [Кузькина ~/+1 мать] и [Кузькина ~~ мать] Что найдут запросы в Яндексе • [Кузькина ~/+1 мать] и [Кузькина ~~ мать] ? • [продажа & сканеров && Новосибирск] ? • [великий /2 хурал] ? • [цыпленок жареный | пареный] и [цыпленок (жареный| пареный)]? • [годовой /+1 отчет] и [годовой /1 отчет ~ «отчет годовой» ] и [ «годовой отчет» ] ? • [Алексей /(-1 +2) Толстой] и [Алексей * Толстой]? • [кривой ~~ (кривой & рог)] ? • [квадроид ~~ url=www. kvadroid. ru] ? • [аватар -!аватары -!аватарки] ? • [реклама & маркетинг ~~ (курс | работа | книга | семинар)] ? • [академик+Забабахин] и [академик +Забабахин] и [+академик +!Забабахин] и [академик /(-3 +10) Забабахин] ? 23

>ПРИМЕР 1  Найдем все упоминания о том,  что говорили В. Путин, ПРИМЕР 1 Найдем все упоминания о том, что говорили В. Путин, Д. Медведев или А. Миллер о трубопроводных проектах ОАО «Газпром» , исключая украинскую и казахскую проблематику ((Дмитрий /2 Медведев) | Путин | Миллер)) & Газпром +трубопровод ~~ (Украина | Киев | Янукович | Бойко | Казахстан | Астана) 24

>ПРИМЕР 2  Найдем негативные отзывы потре- бителей о Sony DSC-F 828 Cyber. Shot ПРИМЕР 2 Найдем негативные отзывы потре- бителей о Sony DSC-F 828 Cyber. Shot (+"sony" +"828" +"Cyber Shot") +(мнение | форум | общение | отзыв | рекламация | рекомендация | недостаток | тест | обзор | сравнение | минусы | проблема | опыт | негативный | !!купил) 25

>ПРИМЕР 3  Найдем анонсы предстоящих событий на август -сентябрь 2012 по теме электро-энергетики, ПРИМЕР 3 Найдем анонсы предстоящих событий на август -сентябрь 2012 по теме электро-энергетики, не касающиеся компании Русгидро ((августа | сентября) /2 2012) (электроэнергетика | ГЭС | ТЭЦ | электростанция | иркутскэнерго | мосэнерго | ОГК) ~русгидро 26

>Спасибо за внимание   … Вопросы?      27 Спасибо за внимание … Вопросы? 27