Занятие 10. поиск информации.pptx
- Количество слайдов: 85
ОБРАБОТКА ОТРАСЛЕВОЙ ИНФОРМАЦИИ Занятие 10. Поиск информации
Информацио нный по иск процесс выявления в некотором множестве информации той, которая удовлетворяет заранее определенному условию поиска (запросу) или содержат необходимые факты, сведения, данные.
4 этапа поиска Определение информационной потребности и формулировка запроса; Определение совокупности возможных держателей информационных массивов (источников); Извлечение информации из выявленных информационных массивов; Ознакомление с полученной информацией и оценка результатов поиска.
Потребность!
История Термин «информационный поиск» был впервые введён Кельвином Муром в 1948. Сначала информационно-поисковые системы использовались лишь для поиска в научной литературе (доступ к книгам, журналам и другим документам). Широкое распространение ИПС получили с появлением сети Интернет.
Виды поиска Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик. Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе. Поиск изображений — поиск по содержанию изображения. В результатах поиска пользователь получает похожие изображения.
Методы поиска Адресный поиск Семантический поиск Документальный поиск Фактографический поиск
Адресный поиск Процесс поиска документов по чисто формальным признакам, указанным в запросе. Для осуществления нужны следующие условия: Наличие у документа точного адреса Обеспечение строгого порядка расположения документов в хранилище системы Адресами документов могут выступать адреса вебсерверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.
Семантический поиск Процесс поиска документов по их содержанию. Условия: Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса. Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания.
Документальный поиск Процесс поиска в хранилище информационнопоисковой системы первичных документов или вторичных документов, соответствующих запросу пользователя. Два вида документального поиска: Библиотечный, направленный на нахождение первичных документов. Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.
Фактографический поиск Процесс поиска фактов, соответствующих информационному запросу. Различают два вида: Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты. Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.
Задачи информационного поиска Центральная задача ИП — помочь Центральная задача ИП пользователю удовлетворить его информационную потребность. Классическая задача ИП, с которой началось развитие этой области, — это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов.
Задачи информационного поиска Вопросы моделирования; Классификация документов; Фильтрация документов; Кластеризация документов; Проектирование архитектур поисковых систем и пользовательских интерфейсов Извлечение информации, в частности аннотирования и реферирования докуме нтов; Работа с языками запросов и др.
Поиско вая систе ма программно-аппаратный комплекс с вебинтерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс системы.
Всемирный рейтинг Ø Ø Ø По данным компании Net Applications (январь 2011 года ) Google — 84, 65 %; Yahoo! — 6, 69 %; Baidu — 3, 39 %; Bing — 3, 29 %; Ask — 0, 56 %; AOL — 0, 42 %.
Российский рейтинг Всеязычные Google (37, 2 %) Bing (0, 8 %) Yahoo! (0, 2 %) Русскоязычные Яндекс (48, 1 %) Mail. ru (5, 9 %) Рамблер (1, 2 %) Нигма (0, 3 %)
История Первой поисковой системой для Всемирной паутины был уже не существующий «Wandex» (1993). Также в 1993 году появилась поисковая система «Aliweb» , работающая до сих пор.
История Wandex Открыл данный поисковик сотрудник Массачусетского технологического института Мэтью Грэем, который ныне работает в компании Google. Поиск осуществлялся всего по 623 интернетресурсам (столько было сайтов на 1993 год).
История Wandex Поэтому конкурентами поисковиков были каталоги страниц, которые впоследствии и вынесли с арены Wandex. На сегодняшний день на главной странице находиться следующий текст: "Wandex, everything is just beginning: )", что в переводе значит следующее: "Wandex, все только начинается: )".
История Первой полнотекстовой (т. е. индексирующей ресурсы при помощи робота) стала «Web. Crawler» , запущенная в 1994. Она позволяла пользователям искать по любым ключевым словам на любой веб-странице. Это первый поисковик, о котором было известно в широких кругах.
История Вскоре появилось множество других конкурирующих поисковых машин. В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!» . Позже каталоги добавили к себе поисковые машины, чтобы увеличить функциональность.
История В 1996 году русскоязычным пользователям интернета стало доступно расширение к поисковой машине Altavista и оригинальные российские поисковые машины «Рамблер» и «Апорт» . 23 сентября 1997 была открыта поисковая машина Яндекс.
Классификация по области поиска Локальные Предназначены для поиска информации по какой-либо части всемирной сети, например по одному или нескольким сайтам, либо по локальной сети. Глобальные Предназначены для поиска информации по всей сети Интернет.
Необычные поисковые системы Yauba (индийский поиск «для параноиков» — в отличие от привычных поисковиков, за пользователями не следят, а все записи о его действиях удаляются с сервера).
Необычные поисковые системы Koogle (с его помощью ортодоксальные иудеи могут найти контент, признанный раввинами удовлетворяющим религиозным требованиям).
Необычные поисковые системы Tin. Eye — поисковая система, специализирующаяся на поиске изображений в Интернете.
Необычные поисковые системы Im. Halal - первый исламский поисковик. Новый поисковик может отличить разрешённые для мусульман результаты поиска от запретных.
Поисковая машина (поиско вый движо к) комплекс программ, предназначенный для поиска информации. Является частью поисковой системы.
Поисковая машина Ø Ø Ø Основные критерии качества работы поисковой машины: релевантность, полнота базы, учёт морфологии языка.
Поисковые машины выполняют несколько функций Ø Ø 1. Поиск ссылок Автоматически. Поисковая машина ищет ссылки со страниц сайтов. Ручной режим. Пользователи сами добавляют в базу данных поисковой машины ссылки на страницы своих сайтов
Поисковые машины выполняют несколько функций 2. Индексация документов сайтов. Извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины
Поисковые машины выполняют несколько функций Ø Ø 3. Поиск по базе данных проиндексированных документов Нахождение документов, соответствующих поисковому запросу Ранжирование документов в соответствии с их релевантностью поисковым запросам
Индексирование - процесс сбора, сортировки и сохранения данных с целью облегчить быстрый и точный поиск информации. Процесс индексации Сети = лингвистика + психология + математика + информатика + физика.
Индексирование Популярные движки сосредотачиваются на полнотекстовой индексации в онлайне, документов естественного языка. Мультимедийные документы, такие как видео, аудио и графика также могут участвовать в поиске.
Поиско вый ро бот ( «веб-пау к» , краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.
Поиско вый ро бот Поисковой робот анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы.
Поиско вый ро бот Также, существуют «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.
Поиско вый ро бот Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются поисковыми алгоритмами. Переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Поиско вый ро бот Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Сайт можно ограничить от индексации.
Поисковый запрос Поисковой запрос - исходная информация для осуществления поиска с помощью поисковой системы. Чаще всего поисковый запрос задаётся в виде набора слов или фразы, иногда — используя расширенные возможности языка запросов поисковой системы.
Три категории запросов Информационные запросы. Навигационные запросы. Транзакционные запросы.
Три категории запросов купить книгу «Ешь. Молись. Люби. » суть идеи синергетики как отключить автозапуск в flowplayer сайт колледжа телекоммуникаций и информатики смотреть сериал «Друзья» онлайн забронировать гостиницу в Риме ГОСТ на асбест листовой полкласса как пишется адрес салона «Volvo» Москва
Язы к запро сов — это искусственный язык, на котором делаются запросы к базам данных и другим информационным системам, особенно к информационно-поисковым системам. Какие языки запросов вам известны?
Яндекс Как найти точную фразу или форму слова Заключите фразу или слово в кавычки, и Яндекс будет искать вебстраницы, где есть ровно такая фраза (форма слова). ["я к вам пишу"] Как найти цитату, в которой пропущено слово Возьмите всю цитату в кавычки, а вместо пропущенного слова поставьте звездочку *. ["ночь улица * аптека"] Как найти любые из нескольких слов Просто перечислите все подходящие варианты через вертикальный слеш: |. [ананасы | рябчики | шампанское] [дачные участки (рублевское | киевское | минское) шоссе]
Яндекс Как найти слова в пределах одного предложения Используйте оператор «амперсанд» &. [памятник Пушкину & Псков] Как исключить слово из поиска Поставьте минус перед словом, которое вы не хотите видеть в ответах. [мумий тролль мультфильм -рок -лагутенко] [схемы вязания спицами -купить] Как искать на определенном сайте Для этого подойдет оператор site. [конституция рф site: consultant. ru] [маяковский окна site: lib. ru]
Яндекс Как искать документы определенного типа Вам нужен оператор mime. [заявление на загранпаспорт mime: pdf] Как искать на сайтах на определенном языке С помощью оператора lang. [void gl. Clear. Color lang: ru]
Как ищут мужчины и женщины? Весной 2011 года Яндекс научился автоматически определять пользователей поиска — с помощью технологии Матрикснет.
Как ищут мужчины и женщины Мужчины тратят на поиск немного меньше времени, чем женщины. Основные различия между поисковым поведением мужчин и женщин — в самих поисковых запросах. Мужские запросы немного короче женских. При этом мужчины делают опечатки чуть чаще, чем женщины. И то, и другое отчасти связано с тем, что женщины чаще копируют в поисковую строку длинные цитаты — запрос получается длинным, а ошибиться в нём невозможно.
Как ищут мужчины и женщины Женщины чаще общаются с поисковой системой на естественном языке. Например, они задают больше запросов в форме вопросов с использованием вопросительных слов. Среди запросов со словами «что» и «как» и у мужчин, и у женщин наиболее популярны [что такое любовь] и [как правильно целоваться]. Запросы [что посмотреть из фильмов 2010] и [как заработать в интернете] чаще задают мужчины, а [что приготовить на ужин быстро и вкусно] и [как похудеть] — женщины.
Как ищут мужчины и женщины По данным поиска Яндекса, названия цветов чаще встречаются в женских запросах, чем в мужских. Числа встречаются в мужских запросах в 1, 7 раза чаще, чем в женских. В мужских запросах это в первую очередь артикулы различных товаров, в женских — даты и разнообразные номера. По запросам с числами заметно, что женщины ищут очень много всего, связанного с детьми, — числа в женских запросах часто обозначают номера детских садов, школ и классов в школе, а также возраст детей.
Как ищут мужчины и женщины Латиница присутствует почти в трети мужских запросов и всего в 13% женских. Такая большая разница связана с тем, что мужчины часто ищут названия брендов и софта. Среди женских запросов на латинице около 40% составляют адреса сайтов, по ошибке введенные в поисковую строку, и запросы, набранные в неправильной раскладке клавиатуры.
Как ищут мужчины и женщины По данным поиска Яндекса, самые «мужские» темы — это ИТ и компьютерные игры, а самые «женские» — отношения между людьми, дети и поиск работы Мужчины чаще ищут материалы, чтобы самостоятельно решить ту или иную проблему — например, спрашивают про документацию и отзывы о товарах и организациях. Женщины склонны искать в интернете готовые ответы на вопросы — они чаще задают запросы, которые требуют однозначного ответа, а документацией и отзывами интересуются реже.
Ранжирование - выстраивание поисковой системой веб-страниц (сайтов) по наибольшему их соответствию конкретному запросу. Метод баллов (метод накопления суммарного балла) - методика ранжирования сайтов и ключевых слов, когда определенным критериям оценки присваиваются определенные баллы, а затем эти баллы суммируют.
Ранжирование Подход к выбору критериев ранжирования у разработчиков алгоритма работы поисковых систем различен. Этим объясняется разный рейтинг сайта по одним и тем же ключевым словам в результатах запросов разных поисковых систем.
Основные направления работы Поисковая система учитывает следующие параметры сайта при вычислении его релевантности: плотность ключевых слов (сложные алгоритмы современных поисковиков позволяют производить семантический анализ текста, чтобы отсеять поисковый спам, в котором ключевое слово встречается слишком часто).
Основные направления работы Поисковая система учитывает следующие параметры сайта при вычислении его релевантности: индекс цитирования сайта, зависящий от количества и авторитетности веб-ресурсов, ссылающихся на данный сайт; многими поисковиками не учитываются взаимные ссылки (друг на друга). Зачастую также важно, чтобы ссылки были с сайтов схожей тематики, что и оптимизируемый сайт.
Упрощенная формула метода баллов ∑ = ∆n = К 1∆1 + К 2∆2 + К 3∆3. . . + Кm∆к где: ∆n - суммарный балл значимости сайта или ключевого слова сайта; ∆1, ∆2, ∆3. . . ∆к - значимость отдельного критерия, по которому оценивается значимость сайта или ключевого слова сайта. K 1, K 2, K 3. . . Km - поправочные коэффициенты.
Упрощенная формула ранжирования ключевых слов сайта методом баллов ∑ = ∆n = К 1∆1 + К 2∆2 + К 3∆3. . . + Кm∆к где ∆n - значимость отдельного критерия, по которому оценивается значимость сайта или ключевого слова сайта, например: ∆1 - число ключевых слов в сайте; ∆2 - число ключевых слов в веб-странице; ∆3 - число ключевых слов в тэге "title"; ∆4 - число ключевых слов в мета тэге "description"; ∆5 - число ключевых слов в мета тэге "keywords"; ∆6 - число ключевых слов в замещающем тексте; ∆7 - месторасположение ключевого слова на веб-странице; ∆8 - глубина веб-страницы, на которой расположено ключевое слово сайта; ∆9 - стиль оформления ключевого слова; ∆10 - число ссылок на веб-страницу, на которой расположено ключевое слово. ∆к - иные критерии.
Релева нтность=Адекватность Релевантность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа. Релевантность=Адекватность, то есть не только оценка степени соответствия, но и степени практической применимости результата.
Метаданные Ø Ø Метаданные — это субканальная информация об используемых данных. Этот термин используется для любой информации о данных: именах таблиц, колонок в таблице в базах данных, номер версии в файле программы дата изменения версии файла имя автора информации и т. п.
Метаданные Структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими.
Метаданные = информация об информации
Различие между данными и метаданными Что-то может являться как данными, так и метаданными (пример с заголовком статьи) Данные и метаданные могут меняться ролями. (пример со стихом и музыкой) Возможно создание мета-…-метаданных
Использование метаданных Метаданные используются для повышения качества поиска. Поисковые запросы, использующие метаданные, могут спасти пользователя от лишней ручной работы по фильтрации. (пример про Ван Гога) Такой подход, называемый представлением знаний, находится в сфере интересов Семантической паутины.
Классификация метаданных Ø Ø По содержанию. Метаданные могут описывать сам ресурс (например, название и размер файла), либо содержимое ресурса (например, «в этом видеофайле показано как парень играет в футбол» ).
Классификация метаданных По отношению к ресурсу в целом. Метаданные могут относиться к ресурсу в целом или к его частям. Например, «Title» (название фильма) относится к фильму в целом, а «Scene description» (описание эпизода фильма) отдельное для каждого эпизода фильма.
Классификация метаданных По возможности логического вывода. Метаданные можно подразделить на три слоя: нижний слой — это «сырые» данные сами по себе; средний слой — метаданные, описывающие эти данные; и верхний слой — метаданные, которые позволяют делать логический вывод, используя второй слой.
Поиско вая оптимиза ция
Поиско вая оптимиза ция (англ. search engine optimization, SEO) — комплекс мер для поднятия позиций сайта в результатах выдачи поисковых систем по определенным запросам пользователей. Обычно, чем выше позиция сайта в результатах поиска, тем больше заинтересованных посетителей переходит на него с поисковых систем.
Факторы Работа по оптимизации включает в себя работу с внутренними факторами (находятся под контролем владельца веб-сайта) внешними факторами
Внутренние факторы приведение текста и разметки страниц в соответствие с выбранными запросами, улучшение качества и количества текста на сайте, стилистическое оформление текста (заголовки, жирный шрифт), улучшение структуры и навигации, использование внутренних ссылок
Внешние факторы определяют релевантность сайта на основании цитируемости его внешними веб-ресурсами, а также их авторитетности.
Методы внешней поисковой оптимизации Регистрация в самостоятельных каталогах. Регистрация в каталогах поисковых систем таких как. Обмен ссылками. Размещение статей. Социальные сети. Пресс-релизы. Создание и ведение блогов.
К факторам, понижающим рейтинг сайта, относятся не уникальный контент (статьи, новости и т. д. ); технологии, которые поисковые машины рассматривают как спам; слишком длинные URL; избыточное число внешних ссылок; Java. Script; фреймы; графическая навигация; переадресация URL.
Методы оптимизации Белая оптимизация оптимизаторская работа над ресурсом без применения официально запрещённых каждой поисковой системой методов раскрутки ресурса — без влияния на поисковые алгоритмы сайтов. Это включает в себя работу над самим сайтом, а именно над внутренней навигацией и содержимым, и работу с внешней средой сайта, то есть продвижением оптимизируемого сайта путем обзоров, пресс-релизов, регистрации в социальных закладках, партнерских программ и т. п. с указанием ссылок на сайт. С
Методы оптимизации Серая оптимизация К серой поисковой оптимизации можно отнести добавление большого количества ключевых слов в текст страницы, зачастую в ущерб читабельности для человека, например: «Масло масляное, потому что в нём есть маслопроизводные масляные жиры» . При этом задача SEO-копирайтера — написать оригинальный текст таким образом, чтобы подобная оптимизация была как можно менее заметна «живому» читателю. Другой пример серой оптимизации — дорвей без редиректа, когда при попадании на дорвей не происходит автоматического перенаправления на продвигаемый сайт.
Методы оптимизации Чёрная оптимизация К чёрной оптимизации относятся все методы, которые в корне противоречат правилам поисковых систем и, как следствие, влекут за собой бан целевого проекта.
Поиско вый спам (спамдексинг или веб-спам) — сайты и страницы в Интернете, созданные с целью манипуляции результатами поиска в поисковых машинах — в конечном счете, для обмана пользователя.
Поиско вый спам Не имеющие отношения к содержимому страницы, но популярные в поисковых запросах слова в тегах, например «sex» , «халява» . «Невидимый текст» — текст, невидимый для посетителя страницы, но индексируемый поисковой машиной.
Поиско вый спам «Накачка» текста ключевыми словами — искусственное повышение частоты ключевого слова или выражения в тексте и использование элементов разметки для искусственного повышения веса ключевого слова.
Поиско вый спам Ссылочный спам — ссылки, «накручивающие» параметр «link popularity» и Page. Rank сайта. Маскировка, или «клоакинг» — анализ переменных запроса, при котором поисковой машине отдается содержимое сайта, отличное от того, которое видит пользователь.
Поиско вый спам Дорвеи — промежуточные страницы, созданные для накрутки веса страницы при ссылочном ранжировании. В соответствии с технологией дорвеев в поисковом индексе надо продвигать специальную страницу дорвей. А уже с этой страницы перенаправлять на рекламную.
Последствия использования поискового спама Генерирует множество мусорного контента, затрудняя эффективную работу поисковых серверов. Искажает объективное ранжирование интернетресурсов и релевантность поисковых результатов. Делает затруднительным поиск «добропорядочных» страниц c редким содержимым и прописанными ключевыми словами.
Домашнее задание Отдых =)
Занятие 10. поиск информации.pptx