
f80b2ee1b99c622f01b4f2d596bd0427.ppt
- Количество слайдов: 53
Название Определение географического местоположения интернет ресурсов Дмитрий Соловьев, Андрей Калинин Поиск@Mail. Ru d. soloviev@corp. mail. ru, kalinin@corp. mail. ru … 1 ….
Введение География для поиска информации Предпосылки 1 Значительный рост региональной аудитории. Суммарный рост В регионах … 2 ….
Введение География для поиска информации Предпосылки 2 Рост количества региональных сайтов. География распределение сайтов Рост количества региональных сайтов с 05. 2011 по 09. 2011 … 3 ….
Введение География для поиска информации Резюме 1. Региональные пользователи формируют пул региональных запросов. 2. Для региональных запросов наиболее релевантными будут региональные сайты. … 4 ….
Введение География для поиска информации Резюме Используя одни и те же слова, разные люди, хотят получить различные результаты. Для повышения качества ответа поисковой машины нужно учитывать взаимное расположение пользователя и сайта Задача не очень хорошо решается при помощи использования поиска по ключевым словам. Нужны дополнительные метаданные для формирования высокоуровневых семантических запросов … 5 ….
Введение Источники данных Каталоги WHOIS Контент страниц Статистика посещений … 6 ….
Введение Цель Разработка и исследование методов привязки ресурса к географии. На основе анализа посещаемости ресурса пользователями На основе анализа контента страниц ресурса … 7 ….
Геопривязка ресурса на основе анализа посещаемости пользователей … 8 ….
Анализ посещаемости ресурса Предположение: Если сайт посещаем пользователями одного региона, то он имеет тематическую привязку, направленную на данный регион Можно осуществить локализацию данного ресурса … 9 ….
Анализ посещаемости ресурса Пример IRR. RU ekaterinburg. irr. ru (Екатеринбург) kazan. irr. ru samara. irr. ru (Самара) (Казань) saint-petersburg. irr. ru (Санкт-Петербург) nizhniynovgorod. irr. ru (Нижний Новгород) … 10 ….
Анализ посещаемости ресурса Описание метода 1 Построим гистограмму распределения количества пользователей посетивших ресурс по регионам и введем обозначения: - частота посещений ресурса для выбранного региона. - коэффициент неравномерности распределения пользователей в регионах. - нормализованная частота посещений в регионе … 11 ….
Анализ посещаемости ресурса Описание метода 2 Выберем расчетный период. Путем проведения ряда экспериментов был определен оптимальный период: 1 месяц … 12 ….
Анализ посещаемости ресурса Описание метода 3 Как показали эксперименты, усреднение гистограммы за полный период может быть не корректно из-за возможных всплесков. Решение: Разделить весь диапазон на сегменты тогда … 13 ….
Анализ посещаемости ресурса Описание метода 4 Для каждого сегмента рассчитаем нормализованную частоту: частота посещений для региона, рассчитанная в рамках одного сегмента. … 14 ….
Анализ посещаемости ресурса Описание метода 5 Для каждого сегмента определяется регион с максимальной нормализованной частотой: - множество значений частот для данного сегмента. … 15 ….
Анализ посещаемости ресурса Описание метода 6 Для каждого региона в рамках одного сегмента вычислим пороговую величину: По всем сегментам региона рассчитывается агрегированная величина: - общее количество сегментов данных. … 16 ….
Анализ посещаемости ресурса Описание метода 7 По результатам определяется принадлежность ресурса региону R на множестве пороговый коэффициент исключает попадание ресурса в регион с низким рейтингом. … 17 ….
Геопривязка ресурса на основе анализа контента страниц … 18 ….
Анализа контента страниц Описание метода Решение задачи извлечения информации разобьем на части: 1 определение типовых шаблонов сайтов, на которых может размещаться информация о месте расположения организации; извлечение кандидатов для последующей привязки сайта к географической информации; фильтрация кандидатов. … 19 ….
Анализа контента страниц Описание метода Определение типовых шаблонов. 2 проанализирована структура сайтов организаций отобраны наиболее часто встречающиеся типовые шаблоны сайтов; по результатам анализа можно выделить следующие три этапа; … 20 ….
Анализа контента страниц Описание метода 3 Определение типовых шаблонов. Поиск адресов на корневой странице сайта. Поиск ссылок на страницу «Контакты» . Поиск адресов на странице «Контакты» … 21 ….
Анализа контента страниц Определение типовых шаблонов 4 Одним из наиболее часто встречающихся мест расположения контактной информации является корневая страница Возможные ссылки на контакты Возможный адрес … 22 ….
Анализа контента страниц Определение типовых шаблонов 5 Часто встречающимся местом расположения контактной информации является страница «Контакты» Возможный адрес … 23 ….
Анализа контента страниц Описание метода 6 Извлечение кандидатов На корневой странице сайта или странице «Контакты» при помощи словаря городов ищем возможное вхождение адреса. … 24 ….
Анализа контента страниц Описание метода 7 Извлечение кандидатов Используя скрытую Марковскую модель оцениваем последовательность слов окружающих город. Левый и правый контент оценивается отдельно Вычисляем вероятность появления последовательности адреса в окрестности города Используем алгоритм «forward-backward» … 25 ….
Анализа контента страниц Описание метода 8 Извлечение кандидатов Рассматриваем элементы почтового адреса как состояния модели. Уменьшаем количество состояний модели, переводя типовые части адреса в одно состояние. улица шоссе переулок транслируем множество известных географических названий в одно состояние последовательности … 26 ….
Анализа контента страниц Описание метода 8 Извлечение кандидатов Примеры состояний скрытой Марковской модели Описывает город, найденный в словаре Описывает страну, найденную в словаре Описывает один из известных модификаторов улицы (ул, . . . ) … 27 ….
Анализа контента страниц Описание метода 9 Извлечение кандидатов Сформированное таким образом множество состояний модели: … 28 ….
Анализа контента страниц Описание метода 9 Извлечение кандидатов Уменьшение количеств состояний модели приводит к: необходимости вводить матрицы проекций элемента адреса на состояние. уменьшению размера обучающего множества … 29 ….
Анализа контента страниц Описание метода 10 Извлечение кандидатов Строим матрицу вероятностей переходов между состояниями модели: предшествующее состояние системы; текущее состояние системы; рассматриваемый элемент последовательности, принадлежащий множеству … 30 ….
Анализ посещаемости ресурса Описание метода 11 Извлечение кандидатов Введем обозначения: состояние, которое принимает система во время t наблюдаемую величину в момент t … 31 ….
Анализ посещаемости ресурса Описание метода 12 Извлечение кандидатов Введем обозначения: элементы матрицы вероятностей перехода из состояния i в состояние j вероятность получить данные состоянии j в … 32 ….
Анализ посещаемости ресурса Описание метода 13 Извлечение кандидатов Введем обозначения: Данные. Последовательность наблюдаемых d принимает значения из V Начальное распределение. … 33 ….
Анализ посещаемости ресурса Описание метода Извлечение кандидатов 14 По полученной модели: Последовательности: Найдем: … 34 ….
Анализа контента страниц Описание метода 15 Извлечение кандидатов Используя построенную модель и зная возможную точку расположения адреса на странице, найденную при помощи словаря городов, производим оценку контекста, в котором находится найденный город, используя процедуру «forward-backward» … 35 ….
Анализа контента страниц Описание метода Пример 16 Состояния модели С — страна S — улица D — район города H — номер дома F — квартира T — город O — разделители. . . Вероятность вхождения слова с большой буквы в состояния модели: C → 1, S → 0. 54, D → 0, 45 Вероятность вхождения цифр в состояния модели: H → 0. 85, F → 0. 142857 … Элемент матрицы вероятностей перехода: T → O (0. 33) S (0. 33) T (0. 33). . . … 36 ….
Фильтрация кандидатов Извлеченные адреса проходят фильтрацию Из страницы извлекается дополнительная информация, как например, телефон, который ставится в соответствие одному или нескольким адресам. Например, проверяем код региона, указанного в номере телефона на соответствие городу, указанному в адресе … 37 ….
Эксперименты … 38 ….
Эксперименты 1 Для экспериментов была взята база страниц скачанных из интернета, содержащая порядка 20 миллионов сайтов и 3, 9 миллиарда страниц На этих данных на основе метода анализа контента страниц проводилась географическая привязка сайта. … 39 ….
Эксперименты 2 Был взята база статистики посещаемости из Top@Mail. Ru - 1 миллион сайтов. На этих данных на основе метода анализа статистики посещаемости проводилась географическая привязка сайта. … 40 ….
Эксперименты 3 Для оценки точности мы отобрали случайным образом порядка 100 сайтов и проверили точность попадания географической привязки, проставленной суммарно по двум методам, и по каждому методу отдельно, сопоставив ее с реальной информацией доступной на сайте. … 41 ….
Эксперименты Анализ контента страниц 4 Количество сайтов взятых для анализа 20 миллионов Сайтов получивших географическую привязку 330 604 Точность геопривязки веб ресурса 97% Полнота охвата исходных данных 1, 6% … 42 ….
Эксперименты Анализ статистики посещаемости 5 Количество сайтов взятых для анализа 1 миллион Сайтов получивших географическую привязку 121 609 Точность геопривязки веб ресурса 76% Полнота охвата исходных данных 12% … 43 ….
Эксперименты Суммарно по сайтам 6 Количество сайтов взятых для анализа 20 миллионов Сайтов получивших географическую привязку 440 213 Точность геопривязки веб ресурса 80% Полнота охвата исходных данных 2, 2% … 44 ….
Эксперименты 7 Пример сайтов, приписанных региону по сумме двух методов Санкт-Петербург spbgu. ru, flot. com, 5 -tv. ru, saint-petersburg. ru, newspb. ru Екатеринбург oblgazeta. ru, doskaurala. ru, medgorodok. ru, urbc. ru, uralweb. ru Киев ati. com. ua, pregnancy. org. ua, football. ua, realt. ua, ukranews. com Были взяты два самых крупных региональных города России и один в Украине, для них случайным образом отобрали пять сайтов, получившие в качестве географического признака идентификатор этого города … 45 ….
Эксперименты Распределение сайтов по регионам 8 … 46 ….
Выводы … 47 ….
Выводы 1 Наиболее точным методом является метод, построенный на основе анализа контента. В его случае точность достигает 97%. Это обусловливается использованием предопределенных шаблонов, словарей, формальных правил для записи адреса. … 48 ….
Выводы 2 Использованием предопределенных шаблонов, словарей, формальных правил для записи адреса. . . приводят к снижению полноты … 49 ….
Выводы 3 Метод, реализованный на основе анализа статистики посещаемости, обладает большей полнотой относительно анализируемого множества сайтов - 12%. … 50 ….
Выводы 4 Недостатки Ограничивается только данными, доступными из статистики посещаемости, - 5% от общего множества сайтов Много статистически не значимых сайтов, порядка 87%, Возможно неверное сопоставления IP адреса пользователя его реальному местоположению. … 51 ….
Выводы По двум методам суммарно 5 Привязку к географии получили: 2, 2 % сайтов. 33% от всех страниц … 52 ….
Выводы Оценка качества фильтрации региональных сайтов по географическим запросам 6 Оценка проводилась независимо для трех различных регионов. В результате этого эксперимента, мы получили удовлетворительное качество ответов поисковой машины, по всем трем регионам. … 53 ….