Скачать презентацию Статистические языковые модели в информационном поиске Никита Спирин Скачать презентацию Статистические языковые модели в информационном поиске Никита Спирин

fc789e134d429647d25d7d34a769600e.ppt

  • Количество слайдов: 64

Статистические языковые модели в информационном поиске Никита Спирин, Ph. D candidate University of Illinois Статистические языковые модели в информационном поиске Никита Спирин, Ph. D candidate University of Illinois at Urbana-Champaign, Department of Computer Science Московский Физико-Технический Институт, Факультет Управления и Прикладной Математики nikita. spirin@phystech. edu spirin 2@illinois. edu Skype: spirinus

Что есть информационный поиск (IR)? • “information retrieval is a field concerned with the Что есть информационный поиск (IR)? • “information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information” [Salton, 68] – Information в большинстве случаев есть текст, но может быть и изображением, видео. – Retrieval в основном есть поиск по запросу, но может быть и классификация, фильтрация, резюмирование, . .

Зачем поиск? • Twitter генерирует 250 000 сообщений в день. • 6 000 000 Зачем поиск? • Twitter генерирует 250 000 сообщений в день. • 6 000 000 фотографий в месяц загружается на Facebook. • Более 560 00 профессиональных фотографий загружается в год на Flickr. • Размер индекса Google (нижняя оценка на размер Интернета) в 2008 году достиг 1 000 000 страниц.

Ключевые компоненты поисковой системы? Интернет Краулер Поисковый Индекс Ранжирующая функция Ключевые компоненты поисковой системы? Интернет Краулер Поисковый Индекс Ранжирующая функция

План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение

План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение

Обзор моделей ранжирования • • 1950 – 1960: зарождение данного научного направления – Гипотеза Обзор моделей ранжирования • • 1950 – 1960: зарождение данного научного направления – Гипотеза об автоматической индексируемости коллекций (Luhn) – Первые эксперименты и выработка принципов оценки работы поисковых систем (Cleverdon’s Cranfield 1 и Cranfield 2) – Ранние эксперименты по разработке векторной модели ранжирования (Salton’s прототип-система SMART) 1970 – 1980: бурное развитие информационного поиска – Становление векторной модели ранжирования – Модели ранжирования на основе вероятностного подхода (PRP) 1990: дальнейшее развитие информационного поиска (новые приложения и теоретизирование подходов и моделей) – Статистические языковые модели – Разработка коллекций для объективного сравнения поисковых систем 2000++: Веб поиск, масштабируемость поисковых систем, антиспам – Машинное обучение ранжированию – Map. Reduce, Hadoop, GFS, …

Постановка задачи ранжирования • Дано: – Словарь для данного языка ; – Множество запросов Постановка задачи ранжирования • Дано: – Словарь для данного языка ; – Множество запросов обучения , где каждое слово из запроса содержится в словаре; – Коллекция документов , где каждый документ есть упорядоченное множество слов из словаря; – Для обучающего множества пар запрос/документ задана оценка релевантности • Найти: – Для нового запроса множество релевантных документов (возможно упорядоченное) из коллекции.

Вычисление релевантности: упорядоченное множество или нет? • Стратегия 1 (фильтрация документов) – R(q) = Вычисление релевантности: упорядоченное множество или нет? • Стратегия 1 (фильтрация документов) – R(q) = { d C | f(d, q)=1 }, где f(d, q) {0, 1} есть классификатор, индикаторная функция – Алгоритм должен предсказать абсолютную оценку о релевантности документа запросу. • Стратегия 2 (ранжирование документов) – R(q) = { d C | f(d, q)> }, где f(d, q) есть ранжирующая функция; порог фильтрации – Алгоритм должен предсказать относительную релевантность документов и подобрать оптимальный порог фильтрации.

Вычисление релевантности: упорядоченное множество или нет? Реальная релевантность R(q) - + + - - Вычисление релевантности: упорядоченное множество или нет? Реальная релевантность R(q) - + + - - -+ + + - - - 1 Классификация f(d, q)=? 0 + + ++ + - R’(q) - - - + - - Ранжирование f(d, q)=? 0. 98 d 1 + 0. 95 d 2 + 0. 83 d 3 0. 80 d 4 + 0. 76 d 5 0. 56 d 6 0. 34 d 7 0. 21 d 8 + 0. 21 d 9 - R’(q)

Вычисление релевантности: упорядоченное множество или нет? • Стратегия 1 (фильтрация документов) – R(q) = Вычисление релевантности: упорядоченное множество или нет? • Стратегия 1 (фильтрация документов) – R(q) = { d C | f(d, q)=1 }, где f(d, q) {0, 1} есть классификатор, индикаторная функция – Алгоритм должен предсказать абсолютную оценку о релевантности документа запросу. • Стратегия 2 (ранжирование документов) – R(q) = { d C | f(d, q)> }, где f(d, q) есть ранжирующая функция; порог фильтрации – Алгоритм должен предсказать относительную релевантность документов и подобрать оптимальный порог фильтрации.

Модели на основе текстовой близости (1) • Принцип: – Релевантность документа запросу коррелирует с Модели на основе текстовой близости (1) • Принцип: – Релевантность документа запросу коррелирует с текстовой близостью запроса и документа • Векторная модель ранжирования (VSM) – Документ и запрос представляются, как векторы в пространстве терминов (10 000++ компонент); – Каждому термину присвоен вес, характеризующий его информативность, уникальность; – Релевантность оценивается как некоторая мера близости векторов;

Модели на основе текстовой близости – формально (2) • Документ есть ; • Запрос Модели на основе текстовой близости – формально (2) • Документ есть ; • Запрос есть ; • Вес термина определяется на основе TFIDF, которая учитывает – Частоту слова в документе TF; – Встречаемость слова в коллекции IDF; – Длину документа; • Близость определяется на основе нормированного скалярного произведения (косинусная мера).

Модели на основе текстовой близости (3) • Преимущества векторной модели ранжирования (VSM): – Дает Модели на основе текстовой близости (3) • Преимущества векторной модели ранжирования (VSM): – Дает наилучшие результаты по сравнению с другими классическими моделями; – Очень проста и понятна в реализации; – Существует множество кейсов применения, коллекций и benchmark’ов для сравнения и экспериментов; • Недостатки: – Основана на эвристиках, допускает независимость терминов в запросе и документе; – Сложно расширяема для добавления предметного знания; – Требует тщательной настройки параметров экспертом; – Не объясняет как представлять документы и запросы.

Вероятностный Принцип Ранжирования, PRP (1) • Дано и требуется восстановить отображение. • Выпишем функцию Вероятностный Принцип Ранжирования, PRP (1) • Дано и требуется восстановить отображение. • Выпишем функцию правдоподобия и функцию апостериорного распределения параметров модели

Вероятностный Принцип Ранжирования, PRP (2) • Выпишем функцию распределения финального ответа для нового прецедента Вероятностный Принцип Ранжирования, PRP (2) • Выпишем функцию распределения финального ответа для нового прецедента • Определим функцию потерь при и при , а также байесовский риск , тогда

Модели на основе вероятностных соображений (1) • Принцип: – Какова вероятность того, что данный Модели на основе вероятностных соображений (1) • Принцип: – Какова вероятность того, что данный документ релевантен данному запросу? • Вероятностная модель ранжирования (PRM): – Рассматриваются три случайные величины (запрос, документ, релевантность R {0, 1}); – Цель: упорядочить документы коллекции по убыванию вероятности соответствия документов запросу, P(R=1|Q, D); – Возможны различные способы оценки вероятности в формуле P(R=1|Q, D).

Модели на основе вероятностных соображений (2) • Дискриминативный подход (оценить вероятность напрямую, построить отображение): Модели на основе вероятностных соображений (2) • Дискриминативный подход (оценить вероятность напрямую, построить отображение): – Определить признаки на парах Q x D, например, # совпавших слов, длина документа, величина IDF самого популярного слова на странице, предсказания базовых ранжирующих функций base. R(Q, D), … – Используя обучающее множество (запросы, документы, и известные оценки релевантности на парах), оценить параметры модели ранжирования – Для нового документа породить признаки и применить обученную модель

Модели на основе вероятностных соображений (3) • Генеративный подход (факторизация вероятности в произведение случайных Модели на основе вероятностных соображений (3) • Генеративный подход (факторизация вероятности в произведение случайных величин, оценка релевантности не напрямую) – Вычислить O(R=1|Q, D) по правилу Байеса – Определить порождающую модель P(Q, D|R) • Возможные случаи Не влияет на ранжирование – Генерация документов: P(Q, D|R)=P(D|Q, R)P(Q|R) – Генерация запросов: P(Q, D|R)=P(Q|D, R)P(D|R)

Модели на основе вероятностных соображений – генерация документа Модель релевантных документов для Q Модель Модели на основе вероятностных соображений – генерация документа Модель релевантных документов для Q Модель нерелевантных документов для Q Допустим независимость величин A 1… Ak Пусть D=d 1…dk, где dk {0, 1} есть значение величины Ak (тоже самое для Q=q 1…qm )

Модели на основе вероятностных соображений – генерация документа (RSJ модель) Необходимо оценить по 2 Модели на основе вероятностных соображений – генерация документа (RSJ модель) Необходимо оценить по 2 параметра для каждого термина Ai: pi = P(Ai=1|Q, R=1): вероятность, что Ai ассоциирован с релевантным классом документов; qi = P(Ai=1|Q, R=0): вероятность, что Ai ассоциирован с нерелевантным классом документов. Как оценить данные параметры?

Модели на основе вероятностных соображений – генерация запроса Вероятность запроса p(q| d) Априорная релевантность Модели на основе вероятностных соображений – генерация запроса Вероятность запроса p(q| d) Априорная релевантность документа При допущении о равномерной априорной вероятности получим Следовательно, вопрос заключается в том как оценить вероятность запроса по документу? Процесс состоит из 2 ключевых стадий: • оценить лингвистическую модель для каждого документа D • вычислить релевантности документов запросу на основе этих моделей.

Другие модели ранжирования • Подход на основе графических моделей – Принцип: вывести по-байесовски, что Другие модели ранжирования • Подход на основе графических моделей – Принцип: вывести по-байесовски, что запрос релевантен документу • Подход на основе генетических алгоритмов и символьной регрессии – Принцип: порождение моделей и отбор наиболее перспективных • Подход на основе оптимизации эмпирического риска • Эвристический подход на основе структурных свойств функции ранжирования

План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение

Статистические языковые модели - SLM (определение) • Вероятностное распределение на множестве словарных последовательностей: – Статистические языковые модели - SLM (определение) • Вероятностное распределение на множестве словарных последовательностей: – p(“Мама мыла раму”) 0. 001; – p(“Рама мыла маму”) 0. 0000001; – p(“Матрица Грамма в унитарном пространстве эрмитова”) 0. 00001. • Может быть использована для порождения текста, если рассматривать как случайный процесс семплирования слов из данного вероятностного распределения. Поэтому также можно встретить термин генеративная модель языка. • Зависит от коллекции, тематики, типа модели.

Статистические языковые модели (примеры применения) • Позволяет вероятностно описывать естественный язык в рамках теоретически Статистические языковые модели (примеры применения) • Позволяет вероятностно описывать естественный язык в рамках теоретически обоснованной гибкой модели. • С помощью SLM можно отвечать на вопросы: – Для словосочетания “Мама мыла”, какова вероятность того, что следующим словом будет “раму”? А “машину”? А “танк”? (распознавание речи) – Если слово “Евро” встретилось 1 раз и “футбол” 4 раза в статье, какова вероятность, что данная статья про спорт по сравнению с финансами? (информационный поиск, категоризация текста) – Если пользователь любит футбол, какова вероятность того, что он употребит слово “гол” в запросе? (информационный поиск на основе SLM)

Простейшая статистическая языковая модель – Unigram Language Model (ULM) • Текст генерируется последовательно посредством Простейшая статистическая языковая модель – Unigram Language Model (ULM) • Текст генерируется последовательно посредством выбора с возвращением так, что слова в последовательности независимы. • То есть p(w 1 w 2. . . wn)=p(w 1)p(w 2)…p(wn). • Параметры модели: {p(wi)} таковы, что p(w 1)+…+p(w. N)=1, где (N размер словаря V) • Формально, ULM есть мультиномиальное распределение на множестве слов.

Простейшая статистическая языковая LM Text Generation with Unigram модель – Unigram Language Model (ULM) Простейшая статистическая языковая LM Text Generation with Unigram модель – Unigram Language Model (ULM) ULM с вектором параметров Документ d Семплирование с возвращением p(w| ) … Тема 1: Математика вектор 0. 1 базис 0. 05 матрица 0. 1 след 0. 02 … мяч 0. 00001 Учебник по аналитической геометрии … … Тема 2: Спорт базис 0. 0005 игра 0. 25 мяч 0. 1 тренировка 0. 2 … Новость по футболу

Простейшая статистическая языковая модель – Unigram Language Model (ULM) ULM с вектором параметров Документ Простейшая статистическая языковая модель – Unigram Language Model (ULM) ULM с вектором параметров Документ d Подсчет встречаемости, обучение p(w| ) … … 1/1000 50/1000 20/1000 10/1000 базис 0. 001 игра 0. 05 мяч 0. 02 тренировка 0. 01 100/1000 футбол 0. 1 … базис 1 игра 50 мяч 20 тренировка 10 Всего # слов гонка 0 = 1000 … футбол 100 … Как оценить качество модели? Является ли данная модель хорошей? Модель восстановленная по данному документу присваивает наибольшую вероятность данному документу, но обобщающая способность такой модели низкая => сглаживание (рассмотрим далее)

Оценка статистических языковых моделей Evaluation of SLMs • Прямая оценка качества: Как хорошо модель Оценка статистических языковых моделей Evaluation of SLMs • Прямая оценка качества: Как хорошо модель предсказывает данные, по которым она была обучена? – Примеры: правдоподобие, perplexity, кросс энтропия, KL -divergence (в общем и в целом все эквивалентны) • Косвенная оценка качества: Способствует ли данная модель повышению качества конечной задачи (перевод, поиск, . . )? – Конкретная метрика проблемно-зависимая – В случае IR мы смотрим на то, как данная модель повышает качество поиска, что в свою очередь оценивается эвристическими метриками типа (DCG, MRR, MAP, . . ) – Предпосылка данного подхода: более качественная лингвистическая модель приводит к повышению качества решения конечной задачи, но не факт!

Более сложные статистические языковые модели • N-gram модель – Имеет вид, p(w 1 w Более сложные статистические языковые модели • N-gram модель – Имеет вид, p(w 1 w 2. . . wn)=p(w 1)p(w 2|w 1)…p(wn|w 1 …wn-1); – n-gram означает, что модель генерации зависит от предыдущих n-1 слов; – Например, модель на основе биграмм имеет вид p(w 1. . . wn)=p(w 1)p(w 2|w 1) p(w 3|w 2) …p(wn|wn-1). • Модели, учитывающие удаленные взаимодействия терминов (Maximum Entropy Language Model, etc. ). • Структурные языковые модели (probabilistic contextfree grammar, PCFG). • В случае информационного поиска используются в большинстве случаев только Unigram Language Model.

Почему используются только языковые модели нулевого порядка (ULM)? • Сложность перехода к более мощным Почему используются только языковые модели нулевого порядка (ULM)? • Сложность перехода к более мощным языковым моделям: – Требуется настраивать больше параметров => требуется больше данных для качественной настройки (Модель, восстановленная по 100 документам, ужасна). – Приводят к значительным вычислительным проблемам по времени отклика при запросе и по затратам на хранение. • Учет структуры текста/предложений не нужен/малоэффективен для выявления тематической релевантности. Однако, используется активно в IE. • Но применение более сложных моделей может и должно привести в общем случае к повышению качества конечных приложений, в частности поиска!

План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение

Базовая модель ранжирования с использованием ULM, правдоподобие запроса (1) Документ Статья по Байесовским сетям Базовая модель ранжирования с использованием ULM, правдоподобие запроса (1) Документ Статья по Байесовским сетям Лингвистическая модель … text ? mining ? inference ? Bayes ? … спорт ? … Статья-обзор о чемпионате Европы 2012 … сегодня? матч ? продуктивно ? гол ? … Запрос Q = “машинное обучение” ? Какая модель наиболее вероятно породила данный запрос?

Базовая модель ранжирования с использованием ULM, правдоподобие запроса (2) LMs документов d 1 d Базовая модель ранжирования с использованием ULM, правдоподобие запроса (2) LMs документов d 1 d 2 … d. N Правдоподобие запроса p(q| d 1) q p(q| d 2) p(q| d. N) d. N 2 ключевых вопроса: • Какую вероятностную модель следует использовать? • Как эффективно вычислить di?

Различные языковые модели генерации текста • Multi-Bernoulli: моделирует наличие/отсутствие слов – q= (x 1, Различные языковые модели генерации текста • Multi-Bernoulli: моделирует наличие/отсутствие слов – q= (x 1, …, x|V|), xi =1 если слово wi есть в документе; xi =0 если нет; – Параметры: { p(wi=1|d), p(wi=0|d)}, так что p(wi=1|d)+ p(wi=0|d) = 1. • Мультиномиальное (ULM): моделирует частоту слов – Q = q 1, …qm , где qj есть слово из запроса – c(wi, q) есть частота слова wi в запросе Q – Parameters: {p(wi|d)} таковы, что p(w 1|d)+… p(w|v||d) = 1. Большинство работ используют мультиномиальное распределение, что показывает наилучшие результаты согласно вычислительным экспериментам.

Ключевой принцип/задача в SLM-IR • • Задача поиска => Задача оценки лингвистической модели документа Ключевой принцип/задача в SLM-IR • • Задача поиска => Задача оценки лингвистической модели документа p(wi|d) В лингвистических моделях сглаживание играет ключевую роль, что в свою очередь является ключевым фактором в различии соответствующих ранжирующих функций.

Методы сглаживания • Все методы сглаживания основаны на идее: – Дисконтировать вероятность слов, существующих Методы сглаживания • Все методы сглаживания основаны на идее: – Дисконтировать вероятность слов, существующих в документе; – Перераспределить “отобранную” вероятность среди слов, несуществующих в документе. • Лапласовское сглаживание (additive smoothing) предлагает прибавлять единицу к частоте каждого слова и нормализовывать. Частота w в d Лапласов фактор Размер словаря Длина документа d (общее число слов)

Иллюстрация идеи сглаживания LM P(w) Оценка по ММП Сглаженная LM Word w Иллюстрация идеи сглаживания LM P(w) Оценка по ММП Сглаженная LM Word w

Развитие идеи: Сглаживание на основе коллекции документов (Jelinek-Mercer) • Правильно ли рассматривать все слова Развитие идеи: Сглаживание на основе коллекции документов (Jelinek-Mercer) • Правильно ли рассматривать все слова одинаково? – Нет. • Мы можем использовать языковую модель, построенную на основе коллекции для персонифицированной обработки слов. Дисконтированная ММП оценка Языковая модель коллекции

Развитие идеи: Сглаживание на основе коллекции документов c априорным распределением (Dirichlet) • Формально распределение Развитие идеи: Сглаживание на основе коллекции документов c априорным распределением (Dirichlet) • Формально распределение Дирихле есть , где . • Примечательным свойством распределения Дирихле является его связь с мультиномиальным: • А следовательно, согласно Байесовскому выводу, имеем:

Сравнение простых моделей ранжирования на основе статистических языковых моделей Сравнение простых моделей ранжирования на основе статистических языковых моделей

Почему сглаживание особенно важно в случае информационного поиска? Принцип ранжирования со сглаживанием в общей Почему сглаживание особенно важно в случае информационного поиска? Принцип ранжирования со сглаживанием в общей форме Общая формула сглаживания Дисконтированная оценка ММП ULM коллекции

Сравнение с классическими эвристиками информационного поиска TF вес Суммирование по словам из запроса и Сравнение с классическими эвристиками информационного поиска TF вес Суммирование по словам из запроса и документа Нормализация длины документа (длинные документы дисконтируются меньше) IDF-дисконтирование Не важно для ранжирования • Сглаживание коллекцией p(w|C) есть TFIDF + норм. длины, а следовательно сглаживание есть реализация классических эвристик информационного поиска. • SLM-IR с простым сглаживанием может быть также эффективно вычислена, как и классические модели ранжирования.

Двустадийное сглаживание (Dirichlet + Jelinek-Mercer) Стадия 1 Сглаживание пропущенных слов по-байесовски Стадия 2 Моделирование Двустадийное сглаживание (Dirichlet + Jelinek-Mercer) Стадия 1 Сглаживание пропущенных слов по-байесовски Стадия 2 Моделирование шума в запросе LM коллекции Языковая модель пользователя (аппроксимация по коллекции p(w|C))

План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение

Перечень продвинутых моделей ранжирования на основе SLM • Языковые модели, учитывающие интеракции терминов и Перечень продвинутых моделей ранжирования на основе SLM • Языковые модели, учитывающие интеракции терминов и структуру запросов (n-gram, PCFG) • Кластерное сглаживание (cosine, LDA, PLSI) • Транслитерационная модель (семантическое сглаживание, кросс-языковое сглаживание) • Модель на основе полного Байесовского вывода • Модель, моделирующая шум в запросе на основе смеси распределений (определение информативных и неинформативных терминов в запросе)

Перечень продвинутых моделей ранжирования на основе SLM • Языковые модели, учитывающие интеракции терминов и Перечень продвинутых моделей ранжирования на основе SLM • Языковые модели, учитывающие интеракции терминов и структуру запросов (n-gram, PCFG) • Кластерное сглаживание (cosine, LDA, PLSI) • Транслитерационная модель (семантическое сглаживание, кросс-языковое сглаживание) • Модель на основе полного Байесовского вывода • Модель, моделирующая шум в запросе на основе смеси распределений (определение информативных и неинформативных терминов в запросе)

Языковые модели с “длинным” горизонтом • Учитывают последовательные интеракции терминов в запросе: • Учитывают Языковые модели с “длинным” горизонтом • Учитывают последовательные интеракции терминов в запросе: • Учитывают структуру запроса и документа: • Данные модели не приводят к значительному повышению качества поиска, так как: – Требуется настройка колоссального числа параметров; – Эффект от моделирования последовательности слов в запросе не значителен и учитывается косвенно в ULM.

Кластерное сглаживание (1) • Идея: – Кластеризовать документы и сгладить языковую модель документа на Кластерное сглаживание (1) • Идея: – Кластеризовать документы и сгладить языковую модель документа на основе языковой модели соответствующего кластера документов. • Согласно экспериментам данный подход не приводит к значимому увеличению качества. • Причина: жесткая кластеризация и неудачная настройка параметров приводят к тому, что модель дисконтирует ключевые слова из данного кластера.

Кластерное сглаживание - Dirichlet (2) • Предпосылка: – Коллекция документов состоит из k тем. Кластерное сглаживание - Dirichlet (2) • Предпосылка: – Коллекция документов состоит из k тем. – Каждый кластер представляется как нечеткое распределение на множестве тем. • По результатам экспериментов данный подход явно показывает положительный эффект от кластерного сглаживания. • Однако, данный подход не используется на практике для больших коллекций из-за трудоемкости построения LDA для больших коллекций.

Кластерное сглаживание – центрирование на документах (3) • Что делать если документ находится на Кластерное сглаживание – центрирование на документах (3) • Что делать если документ находится на границе кластеров? • Осуществляем сглаживание на основе соседей.

Транслитерационная языковая модель ранжирования • Мотивация: – Все рассмотренные модели осуществляют поиск на основе Транслитерационная языковая модель ранжирования • Мотивация: – Все рассмотренные модели осуществляют поиск на основе слов непосредственно указанных в запросе. Теряем ли мы часть важных документов при этом? – Да. • Транслитерационная модель учитывает семантические связи между словами в запросе и документах Транслитерационная модель Обычная LM • Позволяет увеличить качество поиска значительно (полнота), но в свою очередь возникают новые вопросы, связанные с обучением транслитерационной модели и эффективностью исполнения запросов.

План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение

Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Мотивация: – Модели ранжирования Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Мотивация: – Модели ранжирования на основе близости документов и вероятностных методов генерации документов легко позволяют учитывать обратную связь по предпочтениям пользователей. – Модели на основе правдоподобия запроса (на основе статистических языковых моделей) не позволяют легко учитывать данную информацию. • Подход: – Аналогично векторной модели ранжирования мы представим документ и запрос в одном пространстве (теперь вероятностном) и определим меру близости для оценки релевантности.

Обратная связь в классической векторной модели ранжирования Релевантные документы Новый запрос Нерелевантные документы Исходный Обратная связь в классической векторной модели ранжирования Релевантные документы Новый запрос Нерелевантные документы Исходный запрос - + ++ - - - q ++ + - + + + + - - -- -- -

Обратная связь в моделях на основе вероятностного принципа ранжирования Релевантные док. Генерация документов: Правдоподобие Обратная связь в моделях на основе вероятностного принципа ранжирования Релевантные док. Генерация документов: Правдоподобие запроса (языковая модель): (q 1, d 1, 1) (q 1, d 2, 1) (q 1, d 3, 1) P(D|Q, R=1) (q 1, d 4, 0) (q 1, d 5, 0) P(D|Q, R=0) (q 3, d 1, 1) (q 4, d 1, 1) (q 5, d 1, 1) (q 6, d 2, 1) (q 6, d 3, 0) P(Q|D, R=1) Нерелевантные док. Модель “релевантных” запросов Прямой запрос: - P(Q|D, R=1) языковая модель достигает лучшего качества. Обратная связь: - P(D|Q, R=1) улучшаема для данного запроса и новых документов - P(Q|D, R=1) улучшаема, но для новых запросов и данного документа.

Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Компоненты: – Модель представления: Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Компоненты: – Модель представления: статистическая языковая модель; – Функция близости: KL-расстояние. Не важно для ранжирования

Связь с базовой моделью на основе правдоподобия запроса • ММП оценка языковой модели запроса Связь с базовой моделью на основе правдоподобия запроса • ММП оценка языковой модели запроса имеет вид: • Выпишем формулу ранжирования документов на основе KL-расстояния:

Модель учета обратной связи Документ D Поисковая выдача Запрос Q Модель обратной связи Алгоритм Модель учета обратной связи Документ D Поисковая выдача Запрос Q Модель обратной связи Алгоритм разделения смеси Обратная связь F={d 1, d 2 , …, dn}

План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение

Сравнение классических моделей ранжирования и на основе статистических языковых моделей • Преимущества: – Теоретическое Сравнение классических моделей ранжирования и на основе статистических языковых моделей • Преимущества: – Теоретическое обоснование (понятная настройка параметров, обоснованные вероятностные предположения, обобщает существующие подходы). – Расширяема для специальных задач (тематики, поиск отзывов. . ). – Масса исследований в смежных областях (NLP, сигналы, . . ). – Достигает превосходного качества ранжирования и сравнима, либо доминирует классические модели ранжирования. – Позволяет учитывать обратную связь о релевантности документов. • Недостатки: – Требует задание генеративного подхода (трудно оценить). – Вычислительно более дорогостоящая для достижения схожего качества ранжирования.

Статистические языковые модели в информационном поиске – status quo • Теоретическое обоснование применения языковых Статистические языковые модели в информационном поиске – status quo • Теоретическое обоснование применения языковых моделей в поиске. • Эмпирически модели данного семейства показывают превосходное качество в задаче ранжирования: – Базовая модель ранжирования с сглаживанием по Дирихле – Базовая модель ранжирования + предметные априорные оценки релевантности документов (URL, Page. Rank, . . ). – Транслитерационная модель учитывает семантические связи между словами одного и разных языков. – Модель с KL-расстоянием – наилучший способ учесть обратную связь о релевантности документов. – Продвинутые модели (смеси распределений, байесовский вывод) демонстрируют как можно расширять модель. • Полностью автоматическая настройка параметров.

Спасибо за внимание! • Никита Спирин, Ph. D candidate • University of Illinois at Спасибо за внимание! • Никита Спирин, Ph. D candidate • University of Illinois at Urbana-Champaign, Department of Computer Science • Московский Физико-Технический Институт, Факультет Управления и Прикладной Математики nikita. spirin@phystech. edu spirin 2@illinois. edu Skype: spirinus