Эксперимент по автоматической оценке качества обзорного реферирования по

Эксперимент по автоматической оценке качества обзорного реферирования по метрике ROUGE-RUS © С. Д. Тарасов

Оценка качества обзорного реферирования Ручная – связность – краткость (лаконичность) – грамматическая правильность – сложность восприятия – содержание Автоматическая Автоматизированная

ROUGE Recall-Oriented Understudy for Gisting Evaluaion

ROUGE • • Простота использования Высокая скорость Дешевизна Возможность производить оценки в автоматическом режиме • Высокая корреляция с ручными оценками

ROUGE • Автоматическая оценка качества обзорного реферирования • Сравнительная оценка различных методов обзорного реферирования • Исследование и оптимизация отдельно взятого метода

ROUGE-RUS • Русская морфология, список стоп-слов для русского языка • Возможность учитывать синонимы (с использованием концептов тезауруса) • Усреднение (а не максимум) значения при наличии нескольких ручных аннотаций

ROUGE-RUS Общий вид системы по оценке метрики ROUGE-RUS

ROUGE-RUS Результаты вычисления величины ROUGE-RUS

Эксперимент Исходные данные • Google. News ноябрь-декабрь 2008 • 65 кластеров ( «Россия» , «Культура» , «Происшествия» , «Спорт» и др. ) • 21 источник ( «РБК» , «РИА Новости» , «Российская Газета» и т. д. ) • 613 документов

Эксперимент Построение аннотаций • 67 человек (студенты 5 курса БГТУ «Военмех» по специальности АСУ) • 2385 ручных аннотаций • Каждая аннотация: 4 предложения • Отобрано: N=50, M > 40

Распределение ROUGE-RUS Распределение величины ROUGE-1 при сравнении одной ручной аннотации со всеми остальными для произвольного кластера. Значения отсортированы по убыванию

ROUGE-RUS • • Ручные рефераты, порожденные разными пользователями, слабо согласуются друг с другом Использование одного ручного реферата для оценки недостаточно В ручных рефератах, порожденных разными пользователями, практически отсутствует кластеризация Использование морфологии, списка стопслов и словаря синонимов положительно сказывается на пологости кривой

ROUGE-RUS Зависимость дисперсии величины ROUGE-RUS по всем кластерам от K (количества ручных аннотаций)

ROUGE-RUS δ Метод Максимума, % δ Метод усреднения, % К ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 ROUGE-L 1 42. 18 79. 31 108. 69 127. 03 45. 90 5 28. 52 41. 47 49. 00 56. 47 30. 25 25. 10 42. 57 57. 64 67. 85 26. 59 10 24. 58 33. 24 37. 91 43. 38 26. 19 22. 05 35. 39 47. 55 56. 23 23. 07

Исследование и оптимизация параметров алгоритма обзорного реферирования на основе метрики ROUGE-RUS • Алгоритм Manifold Ranking • Базовое значение величины ROUGERUS на кластере (среднее и максимум)

Результат работы базового алгоритма Manifold Ranking • • Красным выделено среднее значение ROUGE-1 Зеленым выделено максимальное значение метрики ROUGE-1 на кластере Желтым выделено среднее значение метрики ROUGE-1 на кластере Голубым цветом показаны величины ROUGE-1 сравнения автоматической аннотации, порожденной алгоритмом, с каждой из 10 ручных

Сравнение с Basic Lines • • BL 1 – 4 первых предложения 1 -го документа BL 2 – первые предложения 4 -х первых документов BL 3 – последние предложения 4 -х первых документов BL 4 – заголовки 4 -х первых документов BL 5 – 4 первых предложения последнего документа BL 6 – последние предложения 4 -х первых документов BL 7 – последние предложения 4 -х последних документов BL 8 – заголовки 4 -х последних документов

Подбор базовых параметров Параметр DUC Реализация α 0, 6 0, 9 λ 1 0, 3 λ 2 1 0, 8 ω 8 10 «Игнорировать темы» - Да Мин. кол-во слов в предложении - 3 Мин. дистанция до анафоры - 4

Подбор базовых параметров

Ограничение длины документов

Влияние выбора темы

Выбор темы Не удалось выявить зависимость от • Дата публикации • Кол-во слов в предложении • Кол-во существительных в предложении Модифицированный алгоритм • Использование нескольких тем

Модифицированный алгоритм • • • Заголовки всех документов Заголовки из первых двух документов Заголовки из первых четырех документов Заголовки из последних двух документов Заголовки из последних четырех документов

Результаты Выбор темы ROUGE-1 ROUGE-2 ROUGE-L 0. 04 -0. 48 0. 00 -0. 22 0. 04 -0. 41 Заголовки всех документов 0. 37 0. 09 0. 29 Заголовки из первых двух документов 0. 31 0. 07 0. 23 Заголовки из первых четырех документов 0. 18 0. 06 0. 17 Заголовки из последних двух документов 0. 40 0. 06 0. 27 Заголовки из последних четырех документов 0. 38 0. 08 0. 29 Заголовок одного документа

Результаты ROUGE-1 ROUGE-2 ROUGE-L Базовое значение метрики (среднее) 0. 28 0. 11 0. 25 Базовое значение метрики (максимум) 0. 50 0. 30 0. 47 Базовый алгоритм MR 0. 18 0. 10 0. 18 BL-1 0. 33 0. 16 0. 32 BL-2 0. 34 0. 16 0. 33 BL-3 0. 28 0. 08 0. 24 BL-4 0. 20 0. 08 0. 20 BL-5 0. 01 0. 00 0. 01 BL-6 0. 50 0. 28 0. 47 BL-7 0. 30 0. 15 0. 25 BL-8 0. 33 0. 13 0. 30 Модифицированный алгоритм 0. 46 0. 19 0. 42

Заключение • • Метрика ROUGE-RUS Эксперимент Исследование метрики ROUGE-RUS Оптимизация параметров алгоритма Manifold Ranking • Модифицированный алгоритм