Скачать презентацию Лингвистическая онтология тезаурус Ру Тез и приложения автоматической Скачать презентацию Лингвистическая онтология тезаурус Ру Тез и приложения автоматической

7e52dd4664bc70e6ff66ce03d4cf6917.ppt

  • Количество слайдов: 50

Лингвистическая онтология тезаурус Ру. Тез и приложения автоматической обработки текстов Лукашевич Н. В. внс Лингвистическая онтология тезаурус Ру. Тез и приложения автоматической обработки текстов Лукашевич Н. В. внс НИВЦ МГУ louk_nat@mail. ru

Автоматическая обработка текстов в современных информационных системах • Типы обработки – информационный поиск, автоматическая Автоматическая обработка текстов в современных информационных системах • Типы обработки – информационный поиск, автоматическая рубрикация, автоматическое аннотирование, автоматическая кластеризация и др. • Основные задачи – оценка значимости документа относительно заданного критерия – определение основного содержания, тематики текста или фрагмента • Проблемы – широкие предметные области для приложений автоматической обработки текстов – разнообразие типов связных текстов – использование статистических методов – нехватка знаний о предметной области, трудности интерпретации результатов • Как построить понятийную модель широкой предметной области для приложений автоматической обработки текстов?

Лингвистические ресурсы для автоматической обработки текстов v v v Наш опыт: развитие ресурсов для Лингвистические ресурсы для автоматической обработки текстов v v v Наш опыт: развитие ресурсов для задач информационного поиска с 1994 года Большой объем: тысячи словосочетаний Модель описания знаний о языке и мире должна быть: v v «легкая» , полезная в широком круге приложений тестирование ресурса в приложениях Созданные ресурсы: v v v Тезаурус Ру. Тез, Общественно-политический тезаурус Онтология по естественным наукам и технологиями (ОЕНТ) и др.

План презентации • Общие принципы и структура Тезауруса Ру. Тез • Отношения в тезаурусе План презентации • Общие принципы и структура Тезауруса Ру. Тез • Отношения в тезаурусе Ру. Тез • Автоматическая обработка текстов на основе тезауруса Ру. Тез • Приложения

Традиции представления знаний в широких предметных областях v Информационно-поисковые тезаурусы v v v Ресурсы Традиции представления знаний в широких предметных областях v Информационно-поисковые тезаурусы v v v Ресурсы типа Word. Net v v v Иерархическая сеть языковых понятий – синсетов Принстонский университет Формальные онтологии v v Нормативный словарь с формализованными отношениями для улучшения качества информационного поиска Международные и национальный стандарты Формализованное описание предметной области в виде понятий и отношений между ними v Понятия, экземпляры v Атрибуты, отношения v Аксиомы (правила вывода) Ни один из этих типов ресурсов не предназначен для автоматической обработки текстов

Модель лингвистической онтологии • Лингвистическая онтология – онтология, опирающаяся в своем построении на значения Модель лингвистической онтологии • Лингвистическая онтология – онтология, опирающаяся в своем построении на значения реально существующих языковых выражений • ЛО = < C, N, Ex, R, A, T, S, M, L> – – – С – понятие онтологии N – имя понятия Ex – экземпляры R – отношения между понятиями { r (Ci, Cj) } A – правила вывода (симметричность, транзитивность, наследование) – Т – языковые выражения, значения которых представлены в онтологии – S – отношения между языковыми выражениями (T) и понятиями (С) : { s (Ci, tj) } – M – многозначные слова и выражения из Т: M T – L – лемматическое представление языкового выражения

Лингвистическая онтология Тезаурус Ру. Тез v Понятие: v Имя понятия v Набор текстовых выражений Лингвистическая онтология Тезаурус Ру. Тез v Понятие: v Имя понятия v Набор текстовых выражений v Отношения между понятиями v 53 тыс. понятий, 156 тыс. текстовых выражений, 210 тыс. отношений (более 2 млн. с иерархией) v Переведен на английский язык: 130 тысяч слов и выражений

Общая структура тезауруса Ру. Тез v Две составные части v Общий лексикон v Абстрактные Общая структура тезауруса Ру. Тез v Две составные части v Общий лексикон v Абстрактные v Оценки, v действия, процессы эмоции и т. д. Общественно-политический тезаурус v Общественно-политическая область – жизнь современного общества v Состав: экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др

Тезаурус по общественно-политической жизни • Структурированная энциклопедия жизни современного общества – 39 тысяч понятий Тезаурус по общественно-политической жизни • Структурированная энциклопедия жизни современного общества – 39 тысяч понятий – 110 тысяч терминов – 140 тысяч прямых отношений • предметная область – проблемы современного общества • типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения • Состав: термины и тематическая лексика

Тезаурус Ру. Тез 53 тыс. понятий, 156 тыс. терминов Промежуточная зона Специальная лексика Общая Тезаурус Ру. Тез 53 тыс. понятий, 156 тыс. терминов Промежуточная зона Специальная лексика Общая лексика Ба тез нков ау ски ру с й Тезаурус Ру. Тез и типы лексики ным ен ств е в ест иям рмино по г е гия хноло тыс. т о л нто м и те ий, 165 О т а аук с. поня н ы 60 т Авиа* О нтоло Общественнополитический тезаурус (фрагмент Ру. Тез) 39 тыс. понятий, 110 тыс. терминов Специальная лексика ко бе мпь зо ю па те сн рн ос ая ть гия

Отношения в тезаурусе Ру. Тез Отношения в тезаурусе Ру. Тез

Подходы к представлению отношений • Информационно-поисковые тезаурусы, ворднеты: – небольшие наборы отношений – слабая Подходы к представлению отношений • Информационно-поисковые тезаурусы, ворднеты: – небольшие наборы отношений – слабая формализация • vs. наборы семантических отношений, правила логического вывода – Трудозатраты? Надежность логического вывода? • Цели нашего описания: – необходимо использовать отношения, не имея возможности подробно проанализировать контекст упоминания понятия в тексте – обеспечение логического вывода – применимость для широкой предметной области – переносимость на разные предметные области

Принципы установления отношения в ЛО • Надежные отношения: – отношение м. б. установлено между Принципы установления отношения в ЛО • Надежные отношения: – отношение м. б. установлено между понятиями Сi и Сj, если – или • Типы надежных отношений – родовидовое отношение (береза – дерево) – отношение часть-целое (корма – судно) – отношение онтологической зависимости (кипение – жидкость) – + ограниченное использование отношений симметричной ассоциации – «предсинонимы» (босоножки – сандалии)

Модель описания отношения часть-целое • Существование экземпляров понятия-части Сi зависит от существования экземпляров целого Модель описания отношения часть-целое • Существование экземпляров понятия-части Сi зависит от существования экземпляров целого Сj. • Уничтожение или серьезное повреждение экземпляра части ведет к изменению экземпляра целого • Подвиды частей не ограничиваются – балкон зала - зрительный зал, член партии - политическая партия, водоизмещение – судно, инвестор – инвестирование, медицинская помощь- медицина • Транзитивность отношения часть-целое

Пример транзитивной цепочки отношения часть-целое • целое (АПТЕКА, ЛЕКАРСТВЕННОЕ ОБЕСПЕЧЕНИЕ) • целое (ЛЕКАРСТВЕННОЕ ОБЕСПЕЧЕНИЕ, Пример транзитивной цепочки отношения часть-целое • целое (АПТЕКА, ЛЕКАРСТВЕННОЕ ОБЕСПЕЧЕНИЕ) • целое (ЛЕКАРСТВЕННОЕ ОБЕСПЕЧЕНИЕ, МЕДИЦИНСКАЯ ПОМОЩЬ) • целое (МЕДИЦИНСКАЯ ПОМОЩЬ, ЗДРАВООХРАНЕНИЕ) • → • целое (АПТЕКА, ЗДРАВООХРАНЕНИЕ)

Отношение онтологической зависимости • Х онтологически зависит от Y тогда и только тогда, когда Отношение онтологической зависимости • Х онтологически зависит от Y тогда и только тогда, когда Х существует только, если Y существует – D(X, Y) = def (существует (X) существует (Y)) – Guarino et al. • Много подвидов: – Родовая, строгая зависимость – Внешняя и внутренняя зависимость и др. – Примеры: • МОЗГ Джона – зависит от – Джона, ЛЕС- зависит от - ДЕРЕВО

Наш подход: внешняя концептуальная зависимость • 1) Понятие с1 зависит от понятия c 2, Наш подход: внешняя концептуальная зависимость • 1) Понятие с1 зависит от понятия c 2, если – Exist (с1) -> Exist (c 2) – концептуальная зависимость: • 2) Внешняя зависимость: не представимо в виде отношения часть-целое

ЛЕС : зависимые понятия • ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ) • ЛЕСНАЯ НАУКА ЛЕС : зависимые понятия • ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ) • ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ) • ЛЕСОВЛАДЕНИЕ • ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)

Свойства отношений ЛО транзитивность, наследование • выше(X, Y) & выше (Y, Z) • ниже Свойства отношений ЛО транзитивность, наследование • выше(X, Y) & выше (Y, Z) • ниже (Х, Y) & ниже (Y, Z) • выше (Х, Y) <-> ниже (Y, X) → выше(X, Z) → ниже(X, Z) (t) (r) • целое (X, Y) & целое (Y, Z) → целое (X, Z) (t) • выше(X, Y) & целое (Y, Z) → целое (X, Z) (i) • часть (X, Y) <-> целое (Y, X) (r) • выше (X, Y) & асц1 (Y, Z) → асц1 (X, Z) • целое (X, Y) & асц1 (Y, Z) → асц1 (X, Z) • aсц1 (X, Y) <-> асц2 (Y, X) (i) (r) • выше (X, Y) & асц (Y, Z) • целое (X, Y) & асц (Y, Z) • aсц (X, Y) <-> асц (Y, X) (i) (s) → асц (X, Z)

Автоматическая обработка текстов на основе лингвистической онтологии Автоматическая обработка текстов на основе лингвистической онтологии

Значимость слова в тексте • Распространенная модель: – мешок слов – употребление слова в Значимость слова в тексте • Распространенная модель: – мешок слов – употребление слова в документе не зависит от употребления других слов • Новая модель – где - кластер текстовых единиц, близких t по g(t, d) – функции смысловой близости; – - частота встречаемости представителей двух кластеров в предложениях документа

Пример тематического представления Пример тематического представления

Тематическая аннотация (Постановление Правительства РФ от 26 июня 1995 г. N 604) ----+-----------------------------------+ | Тематическая аннотация (Постановление Правительства РФ от 26 июня 1995 г. N 604) ----+-----------------------------------+ | ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ | ****| | | +---------------------------------+ | | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; | ****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; | | | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ | | | +-------------------------------+ | | | ФИНАНСОВАЯ ПОМОЩЬ; | ****| z | | | +-----------------------------+ | | ГРАЖДАНИН | ****| X | z |. | | | +---------------------------+ | | | УВОЛЬНЕНИЕ; | ****| X | z |. | X | | | | +-------------------------+ | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; | ****|. | X | z |. |. | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; | | | | +-----------------------+ | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; | ****| X |. | z |. | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; | | | | +---------------------+ | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; | ****| z | X | z |. |. | z | |

Модель тематического представления текста • Кластер близких по смыслу слов представляет собой тематический узел Модель тематического представления текста • Кластер близких по смыслу слов представляет собой тематический узел понятий ЛО • • Тематическое представление текста – Основные тематические узлы: – – – Локальные тематические узлы – Упоминавшиеся понятия • Модель основывается на теории связного текста (Новиков, 1983; Шевченко, 2003; Гальперин, 1984; Van. Dijk, 1985; Tomlin, 1997; и др. ), • Глобальная связность текста (основная тема) • Лексическая связность текста

Построение концептуального индекса 1. A C B Сопоставление текста с ЛО Извлечение отношений между Построение концептуального индекса 1. A C B Сопоставление текста с ЛО Извлечение отношений между найденными понятиями D F E G Автоматическое разрешение многозначности слов Построение тематического представления Вычисление весов понятиям текста

Методы автоматической обработки текстов на основе тематического представления Автоматическое расширение запроса Автоматическая рубрикация Автоматическое Методы автоматической обработки текстов на основе тематического представления Автоматическое расширение запроса Автоматическая рубрикация Автоматическое аннотирование Порождение концептуального индекса: –– соединены вместе Разные значения –– разделены Синонимы Вес понятия с учетом тематического представления Лингвистическая онтология Тематическое представление (вычисление основных тем)

Лингвистическая онтология и тематическое представление в приложениях АОТ Лингвистическая онтология и тематическое представление в приложениях АОТ

Пример релевантного документа по запросу «трудовая миграция» с расширением запроса по иерархии тезауруса Пример релевантного документа по запросу «трудовая миграция» с расширением запроса по иерархии тезауруса

АЛОТ в приложениях информационного поиска РОМИП 2008 Legal adhoc, pd 35 Запросы по терминам АЛОТ в приложениях информационного поиска РОМИП 2008 Legal adhoc, pd 35 Запросы по терминам Длинные запросы РОМИП 2007 Web page классификация

Обработка сверхдлинных запросов типа «формулировка проблемы» Туристическая фирма (турагент) занимается реализацией путевок сторонних организаций Обработка сверхдлинных запросов типа «формулировка проблемы» Туристическая фирма (турагент) занимается реализацией путевок сторонних организаций в санаторно-курортные и оздоровительные учреждения. В соответствии с действующим законодательством реализация такого продукта не подлежит обложению НДС. Однако в ходе проверки налоговой инспекцией нам были предъявлены санкции за неуплату налога с суммы агентского вознаграждения. Правы ли в данном случае налоговые органы? ("Консультант бухгалтера", N 7, июль 2001 г. ) – Автоматическое формирование булевского выражения вида • (ТУРИСТИЧЕСКАЯ ФИРМА или ТУРАГЕНТ или ТУРИЗМ или ЭКСКУРСИЯ) • и ( САНАТОРНО-КУРОРТНОЕ ЛЕЧЕНИЕ или ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ или САНАТОРИЙ или КУРОРТ или ДОМ ОТДЫХА или ДЕТСКОЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ или ПРОФИЛАКТОРИЙ) • и ( НАЛОГОВОЕ ОСВОБОЖДЕНИЕ или ФЕДЕРАЛЬНАЯ НАЛОГОВАЯ СЛУЖБА или НАЛОГОВАЯ ИНСПЕКЦИЯ или НАЛОГ НА ДОБАВЛЕННУЮ СТОИМОСТЬ) • и ( АГЕНТСКОЕ ВОЗНАГРАЖДЕНИЕ или АГЕНТ (ПРЕДСТАВИТЕЛЬ) или ТУРАГЕНТ или АГЕНТСКИЙ ДОГОВОР или ПОСРЕДНИЧЕСКОЕ ВОЗНАГРАЖДЕНИЕ )

 «Аккуратное» расширение запроса «Аккуратное» расширение запроса

Метод автоматического рубрицирования • Классификация (рубрикация) текстов - отнесение текста к одной или нескольким Метод автоматического рубрицирования • Классификация (рубрикация) текстов - отнесение текста к одной или нескольким категориям из конечного множества рубрик • Ф: • Описание рубрики в виде булевского выражения над опорными понятиями • Правило расширения понятий: f(·) = {E, L, N, W, V) • В результате

Расширенное представление рубрики понятиями ЛО Расширенное представление рубрики понятиями ЛО

Рубрицирование рубрика A дизъюнкты C конъюнкты B опорные концепты D полное описание F E Рубрицирование рубрика A дизъюнкты C конъюнкты B опорные концепты D полное описание F E G Тематическое представление Описание рубрики ………………………………………… … Di ……… Bj ………………………. ………………………………………………………………………………………….

Результаты независимого тестирования автоматической классификации документов РОМИП 2007: 247 рубрик – 8 чел*час Результаты независимого тестирования автоматической классификации документов РОМИП 2007: 247 рубрик – 8 чел*час

Автоматическое аннотирование текстов • T={ Si }, A= • Аннотирование одного и многих документов Автоматическое аннотирование текстов • T={ Si }, A= • Аннотирование одного и многих документов • Проблемы: – Полнота представления информации – Связность и читабельность аннотации • Предложен метод автоматического аннотирования на основе тематического представления – Аннотирование одного документа – Аннотирование многих документов – Основной принцип: каждое следующее предложение аннотации должно отражать новую пару основных тематических узлов • Основные тематические узлы – помогают отделить главное от второстепенного – обеспечивают связность аннотации – снижение лишних повторов в аннотации

Аннотирование A … Bj ……… Ck ……. (B, C) ……… Bm …………. C B Аннотирование A … Bj ……… Ck ……. (B, C) ……… Bm …………. C B …… Bn …… Ap…. D (А, B, C) … Cq …… Bt ……. F E G …… Ds …… Ar……. (А, B, C, D) ……………. Тематическое представление Предложения текста … Bj ……… Ck ……. …… Bn …… Ap…. …… Ds …… Ar…….

Результаты независимого тестирования методов автоматического аннотирования SUMMAC 1998 (NIST DARPA TIPSTER III) Результаты независимого тестирования методов автоматического аннотирования SUMMAC 1998 (NIST DARPA TIPSTER III)

Обзорный (сводный) реферат (Multi-document summarization) Обзорный (сводный) реферат (Multi-document summarization)

Рамблер. Новости – кластеры, классификатор, тренды, … Рамблер. Новости – кластеры, классификатор, тренды, …

Новые исследования на основе тезауруса Ру. Тез • Проблемы применения лингвистических ресурсов – Неполнота Новые исследования на основе тезауруса Ру. Тез • Проблемы применения лингвистических ресурсов – Неполнота – Требуется разрешение лексической многозначности • Использование для анализа тематической структуры связного текста (кластера текстов) факторов разного типа – извлечение многословных объектов – учет сходства по выражений – учет расположения выражений (в соседних предложениях – в одних и тех же предложениях) – учет сходства контекстов – учет информации из тезауруса

Примеры тематических узлов новостного кластер про Алроса • Компания: владелец компании, акция, пакет акций, Примеры тематических узлов новостного кластер про Алроса • Компания: владелец компании, акция, пакет акций, контрольный пакет акций, владелец, владение, состав владельцев, корпорация, предприятие, прибыль компании, чистая прибыль, акционер компании • Российская Федерация: Россия, Российский, РФ, федеральный центр, федерализация, федеральная собственность, государственная компания, государственная корпорация, государственная структура, государство, росимущество, корпорация, госообственность • Алмазодобывающий: добыча алмазов, алмазный, алмазно-бриллиантовый комплекс, алмазное месторождение, добыча    

Преимущества от онтологий и тезаурусов в разных приложениях Information Retrieval Tasks Benefits Web Search Преимущества от онтологий и тезаурусов в разных приложениях Information Retrieval Tasks Benefits Web Search 0+ % Corporate Search / Legal Search 10 % Long Queries / Verbose Queries 15 % Text Categorization 15 -50 % News Clustering 6 -15 % Summarization, Visualization, Multi Document Summarization ++ (SUMMAC)

Основные проекты Годы Гос. Дума ФС РФ 1999 н/в ЦБ РФ 2006 н/в ФСБ Основные проекты Годы Гос. Дума ФС РФ 1999 н/в ЦБ РФ 2006 н/в ФСБ РФ 2000 н/в ГАС «Выборы» (ФКЗ «Право» ) 1997 н/в НПП «Гарант. Сервис» 2002 н/в Рамблер. Новости 20082012 Минюст РФ 2007 Мин-во экологии МО 2007 НИЦ «Квант» 2004 Счетная палата РФ 2003 ИППИ РАН (Упр. спецпрограмм) 1996 ЛО: ОПТ Новые ЛО Извл. тер-ми нов Поиск QA Рубрикация Аннотирование Кластеризация Обзор-ное рефе-рирование Аналитические отче-ты

Заключение • В течение более чем 15 лет мы разрабатываем тезаурусы и исследуем технологии Заключение • В течение более чем 15 лет мы разрабатываем тезаурусы и исследуем технологии их применения для решения различных задач автоматической обработки текстов и информационного поиска • Наши выводы: – Структура тезауруса, онтологии должна быть специально адаптирована к задачам автоматической обработки текстов – Тезаурусные технологии не должны противопоставляться современным технологиям пословной обработки текстов, а органично учитывать последние достижения в этой сфере – При учете таких условий применение тезаурусов дает значимое улучшение качества решения задачи по сравнению с лучшими пословными методами