8639431bba93bf5c904ff693a98bfde5.ppt
- Количество слайдов: 57
Тезаурус Ру. Тез: структура и приложения Лукашевич Н. В. ведущий научный сотрудник НИВЦ МГУ louk_nat @mail. ru
Знания о мире в обработке текстов на естественном языке • В настоящее время: широкие предметные области для приложений автоматической обработки текстов • В различных приложениях полезно использовать знания о мире • Знания о мире сложным образом связаны с лексическими и терминологическими знаниями • Как построить понятийную модель широкой предметной области для приложений автоматической обработки текстов?
Лингвистические ресурсы для автоматической обработки текстов v v Наш опыт: развитие ресурсов для задач информационного поиска с 1994 года Большой объем: тысячи словосочетаний Модель описания знаний о языке и мире должна быть: v «легкая» , v полезная в широком круге приложений v тестирование ресурса в приложениях Созданные ресурсы: v Тезаурус Ру. Тез, v Общественно-политический тезаурус v Онтология по естественным наукам и технологиями (ОЕНТ) и др.
Коллектив 1994 – н/в АНО Центр информационных исследований (АНО ЦИИ) 1994 – 1997 Институт США и Канады РАН 1997 – н/в Научно-исследовательский вычислительный центр МГУ им. М. В. Ломоносова Университетская информационная система РОССИЯ (УИС РОССИЯ): три миллиона документов (нормативные акты, пресса, экономическая статистика)
Участие в организации научных конференций • «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL) -- ПК • Российский семинар по оценке методов информационного поиска (РОМИП) -- ОК • Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» (ДИАЛОГ) -- ОК • Cross Language Evаluation Forum (CLEF)(2003 -2009) -- НК • European Conference on Research and Advanced Technology for Digital Libraries (ECDL) – ПК • Text-Speech-Dialog conference (TSD) - ПК • SIGIR (2008) – ПК и др.
Проекты • • • Рамблер (2007– н/в) Аппарат Государственной Думы ФС РФ (1999 -- н/в) НИИ Восход для ЦИК РФ (1997 -- н/в) НПП Гарант-Сервис (2002 – н/в) ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008) в/ч 43753 (2000 – 2007) Банк России (2006 – н/в) Счетная палата (2003) Министерство образования; ГУМЦ «Базис» (2003, 04) «Аплана» (2006, 2008) ИППИ РАН для Управления спецпрограмм (1996) «Гранит-Центр» (2006), НИЦ «Квант» (2003), НТЦ «Атлас» (2001)
Приложения автоматической обработки текстов • Информационный поиск – Корпоративные или предметно-ориентированные системы – Автоматическое расширение запроса – Визуализация выдачи • Автоматическая рубрикация текстов – Несколько десятков рубрикаторов • Автоматическая кластеризация текстов • Автоматическое реферирование текстов – Одного документа, многих документов, составление аналитических отчетов • Системы мониторинга
План презентации • Тезаурус Ру. Тез – Общая структура • Единицы Тезауруса – Понятия тезауруса – Текстовые входы (синонимы, многозначность, словосочетания) • Отношения Тезауруса – Принципы установления – Используемые типы отношений • Приложения автоматической обработки текстов
Тезаурус Ру. Тез – иерархическая сеть понятий v Понятие: v Имя понятия v Набор текстовых выражений v Отношения между понятиями v 53 тыс. понятий, 156 тыс. текстовых выражений, 210 тыс. отношений (более 2 млн. с иерархией) v Переведен на английский язык: 130 тысяч слов и выражений
Общая структура тезауруса Ру. Тез v Две составные части v Общий лексикон v Абстрактные действия, процессы v Оценки, эмоции и т. д. v Общественно-политический тезаурус v Общественно-политическая область – жизнь современного общества v Состав: экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др
Тезаурус по общественно-политической жизни • Структурированная энциклопедия жизни современного общества – 36 тысяч понятий – 100 тысяч терминов – 140 тысяч прямых отношений (1, 1 млн. наследуемых) • предметная область – проблемы современного общества • типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения • Состав: термины и тематическая лексика
Специальная лексика Промежуточная зона Общая лексика Ку л на ьту сл р ед ное ие Тезаурус Ру. Тез и специальная лексика м нны е ств е ест гиям по гия хноло о тол и те Он ам к нау Авиа* Онтол о гия Специальная лексика ко бе мпь зо ю па те сн рн ос ая ть
Специальные области vs. общественно-политическая область
Тезаурус Ру. Тез: учет трех традиций v Информационно-поисковые тезаурусы v Название понятия v Включение многословных единиц v Небольшой набор отношений v Ресурсы типа Word. Net v Подробное включение отдельных лексических единиц v Аккуратное описание многозначности v Формальные онтологии v Отличимость понятий v Формальные свойства отношений
Единицы тезауруса Ру. Тез
Понятия тезауруса Ру. Тез • Понятие происходит от значения отдельных слов или словосочетаний • Проблемы ввода понятий – Квазисинонимы – Близкие значения многозначных слов • Понятие должно быть отличимо от близких понятий – Однозначно понимаемое имя – Набор текстовых входов – Набор отношений – Название понятия • Единое представление для: – нетематической лексики, – тематической лексики, терминологии
Имя понятия • Однозначное слово: – КАБЕЛЬ • Однозначное словосочетание, являющееся одним из текстовых входов понятия: – ГОНОЧНЫЙ БОЛИД, КОСМИЧЕСКИЙ БОЛИД • Неоднозначное словосочетание с пометой: – КАБАЧОК (РАСТЕНИЕ), КАБАЧОК (ПЛОД) • Пара синонимов – текстовых входов понятия через запятую: – ИРРАЦИОНАЛЬНЫЙ, ЛОГИЧЕСКИ НЕОБЪЯСНИМЫЙ • Имя должно быть однозначно, понятно, отражать особенности понятия.
Многословные языковые выражения Словосочетаний может встретиться очень много Мы вносим словосочетание, если это необходимо для отражения новой информации синонимы: приватизировать – передать в частные руки; многозначное становится однозначным: положение дел, состояние дел дополнительная структуризация сети сельский дом: вилла, дача; автомобильные гонки автогонщик (пилот)
Синонимы в тезаурусе Ру. Тез v Синонимы – языковые выражения, являющиеся текстовыми входами к одному и тому же понятию тезауруса v Разные части речи – дериваты могут быть текстовыми входами одного и того же понятия v Назовем совокупность текстовых входов к одному и тому же понятию – онтологическими синонимами v Специальные усилия на поиск многословных вариантов – снижение многозначности v Формирование обширных синонимических рядов – стабильность распознавания понятия в текста
Пример синонимического ряда • • • ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДЫ ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ ОХРАНА ПРИРОДЫ ОХРАНЯТЬ ПРИРОДУ ПРИРОДОЗАЩИТА ПРИРОДОЗАЩИТНЫЙ ПРИРОДООХРАНА ПРИРОДООХРАНИТЕЛЬНЫЙ ПРИРОДООХРАННЫЙ
Близкие значения разных слов: монумент и памятник • Словарь синонимов (НОСС) – 5 различий: • 1) в память о конкретном человеке обычно ставится памятник, о группе людей – и памятник, и монумент, о событии – монумент; идеи воплощаются в монументах; • 2) у монументов есть способность увековечивать подвиг живых людей • 3) по форме сооружения памятник часто представляет собой изображение увековечиваемого объекта, • 4) монумент обычно больше по размерам и т. п. . • Достаточны ли эти различия, чтобы ставить в соответствие этим словам отдельные понятия?
Монумент и памятник - 2 • Проблема разделения: – каковы отношения между собой – каковы отношения с другими близкими понятиями онтологии • Проверка примеров показывает, что нет разделяющего свойства для сущностей монумент и памятник: • Маргарет Тэтчер, которой в Британии при жизни поставили памятник, узнала… • Авторы словаря: различия нейтрализуются при повторной, сокращенной номинации того же сооружения • Монумент, памятник –> одно понятие онтологии
Близкие значения разных слов: водитель и шофер • Синонимы во многих словарях синонимов • НОСС: шофер управляет только автомобилем или автобусом, водитель и другими транспортными средствами • Следовательно, вагоновожатый – водитель, но не шофер (в любом контексте) • Должно быть два понятия в онтологии: • ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА (водитель) • ВОДИТЕЛЬ АВТОМОБИЛЯ (водитель, шофер) • Дополнение: шофер – обычно профессиональный работник!
Водитель транспортного средства (водитель) Транспортный работник Судоводитель Водитель автомобиля (водитель) Вагоновожатый (водитель трамвая) Профессиональный водитель (шофер) Таксист Личный водитель (личный шофер)
Многозначность в тезаурусе • М-многозначность – одно и то же слово (словосочетание) соответствует двум понятиям: пилот – ЛЕТЧИК, АВТОГОНЩИК – Нужно выбрать значение • А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка): – Львов – ЛЬВОВ (ГОРОД) – Нужно подтвердить/отвергнуть употребление значения Число многозначных единиц в Тезаурусе Ру. Тез - 16 тысяч многозначных слов и выражений
Пополнение тезауруса Ру. Тез • Новые реалии и пропущенная конкретика (пополнение Общ. -политического тезауруса): – Автодом, дача на колесах, инсоляция, национал-сепаратизм, тайский бокс, автолестница, единый госэкзамен, пожарный спринклер • Пропущенные отдельные слова общей лексики – Скривить, петься, минование, миролюбивость, неравнодушие, небезразличие, зыбкий • Словосочетания, уточняющие значения слов – Пойти под откос, остаться в стороне, замыть пятно, не обидеть способностями, тяжело даваться
Отношения в тезаурусе Ру. Тез
Подходы к представлению отношений • Информационно-поисковые тезаурусы, ворднеты: небольшие наборы отношений • vs. • Наборы семантических отношений, произвольные набор предикатов – Но: • Большие затраты труда для широкой ПО • Непонятно, какой набор оптимален • Контекстная зависимость
Надежные отношения • Цель: необходимо использовать отношения, не имея возможности подробно проанализировать контекст упоминания понятия в тексте – Возможности систем автоматической обработки текста для анализа релевантности контекста ограничены • Необходимо найти и описать для понятия те отношения, которые выполняются для понятия практически всегда: – для всех или большинства примеров понятия – в течение всего (или почти всего) времени существования примера Нужно описывать надежные отношения
Отношения в тезаурусе Ру. Тез отношение ВЫШЕ-НИЖЕ – таксономическое отношение v Должно быть действительно для всех примеров понятий и все время их существования => Транзитивность, наследование v отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части, участники ситуации, свойства НО!! Должно быть действительно для всех примеров понятий-частей и все время их существования => Транзитивность v внешняя онтологическая зависимость - несимметричная ассоциация – асц2 v Симметричная ассоциация – для очень похожих понятий
Отношение ЦЕЛОЕ-ЧАСТЬ • Отношение ЦЕЛОЕ-ЧАСТЬ обозначает включенность по месту, времени, ситуации, сфере деятельности • Х – это часть Y – Изменение Х (или совокупности Х) влечет изменение Y – Отношение действует на протяжении большей части нормального существования примера X или это основная альтернатива – Для нас: колесо – не есть ЧАСТЬ автомобиля: автомобильное колесо – ЧАСТЬ автомобиля – инвестор – это ЧАСТЬ для инвестирование
Примеры отношения часть-целое • • Автопилот Горбушка Член партии Балкон зала - - - летательный аппарат хлеб политическая партия зрительный зал • Грузоподъемность – транспортное средство • Калорийность - пища • Водоизмещениесудно • Инвестор • Очиститель • Дубильщик - - инвестирование очистка дубление
Транзитивность отношения ЧАСТЬ-ЦЕЛОЕ v Обвиняемый – обвинение в суде – судебный процесс – судопроизводство – судебная система Аптекарь – аптека – лекарственное обеспечение – медицинская помощь – медицина – здравоохранение v
Отношение внешней зависимости (dependence relation) • Концептуальная зависимость: - понятие Х не возникло бы без существования понятия Y • Внешняя зависимость: • - понятие X зависит от понятия Y, • - экземпляры Y не являются всегда частями или свойствами экземпляров X Ø Примеры: Ø понятие гараж зависит от понятия автомобиль Ø Понятие автостроение зависит от понятия автомобиль • Обозначаем направленной ассоциацией: АСЦ 1, АСЦ 2
Пример отношения Дерево - Лес v Многие ресурсы указывают: Дерево – часть Леса v Но: дерево не всегда в лесу, а лес всегда состоит из деревьев v Понятие ЛЕС – зависит от понятия ДЕРЕВО
Отношения концептуальной зависимости и семантические имена отношений ГАРАЖ зависит_от АВТОМОБИЛЬ (назначение? ) РЕКА зависит_от ПРЕСНАЯ ВОДА (часть? ) ГИДРОЭЛЕКТРОСТАНЦИЯ зависит_от РЕКА (источник? ) ЛЕС зависит_от ДЕРЕВО (часть? ) ЛЕСНИЧЕСТВО зависит_от ЛЕС (место? ) КИПЕНИЕ зависит_от ЖИДКОСТЬ (пациенс? ) Семантические названия отношениям концептуальной зависимости придумать непросто, и они были бы достаточно разнообразны
=ЛЕС= : части • БУРЕЛОМ (ВЕТРОВАЛ; БУРЕЛОМНЫЙ) • ГРУППА ЛЕСА • ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ КУЛЬТУРА) • ЛЕСНАЯ ПОЧВА (ЛЕСНАЯ ПОДСТИЛКА) • ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ; ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА; ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ; ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ; ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ) • ОПУШКА (ОПУШЕЧНЫЙ) • ПОДЛЕСОК (ПОДЛЕСОЧНЫЙ) • ПОДРОСТ (МОЛОДНЯК) • ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА) • СУХОСТОЙ (СУХОСТОЙНЫЙ)
=ЛЕС= : зависимые понятия • ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ) • ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ) • ЛЕСОВЛАДЕНИЕ • ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)
Автоматическая обработка текстов на основе тезауруса
Обработка текстов с использованием тезауруса • Морфологический анализ – Индекс лемм • Терминологический анализ – Сопоставление с тезаурусом – Разрешение многозначности (Общественно-политический тезаурус точность > 75% - грант Яндекса 2005) • Тематический анализ – Выделение основной темы текста – Учет близких по смыслу понятий для вычисления веса понятия – Концептуальный индекс с весами
Лексическая связность: пример О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской Федерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем)жилых помещений;
Тезаурусные отношения для документа СОБСТВЕННОСТЬ (1) СООРУЖЕНИЕ (1) А ЗДАНИЕ (1) ДЕНЬГИ (22) СТРОИТЕЛЬСТВО (12) ЖИЛОЕ ЗДАНИЕ (1) ПЛАТИТЬ (1) ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО (4) А ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2) ПОКУПКА (6) МНОГОКВАРТИРНЫЙ ДОМ (1) ЖИЛОЕ ПОМЕЩЕНИЕ (25) НАНЯТЬ (13) А КВАРТИРА (2) В КОМНАТА (ПОМЕЩЕНИЕ) (1) НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ (13) ЖИЛАЯ ПЛОЩАДЬ (1) В ЖИЛИЩНАЯ НОРМА (2)
Вес понятия в тексте: тематическое представления Главные темы Локальные темы
Тематическая аннотация (Постановление Правительства РФ от 26 июня 1995 г. N 604) ----+-----------------------------------+ | ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ | ****| | | +---------------------------------+ | | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; | ****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; | | | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ | | | +-------------------------------+ | | | ФИНАНСОВАЯ ПОМОЩЬ; | ****| z | | | +-----------------------------+ | | ГРАЖДАНИН | ****| X | z |. | | | +---------------------------+ | | | УВОЛЬНЕНИЕ; | ****| X | z |. | X | | | | +-------------------------+ | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; | ****|. | X | z |. |. | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; | | | | +-----------------------+ | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; | ****| X |. | z |. | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; | | | | +---------------------+ | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; | ****| z | X | z |. |. | z | |
Тезаурус Ру. Тез: основные приложения • Информационный поиск: – Поисковый инструмент УИС Россия (www. cir. ru) – расширение запросов – вопросно-ответные системы • Автоматическая рубрикация текстов – Более 20 рубрикаторов • Автоматическое аннотирование – Аннотирование одного документа, – Обзорный реферат • Обработка потоков новостей, информационный мониторинг – Кластеризация документов
Представление смысла рубрики опорными понятиями
Расширенное представление рубрики понятиями тезауруса
Кластеризация новостей
Классификация документов и кластеров
Обзорный (сводный) реферат (Multi-document summarization)
Преимущества от онтологий и тезаурусов в разных приложениях Information Retrieval Tasks Benefits Web Search 0+ % Corporate Search / Legal Search 10 % Long Queries / Verbose Queries 15 % Text Categorization 15 -50 % News Clustering 6 -15 % Summarization, Visualization, Multi Document Summarization ++ (SUMMAC)
Заключение • В течение более чем 15 лет мы разрабатываем тезаурусы и исследуем технологии их применения для решения различных задач автоматической обработки текстов и информационного поиска • Наши выводы: – Структура тезауруса, онтологии должна быть специально адаптирована к задачам автоматической обработки текстов – Тезаурусные технологии не должны противопоставляться современным технологиям пословной обработки текстов, а органично учитывать последние достижения в этой сфере – При учете таких условий применение тезаурусов дает значимое улучшение качества решения задачи по сравнению с лучшими пословными методами


