Скачать презентацию Санкт-Петербургский Государственный Университет ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ Скачать презентацию Санкт-Петербургский Государственный Университет ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ

fa483e9ff68c7c75dde06300bb615029.ppt

  • Количество слайдов: 20

Санкт-Петербургский Государственный Университет ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ С ПОМОЩЬЮ ШАБЛОНОВ. KNOWLEDGE PROSPECTOR. NET Санкт-Петербургский Государственный Университет ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ С ПОМОЩЬЮ ШАБЛОНОВ. KNOWLEDGE PROSPECTOR. NET Участники проекта (Knowledge. Net) Новиков Антон Владимирович Сигалин Максим Владимирович Смоляков Алексей Леонидович Черепанов Дмитрий Геннадьевич Докладчик Смоляков Алексей Леонидович Научный руководитель Сафонов Владимир Олегович, проф. , д. т. н.

Цели проекта Легко расширяемый каркас n Поддержка разных языков n Интеграция с Knowledge. Net Цели проекта Легко расширяемый каркас n Поддержка разных языков n Интеграция с Knowledge. Net n

Алгоритм работы n n n Получение документов и первичный анализ текста Морфологический анализ текстовых Алгоритм работы n n n Получение документов и первичный анализ текста Морфологический анализ текстовых блоков Семантический анализ наборов сущностей с применением шаблонов Анализ построенного графа Сохранение результата

Получение документов и первичный анализ текста … n n n Текстовый формат – это Получение документов и первичный анализ текста … n n n Текстовый формат – это очень гибкий путь для описания различных типов информации… 1) Один 2) Два 3) Три Страна. Столица. Англия. Лондон. Украина. Киев. Получение документов от “поставщиков” Разбиение документа на статьи (текст, список, таблица и т. д. ) Разбиение текста на блоки

Морфологический анализ текста n Слово( «Знания» ) n Русский English … n MRD XML Морфологический анализ текста n Слово( «Знания» ) n Русский English … n MRD XML … Определение языка Определение морфологической формы слов Создание сущностей «Знания» текущая м. ф. : существительное среднего рода, множественное число, вн. падеж «Знание» основная м. ф. : существительное среднего рода, единственное число, им. падеж Сущность Класс( «Знание» )

Морфологический анализ > Типы сущностей > “Простые” сущности n n Сущность Морфологический анализ > Типы сущностей > “Простые” сущности n n Сущность "разделитель" (separator). Например «. , ; : !? ()[]{}…» Сущность "неизвестная" (unknown). Сущность "меняющаяся" (changeable). Например « 17 -го АВГУСТА» Сущность "связь" (relationship). Например «Земля МЕНЬШЕ Солнца»

Морфологический анализ > Типы сущностей > “Настоящие” сущности n n n Сущность Морфологический анализ > Типы сущностей > “Настоящие” сущности n n n Сущность "класс" (class). Например «знание» . Сущность "свойство" (property). Например «полезное» . Сущность "тип данных" (datatype). Дата и время (datetime) ¨ Целое число (Integer) ¨

Семантический анализ > Цели n Класс( «дом» ) Свойство-Класс Подкласс n Свойство( «удобный» ) Семантический анализ > Цели n Класс( «дом» ) Свойство-Класс Подкласс n Свойство( «удобный» ) Класс( «строение» ) n Свойство-Класс Свойство( «кирпичный» ) Создание отношений между сущностями Создание новых сущностей Добавление настоящих сущностей в граф

Семантический анализ > Типы отношений n n n Отношение между свойством и классом Отношение Семантический анализ > Типы отношений n n n Отношение между свойством и классом Отношение “подкласс” Отношение “подсвойство” Отношение “эквивалентность” Отношение между двумя классами Отношение “условное правило”

Семантический анализ > Описание шаблона n n n Приоритет Паттерн Обработчики <Template Priority= Семантический анализ > Описание шаблона n n n Приоритет Паттерн Обработчики

Семантический анализ > Описание паттернов n n n Логические операнды: «&» (и), «|» (или), Семантический анализ > Описание паттернов n n n Логические операнды: «&» (и), «|» (или), «^» (не). Встречаемость: не указано, «+» , «*» , «? » #E. P, #E. C, #E. S, #E. U, #E. Int, #E. Date. Time #M. Noun, #M. Adjective, #M. Verb, … #W. Month, #W. Number, … - держатель слов #H. Class, …- держатель клауз [#E. P #M. Adjective]+ [#E. C #M. Noun]

Семантический анализ > Описание паттернов > Держатель слов Value="1" /> Value="2" /> Value="3" /> Держатель Клауз

Семантический анализ > Обработчики n n n n Заменить (replace) Создать сущность время Создать Семантический анализ > Обработчики n n n n Заменить (replace) Создать сущность время Создать отношение «свойство-класс» Создать отношение «подсвойство» Создать отношение «условное правило» Создать отношение «класс-класс»

Семантический анализ > Создание отношений Класс( «полезное» ) Класс( «знание» ) + <Template Priority=“ Семантический анализ > Создание отношений Класс( «полезное» ) Класс( «знание» ) + = Свойство( «полезное» ) Отношение «свойство-класс» Класс( «знание» )

Семантический анализ > Создание новых сущностей Число( « 17» ) Класс( «ноябрь» ) Число( Семантический анализ > Создание новых сущностей Число( « 17» ) Класс( «ноябрь» ) Число( « 2006» ) Класс( «год» ) + = Время (17. 11. 2006)

Анализ построенного графа Класс( «средство передвижения» ) n Подкласс Класс( «транспорт» ) Подкласс Класс( Анализ построенного графа Класс( «средство передвижения» ) n Подкласс Класс( «транспорт» ) Подкласс Класс( «автобус» ) Свойство-Класс Свойство( «быстрое» ) Свойство-Класс n Удаление избыточных отношений типа подкласс. Удаление избыточных отношений между свойствами и классами.

Сохранение результата n n n Сохранение знаний в формат Knowledge. Net Сохранение в формат Сохранение результата n n n Сохранение знаний в формат Knowledge. Net Сохранение в формат OWL Сохранение и извлечение знаний из бинарного файла

Текущее состояние проекта Разработан работающий прототип n Созданы тестовые шаблоны для анализа сущностей n Текущее состояние проекта Разработан работающий прототип n Созданы тестовые шаблоны для анализа сущностей n Подключен «Mrd» словарь русского и английского языка n

Планы n n Поддержка создания «составных» сущностей (состоящих из нескольких слов: «творение рук человека» Планы n n Поддержка создания «составных» сущностей (состоящих из нескольких слов: «творение рук человека» ) Расширение функциональности (добавление новых сущностей, отношений, шаблонов, обработчиков, …) Программа генерации шаблонов Разработка наглядных примеров

? Контактная информация: smlkvalex@mail. ru http: //www. knowledge-net. ru http: //polyhimnie. math. spbu. ru ? Контактная информация: [email protected] ru http: //www. knowledge-net. ru http: //polyhimnie. math. spbu. ru