Скачать презентацию МГЛУ им М Тореза Нейроинформатика и новые информационные Скачать презентацию МГЛУ им М Тореза Нейроинформатика и новые информационные

Lecture 8.ppt

  • Количество слайдов: 15

МГЛУ им. М. Тореза Нейроинформатика и новые информационные технологии Харламов А. А. © 2009 МГЛУ им. М. Тореза Нейроинформатика и новые информационные технологии Харламов А. А. © 2009 МГЛУ им. М. Тореза

Лекция 9 Структурная нейросетевая обработка текста Лекция 9 Структурная нейросетевая обработка текста

Структурный нейросетевой подход к анализу текстовой информации Первичная обработка {A} Первичная обработка {Текст} Очистка Структурный нейросетевой подход к анализу текстовой информации Первичная обработка {A} Первичная обработка {Текст} Очистка от нетекстовой информации Удаляются цифры, аббревиатуры, рисунки, таблицы. Сегментация На основе формальных признаков текст делится на смысловые фрагменты Учет синонимии 3

Структурный нейросетевой подход к анализу текстовой информации Морфологический и лексический уровни Морфологическая обработка Формирование Структурный нейросетевой подход к анализу текстовой информации Морфологический и лексический уровни Морфологическая обработка Формирование лексикона ^ {D} ^ {B} {A} - Словарь флективных морфем (окончаний) - Текст {C} ^ - Словарь корневых основ (корень+суффикс) - Множество текстов с купюрами вместо флективных морфем {B} - Словарь флективных морфем {A} - Множество текстов 4

Структурный нейросетевой подход к анализу текстовой информации Синтаксический и семантический уровни Синтаксическая обработка ^ Структурный нейросетевой подход к анализу текстовой информации Синтаксический и семантический уровни Синтаксическая обработка ^ {F} {E} ^ {D} {A} - Словарь синтаксем (синтаксических групп) - Текст с купюрами вместо корневых основ Семантическая обработка ^ {H} {G} ^ - Словарь попарной сочетаемости корневых основ - Текст с купюрами вместо флективных морфем - Словарь корневых основ (корень+суффикс) {F} - Словарь синтаксем (синтаксических групп) - Текст {A} - Текст 5

Структурный нейросетевой подход к анализу текстовой информации Семантический уровень Попарная сочетаемость корневых основ ключевых Структурный нейросетевой подход к анализу текстовой информации Семантический уровень Попарная сочетаемость корневых основ ключевых слов и словосочетаний (ассоциативная , или семантическая сеть) – понятия с их весом и связи с их весом Семантические представления – сеть для предметной области Вес понятий – частота встречаемости в тексте Вес связей – частота попарной встречаемости в фрагментах текста 6

Структурный нейросетевой подход к анализу информации (на примере обработки текстов) Перенормировка весовых коэфициентов понятий Структурный нейросетевой подход к анализу информации (на примере обработки текстов) Перенормировка весовых коэфициентов понятий Для корректного вычисления весовых характеристик небольших текстов требуется их перенормировка (модифицированный алгоритм Хопфилда) f(*) – нормирующая функция - частота встречаемости слова в тексте -частота совместной встречаемости пары слов в предложении 7

Программная система для анализа текстовой информации Text. Analyst Этапы обработки текстовой информации Первичная обработка Программная система для анализа текстовой информации Text. Analyst Этапы обработки текстовой информации Первичная обработка • • Удаление нетекстовой информации Сегментация на осмысленные фрагменты (предложения) Удаление стоп-слов, рабочих и общеупотребимых слов Морфологическая обработка 8

Программная система для анализа текстовой информации Text. Analyst Этапы обработки текстовой информации Формирование частотного Программная система для анализа текстовой информации Text. Analyst Этапы обработки текстовой информации Формирование частотного портрета текста • • Вычисление частоты встречаемости корневых основ в тексте Вычисление частоты попарной встречаемости корневых основ в тексте Формирование первичной ассоциативной сети Выявление устойчивых словосочетений 9

Программная система для анализа текстовой информации Text. Analyst Этапы обработки текстовой информации Перенормировка • Программная система для анализа текстовой информации Text. Analyst Этапы обработки текстовой информации Перенормировка • Перевычисление весовых характеристик понятий 10

Программная система для анализа текстовой информации Text. Analyst Функциональность 1. 2. 3. 4. 5. Программная система для анализа текстовой информации Text. Analyst Функциональность 1. 2. 3. 4. 5. 6. 7. Формирование семантической сети – выявление ключевых понятий с их связями Формирование тематической структуры текста Формирование гипертекстового представления Ассоциативная навигация по тексту Формирование реферата, тематического реферата Кластеризация текстов Сравнение (классификация) текстов 11

Программная система для анализа текстовой информации Text. Analyst Формирование семантической сети 12 Программная система для анализа текстовой информации Text. Analyst Формирование семантической сети 12

Программная система для анализа текстовой информации Text. Analyst Тематическая структура текста 13 Программная система для анализа текстовой информации Text. Analyst Тематическая структура текста 13

Программная система для анализа текстовой информации Text. Analyst Формирование реферата 14 Программная система для анализа текстовой информации Text. Analyst Формирование реферата 14

Программная система для анализа текстовой информации Text. Analyst Разбиение сети на подсети – подтемы. Программная система для анализа текстовой информации Text. Analyst Разбиение сети на подсети – подтемы. 15