Lecture 8.ppt
- Количество слайдов: 15
МГЛУ им. М. Тореза Нейроинформатика и новые информационные технологии Харламов А. А. © 2009 МГЛУ им. М. Тореза
Лекция 9 Структурная нейросетевая обработка текста
Структурный нейросетевой подход к анализу текстовой информации Первичная обработка {A} Первичная обработка {Текст} Очистка от нетекстовой информации Удаляются цифры, аббревиатуры, рисунки, таблицы. Сегментация На основе формальных признаков текст делится на смысловые фрагменты Учет синонимии 3
Структурный нейросетевой подход к анализу текстовой информации Морфологический и лексический уровни Морфологическая обработка Формирование лексикона ^ {D} ^ {B} {A} - Словарь флективных морфем (окончаний) - Текст {C} ^ - Словарь корневых основ (корень+суффикс) - Множество текстов с купюрами вместо флективных морфем {B} - Словарь флективных морфем {A} - Множество текстов 4
Структурный нейросетевой подход к анализу текстовой информации Синтаксический и семантический уровни Синтаксическая обработка ^ {F} {E} ^ {D} {A} - Словарь синтаксем (синтаксических групп) - Текст с купюрами вместо корневых основ Семантическая обработка ^ {H} {G} ^ - Словарь попарной сочетаемости корневых основ - Текст с купюрами вместо флективных морфем - Словарь корневых основ (корень+суффикс) {F} - Словарь синтаксем (синтаксических групп) - Текст {A} - Текст 5
Структурный нейросетевой подход к анализу текстовой информации Семантический уровень Попарная сочетаемость корневых основ ключевых слов и словосочетаний (ассоциативная , или семантическая сеть) – понятия с их весом и связи с их весом Семантические представления – сеть для предметной области Вес понятий – частота встречаемости в тексте Вес связей – частота попарной встречаемости в фрагментах текста 6
Структурный нейросетевой подход к анализу информации (на примере обработки текстов) Перенормировка весовых коэфициентов понятий Для корректного вычисления весовых характеристик небольших текстов требуется их перенормировка (модифицированный алгоритм Хопфилда) f(*) – нормирующая функция - частота встречаемости слова в тексте -частота совместной встречаемости пары слов в предложении 7
Программная система для анализа текстовой информации Text. Analyst Этапы обработки текстовой информации Первичная обработка • • Удаление нетекстовой информации Сегментация на осмысленные фрагменты (предложения) Удаление стоп-слов, рабочих и общеупотребимых слов Морфологическая обработка 8
Программная система для анализа текстовой информации Text. Analyst Этапы обработки текстовой информации Формирование частотного портрета текста • • Вычисление частоты встречаемости корневых основ в тексте Вычисление частоты попарной встречаемости корневых основ в тексте Формирование первичной ассоциативной сети Выявление устойчивых словосочетений 9
Программная система для анализа текстовой информации Text. Analyst Этапы обработки текстовой информации Перенормировка • Перевычисление весовых характеристик понятий 10
Программная система для анализа текстовой информации Text. Analyst Функциональность 1. 2. 3. 4. 5. 6. 7. Формирование семантической сети – выявление ключевых понятий с их связями Формирование тематической структуры текста Формирование гипертекстового представления Ассоциативная навигация по тексту Формирование реферата, тематического реферата Кластеризация текстов Сравнение (классификация) текстов 11
Программная система для анализа текстовой информации Text. Analyst Формирование семантической сети 12
Программная система для анализа текстовой информации Text. Analyst Тематическая структура текста 13
Программная система для анализа текстовой информации Text. Analyst Формирование реферата 14
Программная система для анализа текстовой информации Text. Analyst Разбиение сети на подсети – подтемы. 15


