Автоматическая обработка текстов на естественном языке Тип лингвистического

Автоматическая обработка текстов на естественном языке Тип лингвистического анализа Графемный Морфологический Синтаксический Семантический Процедура Токенизация Стемминг Лемматизация Частеречный тэггинг Полный МО Парсинг

Графемный анализ текстовой информации

1. Токенизация = автоматический графемный анализ = Процедура выделения в тексте слов, чисел, а также нахождение границ устойчивых сочетаний и предложений. Выделяемые текстовые единицы – токены англ. tokenization, token

Задачи токенизации 1. 2. 3. Разделение входного текста на элементы (слова, разделители и т. д. ); удаление нетекстовых элементов; выделение и оформление нестандартных (нелексических) элементов, например: Ø элементов форматирования; Ø структурных элементов текста; Ø различных элементов текста, не являющихся словами; Ø имен (имя, отчество), написанных инициалами; Ø иностранных лексем, записанных латиницей и т. д.

Сложности токенизации обработка дефиса и пробела; Ø выделение составных предлогов, устойчивых оборотов, аналитических форм и др. ; Ø иноязычные фрагменты; Ø нетекстовые элементы. Ø

Токенизация 1. Ø Межсловный дефис: объединительная функция (буква)? кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел, генерал-аншеф или Ø разделительная функция (знак препинания)? старик-художник, словарь‑справочник, девочка-пионерка 2. Ø Пробел: объединительная функция (буква)? сто двадцать пять или Ø разделительная функция? русский язык

Примерный перечень элементов текста, требующих специальной обработки ØНазвания рисунков ØАдрес докладчика/унив-та ØСами рисунки ØТезисы докладов отдельным файлом ØПримечания ØПеречисления в тексте ØСтраницы форзаца ØТекст списком ØЗачеркивания ØСлова типа «рис1» , «р2» , Nкластеры ØТитульные листы ØТаблицы ØСписки литературы ØФормат ØЦифры ØРимские цифры ØИностр. язык в тексте ØРус. яз. в иностранном тексте ØАдреса, ссылки, гиперссылки ØФормулы ØСокращения, аббревиатуры ØЗначки для формул ØПример поиска ØСхемы

Морфологический анализ текстовой информации

Морфологический анализ – преобразование текста, при котором каждая словоформа текста представлена в виде пары <лемма + морфологическая характеристика>, где n Лемма – это основная форма слова, n Морфологическая характеристика указывает часть речи, падеж, род, число и т. д. соответствующей словоформы. n

n В корпусной лингвистике процедуру морфологического анализа и разметки текста называют тегированием, а результат – морфологически размеченным или аннотированным корпусом.

Морфологический анализ: процедуры n n Лемматизация, т. е. сведение различных словоформ к исходной форме, или лемме Стемминг – приведение разных словоформ к одной основе Частеречный тэгинг (pos-tagging), т. е. указание части речи для каждой словоформы в тексте Полный морфологический анализ - приписывание грамматических характеристик (граммем) словоформе

Морфологический анализ: этапы (1) 1. 2. 1. Последовательное отделение от конца словоформы возможных афиксов; оставшиеся части объявляются гипотетическими основами Поиск полученной основы на совпадение; или Каждая единица сравнивается со словарем основ, а оставшаяся правая часть объявляется гипотетическим окончанием Чередования внутри основы могут учитываться по-разному: включением в словарь нескольких видов основы (бег-/беж-) или заданием отдельной таблицы чередований

Морфологический анализ: этапы (2) 3. Определение совместимости информации об аффиксах и основах Разбор считается завершенным успешно, если всё слово было разобрано на морфемы и не осталось не разобранных букв. 4. Программа накапливает все возможные варианты разбора

Морфологический анализ: этапы (3) 5. 6. 7. Каждой морфеме присваивается некоторый вес. Вариант разбора, набравший наибольший вес, считается оптимальным. После разбора программа формирует файл отчета, в который заносятся все слова с вариантами их разбора. Также производится подсчет статистики по введенному тексту.

Система весов морфем n n n Междометия имеют более высокий вес, нежели существительные, это делается во избежание разбора междометия как существительного. Вес варианта разбора может уменьшиться в случае, если в нем встречается много корней (т. к. удельный вес многокоренных слов в рус. яз. ниже, чем однокоренных). Если же морфема состоит из большого количества символов, то её вес увеличится (достопримечательность: чтобы система дальше не стала выделять приставку до, корни сто, меч)

Два подхода к морф. анализу текста: 1. словарный, при котором задаѐтся словарь словоформ или словарь основ и окончаний. Такие системы, как правило, базируются на Грамматическом словаре А. А. Зализняка; 2. бессловарный, при котором задаѐтся список возможных окончаний (или псевдоокончаний) с приписанной им информацией о возможных грамматических значениях, а также используются вероятностно-статистические методы.

Словарный подход к морфологическому анализу n n n Наиболее лингвистический метод Дает максимально полный анализ словоформы Этот подход реализован, например, в системах машинного перевода ЭТАП (разрабатывавшиеся под руководством Ю. Д. Апресяна и основанные на модели «СМЫСЛ ↔ ТЕКСТ» ), ПРОМТ.

Словарный подход к морфологическому анализу: минусы n n n Проблема большого объема словаря, который создается вручную Проблема анализа новых слов (для данной системы, то есть относительно используемого словаря) Не существует абсолютно полных словарей – лексика языка непрерывно пополняется Невозможно включить в словарь всю существующую терминологию, имена, фамилии и т. д.

Бессловарный подход к морфологическому анализу: аналогия n Типичный способ решения этой проблемы состоит в выдвижении гипотез о грамматических характеристиках нового слова на основе аналогии.

Бессловарный подход к морфологическому анализу: плюсы + Более экономичный, т. к. не нужен словарь основ или словоформ + Позволяет одинаковым способом обрабатывать все слова как «новые» , не найденные в словаре. n Для этого задаются списки грамматических морфем языка: флексий, предлогов, союзов, частиц

Бессловарный подход к морфологическому анализу: минусы D Не имеет выхода к семантическому анализу, для которого нужно знать леммы. D Все слова трактуются как новые для анализатора большее количество ошибочных решений n Для снижения их численности используются элементы синтаксического анализа (учитываются возможные списки сочетаний грамматических морфем) Например, На –ом –е соответствует определенному типу синтаксических структур, в частности, словосочетанию На золотом крыльце).

Омонимия как основная проблема морфлогического анализа На завод привезли стекло. Масло стекло на пол. Данные эксперименты являются ошибочными. Последние данные являются ошибочными. Эти типы стали есть в цехе

Проблема морфологической омонимии Использование скрытой Марковской модели: Для каждого слова, входящего в предложение выбирается грамматический класс так, чтобы максимизировать вероятность P(word|tag) * P(tag|previous n tags) P(word|tag) - условная вероятность (вычисленная по вручную размеченному корпусу) появления в данном месте слова word, при условии, что это слово имеет данный грамматический класс tag P(tag|previous n tags) - условная вероятность (также вычисленная по корпусу), появления данного тэга tag, при условии, что предыдущие n тэгов уже определены. Точность алгоритма для английского языка – 96%.

Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (Ю. Г. Зеленков, И. В. Сегалович) n n n Целью алгоритма является получение леммы, то есть выбор между несколькими правилами преобразования словоформы в возможные леммы Используется небольшой, тщательного отобранный и размеченный вручную корпус как источник построения словаря контекстов омонимов Элементы контекста влияют на выбор омонима сильнее или слабее в зависимости от расположения относительно омонима

Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (Ю. Г. Зеленков, И. В. Сегалович) n n Сначала для каждого омонима исходного текста и его ближайших соседей строятся их нормализующие подстановки Для каждой пары <омоним, элемент контекста> из словаря контекстов выбирается лемма и вероятность ее порождения данным элементом контекста Для каждой леммы вычисляется сумма вероятностей, умноженная на значение коэффициента «силы» элемента контекста Значением омонима в данном контексте считается лемма с наибольшей взвешенной суммой вероятностей

Алгоритмы для улучшения морф. анализа 1. 2. вероятностно-статистические основанные на продукционных правилах, оперирующих словами и кодами.

Большинство вероятностатистических алгоритмов исп. два источника информации: 1. Словарь словоформ языка, в котором каждой словоформе соответствует множество лексикограмматических классов, которые могут иметься у данной словоформы. n well noun 4 occurences in corpus well adverb 1567 occurences in corpus well adjective 6 occurences in corpus well interjection 1 occurences in corpus 2. Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели.

Модели встречаемости возможных последовательностей лексико-грам. классов 1. 2. 3. n биграмная, триграмная квадриграмная. В биграмной модели используется информация о всех возможных последовательностях из 2 -х словоформ: неопр. артикль + сущ. ед. ч неопр. артикль + глагол 3 л. , ед. ч + предлог n 35983 occurences in corpus 13838 occurences in corpus 0 occurences in corpus 3744 occurences in corpus В триграмной модели используется соответственно информация о всех возможных последовательностях из 3 -х словоформ.

Алгоритмы, основанные на продукционных правилах n Используют правила собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами, например: n Если словоформа может быть как глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным. Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом. n

Вероятностно-статистических алгоритмы n n Информация о словоформах языка и о встречаемости всех возможных последовательностей лексикограмматических классов обрабатывается программой, использующей статистические алгоритмы. Для нахождения наиболее вероятного лексикограмматического класса для каждого слова в предложении чаще всего исп. алгоритм скрытых цепей Маркова.

Результативность n n n Оба подхода дают примерно одинаковый результат. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96 -98 %. Точность лексико-грамматического анализа английского языка в автоматическом режиме достигла практически точности лексикограмматического анализа в ручном режиме.

Стемминг и лемматизация

Лемматизация n Специфическая задача морфологического анализа – это лемматизация, т. е. процесс образования первоначальной формы слова, исходя из других его словоформ. Во многих языках слово может встречаться в нескольких формах с различными флексиями. Формы англ. 'walk‘: 'walk', 'walked', 'walks', 'walking'. n n Базовая форма, 'walk', зафиксированная в словаре, называется леммой слова. Лемматизация представляет собой процесс группировки различных флективных форм одного слова таким образом, чтобы при анализе они обрабатывались как одно слово.

Лемматизация n позволяет исследователю выделять и изучать все варианты отдельной лексемы без необходимости введения всех возможных вариантов n All women were walking in the streets "<*all>" "all" <*> <Quant> DET PRE SG/PL "<women>" "woman" N NOM PL "<were>" "be" <SV> <SVC/N> <SVC/A> V PAST VFIN "<walking>" "walk" <SV> <SVO> PCP 1 "<in>" "in" PREP "<the>" "the" <Def> DET CENTRAL ART SG/PL "<streets>" "street" N NOM PL

Стемминг n n состоит в нахождении стема (основы) слова. Стемминг - отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Разница между стеммингом и лемматизацией заключается в том, что стеммер обрабатывает отдельное слово без знания контекста, и, таким образом, не может дифференцировать слова, которые имеют разные значения в силу отнесенности к разным частям речи. Тем не менее, стеммеры обычно более просты для реализации и быстрее обрабатывают данные, а более низкая точность их работы может не иметь решающего значения для многих приложений.

Стемминг применим к языкам, которые реализуют словоизменение через афиксы Применим к русскому языку, английскому языку и т. д. Стемы предложения «The quick brown fox jumped over the lazy dogs» : [quick] [brown] [fox] [jump] [over] [lazy] [dog].

Стеммером пользуются для поиска текстов с имитацией учета морфологии. (подразумевается неустранимо большое количество ошибок и нерелевантных результатов, которые возникают, если применять только стеммер ) Для русского языка используется два дополнительные модуля грамматического словаря: n Лемматизатор (словарь склонения) n Флексер (словарь спряжения)

n Принцип работы стемминга применяется в поисковых машинах, позволяя производить поиск с учетом морфологии слова. n При вводе ключевого слова, поисковик учитывает все словоформы этого слова и отражает это в поисковой выдаче.

I. Допускаемые при стемминге ошибки: Ошибки 1 го рода: Стеммер дает слишком большое обощение и поэтому сопоставляет исх. слово с грамматическими формами более чем одной словарной статьи. Компенсация ошибок первого рода выполняется либо введением списка стопслов, либо более качественно лемматизатором или флексером.

II. III. Ошибки стемминга 2 го рода - усечение формы дает слишком длинный стеммер, который не сопоставляется с некоторыми грамматическими формами этого же слова. Чаще всего такое происходит, когда меняется основа слова. Сюда же входят неправельные глаголы. Ошибки стемминга 3 го рода - стеммер построить невозможно из-за изменения букв в корне слова.

Стеммер Портера Алгоритм стемминга, опубликованный Мартином Портером в 1980 году. Оригинальная версия стеммера была предназначена для английского языка. Мартин создал проект «Snowball» и, используя основную идею алгоритма, написал стеммеры для распространённых индоевропейских языков, в том числе для русского.

n n n Стемминг -это приближенный процесс, в ходе которого от слов отбрасываются окончания в расчете на то, что в большинстве случаев это себя оправдает. Стемминг часто подразумевает удаление производных аффиксов. Лемматизация— это точный процесс с использованием лексикона и морфологического анализа слов, в результате которого возвращается словарная форма слова. Например, лексема saw в ходе стемминга может превратиться в букву s, в то время как лемматизация вернет либо слово see, либо слово saw в зависимости от того, является ли лексема глаголом или именем существительным.