MM_22_Морфологический анализ_стемминг_лемматизация.ppt
- Количество слайдов: 43
Автоматическая обработка текстов на естественном языке Тип лингвистического анализа Графемный Морфологический Синтаксический Семантический Процедура Токенизация Стемминг Лемматизация Частеречный тэггинг Полный МО Парсинг
Графемный анализ текстовой информации
1. Токенизация = автоматический графемный анализ = Процедура выделения в тексте слов, чисел, а также нахождение границ устойчивых сочетаний и предложений. Выделяемые текстовые единицы – токены англ. tokenization, token
Задачи токенизации 1. 2. 3. Разделение входного текста на элементы (слова, разделители и т. д. ); удаление нетекстовых элементов; выделение и оформление нестандартных (нелексических) элементов, например: Ø элементов форматирования; Ø структурных элементов текста; Ø различных элементов текста, не являющихся словами; Ø имен (имя, отчество), написанных инициалами; Ø иностранных лексем, записанных латиницей и т. д.
Сложности токенизации обработка дефиса и пробела; Ø выделение составных предлогов, устойчивых оборотов, аналитических форм и др. ; Ø иноязычные фрагменты; Ø нетекстовые элементы. Ø
Токенизация 1. Ø Межсловный дефис: объединительная функция (буква)? кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел, генерал-аншеф или Ø разделительная функция (знак препинания)? старик-художник, словарь‑справочник, девочка-пионерка 2. Ø Пробел: объединительная функция (буква)? сто двадцать пять или Ø разделительная функция? русский язык
Примерный перечень элементов текста, требующих специальной обработки ØНазвания рисунков ØАдрес докладчика/унив-та ØСами рисунки ØТезисы докладов отдельным файлом ØПримечания ØПеречисления в тексте ØСтраницы форзаца ØТекст списком ØЗачеркивания ØСлова типа «рис1» , «р2» , Nкластеры ØТитульные листы ØТаблицы ØСписки литературы ØФормат ØЦифры ØРимские цифры ØИностр. язык в тексте ØРус. яз. в иностранном тексте ØАдреса, ссылки, гиперссылки ØФормулы ØСокращения, аббревиатуры ØЗначки для формул ØПример поиска ØСхемы
Морфологический анализ текстовой информации
Морфологический анализ – преобразование текста, при котором каждая словоформа текста представлена в виде пары <лемма + морфологическая характеристика>, где n Лемма – это основная форма слова, n Морфологическая характеристика указывает часть речи, падеж, род, число и т. д. соответствующей словоформы. n
n В корпусной лингвистике процедуру морфологического анализа и разметки текста называют тегированием, а результат – морфологически размеченным или аннотированным корпусом.
Морфологический анализ: процедуры n n Лемматизация, т. е. сведение различных словоформ к исходной форме, или лемме Стемминг – приведение разных словоформ к одной основе Частеречный тэгинг (pos-tagging), т. е. указание части речи для каждой словоформы в тексте Полный морфологический анализ - приписывание грамматических характеристик (граммем) словоформе
Морфологический анализ: этапы (1) 1. 2. 1. Последовательное отделение от конца словоформы возможных афиксов; оставшиеся части объявляются гипотетическими основами Поиск полученной основы на совпадение; или Каждая единица сравнивается со словарем основ, а оставшаяся правая часть объявляется гипотетическим окончанием Чередования внутри основы могут учитываться по-разному: включением в словарь нескольких видов основы (бег-/беж-) или заданием отдельной таблицы чередований
Морфологический анализ: этапы (2) 3. Определение совместимости информации об аффиксах и основах Разбор считается завершенным успешно, если всё слово было разобрано на морфемы и не осталось не разобранных букв. 4. Программа накапливает все возможные варианты разбора
Морфологический анализ: этапы (3) 5. 6. 7. Каждой морфеме присваивается некоторый вес. Вариант разбора, набравший наибольший вес, считается оптимальным. После разбора программа формирует файл отчета, в который заносятся все слова с вариантами их разбора. Также производится подсчет статистики по введенному тексту.
Система весов морфем n n n Междометия имеют более высокий вес, нежели существительные, это делается во избежание разбора междометия как существительного. Вес варианта разбора может уменьшиться в случае, если в нем встречается много корней (т. к. удельный вес многокоренных слов в рус. яз. ниже, чем однокоренных). Если же морфема состоит из большого количества символов, то её вес увеличится (достопримечательность: чтобы система дальше не стала выделять приставку до, корни сто, меч)
Два подхода к морф. анализу текста: 1. словарный, при котором задаѐтся словарь словоформ или словарь основ и окончаний. Такие системы, как правило, базируются на Грамматическом словаре А. А. Зализняка; 2. бессловарный, при котором задаѐтся список возможных окончаний (или псевдоокончаний) с приписанной им информацией о возможных грамматических значениях, а также используются вероятностно-статистические методы.
Словарный подход к морфологическому анализу n n n Наиболее лингвистический метод Дает максимально полный анализ словоформы Этот подход реализован, например, в системах машинного перевода ЭТАП (разрабатывавшиеся под руководством Ю. Д. Апресяна и основанные на модели «СМЫСЛ ↔ ТЕКСТ» ), ПРОМТ.
Словарный подход к морфологическому анализу: минусы n n n Проблема большого объема словаря, который создается вручную Проблема анализа новых слов (для данной системы, то есть относительно используемого словаря) Не существует абсолютно полных словарей – лексика языка непрерывно пополняется Невозможно включить в словарь всю существующую терминологию, имена, фамилии и т. д.
Бессловарный подход к морфологическому анализу: аналогия n Типичный способ решения этой проблемы состоит в выдвижении гипотез о грамматических характеристиках нового слова на основе аналогии.
Бессловарный подход к морфологическому анализу: плюсы + Более экономичный, т. к. не нужен словарь основ или словоформ + Позволяет одинаковым способом обрабатывать все слова как «новые» , не найденные в словаре. n Для этого задаются списки грамматических морфем языка: флексий, предлогов, союзов, частиц
Бессловарный подход к морфологическому анализу: минусы D Не имеет выхода к семантическому анализу, для которого нужно знать леммы. D Все слова трактуются как новые для анализатора большее количество ошибочных решений n Для снижения их численности используются элементы синтаксического анализа (учитываются возможные списки сочетаний грамматических морфем) Например, На –ом –е соответствует определенному типу синтаксических структур, в частности, словосочетанию На золотом крыльце).
Омонимия как основная проблема морфлогического анализа На завод привезли стекло. Масло стекло на пол. Данные эксперименты являются ошибочными. Последние данные являются ошибочными. Эти типы стали есть в цехе
Проблема морфологической омонимии Использование скрытой Марковской модели: Для каждого слова, входящего в предложение выбирается грамматический класс так, чтобы максимизировать вероятность P(word|tag) * P(tag|previous n tags) P(word|tag) - условная вероятность (вычисленная по вручную размеченному корпусу) появления в данном месте слова word, при условии, что это слово имеет данный грамматический класс tag P(tag|previous n tags) - условная вероятность (также вычисленная по корпусу), появления данного тэга tag, при условии, что предыдущие n тэгов уже определены. Точность алгоритма для английского языка – 96%.
Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (Ю. Г. Зеленков, И. В. Сегалович) n n n Целью алгоритма является получение леммы, то есть выбор между несколькими правилами преобразования словоформы в возможные леммы Используется небольшой, тщательного отобранный и размеченный вручную корпус как источник построения словаря контекстов омонимов Элементы контекста влияют на выбор омонима сильнее или слабее в зависимости от расположения относительно омонима
Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (Ю. Г. Зеленков, И. В. Сегалович) n n Сначала для каждого омонима исходного текста и его ближайших соседей строятся их нормализующие подстановки Для каждой пары <омоним, элемент контекста> из словаря контекстов выбирается лемма и вероятность ее порождения данным элементом контекста Для каждой леммы вычисляется сумма вероятностей, умноженная на значение коэффициента «силы» элемента контекста Значением омонима в данном контексте считается лемма с наибольшей взвешенной суммой вероятностей
Алгоритмы для улучшения морф. анализа 1. 2. вероятностно-статистические основанные на продукционных правилах, оперирующих словами и кодами.
Большинство вероятностатистических алгоритмов исп. два источника информации: 1. Словарь словоформ языка, в котором каждой словоформе соответствует множество лексикограмматических классов, которые могут иметься у данной словоформы. n well noun 4 occurences in corpus well adverb 1567 occurences in corpus well adjective 6 occurences in corpus well interjection 1 occurences in corpus 2. Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели.
Модели встречаемости возможных последовательностей лексико-грам. классов 1. 2. 3. n биграмная, триграмная квадриграмная. В биграмной модели используется информация о всех возможных последовательностях из 2 -х словоформ: неопр. артикль + сущ. ед. ч неопр. артикль + глагол 3 л. , ед. ч + предлог n 35983 occurences in corpus 13838 occurences in corpus 0 occurences in corpus 3744 occurences in corpus В триграмной модели используется соответственно информация о всех возможных последовательностях из 3 -х словоформ.
Алгоритмы, основанные на продукционных правилах n Используют правила собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами, например: n Если словоформа может быть как глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным. Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом. n
Вероятностно-статистических алгоритмы n n Информация о словоформах языка и о встречаемости всех возможных последовательностей лексикограмматических классов обрабатывается программой, использующей статистические алгоритмы. Для нахождения наиболее вероятного лексикограмматического класса для каждого слова в предложении чаще всего исп. алгоритм скрытых цепей Маркова.
Результативность n n n Оба подхода дают примерно одинаковый результат. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96 -98 %. Точность лексико-грамматического анализа английского языка в автоматическом режиме достигла практически точности лексикограмматического анализа в ручном режиме.
Стемминг и лемматизация
Лемматизация n Специфическая задача морфологического анализа – это лемматизация, т. е. процесс образования первоначальной формы слова, исходя из других его словоформ. Во многих языках слово может встречаться в нескольких формах с различными флексиями. Формы англ. 'walk‘: 'walk', 'walked', 'walks', 'walking'. n n Базовая форма, 'walk', зафиксированная в словаре, называется леммой слова. Лемматизация представляет собой процесс группировки различных флективных форм одного слова таким образом, чтобы при анализе они обрабатывались как одно слово.
Лемматизация n позволяет исследователю выделять и изучать все варианты отдельной лексемы без необходимости введения всех возможных вариантов n All women were walking in the streets "<*all>" "all" <*> <Quant> DET PRE SG/PL "<women>" "woman" N NOM PL "<were>" "be" <SV> <SVC/N> <SVC/A> V PAST VFIN "<walking>" "walk" <SV> <SVO> PCP 1 "<in>" "in" PREP "<the>" "the" <Def> DET CENTRAL ART SG/PL "<streets>" "street" N NOM PL
Стемминг n n состоит в нахождении стема (основы) слова. Стемминг - отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Разница между стеммингом и лемматизацией заключается в том, что стеммер обрабатывает отдельное слово без знания контекста, и, таким образом, не может дифференцировать слова, которые имеют разные значения в силу отнесенности к разным частям речи. Тем не менее, стеммеры обычно более просты для реализации и быстрее обрабатывают данные, а более низкая точность их работы может не иметь решающего значения для многих приложений.
Стемминг применим к языкам, которые реализуют словоизменение через афиксы Применим к русскому языку, английскому языку и т. д. Стемы предложения «The quick brown fox jumped over the lazy dogs» : [quick] [brown] [fox] [jump] [over] [lazy] [dog].
Стеммером пользуются для поиска текстов с имитацией учета морфологии. (подразумевается неустранимо большое количество ошибок и нерелевантных результатов, которые возникают, если применять только стеммер ) Для русского языка используется два дополнительные модуля грамматического словаря: n Лемматизатор (словарь склонения) n Флексер (словарь спряжения)
n Принцип работы стемминга применяется в поисковых машинах, позволяя производить поиск с учетом морфологии слова. n При вводе ключевого слова, поисковик учитывает все словоформы этого слова и отражает это в поисковой выдаче.
I. Допускаемые при стемминге ошибки: Ошибки 1 го рода: Стеммер дает слишком большое обощение и поэтому сопоставляет исх. слово с грамматическими формами более чем одной словарной статьи. Компенсация ошибок первого рода выполняется либо введением списка стопслов, либо более качественно лемматизатором или флексером.
II. III. Ошибки стемминга 2 го рода - усечение формы дает слишком длинный стеммер, который не сопоставляется с некоторыми грамматическими формами этого же слова. Чаще всего такое происходит, когда меняется основа слова. Сюда же входят неправельные глаголы. Ошибки стемминга 3 го рода - стеммер построить невозможно из-за изменения букв в корне слова.
Стеммер Портера Алгоритм стемминга, опубликованный Мартином Портером в 1980 году. Оригинальная версия стеммера была предназначена для английского языка. Мартин создал проект «Snowball» и, используя основную идею алгоритма, написал стеммеры для распространённых индоевропейских языков, в том числе для русского.
n n n Стемминг -это приближенный процесс, в ходе которого от слов отбрасываются окончания в расчете на то, что в большинстве случаев это себя оправдает. Стемминг часто подразумевает удаление производных аффиксов. Лемматизация— это точный процесс с использованием лексикона и морфологического анализа слов, в результате которого возвращается словарная форма слова. Например, лексема saw в ходе стемминга может превратиться в букву s, в то время как лемматизация вернет либо слово see, либо слово saw в зависимости от того, является ли лексема глаголом или именем существительным.
MM_22_Морфологический анализ_стемминг_лемматизация.ppt