Lektsia_6_Formalnye_Modeli_V_Morfologii.ppt
- Количество слайдов: 115
Формальные модели в морфологии 1. Моделирование морфологии: причины 2. Методы морфологического анализа 3. Типы морфологических моделей по Ч. Хоккету 4. Линейные морфологические модели 5. Нелинейные морфологические модели
Почему? Зачем? • В языках с развитой морфологией словоформа представляет собой сложную знаковую единицу. • Морфологические модели позволяют описывать соотношение между значением и формой слова наиболее экономным способом.
Почему? Зачем? • Морфологический анализ необходим для линеаризации семантического представления: нелинейные семантические структуры оказываются последовательно упорядоченными для передачи с помощью речи. • Морфология обеспечивает «поморфемное» соотнесение компонентов содержания высказывания с компонентами его звуковой структуры, т. е. соотнесение внутренней стороны словоформ с их внешней стороной.
Методы морфологического анализа делят на: • методы с декларативной ориентацией; • Методы с процедурной ориентацией.
Методы морфологического анализа • Для методов декларативной ориентации характерно наличие полного словаря всех возможных словоформ для каждого слова. • Каждая словоформа снабжается полной и однозначной морфологической информацией.
Методы морфологического анализа • Минимальные знаковые единицы, на которые членятся словоформы, необходимо задавать списком. Такой список создается в процедурных методах.
Методы морфологического анализа • Каждое слово разделяется на основу и аффиксы. • Словарь содержит только основы слов вместе со ссылками на соответствующие строки в таблице возможных аффиксов. • За счёт повторяющихся аффиксов сокращается суммарный объем словаря в сравнении с декларативными методами.
Классификация морфологических моделей по Ч. Хоккету • • • элементно-комбинаторные (Item and Arrangement; IA-модели); элементно-операционные (Item and Process; IP-модели); словесно-парадигматические (Word and Paradigm; WP-модели). NB: Каждый из типов ориентирован на описание языков определенных типов.
Элементно-комбинаторные модели • Морфемы воспринимаются как однозначные постоянные единицы. • Слова конструируются так же, как и предложения, поэтому структура слов становится доступной для синтаксического анализа.
Элементно-комбинаторные модели S NP Det Noun Stem PLU VP Verb Stem PAST NP Det Stem The dog s chase ed the cat Noun PLU s
Элементно-операционные модели • Морфемный состав слова недоступен для синтаксического описания. • Цель таких моделей – описание варьирования алломорфов. • Для этого вводится один или несколько дополнительных уровней представления словоформ.
Словесно-парадигматические модели • Слово рассматривается как совокупность словоформ, образующих парадигму. • Словоформа, а не морфема оказывается минимальной единицей грамматического описания.
Трудности моделирования морфологического уровня языка • Морфология тесно связана с синтаксисом. • Морфология тесно связана с фонологией, т. к. большая часть фонологических чередований происходит на стыках морфем.
Связь морфологии с фонологией • Фонологические правила делятся на два класса: одни правила обусловлены морфологической структурой, а другие используются независимо от морфологической структуры слова.
Связь морфологии с фонологией Палатализация: а) б) производные слова непроизводные слова волк → волчица кино, к Ивану круг → кружить Гена дух → душить хитрый
Связь морфологии с фонологией Ассимиляция: • лодка [тк] – непроизводное слово; • отбежать [дб] – на стыке морфем; • к дому [гд] – на стыке слов.
Типы морфологических моделей по способу представления информации • линейные модели; • иерархические модели; • сетевые модели.
Линейные модели • Морфология в ранних версиях генеративной грамматики отвечала за глубинное представление слов. • Не было самостоятельного морфологического уровня.
Линейные модели • Морфология была частью фонологического блока. • Чередования и другие изменения формы морфологических элементов относились к ведению фонологии.
Линейные модели • Лексикализм: морфологические единицы были признаны автономными от синтаксиса. • Синтаксические процессы стали считаться менее продуктивными и более зависимыми от свойств лексических единиц.
Модель М. Халле 1970 -е годы • Морфология состоит из трех компонентов: списка морфем, правил формирования слов и фильтра для слов-исключений. • Первые два компонента задают все потенциальные слова. • Фильтр исключений нужен из-за морфологических и семантических особенностей производных слов.
Модель М. Халле 1970 -е годы Работа фильтра • reversal, recital, proposal, transmittal – reversion, recitation, proposition, transmission; • refusal, rehearsal, acquittal, arrival – при недопустимых: refusation, rehearsion, acquitation, arrivation. • Всем морфологически потенциальным, но не реальным словам фильтр исключений приписывает признак [-LEXICAL ITEM].
Иерархические морфологические модели Лексическая фонология • Процесс словообразования устроен иерархически. Он является иерархической деривацией, в которой слова строятся из отдельных морфем.
Лексическая фонология • Каждая ступень процесса деривации слова происходит на отдельном морфологическом уровне. • Каждый уровень определяется списком морфем, которые могут быть присоединены к основе слова на этом уровне, а также списком фонологических правил, которые оперируют на этом уровне.
Лексическая фонология список слов и морфем УРОВЕНЬ 1 Морфология фонологические правила УРОВЕНЬ 2 морфология построение предложений фонологические правила постлексические фонологические правила
Лексическая фонология • На уровне 1 прибавляются словообразующие аффиксы, а на последующих уровнях прибавляются флексии. • Конечная форма слова поступает на уровень постлексической фонологии, где из слов строятся предложения.
Лексическая фонология • Основное различие проводится между лексическими фонологическими правилами, обусловленными морфологической структурой слова и оперирующих на стыках морфем, и нелексическими фонологическими правилами, действующими везде, вне зависимости от морфологической структуры.
Лексическая фонология • Лексические фонологические правила действуют циклично: они последовательно применяются на каждом из уровней. • Нелексические (постлексические) правила действуют только один раз, в самом конце деривации.
Просодическая морфология • Иерархическая структура фонологической оболочки слова: Просодическое слово Pr Word Стопа Foot Слог σ Мора μ
Просодическая морфология • 1 краткий слог = 1 мора. • 1 длинный слог = 2 моры. • Стопа ямба = 1 короткий слог и 1 длинный = 3 моры. • Стопа хорея = 1 длинный слог и 1 короткий = 3 моры. • Стопа дактиля = 1 длинный слог и 2 коротких = 4 моры.
Просодическая морфология Легкий σ тяжелый σ μ μ p a p приступ μ a t тяжелый σ ядро μ p кода μ a:
Просодическая морфология • Конкатенативные языки основаны главным образом на префиксации и суффиксации. • Неконкатенативные языки активно используют правила инфиксации, редупликации и аблаута.
Просодическая морфология • Всю информацию, которую несет морфема, можно разложить по ярусам. • Есть ярусы, на которых содержится информация о сегментах слова. • Существует специальный ярус, на котором содержится информация о каноническом образце слова.
Просодическая морфология • Ярус канонического образца называется просодической диаграммой. • Просодическая диаграмма: указание на последовательность фонем в терминах согласных и гласных – CV-skeleton.
Просодическая морфология • Есть просодические диаграммы, задающие единицы более высокого уровня – слоги (sigma templates), метрическую стопу, части таких единиц и комбинации единиц различных уровней.
Просодическая морфология Редупликация в языке Илокано Ед. число pusa «кошка» klase «класс» Мн. число pus-pusa klas-klase
Просодическая морфология • Вместо постоянного звукового состава такие морфемы имеют постоянную просодическую форму. • Морфемы характеризуются не определенным составом фонем, а просодической формой (prosodic template), например, σμμ.
Просодическая морфология Шаблон может определять форму основы слова: Ед. ч. Мн. ч. wila «женщина» wila-wila tjilparku «птица» tjilpa-tjilparku
Просодическая морфология • Морфемы должны состоять из универсальных единиц просодической структуры, т. е. они должны быть слогами, метрическими стопами или минимальными фонологическими словами.
Просодическая морфология • Просодия может регулировать морфологические операции при помощи ограничений, которые в таком случае налагаются на просодическую форму производного слова. • Таким способом объясняется инфиксация.
Просодическая морфология 1 стопа (Σ ) bas → bas-ka ( «его волосы» ) asna → as-ka-na ( «его одежда» ) 2 и более стопы (Σ, Σ …) sana → sana-ka ( «его олень» ) siwanak→ siwa-ka-nak ( «его корни» )
Просодическая морфология • Поскольку просодия разрешает присоединение суффикса только к основе, имеющей определенную просодическую форму, выполнение этого требования объясняет, почему аффикс неожиданно появляется в середине слова. • В соответствии с теорией просодической морфологии в обоих случаях происходит суффиксация к основе определенной формы.
Просодическая морфология: связь фонологических и морфологических явлений • Многие морфологические операции используют не сегментные, а просодические структуры для построения новых слов. В этом случае или аффиксы являются отдельными частями просодической иерархии (как при редупликации), или основа слова должна иметь определенную просодическую форму (как при инфиксации).
Просодическая морфология: связь фонологических и морфологических явлений • Просодия в ряде случаев определяет конечные цели словообразования, как в случаях, когда вся результирующая структура или производное слово должны быть определенной длины, т. е. должны иметь определенную просодическую форму.
Двухуровневая морфология • Два уровня представления языковой информации: поверхностный и глубинный. • На поверхностном уровне слова представлены так, как мы их произносим или пишем. • На глубинном (лексическом) уровне представлен алфавит символов, который включает и специальные диакритические символы.
Двухуровневая морфология • Два уровня связаны между собой возможными соответствиями между символами поверхностной и глубинной структур: символ глубинной структуры : символ поверхностной структуры, например, а : а.
Двухуровневая морфология • Правило эпентетической вставки е при образовании множ. ч. сущ. и глаг. 3 -го лица ед. числа в Present Simple, основа которых оканчивается на s, z, x, ch, sh в английском языке: + : e <= s x z [{sc}h] : _ s
Двухуровневая морфология Работа правила: #fox + s# #watch+s# ||||↓|| ||||||↓|| 0 fox es 0 0 watches 0
Двухуровневая морфология • Усложнение правила для spies, shelves или potatoes: +: e <=> {s x z [ { s c} h: h ] : v [ C y: ] [ C o ] } _ s • Правило замены y на i: (2) y : i <=> C _ { +: e [ +: e ] } ; V C+ _ +: C
Двухуровневая морфология • Параллельная работа двух правил: #spy+s# 21 0 spies 0
Двухуровневая морфология • Параллельное применение правил возможно при одном условии: каждому символу глубинной формы должен соответствовать символ поверхностной формы.
Двухуровневая морфология Применение «нуля» • Запись х: 0 означает удаление символа х из поверхностной цепочки. • Запись 0: х означает вставку символа х в поверхностной репрезентации.
Двухуровневая морфология • Правило: если на стыке морфем образуется сочетание nb, то оно заменяется на m, т. е. присоединении к основе man суффикса bili мы получаем mamili.
Двухуровневая морфология Формализация правил • назальная ассимиляция: n : m __+: 0 b: @ • удаление: b : 0 @ : m + : 0 ___
Двухуровневая морфология Параллельное применение правил: Глубинная структура: Поверхностная структура: man+bili 12 mam 00 ili
Двухуровневая морфология: роль лексикона • Лексикон состоит не из словоформ, а из морфов, на базе которых могут образовываться словоформы путем аффиксации. • Все морфы делятся на два класса: инициирующие морфы, т. е. те, которые могут начать процесс словообразования, и класс морфов, которые присоединяются к инициирующим морфам в процессе словообразования.
Двухуровневая морфология: роль лексикона 1. Основная роль лексикона – определять возможные сочетания морфов. 2. Лексикон работает в качестве фильтра, который отсеивает негативный материал. Фильтр необходим на этапе соотнесения поверхностной и глубинной форм, чтобы ограничить использование «нуля» .
Распределенная морфология • Эта модель была разработана в 90 -е годы в MIT Моррисом Халле, Алеком Марантцем и их учениками. • Все морфологические явления описываются через грамматику, но не фонетику языка.
Распределенная морфология • Процесс порождения высказывания моделируется благодаря работе нескольких отдельных блоков: синтаксического, морфологического, словаря. Фонологический блок завершает работу всей модели.
Распределенная морфология: роль словаря Общая схема единицы словаря: signal ↔ context of insertion (phonological exponent) Пример: / i/ ↔ [ __, + plural]
Распределенная морфология • Для деривации любого выражения требуется два структурных описания: морфонологическое и морфосинтаксическое. • В морфонологическом описании представлены фонологические элементы, т. е. единицы словаря и их структура.
Распределенная морфология • В морфосинтаксическом описании представлены морфемы, составляющие данное выражение, и их структура. • Для слова cows морфосинтаксическое описание: [Root [+ plural ]]; морфонологическое: [kaw+z].
Распределенная морфология Выделяют два типа морфем: • f-морфемы; • l-морфемы. • Эти типы морфем приблизительно соответствуют делению на функциональные и лексические категории.
Распределенная морфология • F-морфемы – это морфемы, для которых процесс вставки жестко детерминирован. Этому типу морфемы соответствует единичное наполнение. • Для L-морфем существует выбор на этапе заполнения.
Распределенная морфология • Разделение морфем на два типа позволяет отказаться от использования традиционных синтаксических категорий типа «существительное» или «глагол» . • Вместо этого предложено ввести специфический тип l-морфемы, получивший название Root. • Эта морфема состоит в определенных отношениях с f-морфемами, которые и определяют категорию, к которой относится слово.
Распределенная морфология Отношение с-коммандования: Х А В F-морфемы находятся в отношении скоммандования по отношению к lморфеме Root.
Распределенная морфология • Например, если Root принимает значение “verb”, то ее ближайшими скоммандующими f-морфемами будут “Aspect” и “Tense”. • Таким образом, морфемы подчиняются тем правилам, которые распространяются и на синтаксическую структуру высказывания.
Распределенная морфология • Одна и та же единица словаря может появиться в составе различных морфологических категорий. • Всё зависит от того, в каком синтаксическом контексте появляется l -морфема Root.
Парадигматическая морфология • Данная модель базируется на понятиях слова и парадигмы. • Слова представлены в виде цепочек, элементам которых приписываются некоторые значения.
Парадигматическая морфология • Слово walks в виде цепочки: w+a+l+k+s, где символ «+» означает конкатенацию. • В виде уравнения слово можно представить, используя спецификацию цепочки. • Используя спецификацию, мы приписываем некоторое значение фрагменту цепочки: walks = Ws W/walk
Парадигматическая морфология • Операция, с помощью которой мы приписываем значения переменным, называется в парадигматической морфологии унификацией цепочки (string unification). • Запись в виде уравнения позволяет описывать орфографические ограничения на морфологические чередования.
Парадигматическая морфология • В парадигматической морфологии используются также лексикон, состоящий из конечного числа словарных статей. • Словарная статья связывает цепочки S с набором грамматических свойств P. (S: P) – словарная статья
Парадигматическая морфология • К словарной статье применяются лексические правила, общий вид которых в формальной записи:
Парадигматическая морфология • • Обозначения IS (Input String) – цепочка на входе IP (Input Properties) – свойства цепочки на входе OS (Output String) – цепочка на выходе OP (Output Properties) – свойства цепочки на выходе
Парадигматическая морфология • Лексические правила устанавливают соответствия между формой цепочки на входе и ее свойствами, а также между формой цепочки на выходе и ее свойствами. • Лексическое правило может быть записано в более простой форме: lexical_rule (Name, IP → OP)
Парадигматическая морфология • Отношения между IS и OS определяются наличием парадигм. • Парадигма понимается как совокупность четырех компонентов:
Парадигматическая морфология • Для записи парадигмы используется строгий синтаксис: table (Name, String: Properties, LR, S).
Парадигматическая морфология Name LR S String Properties table (verb, Verb: [verb, base, Past = Verb + ed], [base 3 sg non 3 sg past_participle past passive progressive] [Verb+s Verb Past Verb+ ing] )
Парадигматическая морфология Табличная запись парадигмы глагола to bring: table (verb_bring, bring: [verb, base, Past=brought], [past_participle [Past past Past passive] Past])
Парадигматическая морфология • Выделяют два типа парадигм: основные и вспомогательные. • Основные парадигмы описывают формы с окончаниями полностью. • Во вспомогательных парадигмах содержится информация, которая отражает специфические морфологические отношения. • Эту информацию затем используют основные парадигмы для восстановления полной формы слова с окончанием.
Парадигматическая морфология • Модель парадигматической морфологии хорошо работает не только при описании языков, где словоформы образуются путем аффиксации, но и для языков с неконкатенативной морфологией.
Сетевая морфология (DATR) • Эта модель была разработана для описания морфологии тех языков, где значительная часть информации выражается с помощью окончаний. • Основная идея: морфологический уровень языка представляет собой иерархически организованную сеть.
Сетевая морфология • Сеть состоит из узлов и переходов. • Узел может содержать информацию о словоформе, о лексеме или о целом классе лексем. • Переход от одного узла к другому – это процесс словообразования.
Сетевая морфология • Движение по сети (т. е. процесс создания новой словоформы) можно описать через пару путь/значение. • Путь – это последовательность грамматических характеристик, которые приобретает словоформа. • Значение – это конкретные признаки лексемы или словоформы.
Сетевая морфология Путь Значение Syn(tactic) cat(egory) syn type verb syn form present participle Mor(phological) form love ing main
Сетевая морфология Word 1:
Сетевая морфология • Достоинство такого способа организации информации состоит в том, что это формальное описание предоставляет нам всю грамматическую и морфологическую информацию о словоформе.
Сетевая морфология: наследование • Для экономного представления информации вводится понятие сети с наследованием. • В соответствии с принципом наследования, элементы подкласса наследуют все характеристики класса в целом.
Сетевая морфология: наследование • Узлы, в которых содержится информация о наиболее общих свойствах лексем, называются дескрипторами. VERB:
Сетевая морфология: наследование Word 1: Word 2:
Сетевая морфология: наследование • В новых описаниях
Сетевая морфология: наследование • Вариант 1 Come:
Сетевая морфология: наследование Два типа наследования: • локальное (local inheritance); • глобальное (global inheritance).
Сетевая морфология: наследование • Локальное наследование предполагает, что информация, содержащаяся в конкретном узле, зависит от информации, которая содержится в соседних узлах. • Локальное наследование может производиться тремя способами: либо от нового узла, либо по новому пути, либо от нового узла по новому пути одновременно.
Сетевая морфология: наследование Come: <> == VERB
Сетевая морфология: наследование • Глобальное наследование – это наследование более высокого уровня, чем локальное, поскольку глобальное наследование изменяет локальный контекст, но не наоборот. • Для указания на глобальный тип наследования вводятся специальные дескрипторы, заключенные в кавычки.
" Пример 2: NOUN:" src="https://present5.com/presentation/15755489_148312911/image-97.jpg" alt="Сетевая морфология: наследование Пример 1: VERB:
Сетевая морфология: русская глагольная система • Данная формальная модель удобна для описания языков с хорошо развитой системой окончаний. • Сложность создания модели русского глагольного словообразования заключалась в том, что мы имеем разветвленную систему чередований согласных.
Русская глагольная система
Русская глагольная система CONS Soft=“zero+softening” Jotated = “base final soft” (глобальное наследование) Labial П Б М В Ф Т Д С З Л Н Р К Г Х
Сетевая морфология: русская глагольная система Иерархия чередования глагольных основ на языке DATR CONS:
Сетевая морфология: русская глагольная система Govor’it’: <>==I_BASEi
ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ МОРФОЛОГИЧЕСКИХ МОДЕЛЕЙ : ПАРСИНГ Парсинг – это автоматический грамматический анализ, переводящий выражения языка-объекта в выражения метаязыка описания. • При анализе текста каждая словоформа получает своеобразный «ярлык» с пометами о своих грамматических характеристиках.
Парсинг • Задача морфологического парсинга состоит в том, чтобы узнать, из каких морфем состоит анализируемое слово. input output cats cat N PL mouse N SG mice mouse N PL foxes fox N PL
Парсинг s-форма промежуточная форма разбиение слова на возможные морфемы соотнесение основ и аффиксов с лексиконом d-форма
Парсинг
Парсинг
Парсинг
Парсинг • • основа существительного, множественное число которого образуется по правилам, например, cat; основа такого же существительного + s, например, cat + s; существительное в единственном числе, множественное число которого образуется нерегулярным способом, например, mouse; такое же существительное в форме множественного числа, например, mice.
Парсинг
Парсинг
Парсинг
Лемматизация • Лемматизация - восстановление словарной формы слова по его словоформе, которую принято называть леммой. • Лемма – это аналог входа словарной статьи, где слово дается в его исходной, начальной форме. • Когда говорят о лемматизации текста, то имеют в виду замену всех имеющихся в нем словоформ на начальные формы.
Лемматизация • Лемматизация текста - замена всех имеющихся в нем словоформ на начальные формы. • Лемма в компьютерной программе может содержать всю релевантную грамматическую и семантическую информацию о слове.
Лемматизация • Лемматизация необходима на этапе, когда создаются перекрестные словарные отсылки между словами. • Лемматизация в автоматизированных поисковых системах обеспечивает эффективный поиск по запросу.


