MM_23_Синтаксический анализ.ppt
- Количество слайдов: 28
Синтаксический анализ предложения
Л. В. Щерба «Глокая куздра штеко будланула бокра и кудрячит бокрёнка»
Автоматический синтаксический анализ – это грамматический разбор предложения без опоры на значение составляющих его слов, с использованием информации только об их грамматических свойствах.
Цель синтаксического анализа – построение структуры предложения в виде дерева (в идеальном случае это одно связное дерево, то есть все слова предложения связаны синтаксическими отноше-ниями воедино). l Формальные средства представления этой синтаксической информации – грамматики непосредственно составляющих и грамматики зависимостей. l Методы синтаксического анализа основаны на теории формальных грамматик и языков, разрабатываемой математической лингвистикой. l
Работа автоматического синтаксического анализатора может базироваться на трех видах информации: l допустимые линейные последовательности классов слов (например, артикль + прилагательное + существительное), l допустимые линейные последовательности групп классов слов (например, именных групп, глагольных групп, предложных групп, предложений), l отношения зависимости.
Деревья зависимостей l l l наиболее наглядный и наиболее распространенный способ представления синтаксической структуры предложения. Предложение представляется как линейно упорядоченное множество элементов (словоформ), на котором можно задать ориентированное дерево. Узлы дерева — элементы этого множества. Каждая дуга, связывающая пару узлов, интерпретируется как подчинительная связь между двумя элементами, Направление дуги соответствует направлению связи.
Деревья зависимостей l Множество всех узлов дерева, прямо или косвенно зависящих от какого-либо узла, включая сам этот узел, составляет группу зависимости этого узла.
Проективность Деревья зависимости называются проективными, если для любого узла группа зависимости этого узла является неразрывным отрезком предложения. Проективно, если для любых трех его узлов a, b, c из того, что b зависит от a, и c лежит между ними, следует, что c зависит от a или от b. Слабопроективно, если для любых его четырех узлов a, b, c, d из того, что b зависит от a, и d зависит от c следует, что пары a, b и c, d не разделяют друга
Непроективное предложение: «Я памятник себе воздвиг нерукотворный» .
Слабопроективное предложение: «Этому человеку мы будем обязаны всю жизнь»
Деревья зависимостей Недостатки: - Жёсткое требование рассматривать каждое формально выделенное вхождение слова в качестве отдельного элемента предложения - Все без исключения связи между словоформами трактуются как подчинительные
Структуры непосредственно составляющих (НС-структуры) l l Предложение изображается не как линейная последовательность слов, а как иерархия уровне членения. На каждом этапе членения выделяются отрезки максимальной длины, т. е. такие, которые, в свою очередь, допускают максимальное число дальнейших членений. Эти отрезки носят название непосредственно составляющих (immediate constituents) или, сокращенно, НС. На каждом этапе выделяются две НС, т. е. членение осуществляется на т. н. бинарном принципе
Бинарный принцип членения The old man | saw a black dog there. The || old man | saw a black dog || there. | saw ||| a black dog || there. The || old ||| man | saw ||| a |||| black dog || there. | saw ||| a |||| black ||||| dog || there.
l l John is eager to please. (субъектное отношение) John is easy to please. (объектное отношение) Какой характер носят эти смысловые отношения (субъектное и объектное)? Они сводятся к разнице в семантике слов или же здесь разница в структуре предложений? Как формально отобразить эту разницу в структуре? ли они
l Разные «смысловые отношения» между словами могут иметь место и при полной тождественности лексического состава предложений. l Не is a man to watch «Он — человек, который должен следить за чем-то» ( «субъектное отношение» ), «Он — человек, за которым надо следить» ( «объектное отношение» ) l l За одинаковым лексическим составом здесь скрываются различные синтаксические структуры. Однако, согласно методу НС, в обоих случаях предложение здесь получит одну и ту же схему ( «дерево» ), т. е. разница в смысле останется неформализованной.
Ограниченность объяснительной силы модели НС l l l Причина – структура каждого предложения рассматривается в ней независимо от структуры других предложений. Объяснить разницу в структуре вышеприведенных предложений можно только в том случае, если рассматривать их строение в связи с другими типами строения предложений, существующими в английском языке. Именно такую задачу ставит себе трансформационная модель предложения, разработанная Хомским и его учениками.
Трансформационная модель Хомского l Tрансформационная модель предложения включает в себя модель НС, но идет гораздо дальше l Исследует отношения между различными «деревьями» или схемами строения предложений l Сущность ТМ: установление отношений, при которых одна схема строения считается производной от другой.
Производность в ТМ l Благодаря ТМ понятие производности распространилось на единицы синтаксического уровня. l ТМ предполагает выделение на синтаксическом уровне т. н. «ядерных конструкций» , т. е. предложений, структура которых не может быть выведена из других, более элементарных конструкций, и трансформов этих ядерных конструкций, т. е. предложений, структура которых может быть выведена из структуры ядерных конструкций при помощи заданных правил преобразования или трансформации
Ядерные конструкции N V (напр. John came) N V р N (напр. John looked at Mary) N V N (напр. John saw Mary) N is N (напр. John is a teacher) N is p N (напр. John is in bed) N is D (напр. John is out) N is A (напр. John is angry)
The old man saw a black dog. The man saw a dog. + The man was old. + => The dog was black. The man who was old saw a dog which was black. => The old man saw a black dog. t || N |V ||| t |||| N + t || N | was || A | + t | N | was || A => t || A ||| N | V ||| t |||| A ||||| N
ТМ является более сильной, чем модель НС, поскольку она дает возможность формализовать различие между конструкциями, разграничение которых при анализе по НС провести невозможно.
l С точки зрения модели НС словосочетания John’s arrival и John’s trial являются однотипными; l Однако смысловые отношения в них различны: в первом случае имеется т. н. Genitivus subjectivus, во втором — Genitivus objectivus. l Трансформационная модель дает возможность формализовать это различие, указывая, что конструкция John’s arrival происходит от John arrives, a John’s trial — от John is tried, что, в свою очередь, восходит к конструкции X tries John.
Cила трансформационной модели: она рассматривает структуру каждого предложения и каждого словосочетания не изолированно, а в единой системе, в связи со структурами других типов предложений и словосочетаний. (1) He is the man. } —» He is the man to The man watches. watch. (2) He is the man. X } —-> He is the man to watches the man. watch.
ТМ – не аналитическая, а порождающая В отличие от других моделей ТМ излагает не правила анализа предложений, а правила их порождения. ТМ исходит из того, что структура описываемых ею предложений уже известна. Поэтому, что применять ТМ для анализа предложений нельзя (она не аналитическая, а порождающая). На практике роль трансформационной модели при анализе структуры предложения сводится к установлению формальной разницы между внешне одинаковыми структурами.
Множественность синтаксических нитерпретаций часто определяется естественной смысловой неоднозначностью
Синтаксическая омонимия l Возможность приписать фразе более чем одну правильную синтаксическую конструкцию. l Основная проблема синтаксического анализа l Для разрешения таких неоднозначностей может использоваться выход на уровень семантики или прагматики интерредактирование. 1. 2.
Ориентированные структуры непосредственно составляющих (ОНС-структуры) ОНС-структура — это структура составляющих, где для каждой неодноэлементной составляющей определена одна из её НС в качестве главной (неглавные зависят от главной).
Частично ориентированные структуры непосредственно составляющих (ЧОНС-структуры) Различия в формальных определениях ОНС-структур и ЧОНС-структур заключается в том, что главные НС выделяются не для всех элементов множества неодноэлементных составляющих, а лишь для некоторого его подмножества.
MM_23_Синтаксический анализ.ppt