KL-Lec4.ppt
- Количество слайдов: 31
АВТОМАТИЧНИЙ МОРФОЛОГІЧНИЙ АНАЛІЗ. МОДЕЛЬ МОРФОЛОГІЇ ФЛЕКТИВНОЇ МОВИ ЛЕКЦІЯ № 4
ВИМОГИ ДО СИСТЕМИ АМА • Швидкодія • Відділення лінгвістичної та програмної (алгоритмічної )частин. • Економія оперативної пам’яті. ? ? ? Комп'ютерна лінгвістика (2009) Романюк А. Б.
СЛОВОЗМІННИЙ ПАРАДИГМАТИЧНИЙ ТИП • СПТ визначається на основі понять граматична категорія, граматичне значення, граматична форма. • Тип українських іменників має 14 граматичних значень, які визначаються граматичними категоріями числа і відмінка. • В кожному граматичному значенні лексема може мати один або декілька варіантів словоформи. Комп'ютерна лінгвістика (2009) Романюк А. Б.
МОРФОЛОГІЧНА МОДЕЛЬ СЛОВОЗМІНИ ФЛЕКТИВНОЇ МОВИ L - фіксована мова (флективна); W – множина слів мови L; ti (i=1, 2, …N) - морфологічні типи; W(ti) – множина слів мови L, яка належить типу ti; Ω (ti) – множина граматичних значень, що відповідають типу ti • Необхідно виділити словозмінні парадигматичні типи та словозмінні парадигматичні класи. • • • Комп'ютерна лінгвістика (2009) Романюк А. Б.
СУБСТАНТИВНИЙ ПАРАДИГМАТИЧНИЙ ТИП • Характеризується граматичними формами, які визначаються граматичними значеннями словозмінних категорій “число” та “відмінок”. • W(t 1)= W S = {ws 1, ws 2, …, ws 14, def} • Граматичні форми: • ws i={n 1, k I}={(n 1, k 1), (n 1, k 2), … (n 1, k 7)} • ws i+7={n 2, k I}={(n 2, k 1), (n 2, k 2), … (n 1, k 14)} • n – множина, однина; k - відмінки Комп'ютерна лінгвістика (2009) Романюк А. Б.
АД’ЄКТИВНИЙ ПАРАДИГМАТИЧНИЙ ТИП • Характеризується граматичними формами, які визначаються граматичними значеннями словозмінних категорій “рід”, “число” та “відмінок”. • W(t 2)= W A = {w. A 1, w. A 2, …, w. A 24, def} • Граматичні форми: • w. A i={g 1, n 1, k. I}; w. A i+6={g 2, n 1, k. I}; • w. A i+12={g 3, n 1, k. I}; i=1, 2, …. 6 • w. A i+18={n 2, k I}; i=1, 2, …. 6 • g – рід чоловічий, жіночий, середній; k - відмінки Комп'ютерна лінгвістика (2009) Романюк А. Б.
СЛОВОЗМІННИЙ ПАРАДИГМАТИЧНИЙ КЛАС • Довільна лексема може бути представлена у вигляді комбінації незмінної та змінної складових: • X=C(x)*F(x) • Повна словозмінна парадигма слова , що належить до парадигматичного типу ti • П(X)=C(x)*{F I(x)} Комп'ютерна лінгвістика (2009) Романюк А. Б.
СЛОВОЗМІННИЙ ПАРАДИГМАТИЧНИЙ КЛАС • До одного словозмінного парадигматичного класу входять тільки ті слова, які мають однакові набори квазіфлексій для всіх граматичних форм, а відрізняються один від одного лише незмінною складовою • Слова з одного класу мають однакові правила словозміни Комп'ютерна лінгвістика (2009) Романюк А. Б.
ЗАДАЧА МОРФОЛОГІЧНОГО АНАЛІЗУ ТА СИНТЕЗУ • Виходячи з формальної моделі словозміни: Аналіз – поділ ланцюжка букв на морфи (основу та морфи) і визначення характеристик, які з ними пов’язані. Синтез – пошук основи лексеми і морфів, які мають необхідні характеристики та їх поєднання в потрібному порядку. Комп'ютерна лінгвістика (2009) Романюк А. Б.
МОРФИ, ЯК СКЛАДНИКИ СЛОВОФОРМ Відточе- -н- -ому Точити -дієслово Відточений - дієприкметник Пасивний. Минулий час Давальний відм. однина 0 Спіл- 1 * -іш. Комп'ютерна лінгвістика (2009) Романюк А. Б. 2 -ий
ЛІНГВІСТИЧНА ЧАСТИНА СИСТЕМИ АМА • Таблиці – задають загальні закономірності граматики мови. Інформація про морфи, граматеми та зв’язки між ними. (Граматема –набір морфологічних характеристик, які визначаються одним морфом) • Словник – лексика мови та особливості словозміни окремих слів Комп'ютерна лінгвістика (2009) Романюк А. Б.
ТИПИ ІНФОРМАЦІЇ В ТАБЛИЦЯХ • Морфи відповідають граматемам. (називному відмінку однини відповідає морф –ий, а родовому ого) • Морфи керують морфами. (батьк-ів, батьк-ов-ого) • Граматими керують граматемами (є заборонені комбінаціє граматем) Комп'ютерна лінгвістика (2009) Романюк А. Б.
ТАБЛИЦІ ДЛЯ ПОВНОГО ОПИСУ МОДЕЛІ МОРФОЛОГІЇ ФЛЕКТИВНОЇ МОВИ • • Таблиці морфів Списки граматем Списки масок Комп'ютерна лінгвістика (2009) Романюк А. Б.
СХЕМА ЛІНГВІСТИЧНОЇ ІНФОРМАЦІЇ СЛОВНИК ГРАМАТЕМИ Чист- 1 1 Одн. Називний Батьк- 2 2 Одн. Родовий Чист- 3 3 Одн. давальний Мужн- 4 . … 1 -ий -ого -ому -ий -им -ому -их (-ого) 2 -ів -ого -ому -ів -ого -им ому -им … 3 -а -ої -ій -ою -ій -их 4 -ій -ого -ому -ій -ого -у -ім ТАБЛИЦЯ МОРФІВ Комп'ютерна лінгвістика (2009) Романюк А. Б. -ому -іх … … …
СХЕМА ЛІНГВІСТИЧНОЇ ІНФОРМАЦІЇ СЛОВНИК ГРАМАТЕМИ Танк- 1/10 1 Одн. Називний Гурт- 1/10 2 Одн. Родовий Дитин- 3/30 Діт- 2/40 …. . . Мн. родовий 10 + + + … 30 + + + … - - - … 40 - - - … + + + … СПИСОК МАСОК 1 * -а -у … -и -ів -ах … 2 -і -ей -ям … -и -ей -ях … 3 -а -и -і … -ою -ій -их … ТАБЛИЦЯ МОРФІВ Комп'ютерна лінгвістика (2009) Романюк А. Б.
СХЕМА ЛІНГВІСТИЧНОЇ ІНФОРМАЦІЇ СЛОВНИК ГРАМАТЕМИ сильн- 1 Одн. Називний 1/10 N/N дешев- 2/10 N/N 2 Ст. порівн. вища 10 + + СПИСОК МАСОК 1 * -іш- 1 2 * -ш- 1 ТАБЛИЦЯ МОРФІВ СПИСОК МОРФІВ Комп'ютерна лінгвістика (2009) Романюк А. Б.
МОРФОЛОГІЧНИЙ АНАЛІЗ “справа наліво” та “зліва - направо” справа -наліво зліва - направо • Менше звертань до словника • Необхідно знати точні межі слова • Квазіфлексія вибирається без будьякої додаткової інформації • Більше звертань до словника • Незалежність від поділу тексту на слова • Квазіфлексія вибирається на основі інформації яка міститься при основі словоформи Комп'ютерна лінгвістика (2009) Романюк А. Б.
СТРУКТУРА СЛОВНИКА ОСНОВ БЛОКИ ІНДЕКСНОГО МАСИВУ ДРУГОГО РІВНЯ БЛОКИ ІНДЕКСНОГО МАСИВУ ПЕРШОГО РІВНЯ КЛЮЧ ЗАПИСУ – ТЕКСТ ОСНОВИ Ключ1 КЛЮЧ БЛОКУ – ПЕРШИЙ ЗАПИС БЛОКУ Ключ2 00000 БЛОКИ СЛОВНИКА ОДНАКОВОГО РОЗМІРУ Ключ1 Ключ2 Ключ3 Ключ4 Ключ5 Комп'ютерна лінгвістика (2009) Романюк А. Б. Ключ6 Ключ7
СТЕК ВКЛАДЕНИХ КЛЮЧІВ • LIFO стек (останній прийшов–перший вийшов); • Елементи стеку – записи словника, що формується; На початку роботи стек пустий; • З вершини стеку видаляються всі записи, ключі яких не вкладаються зліва в ключ запису що поступив на вхід; • Видалення припиняється коли стек пустий або на вершині запис ключ якого вкладається; • Наовий запис розміщується на вершині стека. Комп'ютерна лінгвістика (2009) Романюк А. Б.
СТЕК ВКЛАДЕНИХ КЛЮЧІВ (приклад) • ВХІДНИЙ ФАЙЛ МІСТИТЬ ЗАПИСИ: ПАР-*; ПАРОВОЗН-*(ИЙ); ПАРОПЛАВ-*; ЛІТАК-*. • КРОК 1 – БУФЕР: ПУСТИЙ – СТЕК: ПУСТИЙ Комп'ютерна лінгвістика (2009) Романюк А. Б.
СТЕК ВКЛАДЕНИХ КЛЮЧІВ (приклад) • КРОК 2 – НА ВХОДІ: ПАР-* – ВИДАЛЕННЯ: – ДОДАЄТЬСЯ: ПАР-* (КОПІЯ В БУФЕР) – БУФЕР: ПАР – СТЕК: ВЕРШИНА-3 (БУКВИ В БУФЕРІ ) Комп'ютерна лінгвістика (2009) Романюк А. Б.
СТЕК ВКЛАДЕНИХ КЛЮЧІВ (приклад) • КРОК 3 – НА ВХОДІ: ПАРОВОЗ-* – ВИДАЛЕННЯ: - (ВЕРШИНА ВКЛАДАЄТЬСЯ) – ДОДАЄТЬСЯ: ПАРОВОЗ (КОПІЯ В БУФЕР) – БУФЕР: ПАРОВОЗ – СТЕК: 3(ПАР) ВЕРШИНА-7 (ПАРОВОЗ ) Комп'ютерна лінгвістика (2009) Романюк А. Б.
СТЕК ВКЛАДЕНИХ КЛЮЧІВ (приклад) • КРОК 4 – НА ВХОДІ: ПАРОВОЗН-* – ВИДАЛЕННЯ: - (ВЕРШИНА ВКЛАДАЄТЬСЯ) – ДОДАЄТЬСЯ: ПАРОВОЗН (КОПІЯ В БУФЕР) – БУФЕР: ПАРОВОЗН – СТЕК: 3(ПАР) , 7 (ПАРОВОЗ ), ВЕРШИНА-8 (ПАРОВОЗН ) Комп'ютерна лінгвістика (2009) Романюк А. Б.
СТЕК ВКЛАДЕНИХ КЛЮЧІВ (приклад) • КРОК 5 – НА ВХОДІ: ПАРОПЛАВ-* – ВИДАЛЕННЯ: ПАРОВОЗН(ВЕРШИНА НЕ ВКЛАДАЄТЬСЯ) – СТЕК: 3(ПАР) , ВЕРШИНА-7 (ПАРОВОЗ) – ВИДАЛЕННЯ: ПАРОВОЗ – СТЕК: ВЕРШИНА 3(ПАР) , – ДОДАЄТЬСЯ: ПАРОПЛАВ – БУФЕР: ПАРОПЛАВ – СТЕК: 3(ПАР) , ВЕРШИНА-8 (ПАРОПЛАВ ) Комп'ютерна лінгвістика (2009) Романюк А. Б.
СТЕК ВКЛАДЕНИХ КЛЮЧІВ (приклад) • КРОК 6 – НА ВХОДІ: ЛІТАК-* – ВИДАЛЕННЯ: ПАРОПЛАВ – СТЕК: 3(ПАР) – ВИДАЛЕННЯ: ПАР – СТЕК: - – ДОДАЄТЬСЯ: ЛІТАК – БУФЕР: ЛІТАК – СТЕК: ВЕРШИНА-5 (ЛІТАК ) Комп'ютерна лінгвістика (2009) Романюк А. Б.
АЛГОРИТМ ПОБУДОВИ СЛОВНИКА • ВХІДНИЙ ФАЙЛ ЧИТАЄТЬСЯ ЗАПИС ЗА ЗАПИСОМ І ЗАПИСИ КОПІЮЮТЬСЯ У ВИХІДНИЙ ФАЙЛ; • СТЕК ВКЛАДЕНИХ КЛЮЧІВ ПОСТІЙНО ОНОВЛЮЄТЬСЯ; • ЯКЩО ДОВЖИНА ЧЕРГОВОГО ЗАПИСУ, ПРИЗНАЧЕНОГО ДЛЯ ВИВОДУ ВИХОДИТЬ ЗА МЕЖІ БЛОКУ – ЗАПИС НЕ ВИВОДИТЬСЯ І ВИКОНУЮТЬСЯ НАСТУПНІ ДІЇ Комп'ютерна лінгвістика (2009) Романюк А. Б.
АЛГОРИТМ ПОБУДОВИ СЛОВНИКА • ЗАВЕРШЕННЯ ФОРМУВАННЯ ПОТОЧНОГО БЛОКУ (ДОПОВНЕННЯ НУЛЯМИ); • ПОЧАТОК ФОРМУВАННЯ НОВОГО БЛОКУ; • НА ВИХІД КОПІЮЄТЬСЯ ВЕСЬ ВМІСТ СТЕКА ВКЛАДЕНИХ КЛЮЧІВ ПОЧИНАЮЧИ ВІД НАЙГЛИБШОГО І ЗАВЕРШУЮЧИ ВЕРШИНОЮ; • ПРОЦЕС ЧИТАННЯ НОВИХ ЗАПИСІВ ПРОДОВЖУЄТЬСЯ Комп'ютерна лінгвістика (2009) Романюк А. Б.
АЛГОРИТМ ПОБУДОВИ СЛОВНИКА (ПРИКЛАД) • ВХІДНИЙ ФАЙЛ МІСТИТЬ ЗАПИСИ: АВТО-*; ПАРОВОЗ-*; ПАРОВОЗН-*(ИЙ); ПАРОПЛАВ-*; ЛІТАК-*; ЯХТ-*. • ПЕРЕПОВНЕННЯ (ПАРОПЛАВ) БЛОК АВТО-* ПАРОВОЗ-* ПАРОВОЗН-* 0 1 БЛОК ПАРОПЛАВ-* ПАР-* ЛІТАК-* ЯХТ-* 00 2 Комп'ютерна лінгвістика (2009) Романюк А. Б.
НОМЕР БЛОКА ОСНОВНОГО СЛОВНИКА • МАСИВ M ЦІЛИХ ЧИСЕЛ РОЗМІР, ЯКОГО ДОРІВНЮЄ ЧИСЛУ БЛОКІВ ІНДЕКСНОГО МАСИВУ ПЕРШОГО РІВНЯ; • ЕЛЕМЕНТИ МАСИВА mi –ЧИСЛА ЩО ВІДПОВІДАЮТЬ КІЛЬКОСТІ ЗАПИСІВ У БЛОКАХ З НОМЕРАМИ i-1; • НОМЕР ЗАПИСУ В МАСИВІ ДРУГОГО РІВНЯ- N • ПОШУК В N БЛОЦІ МАСИВІ ПЕРШОГО РІВНЯ -K; • БЛОК ОСНОВНОГО СЛОВНИКА m. N+K Комп'ютерна лінгвістика (2009) Романюк А. Б.
НОМЕР БЛОКА ОСНОВНОГО СЛОВНИКА 1 2 m. N+K 3 4 5 m 1=0 m 3=13 m 4=18 m 5=24 m 2=6 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 7 Комп'ютерна лінгвістика (2009) Романюк А. Б. 6
НЕОБХІДНО ПРОЧИТАТИ ГЕЛЬБУХ А. Ф. ЭФФЕКТИВНО РЕАЛИЗУЕМАЯ МОДЕЛЬ МОРФОЛОГИИ ФЛЕКТИВНОГО ЕСТЕСТВЕННОГО ЯЗЫКА - 1994. Корпусна лінгвістика /Широков В. А. та ін. Київ: Довіра 2005. – 471 с. ст. 126 -157, 218 -225. Комп'ютерна лінгвістика (2009) Романюк А. Б.


