Скачать презентацию СКІНЧЕННІ АВТОМАТИ ТА СКІНЧЕННІ ПЕРЕТВОРЮВАЧІ ВИКОРИСТАННЯ СКІНЧЕННИХ ПЕРЕТВОРЮВАЧІВ Скачать презентацию СКІНЧЕННІ АВТОМАТИ ТА СКІНЧЕННІ ПЕРЕТВОРЮВАЧІ ВИКОРИСТАННЯ СКІНЧЕННИХ ПЕРЕТВОРЮВАЧІВ

KL-Lec3.ppt

  • Количество слайдов: 39

СКІНЧЕННІ АВТОМАТИ ТА СКІНЧЕННІ ПЕРЕТВОРЮВАЧІ ВИКОРИСТАННЯ СКІНЧЕННИХ ПЕРЕТВОРЮВАЧІВ ДЛЯ ПОБУДОВИ МОРФОЛОГІЧНИХ АНАЛІЗАТОРІВ ЛЕКЦІЯ № СКІНЧЕННІ АВТОМАТИ ТА СКІНЧЕННІ ПЕРЕТВОРЮВАЧІ ВИКОРИСТАННЯ СКІНЧЕННИХ ПЕРЕТВОРЮВАЧІВ ДЛЯ ПОБУДОВИ МОРФОЛОГІЧНИХ АНАЛІЗАТОРІВ ЛЕКЦІЯ № 3

СКІНЧЕННИЙ АВТОМАТ (FSA) • Мова, як набір стрічок: • Скінченний автомат для розпізнавання цього СКІНЧЕННИЙ АВТОМАТ (FSA) • Мова, як набір стрічок: • Скінченний автомат для розпізнавання цього набору стрічок: Комп'ютерна лінгвістика (2009) Романюк А. Б. 2

СКІНЧЕННИЙ АВТОМАТ (прод. ) • Таблиця переходів скінченного автомата Комп'ютерна лінгвістика (2009) Романюк А. СКІНЧЕННИЙ АВТОМАТ (прод. ) • Таблиця переходів скінченного автомата Комп'ютерна лінгвістика (2009) Романюк А. Б. 3

СКІНЧЕННИЙ АВТОМАТ (ФОРМАЛЬНЕ ВИЗНАЧЕННЯ) СКІНЧЕННИЙ АВТОМАТ ВИЗНАЧАЄТЬСЯ НАСТУПНИМИ ПАРАМЕТРАМИ Q=q 0 q 1 q СКІНЧЕННИЙ АВТОМАТ (ФОРМАЛЬНЕ ВИЗНАЧЕННЯ) СКІНЧЕННИЙ АВТОМАТ ВИЗНАЧАЄТЬСЯ НАСТУПНИМИ ПАРАМЕТРАМИ Q=q 0 q 1 q 2…qn-1 Скінченний набір N станів Σ Скінченний алфавіт вхідних символів q 0 Початковий стан F Набір кінцевих станів, F ⊆ Q δ(q, i) Функція переходів або матриця переходів між станами. Зі стану q ∈ Q при наявності вхідного символу i ∈ Σ, δ(q, i) повертає новий стан q’ ∈ Q Комп'ютерна лінгвістика (2009) Романюк А. Б. 4

АЛГОРИТМ РОЗПІЗНАВАННЯ СТРІЧКИ function D-RECOGNIZE (tape, machine) returns accept or reject index <— Beginning АЛГОРИТМ РОЗПІЗНАВАННЯ СТРІЧКИ function D-RECOGNIZE (tape, machine) returns accept or reject index <— Beginning of tape current-state <— Initial state of machine loop if End of input has been reached then if current-state is an accept state then return accept else return reject elsif transition-table[current-state, tape[index]] is empty then return reject else current-state <— transition-table[current-state, tape[index]] index<— index + 1 end Комп'ютерна лінгвістика (2009) Романюк А. Б. 5

СКІНЧЕННИЙ АВТОМАТ ЗІ СТАНОМ ПОМИЛКИ Комп'ютерна лінгвістика (2009) Романюк А. Б. 6 СКІНЧЕННИЙ АВТОМАТ ЗІ СТАНОМ ПОМИЛКИ Комп'ютерна лінгвістика (2009) Романюк А. Б. 6

СКІНЧЕННИЙ АВТОМАТ (приклад) • Скінченний автомат для представлення числових значень Комп'ютерна лінгвістика (2009) Романюк СКІНЧЕННИЙ АВТОМАТ (приклад) • Скінченний автомат для представлення числових значень Комп'ютерна лінгвістика (2009) Романюк А. Б. 7

АВТОМАТИЧНИЙ МОРФОЛОГІЧНИЙ АНАЛІЗ • Морфологічний аналіз та синтез словоформ; • Виявлення та виправлення помилок АВТОМАТИЧНИЙ МОРФОЛОГІЧНИЙ АНАЛІЗ • Морфологічний аналіз та синтез словоформ; • Виявлення та виправлення помилок в текстах; • Нормалізація слів; • Автоматичне виявлення словарних характеристик нових слів. Комп'ютерна лінгвістика (2009) Романюк А. Б. 8

ФЛЕКТИВНА МОРФОЛОГІЯ (EN) Комп'ютерна лінгвістика (2009) Романюк А. Б. 9 ФЛЕКТИВНА МОРФОЛОГІЯ (EN) Комп'ютерна лінгвістика (2009) Романюк А. Б. 9

ФЛЕКТИВНА МОРФОЛОГІЯ (UA) Комп'ютерна лінгвістика (2009) Романюк А. Б. 10 ФЛЕКТИВНА МОРФОЛОГІЯ (UA) Комп'ютерна лінгвістика (2009) Романюк А. Б. 10

ДЕРИВАЦІЙНА МОРФОЛОГІЯ (EN) Комп'ютерна лінгвістика (2009) Романюк А. Б. 11 ДЕРИВАЦІЙНА МОРФОЛОГІЯ (EN) Комп'ютерна лінгвістика (2009) Романюк А. Б. 11

ДЕРИВАЦІЙНА МОРФОЛОГІЯ (UA) Комп'ютерна лінгвістика (2009) Романюк А. Б. 12 ДЕРИВАЦІЙНА МОРФОЛОГІЯ (UA) Комп'ютерна лінгвістика (2009) Романюк А. Б. 12

РЕЗУЛЬТАТИ МОРФОЛОГІЧНОГО АНАЛІЗУ АНГЛІЙСЬКА МОВА Комп'ютерна лінгвістика (2009) Романюк А. Б. 13 РЕЗУЛЬТАТИ МОРФОЛОГІЧНОГО АНАЛІЗУ АНГЛІЙСЬКА МОВА Комп'ютерна лінгвістика (2009) Романюк А. Б. 13

РЕЗУЛЬТАТИ МОРФОЛОГІЧНОГО АНАЛІЗУ (УКРАЇНСЬКА МОВА) Комп'ютерна лінгвістика (2009) Романюк А. Б. 14 РЕЗУЛЬТАТИ МОРФОЛОГІЧНОГО АНАЛІЗУ (УКРАЇНСЬКА МОВА) Комп'ютерна лінгвістика (2009) Романюк А. Б. 14

РОЗРОБКА МОРФОЛОГІЧНОГО АНАЛІЗАТОРА • НЕОБХІДНІ СКЛАДОВІ: – Лексикон (морфологічний словник) – список основ слів РОЗРОБКА МОРФОЛОГІЧНОГО АНАЛІЗАТОРА • НЕОБХІДНІ СКЛАДОВІ: – Лексикон (морфологічний словник) – список основ слів та можливих афіксів із зазначенням морфологічної інформації, яка їм відповідає; – Модель сполучуваності морфем у словоформі – порядок морфем в словоформі та обмеження на їх поєднання; – Правила орфографії – зміни у словоформі, які виникають при поєднанні двох морфем; Комп'ютерна лінгвістика (2009) Романюк А. Б. 15

ПОБУДОВА ЛЕКСИКОНУ НА ОСНОВІ СКІНЧЕННОГО АВТОМАТА (іменники англійської мови) Комп'ютерна лінгвістика (2009) Романюк А. ПОБУДОВА ЛЕКСИКОНУ НА ОСНОВІ СКІНЧЕННОГО АВТОМАТА (іменники англійської мови) Комп'ютерна лінгвістика (2009) Романюк А. Б. 16

ПОБУДОВА ЛЕКСИКОНУ НА ОСНОВІ СКІНЧЕННОГО АВТОМАТА (дієслова англійської мови) Комп'ютерна лінгвістика (2009) Романюк А. ПОБУДОВА ЛЕКСИКОНУ НА ОСНОВІ СКІНЧЕННОГО АВТОМАТА (дієслова англійської мови) Комп'ютерна лінгвістика (2009) Романюк А. Б. 17

ПОБУДОВА ЛЕКСИКОНУ НА ОСНОВІ СКІНЧЕННОГО АВТОМАТА (прикметники англійської мови) Комп'ютерна лінгвістика (2009) Романюк А. ПОБУДОВА ЛЕКСИКОНУ НА ОСНОВІ СКІНЧЕННОГО АВТОМАТА (прикметники англійської мови) Комп'ютерна лінгвістика (2009) Романюк А. Б. 18

СКІНЧЕННИЙ ПЕРЕТВОРЮВАЧ (FST) • Скінченний перетворювач (СП) це вид скінченного автомата, який встановлює відповідність СКІНЧЕННИЙ ПЕРЕТВОРЮВАЧ (FST) • Скінченний перетворювач (СП) це вид скінченного автомата, який встановлює відповідність між двома наборами символів; • СП - двострічковий автомат, який розпізнає або генерує пари стрічок; • Скінченний автомат описує мову, як набір стрічок, а СП визначає зв’язки між наборами стрічок; • СП – читає одну стрічку і генерує іншу. Комп'ютерна лінгвістика (2009) Романюк А. Б. 19

СКІНЧЕННИЙ ПЕРЕТВОРЮВАЧ (прод. ) • СП як аналізатор – машина, яка бере пари стрічок СКІНЧЕННИЙ ПЕРЕТВОРЮВАЧ (прод. ) • СП як аналізатор – машина, яка бере пари стрічок на вході і виході та встановлює приналежність стрічок мові; • СП як генератор – машина, яка виводить пари стрічок для мови; • СП як транслятор – машина, яка читає стрічку і повертає іншу стрічку; • СП для встановлення зв’язків – машина, яка визначає зв’язки між наборами Комп'ютерна лінгвістика (2009) Романюк А. Б. 20

СКІНЧЕННИЙ ПЕРЕТВОРЮВАЧ (ФОРМАЛЬНЕ ВИЗНАЧЕННЯ) СКІНЧЕННИЙ АВТОМАТ ВИЗНАЧАЄТЬСЯ НАСТУПНИМИ ПАРАМЕТРАМИ Q=q 0 q 1 q СКІНЧЕННИЙ ПЕРЕТВОРЮВАЧ (ФОРМАЛЬНЕ ВИЗНАЧЕННЯ) СКІНЧЕННИЙ АВТОМАТ ВИЗНАЧАЄТЬСЯ НАСТУПНИМИ ПАРАМЕТРАМИ Q=q 0 q 1 q 2…qn 1 Скінченний набір N станів Σ Скінченний набір , який відповідає вхідному алфавіту Δ Скінченний набір , який відповідає вихідному алфавіту q 0 Початковий стан F Набір кінцевих станів, F ⊆ Q δ(q, w) Функція переходів або матриця переходів між станами. На основі стану q ∈ Q та стрічки w ∈ Σ, δ(q, w) повертає набір нових станів Q’∈ Q. σ(q, w) Вихідна функція видає набір можливих вихідних стрічок для кожного стану і вхідних даних. Комп'ютерна лінгвістика (2009) Романюк А. Б. 21

ВЛАСТИВОСТІ СКІНЧЕННОГО ПЕРЕТВОРЮВАЧА • ІНВЕСІЯ – якщо перетворювач Т перетворює вхідну абетку І до ВЛАСТИВОСТІ СКІНЧЕННОГО ПЕРЕТВОРЮВАЧА • ІНВЕСІЯ – якщо перетворювач Т перетворює вхідну абетку І до вихідної О , то Т-1 здійснює обернену операцію, перетворює О в І. • КОМПОНУВАННЯ – якщо Т 1 є перетворювачем з І1 до О 1 і Т 2 є перетворювачем з О 1 до О 2, то поєднання перетворювачів Т 1 • Т 2 перетворює І1 до О 2. Комп'ютерна лінгвістика (2009) Романюк А. Б. 22

МОРФОЛОГІЧНИЙ АНАЛІЗ НА ОСНОВІ СП (Кіммо Коскенніємі 1983) • Дві стрічки перетворювача (верхня і МОРФОЛОГІЧНИЙ АНАЛІЗ НА ОСНОВІ СП (Кіммо Коскенніємі 1983) • Дві стрічки перетворювача (верхня і нижня): • Пара символів а: в в абетці перетворювача показують як символ а з одної стрічки відображається в символ в в іншій стрічці. Комп'ютерна лінгвістика (2009) Романюк А. Б. 23

СП ДЛЯ ІМЕННИКІВ АНГЛІЙСЬКОЇ МОВИ (утворення множини) До СА додаємо лексичну стрічку і будуємо СП ДЛЯ ІМЕННИКІВ АНГЛІЙСЬКОЇ МОВИ (утворення множини) До СА додаємо лексичну стрічку і будуємо Tnum ^ - границя морфеми; # - границя словоформи Комп'ютерна лінгвістика (2009) Романюк А. Б. 24

РОЗШИРЕННЯ СП Тlex побудовано на основі Tnum заміною основ словоформ Комп'ютерна лінгвістика (2009) Романюк РОЗШИРЕННЯ СП Тlex побудовано на основі Tnum заміною основ словоформ Комп'ютерна лінгвістика (2009) Романюк А. Б. 25

ПОБУДОВА ПЕРЕТВОРЮВАЧА ДЛЯ ВРАХУВАННЯ ПРАВИЛ ОРФОГРАФІЇ • Введення проміжного рівня • Правило вставки е ПОБУДОВА ПЕРЕТВОРЮВАЧА ДЛЯ ВРАХУВАННЯ ПРАВИЛ ОРФОГРАФІЇ • Введення проміжного рівня • Правило вставки е в англійській мові Комп'ютерна лінгвістика (2009) Романюк А. Б. 26

СП ВСТАВКИ Е В АНГЛІЙСЬКІЙ МОВІ Комп'ютерна лінгвістика (2009) Романюк А. Б. 27 СП ВСТАВКИ Е В АНГЛІЙСЬКІЙ МОВІ Комп'ютерна лінгвістика (2009) Романюк А. Б. 27

АНАЛІЗ ТА СИНТЕЗ З ВИКОРИСТАННЯМ СП Комп'ютерна лінгвістика (2009) Романюк А. Б. 28 АНАЛІЗ ТА СИНТЕЗ З ВИКОРИСТАННЯМ СП Комп'ютерна лінгвістика (2009) Романюк А. Б. 28

АНАЛІЗ ТА СИНТЕЗ FOXES Комп'ютерна лінгвістика (2009) Романюк А. Б. 29 АНАЛІЗ ТА СИНТЕЗ FOXES Комп'ютерна лінгвістика (2009) Романюк А. Б. 29

ПЕРЕТИН ТА КОМПОНУВАННЯ СКІНЧЕННИХ ПЕРЕТВОРЮВАЧІВ Комп'ютерна лінгвістика (2009) Романюк А. Б. 30 ПЕРЕТИН ТА КОМПОНУВАННЯ СКІНЧЕННИХ ПЕРЕТВОРЮВАЧІВ Комп'ютерна лінгвістика (2009) Романюк А. Б. 30

КІММО МОДЕЛЬ • ПЕРЕВАГИ – мовна незалежність та простота складання системи правил перетворень • КІММО МОДЕЛЬ • ПЕРЕВАГИ – мовна незалежність та простота складання системи правил перетворень • ВІДМІННОСТІ ФОРМАЛЬНОЇ ГРАМАТИКИ: – Використовується тільки дворівневе представлення даних, що відповідає вихідному (початковому тексту) і результату аналізу; – В опис контексту в правилах входять символи обох рівнів; – Правила розглядаються як невпорядкована множина і застосовуються не почергово а всі одночасно. Комп'ютерна лінгвістика (2009) Романюк А. Б. 31

РЕАЛІЗАЦІЇ КІММО МОДЕЛІ • РС-КІММО, PY-KIMMO; • Склад системи: – PCKIMMO. EXE – виконуючий РЕАЛІЗАЦІЇ КІММО МОДЕЛІ • РС-КІММО, PY-KIMMO; • Склад системи: – PCKIMMO. EXE – виконуючий модуль; – KGEN. EXE – програма генерації файлу правил; – *. LEX – файл лексикону (містить лексичні одиниці та відповідні морфологічні характеристики); – *. RUL – файл правил (містить абетку та орфорграфічні і фонологічні правила). Комп'ютерна лінгвістика (2009) Романюк А. Б. 32

ЗАПИС ПРАВИЛ В СИСТЕМІ РС-КІММО • RULE a: b LC_RC • => - відповідність ЗАПИС ПРАВИЛ В СИСТЕМІ РС-КІММО • RULE a: b LC_RC • => - відповідність проявляється тільки в цьому контексті (але не завжди); • <= - відповідність завжди проявляється в цьому контексті (але не тільки в цьому контексті); • - відповідність проявляється завжди і тільки в цьому контексті; • /<= - відповідність ніколи не проявляється в даному контексті Комп'ютерна лінгвістика (2009) Романюк А. Б. 33

ЗАПИС ПРАВИЛ В СИСТЕМІ РС-КІММО (продовження) • a: b=>l_r (символьна пара a: b повинна ЗАПИС ПРАВИЛ В СИСТЕМІ РС-КІММО (продовження) • a: b=>l_r (символьна пара a: b повинна бути в контексті l_r) lar lbr xay Лексична форма lbr lar lbr xby Поверхнева форма • a: d<=l_r (якщо в лексичній формі а є в контексті l_r, воно повинно перейти в b в поверхневій, якщо а переходить в будь-який інший поверхневий - помилка) lar lbr xay Лексична форма lbr lar lbr xby Поверхнева форма Комп'ютерна лінгвістика (2009) Романюк А. Б. 34

ЗАПИС ПРАВИЛ В СИСТЕМІ РС-КІММО (продовження) • a: d<=>l_r (якщо лексичне а є в ЗАПИС ПРАВИЛ В СИСТЕМІ РС-КІММО (продовження) • a: d<=>l_r (якщо лексичне а є в контексті l_r, воно повинно перейти в поверхневе b, якщо символьна пара поза контекстом – помилка, якщо символьна пара в контексті але а переходить в будь що крім b -помилка) lar lbr xay Лексична форма lbr lar lbr xby Поверхнева форма • a: d/<=l_r (лексичне а ніколи не переходить в b в контексті l_r, якщо перейшло - помилка ) lar lbr xay Лексична форма lbr lar lbr xby Поверхнева форма Комп'ютерна лінгвістика (2009) Романюк А. Б. 35

ПРИКЛАД ФАЙЛА ПРАВИЛ ДЛЯ УКРАЇНСЬКОЇ МОВИ (О. КАЧМАР дипломна робота) ; Ukrainian. RUL 10 ПРИКЛАД ФАЙЛА ПРАВИЛ ДЛЯ УКРАЇНСЬКОЇ МОВИ (О. КАЧМАР дипломна робота) ; Ukrainian. RUL 10 -October-2005 ; ' = apostrophe ; - = hyphen ; ` = stress ; + = morpheme break ALPHABET abvgde. EZzyi. Ijklmnoprstufhc. CSHUAB'-+ NULL 0 ANY @ BOUNDARY # SUBSET Ss y u e SUBSET Apost A U I E SUBSET Ie e a i Комп'ютерна лінгвістика (2009) Романюк А. Б. 36

ПРИКЛАД ФАЙЛА ПРАВИЛ ДЛЯ УКРАЇНСЬКОЇ МОВИ (О. КАЧМАР дипломна робота) RULE ПРИКЛАД ФАЙЛА ПРАВИЛ ДЛЯ УКРАЇНСЬКОЇ МОВИ (О. КАЧМАР дипломна робота) RULE "defaults" 1 31 abvgde. EZzyi. Ijklmnoprstufhc. CSHU@ 1: 1 1 1 1 1 1 1 1 RULE "defaults" 1 8 AB'--+d@ AB'-000@ 1: 1 1 1 1 RULE " s: S => __ Ss" 2 3 s Ss @ S Ss @ 1: 2 1 1 2. 0 1 0 Комп'ютерна лінгвістика (2009) Романюк А. Б. 37

ФРАГМЕНТ ФАЙЛА ЛЕКСИКОНУ ДЛЯ УКРАЇНСЬКОЇ МОВИ ; -------begin section---------lf 0 lx INITIAL alt Begin ФРАГМЕНТ ФАЙЛА ЛЕКСИКОНУ ДЛЯ УКРАЇНСЬКОЇ МОВИ ; -------begin section---------lf 0 lx INITIAL alt Begin fea gl [ ; ---------prefix section-------lf na+ lx prefix. VV 1 alt verb/var 1 fea gl Dokonanyj vyd_ Комп'ютерна лінгвістика (2009) Романюк А. Б. lf na+ lx prefix. VV 2 alt verb/var 2 fea gl Dokonanyj vyd_ ; ------------verb section-------; -----------1 -------------lf let lx verb/var 1 alt suffix. VV 1 fea gl let 38

НЕОБХІДНО ПРОЧИТАТИ Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to НЕОБХІДНО ПРОЧИТАТИ Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988. – Розділ 2, 3 ст. 17 -67. Карпіловська Є. А. Вступ до комп’ютерної лінгвістики – Донецьк, 2003. – 184 с. Розділ 2, параграф 3 ст. 123 -135. Комп'ютерна лінгвістика (2009) Романюк А. Б. 39