KL-Lec12.ppt
- Количество слайдов: 31
АВТОМАТИЧНИЙ СИНТАКСИЧНИЙ АНАЛІЗ ІМОВІРНІСНИЙ СИНТАКСИЧНИЙ АНАЛІЗ ЛЕКЦІЯ № 12
ІМОВІРНІСНА КОНТЕКСТНО-ВІЛЬНА ГРАМАТИКА Ν НАБІР НЕТЕРМІНАЛЬНИХ СИМВОЛІВ Σ R S НАБІР ТЕРМІНАЛЬНИХ СИМВОЛІВ (НЕ ПЕРЕТИНАЄТЬСЯ З Ν) НАБІР ПРАВИЛ АБО ПРОДУКЦІЙ ВИГЛЯДУ A-> β[p], ДЕ A - НЕТЕРМІНАЛ, β-СТРІЧКА СИМВОЛІВ З НЕОБМЕЖЕНОГО НАБОРУ СТРІЧОК (Σ U N), p – ЧИСЛО ВІД 0 ДО 1, ЯКЕ ВИРАЖАЄ УМОВНУ ІМОВІРНІСТЬ P(β|A) ПОЧАТКОВИЙ СИМВОЛ A-> β[p] P(A-> β) P(A-> β |A) Комп'ютерна лінгвістика (2009) Романюк А. Б. 12/1/2009
ІМОВІРНІСНА КОНТЕКСТНО-ВІЛЬНА ГРАМАТИКА. ПРИКЛАД Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 3
ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ ◦ Book the dinner flight Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 4
ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ ІКВГ ДОЗВОЛЯЄ ПОСТАВИТИ У ВІДПОВІДНІСТЬ ДО КОЖНОГО ДЕРЕВА РОЗБОРУ РЕЧЕННЯ ЗНАЧЕННЯ ЙОГО ІМОВІРНОСТІ ІМОВІРНІСТЬ ДЕРЕВА Т – ДОБУТОК ІМОВІРНОСТЕЙ ВСІХ n ПРАВИЛ , ЯКІ ВИКОРИСТОВУВАЛИСЬ ДЛЯ ПЕРЕТВОРЕННЯ ВСІХ ВУЗЛІВ ДЕРЕВА Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 5
ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ ПОБУДУВАТИ ВСІ ДЕРЕВА ДЛЯ ЗАДАНОГО РЕЧЕННЯ ВИЗНАЧИТИ ІМОВІРНІСТЬ КОЖНОГО ДЕРЕВА ЗНАЙТИ ДЕРЕВО З МАКСИМАЛЬНОЮ ІМОВІРНІСТЮ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 6
ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 7
ВИКОРИСТАННЯ ІКВГ ДЛЯ ВИЗНАЧЕННЯ ІМОВІРНОСТІ ПОСЛІДОВНОСТІ СЛІВ РЕЧЕННЯ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 8
АЛГОРИТМ CKY НА ОСНОВІ ІКВГ (PCFG) ІКВГ ПОВИННА БУТИ В НОРМАЛЬНІЙ ФОРМІ В МАТРИЦІ (ТАБЛИЦІ) ПОТРІБНО ЗБЕРЕГТИ ІМОВІРНОСТІ СКЛАДНИКІВ ІМОВІРНІСТЬ НОВОГО СКЛАДНИКА ОТРИМАНОГО НА ОСНОВІ ПРАВИЛА A B C ВИЗНАЧАЄТЬСЯ, ЯК: P(A B C | A) * P(B) * P(C) ДЕ P(B) , P(C) - ВЖЕ ВІДОМІ ІМОВІРНОСТІ В ТАБЛИЦІ ЗБЕРІГАЄТЬСЯ МАКСИМАЛЬНА ІМОВІРНІСТЬ ДЛЯ ВСІХ ПРАВИЛ З A Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 9
ПРИКЛАД ЗАПОВНЕННЯ МАТРИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 10
ПРИКЛАД ЗАПОВНЕННЯ МАТРИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 11
ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ ДЛЯ ПРАВИЛ ГРАМАТИКИ НА ОСНОВІ TREEBANK. ВІДНОШЕННЯ КІЛЬКОСТІ ПЕВНИХ ПРАВИЛ ДЛЯ ВИЗНАЧЕНОГО СКЛАДНИКА ДО ЗАГАЛЬНОЇ КІЛЬКОСТІ ТАКИХ СКЛАДНИКІВ ПРИ ПЕРШОМУ СИНТКСИЧНОМУ АНАЛІЗІ РЕЧЕНЬ КОРПУСА (ПРИ НАЯВНОСТІ СИНТАКСИЧНОГО АНАЛІЗАТОРА) Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 12
ПРОБЛЕМИ ІКВГ ПРИНЦИП ФУНДАМЕНТАЛЬНОЇ НЕЗАЛЕЖНОСТІ ◦ КВГ ПЕРЕДБАЧАЄ, ЩО ПЕРЕТВОРЕННЯ БУДЬ-ЯКОГО НЕТЕРМІНАЛЬНОГО СИМВОЛУ НЕ ЗАЛЕЖИТЬ ВІД ПЕРЕТВОРЕННЯ ІНШОГО НЕТЕРМІНАЛУ. У ВИПАДКУ ІКВГ ЦЕ ПРИВОДИТЬ ДО НЕ ВРАХУВАННЯ СТРУКТУРНИХ ЗАЛЕЖНОСТЕЙ В ДЕРЕВІ РОЗБОРУ ОБМЕЖЕНА ЧУТЛИВІСТЬ ДО ЛЕКСИЧНИХ ОДИНИЦЬ ◦ КВГ НЕ ДОЗВОЛЯЄ МОДЕЛЮВАТИ (ВРАХОВУВАТИ ) ВСЛАСТИВОСТІ ОКРЕМИХ СЛІВ В СИНТАКСИЧНИХ СТРУКТУРАХ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 13
СТРУКТУРНІ ЗАЛЕЖНОСТІ МІЖ ПРАВИЛАМИ ГРАМАТИКИ NP В АНГЛІЙСЬКІЙ , ЯК ПІДМЕТ, ПЕРЕВАЖНО (ЧАСТІШЕ) ВИРАЖАЄТЬСЯ ЧЕРЕЗ ЗАЙМЕННИК NP В АНГЛІЙСЬКІЙ , ЯК ДОПОВНЕННЯ, ПЕРЕВАЖНО (ЧАСТІШЕ) НЕ ВИРАЖАЄТЬСЯ ЧЕРЕЗ ЗАЙМЕННИК Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 14
ОБМЕЖЕНА ЧУТЛИВІСТЬ ДО ЛЕКСИЧНИХ ОДИНИЦЬ НЕОДНОЗНАЧНОСТІ ПРИЄДНАННЯ ◦ ПРИЄДНАННЯ ПРИЙМЕННИКОВОГО ВИРАЗУ ◦ ПРОБЛЕМИ СПОЛУЧНИКІВ СУРЯДНОСТІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 15
ПРИЄДНАННЯ ПРИЙМЕННИКОВОГО ВИРАЗУ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 16
СУРЯДНІСТЬ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 17
СПОСОБИ ВИРІШЕННЯ ПРОБЛЕМ ІКВГ ВНЕСТИ ЗМІНИ (ПЕРЕПИСАТИ) В ГРАМАТИКУ ДЛЯ ВРАХУВАННЯ ЗАЛЕЖНОСТЕЙ МІЖ ЇЇ ПРАВИЛАМИ ІНТЕГРУВАТИ У ГРАМАТИКУ ЗАЛЕЖНОСТІ МІЖ ЛЕКСИЧНИМИ ОДИНИЦЯМИ (СЛОВАМИ) Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 18
ВНЕСЕННЯ ЗМІН В ГРАМАТИКУ РОЗДІЛЕННЯ ТА ОБ’ЄДНАННЯ НЕНЕРМІНАЛЬНИХ СИМВОЛІВ В ГРАМАТИЦІ НАПРИКЛАД, РОЗДІЛИТИ NP НА ДВА КЛАСИ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 19
МАРКУВАННЯ “БАТЬКІВ” NP^S -> PRP NP^VP -> DT NN Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 20
МАРКУВАННЯ “БАТЬКІВ” Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 21
СПОСОБИ ВНЕСЕННЯ ЗМІН У ГРАМАТИКУ ВРУЧНУ, НА ОСНОВІ ВЛАСНОГО ДОСВІДУ АВТОМАТИЧНО ◦ РОЗДІЛИТИ ВСІ НЕТЕРМІНАЛИ НА ДВА НОВІ НЕТЕРМІНАЛИ У ВСІЙ ГРАМАТИЦІ (Х, Х 1, Х 2) ◦ ДУБЛЮВАТИ ВСІ ПРАВИЛА ДЕ ВИКОРИСТОВУЄТЬСЯ НЕТЕРМІНАЛ Х І ВСТАНОВИТИ ДЛЯ ЦИХ ПРАВИЛ ОДНАКОВІ ІМОВІРНОСТІ ◦ ТЕСТУВАТИ ІМОВІРНОСТІ ПРАВИЛ І ЗДІЙСНЮВАТИ ЗВОРОТНЄ ОБ’ЄДНАННЯ НЕТЕРМІНАЛІВ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 22
ЛЕКСИКАЛІЗОВАНА ГРАМАТИКА СКЛАДНИКИ МАРКУЮТЬСЯ ОСНОВНИМИ СЛОВАМИ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 23
ДЕРЕВО РОЗБОРУ НА ОСНОВІ ЛЕКСИКАЛІЗОВАНОЇ ГРАМАТИКИ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 24
ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ В ЛЕКСИКАЛІЗОВАНІЙ ГРАМАТИЦІ VP -> V NP PP P(rule|VP) VP(dumped)-> V(dumped) NP(sacks)PP(into) P(r|VP ^ dumped ДІЄСЛОВО ^ sacks ОСНОВНЕ СЛОВО NP ^ into ОСНОВНЕ СЛОВО PP) ВИЗНАЧАЄТЬСЯ НА ОСНОВІ НАСТУПНИХ ІМОВІРНОСТЕЙ ◦ “dumped” – ОСНОВНЕ СЛОВА ◦ ЗЛІВА ВІД НЬОГО НІЧОГО НЕМАЄ ◦ “sacks” – ОСНОВНЕ СЛОВО ПЕРШОГО ЕЛЕМЕНТУ СПРАВА ◦ “into” – ОСНОВНЕ СЛОВО НАСТУПНОГО ЕЛЕМЕНТУ СПРАВА ◦ СПРАВА НІЧОГО НЕМАЄ Комп'ютерна лінгвістика (2010) 2/8/2018 Романюк А. Б. 25
ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ В ЛЕКСИКАЛІЗОВАНІЙ ГРАМАТИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 26
Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 27
ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ В ЛЕКСИКАЛІЗОВАНІЙ ГРАМАТИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 28
ПАРАМЕТРИ ОЦІНКИ СИНТАКСИЧНИХ АНАЛІЗАТОРІВ PARSEVAL – МЕТРИКА, ЯКА ВИЗНАЧАЄ СКІЛЬКИ СКЛАДНИКІВ ГІПОТЕТИЧНОГО ДЕРЕВА РОЗБОРУ ВІДПОВІДАЮТЬ СКЛАДНИКАМ З ЕТАЛОННОГО ДЕРЕВА Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 29
ПАРАМЕТРИ ОЦІНКИ СИНТАКСИЧНИХ АНАЛІЗАТОРІВ Cross-brackets ((A B) C) (A (B C)) Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 30
НЕОБХІДНО ПРОЧИТАТИ Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988. – Розділ, 14 ст. 459 - 488. – Розділ, 15 ст. 489 -528. Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 31