Скачать презентацию АВТОМАТИЧНИЙ СИНТАКСИЧНИЙ АНАЛІЗ ІМОВІРНІСНИЙ СИНТАКСИЧНИЙ АНАЛІЗ ЛЕКЦІЯ Скачать презентацию АВТОМАТИЧНИЙ СИНТАКСИЧНИЙ АНАЛІЗ ІМОВІРНІСНИЙ СИНТАКСИЧНИЙ АНАЛІЗ ЛЕКЦІЯ

KL-Lec12.ppt

  • Количество слайдов: 31

АВТОМАТИЧНИЙ СИНТАКСИЧНИЙ АНАЛІЗ ІМОВІРНІСНИЙ СИНТАКСИЧНИЙ АНАЛІЗ ЛЕКЦІЯ № 12 АВТОМАТИЧНИЙ СИНТАКСИЧНИЙ АНАЛІЗ ІМОВІРНІСНИЙ СИНТАКСИЧНИЙ АНАЛІЗ ЛЕКЦІЯ № 12

ІМОВІРНІСНА КОНТЕКСТНО-ВІЛЬНА ГРАМАТИКА Ν НАБІР НЕТЕРМІНАЛЬНИХ СИМВОЛІВ Σ R S НАБІР ТЕРМІНАЛЬНИХ СИМВОЛІВ (НЕ ІМОВІРНІСНА КОНТЕКСТНО-ВІЛЬНА ГРАМАТИКА Ν НАБІР НЕТЕРМІНАЛЬНИХ СИМВОЛІВ Σ R S НАБІР ТЕРМІНАЛЬНИХ СИМВОЛІВ (НЕ ПЕРЕТИНАЄТЬСЯ З Ν) НАБІР ПРАВИЛ АБО ПРОДУКЦІЙ ВИГЛЯДУ A-> β[p], ДЕ A - НЕТЕРМІНАЛ, β-СТРІЧКА СИМВОЛІВ З НЕОБМЕЖЕНОГО НАБОРУ СТРІЧОК (Σ U N), p – ЧИСЛО ВІД 0 ДО 1, ЯКЕ ВИРАЖАЄ УМОВНУ ІМОВІРНІСТЬ P(β|A) ПОЧАТКОВИЙ СИМВОЛ A-> β[p] P(A-> β) P(A-> β |A) Комп'ютерна лінгвістика (2009) Романюк А. Б. 12/1/2009

ІМОВІРНІСНА КОНТЕКСТНО-ВІЛЬНА ГРАМАТИКА. ПРИКЛАД Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 3 ІМОВІРНІСНА КОНТЕКСТНО-ВІЛЬНА ГРАМАТИКА. ПРИКЛАД Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 3

ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ ◦ Book the dinner flight Комп'ютерна лінгвістика (2010) Романюк ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ ◦ Book the dinner flight Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 4

ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ ІКВГ ДОЗВОЛЯЄ ПОСТАВИТИ У ВІДПОВІДНІСТЬ ДО КОЖНОГО ДЕРЕВА РОЗБОРУ ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ ІКВГ ДОЗВОЛЯЄ ПОСТАВИТИ У ВІДПОВІДНІСТЬ ДО КОЖНОГО ДЕРЕВА РОЗБОРУ РЕЧЕННЯ ЗНАЧЕННЯ ЙОГО ІМОВІРНОСТІ ІМОВІРНІСТЬ ДЕРЕВА Т – ДОБУТОК ІМОВІРНОСТЕЙ ВСІХ n ПРАВИЛ , ЯКІ ВИКОРИСТОВУВАЛИСЬ ДЛЯ ПЕРЕТВОРЕННЯ ВСІХ ВУЗЛІВ ДЕРЕВА Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 5

ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ ПОБУДУВАТИ ВСІ ДЕРЕВА ДЛЯ ЗАДАНОГО РЕЧЕННЯ ВИЗНАЧИТИ ІМОВІРНІСТЬ КОЖНОГО ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ ПОБУДУВАТИ ВСІ ДЕРЕВА ДЛЯ ЗАДАНОГО РЕЧЕННЯ ВИЗНАЧИТИ ІМОВІРНІСТЬ КОЖНОГО ДЕРЕВА ЗНАЙТИ ДЕРЕВО З МАКСИМАЛЬНОЮ ІМОВІРНІСТЮ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 6

ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 7 ВИКОРИСТАННЯ ІКВГ ДЛЯ ЗНЯТТЯ НЕОДНОЗНАЧНОСТЕЙ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 7

ВИКОРИСТАННЯ ІКВГ ДЛЯ ВИЗНАЧЕННЯ ІМОВІРНОСТІ ПОСЛІДОВНОСТІ СЛІВ РЕЧЕННЯ Комп'ютерна лінгвістика (2010) Романюк А. Б. ВИКОРИСТАННЯ ІКВГ ДЛЯ ВИЗНАЧЕННЯ ІМОВІРНОСТІ ПОСЛІДОВНОСТІ СЛІВ РЕЧЕННЯ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 8

АЛГОРИТМ CKY НА ОСНОВІ ІКВГ (PCFG) ІКВГ ПОВИННА БУТИ В НОРМАЛЬНІЙ ФОРМІ В МАТРИЦІ АЛГОРИТМ CKY НА ОСНОВІ ІКВГ (PCFG) ІКВГ ПОВИННА БУТИ В НОРМАЛЬНІЙ ФОРМІ В МАТРИЦІ (ТАБЛИЦІ) ПОТРІБНО ЗБЕРЕГТИ ІМОВІРНОСТІ СКЛАДНИКІВ ІМОВІРНІСТЬ НОВОГО СКЛАДНИКА ОТРИМАНОГО НА ОСНОВІ ПРАВИЛА A B C ВИЗНАЧАЄТЬСЯ, ЯК: P(A B C | A) * P(B) * P(C) ДЕ P(B) , P(C) - ВЖЕ ВІДОМІ ІМОВІРНОСТІ В ТАБЛИЦІ ЗБЕРІГАЄТЬСЯ МАКСИМАЛЬНА ІМОВІРНІСТЬ ДЛЯ ВСІХ ПРАВИЛ З A Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 9

ПРИКЛАД ЗАПОВНЕННЯ МАТРИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 10 ПРИКЛАД ЗАПОВНЕННЯ МАТРИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 10

ПРИКЛАД ЗАПОВНЕННЯ МАТРИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 11 ПРИКЛАД ЗАПОВНЕННЯ МАТРИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 11

ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ ДЛЯ ПРАВИЛ ГРАМАТИКИ НА ОСНОВІ TREEBANK. ВІДНОШЕННЯ КІЛЬКОСТІ ПЕВНИХ ПРАВИЛ ДЛЯ ВИЗНАЧЕНОГО ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ ДЛЯ ПРАВИЛ ГРАМАТИКИ НА ОСНОВІ TREEBANK. ВІДНОШЕННЯ КІЛЬКОСТІ ПЕВНИХ ПРАВИЛ ДЛЯ ВИЗНАЧЕНОГО СКЛАДНИКА ДО ЗАГАЛЬНОЇ КІЛЬКОСТІ ТАКИХ СКЛАДНИКІВ ПРИ ПЕРШОМУ СИНТКСИЧНОМУ АНАЛІЗІ РЕЧЕНЬ КОРПУСА (ПРИ НАЯВНОСТІ СИНТАКСИЧНОГО АНАЛІЗАТОРА) Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 12

ПРОБЛЕМИ ІКВГ ПРИНЦИП ФУНДАМЕНТАЛЬНОЇ НЕЗАЛЕЖНОСТІ ◦ КВГ ПЕРЕДБАЧАЄ, ЩО ПЕРЕТВОРЕННЯ БУДЬ-ЯКОГО НЕТЕРМІНАЛЬНОГО СИМВОЛУ НЕ ПРОБЛЕМИ ІКВГ ПРИНЦИП ФУНДАМЕНТАЛЬНОЇ НЕЗАЛЕЖНОСТІ ◦ КВГ ПЕРЕДБАЧАЄ, ЩО ПЕРЕТВОРЕННЯ БУДЬ-ЯКОГО НЕТЕРМІНАЛЬНОГО СИМВОЛУ НЕ ЗАЛЕЖИТЬ ВІД ПЕРЕТВОРЕННЯ ІНШОГО НЕТЕРМІНАЛУ. У ВИПАДКУ ІКВГ ЦЕ ПРИВОДИТЬ ДО НЕ ВРАХУВАННЯ СТРУКТУРНИХ ЗАЛЕЖНОСТЕЙ В ДЕРЕВІ РОЗБОРУ ОБМЕЖЕНА ЧУТЛИВІСТЬ ДО ЛЕКСИЧНИХ ОДИНИЦЬ ◦ КВГ НЕ ДОЗВОЛЯЄ МОДЕЛЮВАТИ (ВРАХОВУВАТИ ) ВСЛАСТИВОСТІ ОКРЕМИХ СЛІВ В СИНТАКСИЧНИХ СТРУКТУРАХ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 13

 СТРУКТУРНІ ЗАЛЕЖНОСТІ МІЖ ПРАВИЛАМИ ГРАМАТИКИ NP В АНГЛІЙСЬКІЙ , ЯК ПІДМЕТ, ПЕРЕВАЖНО (ЧАСТІШЕ) СТРУКТУРНІ ЗАЛЕЖНОСТІ МІЖ ПРАВИЛАМИ ГРАМАТИКИ NP В АНГЛІЙСЬКІЙ , ЯК ПІДМЕТ, ПЕРЕВАЖНО (ЧАСТІШЕ) ВИРАЖАЄТЬСЯ ЧЕРЕЗ ЗАЙМЕННИК NP В АНГЛІЙСЬКІЙ , ЯК ДОПОВНЕННЯ, ПЕРЕВАЖНО (ЧАСТІШЕ) НЕ ВИРАЖАЄТЬСЯ ЧЕРЕЗ ЗАЙМЕННИК Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 14

ОБМЕЖЕНА ЧУТЛИВІСТЬ ДО ЛЕКСИЧНИХ ОДИНИЦЬ НЕОДНОЗНАЧНОСТІ ПРИЄДНАННЯ ◦ ПРИЄДНАННЯ ПРИЙМЕННИКОВОГО ВИРАЗУ ◦ ПРОБЛЕМИ СПОЛУЧНИКІВ ОБМЕЖЕНА ЧУТЛИВІСТЬ ДО ЛЕКСИЧНИХ ОДИНИЦЬ НЕОДНОЗНАЧНОСТІ ПРИЄДНАННЯ ◦ ПРИЄДНАННЯ ПРИЙМЕННИКОВОГО ВИРАЗУ ◦ ПРОБЛЕМИ СПОЛУЧНИКІВ СУРЯДНОСТІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 15

ПРИЄДНАННЯ ПРИЙМЕННИКОВОГО ВИРАЗУ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 16 ПРИЄДНАННЯ ПРИЙМЕННИКОВОГО ВИРАЗУ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 16

СУРЯДНІСТЬ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 17 СУРЯДНІСТЬ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 17

СПОСОБИ ВИРІШЕННЯ ПРОБЛЕМ ІКВГ ВНЕСТИ ЗМІНИ (ПЕРЕПИСАТИ) В ГРАМАТИКУ ДЛЯ ВРАХУВАННЯ ЗАЛЕЖНОСТЕЙ МІЖ ЇЇ СПОСОБИ ВИРІШЕННЯ ПРОБЛЕМ ІКВГ ВНЕСТИ ЗМІНИ (ПЕРЕПИСАТИ) В ГРАМАТИКУ ДЛЯ ВРАХУВАННЯ ЗАЛЕЖНОСТЕЙ МІЖ ЇЇ ПРАВИЛАМИ ІНТЕГРУВАТИ У ГРАМАТИКУ ЗАЛЕЖНОСТІ МІЖ ЛЕКСИЧНИМИ ОДИНИЦЯМИ (СЛОВАМИ) Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 18

ВНЕСЕННЯ ЗМІН В ГРАМАТИКУ РОЗДІЛЕННЯ ТА ОБ’ЄДНАННЯ НЕНЕРМІНАЛЬНИХ СИМВОЛІВ В ГРАМАТИЦІ НАПРИКЛАД, РОЗДІЛИТИ NP ВНЕСЕННЯ ЗМІН В ГРАМАТИКУ РОЗДІЛЕННЯ ТА ОБ’ЄДНАННЯ НЕНЕРМІНАЛЬНИХ СИМВОЛІВ В ГРАМАТИЦІ НАПРИКЛАД, РОЗДІЛИТИ NP НА ДВА КЛАСИ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 19

МАРКУВАННЯ “БАТЬКІВ” NP^S -> PRP NP^VP -> DT NN Комп'ютерна лінгвістика (2010) Романюк А. МАРКУВАННЯ “БАТЬКІВ” NP^S -> PRP NP^VP -> DT NN Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 20

МАРКУВАННЯ “БАТЬКІВ” Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 21 МАРКУВАННЯ “БАТЬКІВ” Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 21

СПОСОБИ ВНЕСЕННЯ ЗМІН У ГРАМАТИКУ ВРУЧНУ, НА ОСНОВІ ВЛАСНОГО ДОСВІДУ АВТОМАТИЧНО ◦ РОЗДІЛИТИ ВСІ СПОСОБИ ВНЕСЕННЯ ЗМІН У ГРАМАТИКУ ВРУЧНУ, НА ОСНОВІ ВЛАСНОГО ДОСВІДУ АВТОМАТИЧНО ◦ РОЗДІЛИТИ ВСІ НЕТЕРМІНАЛИ НА ДВА НОВІ НЕТЕРМІНАЛИ У ВСІЙ ГРАМАТИЦІ (Х, Х 1, Х 2) ◦ ДУБЛЮВАТИ ВСІ ПРАВИЛА ДЕ ВИКОРИСТОВУЄТЬСЯ НЕТЕРМІНАЛ Х І ВСТАНОВИТИ ДЛЯ ЦИХ ПРАВИЛ ОДНАКОВІ ІМОВІРНОСТІ ◦ ТЕСТУВАТИ ІМОВІРНОСТІ ПРАВИЛ І ЗДІЙСНЮВАТИ ЗВОРОТНЄ ОБ’ЄДНАННЯ НЕТЕРМІНАЛІВ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 22

ЛЕКСИКАЛІЗОВАНА ГРАМАТИКА СКЛАДНИКИ МАРКУЮТЬСЯ ОСНОВНИМИ СЛОВАМИ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 23 ЛЕКСИКАЛІЗОВАНА ГРАМАТИКА СКЛАДНИКИ МАРКУЮТЬСЯ ОСНОВНИМИ СЛОВАМИ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 23

ДЕРЕВО РОЗБОРУ НА ОСНОВІ ЛЕКСИКАЛІЗОВАНОЇ ГРАМАТИКИ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 24 ДЕРЕВО РОЗБОРУ НА ОСНОВІ ЛЕКСИКАЛІЗОВАНОЇ ГРАМАТИКИ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 24

ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ В ЛЕКСИКАЛІЗОВАНІЙ ГРАМАТИЦІ VP -> V NP PP P(rule|VP) VP(dumped)-> V(dumped) NP(sacks)PP(into) ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ В ЛЕКСИКАЛІЗОВАНІЙ ГРАМАТИЦІ VP -> V NP PP P(rule|VP) VP(dumped)-> V(dumped) NP(sacks)PP(into) P(r|VP ^ dumped ДІЄСЛОВО ^ sacks ОСНОВНЕ СЛОВО NP ^ into ОСНОВНЕ СЛОВО PP) ВИЗНАЧАЄТЬСЯ НА ОСНОВІ НАСТУПНИХ ІМОВІРНОСТЕЙ ◦ “dumped” – ОСНОВНЕ СЛОВА ◦ ЗЛІВА ВІД НЬОГО НІЧОГО НЕМАЄ ◦ “sacks” – ОСНОВНЕ СЛОВО ПЕРШОГО ЕЛЕМЕНТУ СПРАВА ◦ “into” – ОСНОВНЕ СЛОВО НАСТУПНОГО ЕЛЕМЕНТУ СПРАВА ◦ СПРАВА НІЧОГО НЕМАЄ Комп'ютерна лінгвістика (2010) 2/8/2018 Романюк А. Б. 25

ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ В ЛЕКСИКАЛІЗОВАНІЙ ГРАМАТИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 26 ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ В ЛЕКСИКАЛІЗОВАНІЙ ГРАМАТИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 26

Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 27 Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 27

ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ В ЛЕКСИКАЛІЗОВАНІЙ ГРАМАТИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 28 ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ В ЛЕКСИКАЛІЗОВАНІЙ ГРАМАТИЦІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 28

ПАРАМЕТРИ ОЦІНКИ СИНТАКСИЧНИХ АНАЛІЗАТОРІВ PARSEVAL – МЕТРИКА, ЯКА ВИЗНАЧАЄ СКІЛЬКИ СКЛАДНИКІВ ГІПОТЕТИЧНОГО ДЕРЕВА РОЗБОРУ ПАРАМЕТРИ ОЦІНКИ СИНТАКСИЧНИХ АНАЛІЗАТОРІВ PARSEVAL – МЕТРИКА, ЯКА ВИЗНАЧАЄ СКІЛЬКИ СКЛАДНИКІВ ГІПОТЕТИЧНОГО ДЕРЕВА РОЗБОРУ ВІДПОВІДАЮТЬ СКЛАДНИКАМ З ЕТАЛОННОГО ДЕРЕВА Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 29

ПАРАМЕТРИ ОЦІНКИ СИНТАКСИЧНИХ АНАЛІЗАТОРІВ Cross-brackets ((A B) C) (A (B C)) Комп'ютерна лінгвістика (2010) ПАРАМЕТРИ ОЦІНКИ СИНТАКСИЧНИХ АНАЛІЗАТОРІВ Cross-brackets ((A B) C) (A (B C)) Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 30

НЕОБХІДНО ПРОЧИТАТИ Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to НЕОБХІДНО ПРОЧИТАТИ Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988. – Розділ, 14 ст. 459 - 488. – Розділ, 15 ст. 489 -528. Комп'ютерна лінгвістика (2010) Романюк А. Б. 2/8/2018 31