KL-Lec7.ppt
- Количество слайдов: 33
АВТОМАТИЧНИЙ МОРФОЛОГІЧНИЙ АНАЛІЗ. ІМОВІРНІСНИЙ ПІДХІД. ВИКОРИСТАННЯ ПРИХОВАНОЇ МОДЕЛІ МАРКОВА (HMM) ЛЕКЦІЯ № 7
БАЄСОВСЬКИЙ ВИВІД БАЄСОВСЬКА КЛАСИФІКАЦІЯ • СТАТИСТИЧНИЙ ВИВІД, В ЯКОМУ СПОСТЕРЕЖЕННЯ І/АБО СВІДЧЕННЯ ВИКОРИСТОВУЮТЬСЯ ДЛЯ ОНОВЛЕННЯ АБО ВИВЕДЕННЯ НОВОЇ ІМОВІРНОСТІ ТОГО, ЩО ГІПОТЕЗА МОЖЕ БУТИ ПРАВИЛЬНОЮ. • ЗАДАЧА КЛАСИФІКАЦІЇ. ДАНІ ДЕЯКІ СПОСТЕРЕЖЕННЯ І ПОТРІБНО ВИЗНАЧИТИ ДО ЯКИХ КЛАСІВ З НАБОРУ ВОНИ НАЛЕЖАТЬ. 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 2
МОРФОЛОГІЧНИЙ АНАЛІЗ ЯК ЗАДАЧА КЛАСИФІКАЦІЇ • РЕЧЕННЯ -СПОСТЕРЕЖЕННЯ АБО ПОСЛІДОВНІСТЬ СПОСТЕРЕЖЕНЬ • МА – ЯКА НАЙКРАЩА ПОСЛІДОВНІСТЬ НАБОРІВ МОРФОЛОГІЧНИХ ХАРАКТЕРИСТИК (ТЕГІВ) ВІДПОВІДАЄ ЦІЙ ПОСЛІДОВНОСТІ СПОСТЕРЕЖЕНЬ • ІМОВІВНІСНИЙ ПІДХІД – РОЗГЛЯДАЮТЬСЯ ВСІ МОЖЛИВІ ПОСЛІДОВНОСТІ ТЕГІВ – З МНОЖИНИ ПОСЛІДОВНОСТЕЙ ОБИРАЄТЬСЯ НАЙБІЛЬШ ІМОВІРНА ДЛЯ ДАНОЇ ПОСЛІДОВНОСТІ N СЛІВ w 1…wn 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 3
МОРФОЛОГІЧНИЙ АНАЛІЗ ЯК ЗАДАЧА КЛАСИФІКАЦІЇ (ПРОДОВЖЕННЯ) • З УСІХ ПОСЛІДОВНОСТЕЙ n ТЕГІВ t 1…tn ОБИРАЄМО ТАКУ ОДНУ ПОСЛІДОВНІСТЬ, ЩО P(t 1…tn|w 1…wn) МАЄ НАЙБІЛЬШЕ ЗНАЧЕННЯ. • СИМВОЛ ^ ОЗНАЧАЄ, ЩО ЦЕ НАЙКРАЩА ОЦІНКА • аrgmaxx f(x) ОЗНАЧАЄ, “ТАКЕ x ЩО МАКСИМІЗУЄ f(x)” 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 4
МОРФОЛОГІЧНИЙ АНАЛІЗ ЯК ЗАДАЧА КЛАСИФІКАЦІЇ (ПРОДОВЖЕННЯ) • РІВНЯННЯ ГАРАНТУЄ, ЩО БУДЕ ОТРИМАНА НАЙКРАЩА ПОСЛІДОВНІСТЬ ТЕГІВ • ПИТАННЯ: ЯКИМ ЧИНОМ МОЖНА ОБЧИСЛИТИ ЙОГО ЗНАЧЕННЯ • ПОТРІБНО ВИКОРИСТАТИ ТЕОРЕМУ БАЄСА ПЕРЕТВОРЕННЯ РІВНЯННЯ В НАБІР ІМОВІРНОСТЕЙ, ЯКІ МОЖЛИВО ОБЧИСЛИТИ 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 5
Теоре ма Ба єса • одна з основних теорем теорії ймовірностей, яка визначає ймовірність настання події, коли відома тільки часткова інформація про подію. • Формула Баєса: • P(A) — апріорна ймовірність гіпотези A; • P(A | B) — ймовірність гіпотези A при настанні події B ; • P(B | A) — ймовірність настання події B при істинності гіпотези A; • P(B) — ймовірність настання події B. 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 6
ТЕОРЕМА БАЄСА ТА ЇЇ ЗАСТОСУВАННЯ • ТЕОРЕМА БАЄСА • РЕЗУЛЬТАТ ЇЇ ЗАСТОСУВАННЯ 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 7
АПРІОРНА ІМОВІРНІСТЬ ТА ФУНКЦІЯ ПРАВДОПОДІБНОСТІ (УМОВНА ІМОВІРНІСТЬ) УМОВНА ІМОВІРНІСТЬ СПОСТЕРЕЖЕННЯ ПОСЛІДОВНОСТІ СЛІВ, ЯКЩО ГІПОТЕЗА ПОСЛІДОВНОСТІ ТЕГІВ ПРАВИЛЬНА 27. 10. 2009 АПІОРНА ІМОВІРНІСТЬ – ІМОВІРНІСТЬ ВИВЕДЕНА РАНІШЕ НІЖ СПОСТЕРЕЖЕННЯ СТАЛО ДОСТУПНЕ Комп'ютерна лінгвістика (2009) Романюк А. Б. 8
ПРИПУЩЕННЯ • ІМОВІРНІСТЬ ПОЯВИ СЛОВА ЗАЛЕЖИТЬ ТІЛЬКИ ВІД ЙОГО ТЕГА І НЕ ЗАЛЕЖИТЬ ВІД ІНШИХ СЛІВ І ІНШИХ ТЕГІВ • ІМОВІРНІСТЬ ПОЯВИ ТЕГА ЗАЛЕЖИТЬ ТІЛЬКИ ВІД ПОПЕРЕДНЬОГО ТЕГА, А НЕ ВІД ПОСЛІДОВНОСТІ ТЕГІВ 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 9
ДВА ТИПИ ІМОВІРНОСТЕЙ • p(ti|ti-1) – ПЕРЕХІДНА ІМОВІРНІСТЬ ТЕГА – ВИЗНАЧНИК (DETERMINER) ІМОВІРНО ЗУСТРІЧАЄТЬСЯ ПЕРЕД ПРИКМЕТНИКАМИ ТА ІМЕННИКАМИ • That/DT flight/NN • The/DT yellow/JJ hat/NN – ЗНАЧЕННЯ P(NN|DT) P(JJ|DT) Є ВИСОКІ , А ЗНАЧЕННЯ P(DT|JJ) - ? . • ВИКОРИСТОВУЮЧИ МОРФОЛОГІЧНО РОЗМІЧЕНИЙ КОРПУС МОЖНА ВИЗНАЧИТИ P(NN|DT) 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 10
27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 11
ДВА ТИПИ ІМОВІРНОСТЕЙ • p(wi|ti) – УМОВНА ІМОВІРНІСТЬ (ФУНКЦІЯ ПРАВДОПОДІБНОСТІ) СЛОВА • СЛОВОМ З ТЕГОМ VBZ (3 sg Pres verb) ІМОВІРНО БУДЕ ДІЄСЛОВО “is” • ВИКОРИСТОВУЮЧИ МОРФОЛОГІЧНО РОЗМІЧЕНИЙ КОРПУС МОЖНА ВИЗНАЧИТИ P(is|VBZ) 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 12
27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 13
ПРИКЛАД ВИЗНАЧЕННЯ НАЙБІЛЬШ ІМОВІРНОЇ ПОСЛІДОВНОСТІ ТЕГІВ • Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NR • People/NNS continue/VB to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ space/NN • РОЗГЛЯДАЄМО НЕОДНОЗНАЧНІСТЬ СЛОВА race. 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 14
ДВІ МОЖЛИВІ ПОСЛІДОВНОСТІ ТЕГІВ 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 15
ЗНАЧЕННЯ ІМОВІРНОСТЕЙ НА ОСНОВІ КОРПУСА BROWN • • P(NN|TO) =. 00047 P(VB|TO) =. 83 P(race|NN) =. 00057 P(race|VB) =. 00012 P(NR|VB) =. 0027 P(NR|NN) =. 0012 P(VB|TO)P(NR|VB)P(race|VB) =. 00000027 P(NN|TO)P(NR|NN)P(race|NN)=. 0000032 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 16
ПРИХОВАНА МОДЕЛЬ МАРКОВА • ПРИХОВАНА МОДЕЛЬ МАРКОВА – ЦЕ ОПИСАНІ ДВА ТИПИ ІМОВІРНОСТЕЙ • ПРИХОВАНА – МІСТИТЬ ПРИХОВАНИЙ ГЕНЕРАТОР ПОДІЙ ЩО СПОСТЕРІГАЮТЬСЯ • ПРИХОВАНИЙ ГЕНЕРАТОР МОЖЕ БУТИ ЗМОДЕЛЬВАНИЙ НАБОРОМ СТАНІВ • ПОСЛІДОВНІСТЬ СТАНІВ ВИВОДИТЬСЯ НА ОСНОВІ ПОДІЙ, ЩО СПОСТЕРІГАЮТЬСЯ 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 17
АРХІТЕКТУРА ПРИХОВАНОЇ МОДЕЛІ МАРКОВА • ВИПАДКОВА ЗМІННА X(T) – ЦЕ ЗНАЧЕННЯ ПРИХОВАНОЇ ЗМІННОЇ В МОМЕНТ ЧАСУ T І ЗАЛЕЖИТЬ ТІЛЬКИ ВІД ЗНАЧЕННЯ ПРИХОВАНОЇ ЗМІННОЇ X(T-1) В МОМЕНТ ЧАСУ T-1 • ВИПАДКОВА ЗМІННА Y(T) – ЦЕ ЗНАЧЕННЯ ЗМІННОЇ, ЯКА СПОСТЕРІГАЄТЬСЯ В МОМЕНТ ЧАСУ T І ЗАЛЕЖИТЬ ТІЛЬКИ ВІД ЗНАЧЕННЯ ПРИХОВАНОЇ ЗМІННОЇ X(T) 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 18
ЛАНЦЮГ МАРКОВА • ЗВАЖЕНИЙ СКІНЧЕННИЙ АВТОМАТ – АВТОМАТ З ДОДАНИМИ ДО ДУГ ІМОВІРНОСТЯМИ – СУМА ВСІХ ІМОВІРНОСТЕЙ, ЯКІ ВИХОДЯТЬ З ВУЗЛА ПОВИННА ДОРІВНЮВАТИ ОДИНИЦІ • ЛАНЦЮГ МАРКОВА ОКРЕМИЙ ВИПАДОК ЗВАЖЕНОГО СКІНЧЕННОГО АВТОМАТУ В ЯКОМУ ВХІДНА ПОСЛІДОВНІСТЬ УНІКАЛЬНО ВИЗНАЧАЄ ЯКІ СТАНИ ПРОЙДЕ АВТОМАТ • ПРОБЛЕМУ НЕОДНОЗНАЧНОСТІ ЛАНЦЮГИ МАРКОВА ПРЕДСТАВИТИ НЕ МОЖУТЬ. – ВИКОРИСТОВУЮТЬСЯ ДЛЯ ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ ОДНОЗНАЧНИХ ПОСЛІДОВНОСТЕЙ 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 19
ЛАНЦЮГ МАРКОВА ДЛЯ ПРИХОВАНИХ СТАНІВ HMM ПЕРЕХІДНІ ІМОВІРНОСТІ а ВИКОРИСТОВУЮТЬСЯ ДЛЯ ВИЗНАЧЕННЯ АПРІОРНОЇ ІМОВІРНОСТІ 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 20
ФУНКЦІЯ ПРАВДОПОДІБНОСТІ ДЛЯ СПОСТЕРЕЖЕНЬ HMM 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 21
ФОРМАЛЬНЕ ВИЗНАЧЕННЯ HMM • НАБІР N СТАНІВ Q = q 1, q 2…q. N; • ПОСЛІДОВНІСТЬ T СПОСТЕРЕЖЕНЬ O= o 1, o 2…o. T; – КОЖНЕ СПОСТЕРЕЖЕННЯ ЦЕ СИМВОЛ З НАБОРУ V = {v 1, v 2, …v. V} • МАТРИЦЯ ПЕРЕХІДНИХ ІМОВІРНОСТЕЙ A = {aij} – КОЖЕН ЕЛЕМЕНТ МАТРИЦІ ПРЕДСТАВЛЯЄ ІМОВІРНІСТЬ ПЕРЕХОДУ ЗІ СТАНУ i В СТАН j • ПОСЛІДОВНІСТЬ ФУНКЦІЙ ПРАВДОПОДІБНОСТІ СПОСТЕРЕЖЕНЬ B=bi(OT) – ІМОВІРНОСТІ ЩО СПОСТЕРЕЖЕННЯ o. T ГЕНЕРУЄТЬСЯ ЗІ СТАНУ i • СПЕЦІАЛЬНИЙ ПОЧАТКОВИЙ І КІНЦЕВИЙ СТАНИ 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 22
АЛГОРИТМ ВІТЕРБІ • ЗАДАЧА ВИЗНАЧЕННЯ ПОСЛІДОВНОСТІ ЗМІННИХ, ЩО ЛЕЖИТЬ В ОСНОВІ ДЕЯКОЇ ПОСЛІДОВНОСТІ СПОСТЕРЕЖНЬ НАЗИВАЄТЬСЯ ЗАДАЧЕЮ ДЕКОДУВАННЯ • АЛГОРИМ ВІТЕРБІ – КЛАСИЧНИЙ АЛГОРИТМ ДИНАМІЧНОГО ПРОГРАМУВАННЯ. • ВПЕРШЕ ВИКОРИСТАНИЙ ДЛЯ РОЗПІЗНАВАННЯ УСНОГО МОВЛЕННЯ РАДЯНСЬКИМ ВЧЕНИМ, УКРАЇНЦЕМ Т. К. ВІНЦЮКОМ (1968) 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 23
АЛГОРИТМ ВІТЕРБІ • ВХІДНІ ДАНІ: ПРИХОВАНА МОДЕЛЬ МАРКОВА, ПОСЛІДОВНІСТЬ СЛІВ (СПОСТЕРЕЖЕНЬ) • ВИХІДНІ ДАНІ: НАЙБІЛЬШ ІМОВІРНІ ПОСЛІДОВНОСТІ СТАНІВ (ТЕГІВ) ТА ЇХ ІМОВІРНОСТІ. 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 24
АЛГОРИТМ ВІТЕРБІ • РОЗГЛЯДАЄТЬСЯ ПОСЛІДОВНІСТЬ СТАНІВ (ТЕГІВ) ЯКА ЗАВЕРШУЄТЬСЯ СТАНОМ j З ТЕГОМ T. • ІМОВІРНІСТЬ ПОСЛІДОВНОСТІ ТЕГІВ МОЖЕ БУТИ РОЗДІЛЕНА НА ДВІ ЧАСТИНИ – ІМОВІРНІСТЬ НАЙКРАЩОЇ ПОСЛІДОВНОСТІ ТЕГІВ ДЛЯ j-1 – ПОМНОЖЕНА НА ПЕРЕХІДНУ ІМОВІРНІСТЬ ВІД ТЕГА В КІНЦІ ПОСЛІДОВНОСТІ j-1 ДО T. – ТА ІМОВІРНІСТЬ СПОСТЕРЕЖЕННЯ СЛОВА НА ОСНОВІ ТЕГА T. 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 25
АЛГОРИТМ ВІТЕРБІ 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 26
АЛГОРИТМ ВІТЕРБІ • БУДУЄМО МАСИВ – СТОВПЧИКИ ВІДПОВІДАЮТЬ ВХІДНІЙ ПОСЛІДОВНОСТІ – РЯДКИ ВІДПОВІДАЮТЬ МОЖЛИВИМ СТАНАМ • СТОВПЧИКИ ЗАПОВНЮЮТЬСЯ ЗЛІВА НАПРАВО З ВИКОРИСТАННЯМ ПЕРЕХІДНИХ ІМОВІРНОСТЕЙ І ІМОВІРНОСТЕЙ СПОСТЕРЕЖЕНЬ • ЗБЕРІГАЄТЬСЯ ШЛЯХ З МАКСИМАЛЬНОЮ ІМОВІРНІСТЮ ДО КОЖНОЇ КОМІРКИ (А НЕ ВСІ МОЖЛИВІ ШЛЯХИ). 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 27
ПЕРЕХІДНІ ІМОВІРНОСТІ ТЕГІВ ТА ЗНАЧЕННЯ ІМОВІРНОСТЕЙ СПОСТЕРЕЖНЬ 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 28
АЛГОРИТМ ВІТЕРБІ (ПРИКЛАД) 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 29
27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 30
АЛГОРИТМ ВІТЕРБІ (ПРИКЛАД) 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 31
АНАЛІЗ ПОМИЛОК ТОЧНІСТЬ СУЧАСНИХ МА – 96 -97% МАТРИЦЯ ПОМИЛОК (ПРАВІЛЬНІПОМИЛКОВІ) 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 32
НЕОБХІДНО ПРОЧИТАТИ • Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988. – Розділ, 5 ст. 123 -173. 27. 10. 2009 Комп'ютерна лінгвістика (2009) Романюк А. Б. 33


