KL-Lec5.ppt
- Количество слайдов: 44
АВТОМАТИЧНИЙ МОРФОЛОГІЧНИЙ АНАЛІЗ. СКІНЧЕННИЙ ПЕРЕТВОРЮВАЧ БЕЗ ЛЕКСИКОНУ (СТЕМІНГ). ТОКЕНІЗАЦІЯ. ВИЯВЛЕННЯ ТА ВИПРАВЛЕННЯ ПОМИЛОК. ПЕРЕДБАЧЕННЯ НОВИХ СЛІВ. N-ГРАМИ ЛЕКЦІЯ № 5
СКІНЧЕННИЙ ПЕРЕТВОРЮВАЧ БЕЗ ЛЕКСИКОНУ • ЗАДАЧА ІНФОРМАЦІЙНОГО ПОШУКУ (IR) – ПОШУКОВИЙ ЗАПИТ (студент OR викладач 6 960 000) – (студентка OR викладач 2 080 000) • ПОТРІБЕН СТЕМІНГ (ВСТАНОВЛЕННЯ ОСНОВИ СЛОВА) ЗАПИТІВ ТА СЛІВ В ДОКУМЕНТАХ • СТЕМІНГ ПРОВОДИЬСЯ НА ОСНОВІ МА БЕЗ ВИКОРИСТАННЯ ЛЕКСИКОНА Комп'ютерна лінгвістика (2009) Романюк А. Б.
АЛГОРИТМ СТЕМІНГУ PORTER • СЕРІЇ ПРОСТИХ ПРАВИЛ ПЕРЕТВОРЕНЬ • ПОМИЛКИ ВЛАСТИВІ АЛГОРИТМУ Комп'ютерна лінгвістика (2009) Романюк А. Б.
ТОКЕНІЗАЦІЯ • ТОКЕНІЗАЦІЯ – ПОЧАТКОВИЙ ЕТАП ОБРОБКИ ТЕКСТІВ, ЯКИЙ ПЕРЕДБАЧАЄ ПОДІЛ (ВИДІЛЕННЯ ) ТЕКСТУ НА ОКРЕМІ СЛОВА ТА РЕЧЕННЯ • Mr. Sherwood said reaction to Sea Containers' proposal has been "very positive. " In New York Stock Exchange composite trading yesterday. Sea Containers closed at $62, 625, up 62. 5 cents. ''I said, 'what're you? Crazy? ' '' said Sadowsky. '‘ I can't afford to do that. '' Комп'ютерна лінгвістика (2009) Романюк А. Б.
ТОКЕНІЗАЦІЯ (ПРОДОВЖЕННЯ) • РЕЗУЛЬТАТ ТОКЕНІЗАЦІЇ СЛІВ ЗА ПРОБІЛАМИ cents. said, positive. “ Crazy? • ПРИКЛАДИ СЛІВ ТОКЕНІЗАЦІЯ ЯКИХ Є СКЛАДНОЮ ЗАДАЧЕЮ – К. Т. Н. , ММ. РТ. СТ. , 14/10/2009, BOOK’S, WHAT’RE, complinguistics. blogspot. com, – 555, 555. 55 555, 55 – БІЛА ЦЕРКВА, П’ЯТНИЦЯ, П’ЯТНИЧАНИ Комп'ютерна лінгвістика (2009) Романюк А. Б.
ТОКЕНІЗАЦІЯ (ПРОДОВЖЕННЯ) • ПОСЛІДОВНІСТЬ КРОКІВ ПРИ ТОКЕНІЗАЦІЇ СЛІВ НА ОСНОВІ РЕГУЛЯРНИХ ВИРАЗІВ – ВИДІЛЕННЯ (ВІДДІЛЕННЯ ПРОБІЛАМИ) ОДНОЗНАЧНИХ РОЗДІЛОВИХ ЗНАКІВ (!, ? , (, )) – ВИДІЛЕННЯ КОМ, ЗА ВИКЛЮЧЕННЯМ КОМ В ЧИСЛОВИХ ПОСЛІДОВНОСТЯХ – ВІДДІЛЕННЯ ОДИНАРНИХ ЛАПОК ВІД АПОСТРОФІВ – ВИДІЛЕННЯ CLITICS – ВИДІЛЕННЯ КРАПОК (СЛОВНИК СКОРОЧЕНЬ ТА АБРЕВІАТУР) Комп'ютерна лінгвістика (2009) Романюк А. Б.
ПРИКЛАД ТОКЕНІЗАЦІЇ РЕЧЕНЬ ПРИ ПОБУДОВІ ПАРАЛЕЛЬНОГО КОРПУСА • ПОЧАТКОВИЙ ТЕКСТ - Бери, бери, Елберте. Що важливіше - дружба чи якась там п'ятірка? Вважай, що я частую тебе обідом. Він вийшов з кабіни й попрямував коридором. Ідучи, стиха пробурмотів: - Ох, і тюхтій же ти, Молверне. . . Комп'ютерна лінгвістика (2009) Романюк А. Б.
ПРИКЛАД ТОКЕНІЗАЦІЇ РЕЧЕНЬ ПРИ ПОБУДОВІ ПАРАЛЕЛЬНОГО КОРПУСА • РЕЗУЛЬТАТ ТОКЕНІЗАЦІЇ 18 "Skip it, Albert. What's a fin between pals? Eat some extra meals on me. " 15 - Бери, бери, Елберте. Що важливіше - дружба чи якась там п'ятірка? Вважай, що я частую тебе обідом. 19 He got out of the car and started along the corridor. 16 Він вийшов з кабіни й попрямував коридором. 20 Softly, under his breath, he said: 17 Ідучи, стиха пробурмотів: 21 "Sucker. 18 - Ох, і тюхтій же ти, Молверне. . . Комп'ютерна лінгвістика (2009) Романюк А. Б.
ФРАГМЕНТ ПРОГРАМИ ТОКЕНІЗАЦІЇ (ПАЛІЙ З. 2008 р. ) import re from re import compile pattern. Simplex = compile("-+ +[A-Z]+. +[. !? ]") pattern. Complex = compile("-+ +[A-Z]+. + +. +. ") ## Simple pattern of direct speech (DS) like - Pryvit!## if pattern. Simplex. match(line): #print 'Simplex--> ', (pattern. Simplex. match(line)). group() New. List 2. append((pattern. Simplex. match(line)). group()+'n' ) line = line. replace(pattern. Simplex. match(line). group(), '') New. List 2. append(line. strip()+'n') Комп'ютерна лінгвістика (2009) Романюк А. Б.
ВИЯВЛЕННЯ ТА ВИПРАВЛЕННЯ ПОМИЛОК В ТЕКСТАХ • ЧАСТОТА ПОМИЛОК ВІД 0. 05% ДО 38%. • ЗАДАЧА ВИЯВЛЕННЯ ТА ВИПРАВЛЕН Я ПОМИЛОК ВИРІШУЄТЬСЯ В ТЕКСТОВИХ ПРОЦЕСОРАХ, ПОШУКОВИХ СИСТЕМАХ, СИСТЕМАХ РОЗПІЗНАВАННЯ ТЕКСТІВ ТА РУКОПИСНОГО ТЕКСТУ • ОСНОВНИЙ ПІДХІД - ВИКОРИСТАННЯ ІМОВІРНІСНИХ МОДЕЛЕЙ Комп'ютерна лінгвістика (2009) Романюк А. Б.
ОСНОВНІ ЗАДАЧІ ВИЯВЛЕННЯ ТА ВИПРАВЛЕННЯ ПОМИЛОК • ВИЯВЛЕННЯ ПОМИЛОК, ЩО ПРИВОДЯТЬ ДО УТВОРЕННЯ НЕВІДОМИХ СЛІВ (GRAFFE - GIRAFFE, КНЬ-КІНЬ) • ВИПРАВЛЕННЯ ПОМИЛОК В ОКРЕМИХ СЛОВАХ • ВИЯВЛЕННЯ І ВИПРАВЛЕННЯ ПОМИЛОК З ВРАХУВАННЯМ КОНТЕКСТУ (THERE-THREE, АХМАТОВА-АХМЕТОВА, DESSERT-DESERT, PIECEPEACE, РІКА-РУКА, КУТАТИ-КУСАТИ) Комп'ютерна лінгвістика (2009) Романюк А. Б.
ВИПРАВЛЕННЯ ПОМИЛОК НА ОСНОВІ ПОРІВНЯННЯ СТРІЧОК • ВСТАНОВЛЕННЯ ЯКЕ З ДВОХ СЛІВ Є БЛИЖЧЕ ЗА ПРАВОПИСОМ ДО ТРЕТЬОГО – ОКРЕМИЙ ВИПАДОК ПОРІВНЯННЯ СТРІЧОК (STRING DISTANCE) • ПОРІВНЯТИ СТРІЧКИ - ВСТАНОВИТИ МІРУ ВІДМІННОСТІ МІЖ ДВОМА ПОСЛІДОВНОСТЯМИ СИМВОЛІВ • АЛГОРИТМ MINIMUM EDIT DISTANCE ВІДСТАНЬ ЛЕВЕНШТЕЙНА Комп'ютерна лінгвістика (2009) Романюк А. Б.
АЛГОРИТМ MINIMUM EDIT DISTANCE ВІДСТАНЬ ЛЕВЕНШТЕЙНА • Обчислюється як мінімальна кількість операцій вставки, видалення і заміни, необхідних для перетворення одної послідовності в іншу. • ПЕРЕТВОРЕННЯ З ВИРІВНЮВАННЯМ ДВОХ СТРІЧОК – D - ВИДАЛЕННЯ – І – ВСТАВКА – S - ЗАМІНА Комп'ютерна лінгвістика (2009) Романюк А. Б.
ВІДСТАНЬ ЛЕВЕНШТЕЙНА (1964) ВАРТІСТЬ (ВАГА ОПЕРАЦІЙ) D – ВИДАЛЕННЯ=1 І – ВСТАВКА=1 S – ЗАМІНА=1(2) INTENTION -> EXECUTION =5(8) НЕБО-> ТРЕБА = 3 Комп'ютерна лінгвістика (2009) Романюк А. Б.
АЛГОРИТМ MINIMUM EDIT DISTANCE ПЕРЕЛІК НЕОБХІДНИХ ПЕРЕТВОРЕНЬ Комп'ютерна лінгвістика (2009) Романюк А. Б.
АЛГОРИТМ MINIMUM EDIT DISTANCE ПЕРЕЛІК НЕОБХІДНИХ ПЕРЕТВОРЕНЬ • НЕБО -> НЕБА (ЗАМІНЮЄМО О НА А)-1(2) • НЕБА -> РЕБА (ЗАМІНЮЄМО Н НА Р)-1(2) • РЕБА -> ТРЕБА (ВСТАВЛЯЄМО Т)-1 • НЕБО -> ТЕБО (ЗАМІНЮЄМО Н НА Т) • ТЕБО -> ТРЕБО (ВСТАВЛЯЄМО Р) • ТРЕБО -> ТРЕБА (ЗАМІНЮЄМО О НА А) Комп'ютерна лінгвістика (2009) Романюк А. Б.
ПОШУК МІНІМАЛЬНОЇ ВІДСТАНІ РЕДАГУВАННЯ – ПОШУКОВА ЗАДАЧА • ЗАДАЧУ ВИЗНАЧЕННЯ ВІДСТАНІ РЕДАГУВАННЯ МОЖНА РОЗГЛЯДАТИ ЯК ЗАДАЧУ ПОШУКУ ШЛЯХУ (ПОСЛІДОВНОСТІ ОПЕРАЦІЙ РЕДАГУВАННЯ) ДЛЯ ПЕРЕТВОРЕННЯ (ОТРИМАННЯ З) ПОЧАТКОВОЇ СТРІЧКИ – ЗАДАНУ СТРІЧКУ – ПОЧАТКОВА ТА КІНЦЕВА СТРІЧКИ ВІДОМІ – ПОТРІБНО ЗНАЙТИ ПОСЛІДОВНІСТЬ ОПЕРАЦІЙ (ВСІ!!!) – ВИБРАТИ ПОСЛІДОВНІСТЬ З МІНІМАЛЬНОЇ МІРОЮ Комп'ютерна лінгвістика (2009) Романюк А. Б.
МАТРИЦЯ ВІДСТАНЕЙ ДЛЯ ПОРІВНЯННЯ ПОСЛІДОВНОСТЕЙ • РОЗМІР МАТРИЦІ (N+1)X(M+1) – N - КІЛЬКІСТЬ ЕЛЕМЕНТІВ ПЕРШОЇ ПОСЛІДОВНОСТІ – M- КІЛЬКІСТЬ ЕЛЕМЕНТІВ ДРУГОЇ ПОСЛІДОВНОСТІ • КОМІРКИ МАТРИЦІ ЗНАЧЕННЯ ВІДСТАНІ МІЖ ПЕРШИМИ I СИМВОЛАМИ ВХІДНОЇ ПОСЛІДОВНОСТІ ТА J СИМВОЛАМИ РЕЗУЛЬТУЮЧОЇ ПОСЛІДОВНОСТІ Комп'ютерна лінгвістика (2009) Романюк А. Б.
ЕЛЕМЕНТИ МАТРИЦІ ВІДСТАНЕЙ ВИЗНАЧАЮТЬСЯ НА ОСНОВІ РЕКУРСИВНОГО РІВНЯННЯ Комп'ютерна лінгвістика (2009) Романюк А. Б.
МАТРИЦЯ ВІДСТАНЕЙ ДЛЯ СТРІЧОК INTENTION ТА EXECUTION Комп'ютерна лінгвістика (2009) Романюк А. Б.
АЛГОРИТМ MINIMUM EDIT DISTANCE Комп'ютерна лінгвістика (2009) Романюк А. Б.
АЛГОРИТМ MINIMUM EDIT DISTANCE • ЩОБ ОТРИМАТИ СТРІЧКУ ДОВЖИНОЮ К ПОТРІБНО ЗРОБИТИ К ОПЕРАЦІЙ ВСТАВКИ • ЩОБ ОТРИМАТИ СТРІЧКУ ДОВЖИНОЮ 0 ПОТРІБНО ЗРОБИТИ К ОПЕРАЦІЙ ВИДАЛЕННЯ • КРОК ПО ГОРИЗОНТАЛІ [j](ПО РЯДКУ) - ВСТАВКА • КРОК ПО ВЕРТИКАЛІ [i](ПО СТОВПЧИКУ) – ВИДАЛЕННЯ • КРОК ПО ОБОХ ІНДЕКСАХ [i, j] – ЗАМІНА, АБО ВІДСУТНІСТЬ ЗМІН КОЛИ СИМВОЛИ СПІВПАДАЮТЬ Комп'ютерна лінгвістика (2009) Романюк А. Б.
АЛГОРИТМ MINIMUM EDIT DISTANCE • http: //rain. ifmo. ru/cat/view. php/vis/strings/levenshtein 2009 • ЗАПОВНЕННЯ ПЕРШОГО СТОВПЧИКА МАТРИЦІ • І=1, J=1, 2, 3, 4, 5, 6, 7, 8, 9 I-># I->E INT->E INTEN->E ВИДАЛЕННЯ ЗАМІНА+ВИДАЛЕННЯ ВИДАЛ. +ВИДАЛ. Комп'ютерна лінгвістика (2009) Романюк А. Б. 1 2 3 4
РЕАЛІЗАЦІЯ АЛГОРИТМУ НА МОВІ PYTHON • def distance(a, b): "Calculates the Levenshtein distance between a and b. " • n, m = len(a), len(b) • if n > m: # Make sure n <= m, to use O(min(n, m)) space • a, b = b, a n, m = m, n • current_row = range(n+1) # Keep current and previous row, not entire matrix • for i in range(1, m+1): • previous_row, current_row = current_row, [i]+[0]*m • for j in range(1, n+1): • add, delete, change = previous_row[j]+1, current_row[j-1]+1, previous_row[j -1] • if a[j-1] != b[i-1]: • change += 1 • current_row[j] = min(add, delete, change) • return current_row[n] Комп'ютерна лінгвістика (2009) Романюк А. Б.
МАТРИЦЯ ВІДСТАНЕЙ ДЛЯ СТРІЧОК INTENTION ТА EXECUTION ЯК З ЦІЄЇ МАТРИЦІ ОТРИМАТИ ПОТРІБНУ ПОСЛІДОВНІСТЬ ОПЕРАЦІЙ РЕДАГУВАННЯ? Комп'ютерна лінгвістика (2009) Романюк А. Б.
ВИЗНАЧЕННЯ МІНІМАЛЬНОГО ШЛЯХУ ВИРІВНЮВАННЯ МІЖ СТРІЧКАМИ (ДИНАМІЧНЕ ПРОГРАМ. ) • ПРИ ЗАПОВНЮВАННІ КОЖНОЇ З КОМІРОК ПОТРІБНО ВКАЗАТИ НА ОСНОВІ ЯКОЇ КОМІРКИ ВОНА ЗАПОВНЕНА ТА ЗА ДОПОМОГОЮ ЯКОЇ ОПЕРАЦІЇ ЦЕ ВІДБУЛОСЯ • КРОК ПО ГОРИЗОНТАЛІ [j](ПО РЯДКУ) – ВСТАВКА (СТРІЛКА ВЛІВО) • КРОК ПО ВЕРТИКАЛІ [i](ПО СТОВПЧИКУ) – ВИДАЛЕННЯ (СТРІЛКА ВНИЗ) • КРОК ПО ОБОХ ІНДЕКСАХ [i, j] – ЗАМІНА, АБО ВІДСУТНІСТЬ ЗМІН КОЛИ СИМВОЛИ СПІВПАДАЮТЬ (СТРІЛКА ПО ДІАГОНАЛІ) Комп'ютерна лінгвістика (2009) Романюк А. Б.
ВИЗНАЧЕННЯ МІНІМАЛЬНОГО ШЛЯХУ ВИРІВНЮВАННЯ МІЖ СТРІЧКАМИ Комп'ютерна лінгвістика (2009) Романюк А. Б.
ПЕРЕДБАЧЕННЯ СЛІВ. N-ГРАМИ N-ГРАМ МОДЕЛЬ – ІМОВІРНІСНА МОДЕЛЬ, ЯКА ПЕРЕДБАЧАЄ НАСТУПНЕ СЛОВО НА ОСНОВІ N-1 ПОПЕРЕДНІХ СЛІВ • N-ГРАМ ПОСЛІДОВНІСТЬ N СЛІВ • 2 -ГРАМ –БІГРАМ • 3 -ГРАМ - ТРИГРАМ N-ГРАМ МОДЕЛЬ – ЦЕ МОДЕЛЬ, ЯКА ВИЗНАЧАЄ (ОБРАХОВУЄ ) ОСТАННЄ СЛОВО N-ГРАМА НА ОСНОВІ N-1 ПОПЕРЕДНІХ СЛІВ Комп'ютерна лінгвістика (2009) Романюк А. Б.
ПЕРЕДБАЧЕННЯ СЛІВ. N-ГРАМИ • ВИЗНАЧЕННЯ ЙМОВІРНОСТІ НАСТУПНОГО СЛОВА ТІСНО ПОВ’ЯЗАНЕ З ВИЗНАЧЕННЯМ ІМОВІРНОСТІ ПОСЛІДОВНОСТІ СЛІВ • IN(OVER)? THE Комп'ютерна лінгвістика (2009) Романюк А. Б.
ВИКОРИСТАННЯ N-ГРАМ МОДЕЛЕЙ • • • РОЗПІЗНАВАННЯ УСНОГО МОВЛЕННЯ РОЗПІЗНАВАННЯ РУКОПИСНОГО ТЕКСТУ МАШИННИЙ ПЕРЕКЛАД ВИПРАВЛЕННЯ ПОМИЛОК МОРФОЛОГІЧНИЙ АНАЛІЗ ГЕНЕРАЦІЯ ТЕКСТУ ОЦІНКА ПОДІБНОСТІ СЛІВ ІДЕНТИФІКАЦІЯ АВТОРСТВА ПЕРЕДБАЧЕННЯ ТЕКСТУ ПРИ ВВЕДЕННІ ВИЯВЛЕННЯ СЕНТИМЕНТІВ Комп'ютерна лінгвістика (2009) Романюк А. Б.
ВИЗНАЧЕННЯ ІМОВІРНОСТЕЙ • НА ОСНОВІ ПІДРАХУНКІВ В КОРПУСАХ ТЕКСТІВ • ЩО ВВАЖАТИ СЛОВОМ? • ЛЕМА, ГРАМАТИЧНА ФОРМА, СЛОВОФОРМА • TOKENS? TYPES? Комп'ютерна лінгвістика (2009) Романюк А. Б.
N-ГРАМИ. ВИЗНАЧЕННЯ ІМОВІРНОСТІ • МЕТА: ОБЧИСЛИТИ ЙМОВІРНІСТЬ СЛОВА W , ЯКЕ СЛІДУЄ ПІСЛЯ H P(W|H) • H=‘ITS WATER IS SO TRANSPARENT THAT’ P(THE| ITS WATER IS SO TRANSPARENT THAT )= C( ITS WATER IS SO TRANSPARENT THAT ) C( ITS WATER IS SO TRANSPARENT THAT THE) P=15|22 = 0, 68 ДЕЯКІ ПОСЛІДОВНОСТІ СЛІВ МОЖУТЬ ЗУСТРІЧАТИСЯ РІДКО АБО І НЕ ЗУСТРІЧАТИСЯ лінгвістика (2009) Романюк Комп'ютерна А. Б.
N-ГРАМИ. ВИЗНАЧЕННЯ ІМОВІРНОСТІ Я ХОЧУ ОТРИМАТИ – 62 000 Я ХОЧУ ОТРИМАТИ ВІДМІННО - 0 Я ЛЮБЛЮ - 111 000 Я ЛЮБЛЮ РОМАНЮКА - 2 2/111000000=0, 00001802 Я ХОЧУ ОТРИМАТИ ВІДМІННО… (БУДЬ-ЯКЕ СЛОВО)… - 0 • 0/0 !!! • • • Комп'ютерна лінгвістика (2009) Романюк А. Б.
ВИЗНАЧЕННЯ ЗАГАЛЬНОЇ ЙМОВІРНОСТІ ПОСЛІДОВНОСТІ СЛІВ • P(w 1, w 2, w 3, ……. . wn) • CHAIN RULE (ПРАВИЛО ЛАНЦЮГА) • УМОВНА ЙМОВІРНІСТЬ • ДЛЯ ПОСЛІДОВНОСТІ P(A, B, C, D) = P(A)P(B|A)P(C|A, B)P(D|A, B, C) P(x 1, x 2, x 3, …xn) = P(x 1)P(x 2|x 1)P(x 3|x 1, x 2)…P(xn|x 1…xn-1) Комп'ютерна лінгвістика (2009) Романюк А. Б.
ВИЗНАЧЕННЯ ЗАГАЛЬНОЇ ЙМОВІРНОСТІ ПОСЛІДОВНОСТІ СЛІВ P(its water was so transparent)= P(its)* P(water|its)* P(was|its water)* P(so|its water was)* P(transparent|itsлінгвістика (2009)was so) water Романюк Комп'ютерна А. Б.
ВИЗНАЧЕННЯ ЗАГАЛЬНОЇ ЙМОВІРНОСТІ ПОСЛІДОВНОСТІ СЛІВ • ПРОБЛЕМА ВИЗНАЧЕННЯ - P(wn|w 1 n-1) (Я ХОЧУ ОТРИМАТИ ВІДМІННО У РОМАНЮКА) • ЯКЩО ВИКОРИСТАТИ N-ГРАМ (БІГРАМ) ТО ЗГІДНО ПРИПУЩЕННЯ МАРКОВА P(wn|w 1 n-1) ~ P(wn|wn-1) P(THE| ITS WATER IS SO TRANSPARENT THAT )= P(THE| THAT ) Комп'ютерна лінгвістика (2009) Романюк А. Б.
ЗАСТОСУВАННЯ ПРИПУЩЕННЯ МАРКОВА Комп'ютерна лінгвістика (2009) Романюк А. Б.
ВИЗНАЧЕННЯ ЙМОВІРНОСТІ NГРАМІВ НА ОСНОВІ МЕТОДУ МАКСИМАЛЬНОЇ ПРАВДОПОДІБНОСТІ • БІГРАМ Комп'ютерна лінгвістика (2009) Романюк А. Б.
ПРИКЛАД • <s> I am Sam </s> • <s> Sam I am </s> • <s> I do not like green eggs and ham </s> Комп'ютерна лінгвістика (2009) Романюк А. Б.
ПРИКЛАД (9332 РЕЧЕННЯ) Berkeley Restaurant Project • ТАБЛИЦЯ ЧАСТОТ БІГРАМІВ • (I WANT ЗУСТРІЧАЄТЬСЯ 827 РАЗ) Комп'ютерна лінгвістика (2009) Романюк А. Б.
ЙМОВІРНОСТІ БІГРАМІВ • ЙМОВІРНІСТЬ ВИЗНАЧАЄТЬСЯ ДІЛЕННЯМ ЧАСТОТИ БІГРАМІВ НА ЧАСТОТУ ПОПЕРЕДНЬОГО СЛОВА В КОРПУСІ Комп'ютерна лінгвістика (2009) Романюк А. Б.
ЙМОВІРНІСТЬ РЕЧЕННЯ I WANT CHINESE FOOD – 0, 0001 Комп'ютерна лінгвістика (2009) Романюк А. Б.
ЯКУ ІНФОРМАЦІЮ МОЖНА ОТРИМАТИ З АНАЛІЗУ ІМОВІРНОСТЕЙ N-ГРАМІВ • • P(english|want) =. 0011 P(chinese|want) =. 0065 P(to|want) =. 66 P(eat | to) =. 28 P(food | to) = 0 P(want | spend) = 0 P (i | <s>) =. 25 Комп'ютерна лінгвістика (2009) Романюк А. Б.
НЕОБХІДНО ПРОЧИТАТИ • Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988. – Розділ, 3 ст. 68 -79. Розділ, 4 ст. 83 -95. Комп'ютерна лінгвістика (2009) Романюк А. Б.
KL-Lec5.ppt