KL-Lec1.ppt
- Количество слайдов: 26
КОМП’ЮТЕРНА ЛІНГВІСТИКА Лектор: доцент кафедри САП, кандидат технічних наук Романюк Андрій Богданович anrom@polynet. lviv. ua; Skype: andriy. romanyuk 1; http: //complinguistics. blogspot. com/
ЗАГАЛЬНА ІНФОРМАЦІЯ Заняття: ◦ Лекції (щотижня) ◦ Лабораторні роботи (щотижня) Форма контролю: ◦ залік Розподіл балів Поточна Контрольна робота успішність практика теорія 45 15 40 Комп'ютерна лінгвістика (2009) Романюк А. Б. 2
Комп'ютерна лінгвістика (2009) Романюк А. Б. 3
НАВЧАЛЬНА ЛІТЕРАТУРА ОСНОВНА 1. Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988. 2. Карпіловська Є. А. Вступ до комп’ютерної лінгвістики – Донецьк, 2003. – 184 с. 3. Дарчук Н. П. Комп'ютерна лінгвістика (автоматичне опрацювання тексту): підручник - К. : Видавничо-поліграфічний центр "Київський університет", 2008. -351 с. ДОПОМІЖНА 1. The handbook of applied linguistics / edited by Alan Davies and Catherine Elder. 2004 – 886. 2. Арнольд И. В. Основы научных исследований в лингвистике: Учеб. пособие. — М. : Высш. шк. , 1991. — 140 с. Комп'ютерна лінгвістика (2009) Романюк А. Б. 4
ЧИ МОЖЕ КОМП’ЮТЕР РОЗУМІТИ ТА ОБРОБЛЯТИ ПРИРОДНУ МОВУ? Комп'ютерна лінгвістика (2009) Романюк А. Б . 5
ВСТУП. ОСНОВНІ ПОНЯТТЯ. ЛЕКЦІЯ № 1
ВИЗНАЧЕННЯ КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ • • Комп’ютерна лінгвістика – самостійна лінгвістична дисципліна, яка розв’язує теоретичні й прикладні завдання мовознавства за допомогою комп’ютера. (Карпіловська Є. А. ) Під терміном комп’ютерна лінгвістика (computational linguistics) звичайно розуміють широку царину використання комп’ютерних інструментів – програм, комп’ютерних технологій організації та оброблення даних – для моделювання функціонування мови в тих чи інших умовах, ситуаціях, проблемних галузях, а також сферу застосування комп’ютерних моделей мови не лише в лінгвістиці, а й у суміжних з нею дисциплінах. (Баранов А. Н. ) Комп'ютерна лінгвістика (2009) Романюк А. Б. 7
ОБ’ЄКТ ДОСЛІДЖЕННЯ КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ Об’єкт дослідження комп’ютерної лінгвістики (КЛ) становить мова в усіх трьох способах свого існування: Мовна система – сукупність певних одиниць з властивими їм формальними, змістовими та функціональними властивостями; Мовлення – різноманітні продукти реалізації мовної системи в певних умовах та ситуаціях комунікації; Мовна діяльність – процес використання мовної системи й створення продуктів такого застосування мови в тих чи інших умовах комунікації. Комп'ютерна лінгвістика (2009) Романюк А. Б. 8
ПРЕДМЕТ ДОСЛІДЖЕННЯ КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ Предмет дослідження КЛ – ознаки будови змісту та функціонування одиниць мовної системи, продуктів мовлення та мовної діяльності – звукових або письмових текстів, які могли б служити для їхнього моделювання й використання в процесах комп’ютерного опрацювання мовної інформації. Комп'ютерна лінгвістика (2009) Романюк А. Б. 9
ОСНОВНІ НАПРЯМКИ ДОСЛІДЖЕНЬ В КОМП’ЮТЕРНІЙ ЛІНГВІСТИЦІ Корпусна лінгвістика Машинний переклад Системи пошуку та класифікації Комп’ютерна лексикографія Автоматичних аналіз зв’язних текстів або автоматична обробка текстів природною мовою Комп'ютерна лінгвістика (2009) Романюк А. Б. 10
КОРПУС ТЕКСТІВ Корпус текстів - це вид корпусу даних, одиницями якого є тексти або їх достатньо значні фрагменти. Корпус текстів характеризується чотирма основними параметрами: ◦ Корпус повинен бути достатньо великого об'єму; ◦ Корпус повинен бути структурованим або розміченим; ◦ Складові певного корпусу, повинні бути в електронному варіанті; ◦ Існує спеціальне програмне забезпечення для роботи з корпусом. Комп'ютерна лінгвістика (2009) Романюк А. Б. 11
ПРИКЛАДИ КОРПУСІВ ТЕКСТІВ BROWN(1963 -1964) – 3312250 слів Haddix/np has/hvz a/at 13 -8/cd record/nn against/in the/at Redbirds/nps , /, despite/in only/ap a/at 1 -3/cd mark/nn in/in 1960/cd. /. PENN TREEBANK(1993) – 1710651 слів ( (S (NP-TMP (DT This) (NN year) ) (, , ) (NP-SBJ (DT the) (NN railroad) (VBG holding) (NN company) ) (VP (VBN acquired) (NP (CD 850) (JJ such) (NNS railcars) )) (. . ) )) Комп'ютерна лінгвістика (2009) Романюк А. Б. 12
ПРИКЛАДИ КОРПУСІВ ТЕКСТІВ (прод. ) Результат запиту до паралельного англоукраїнського корпусу текстів (2008, дипломна робота Палій З. ) ******************************** 4 instances of _open_ found Displaying 4 instances of OPEN in its original context ******************************** 30 He saw the girl lying half in and half out of the open door of 914. 27 Двері номера 914 були розчинені, на порозі, головою в коридор, лежала дівчина. ******************************** Комп'ютерна лінгвістика (2009) Романюк А. Б. 13
КОРПУСНА ЛІНГВІСТИКА Корпусна лінгвістика - розділ мовознавства, що займається створенням, обробкою та використанням корпусів. Укладання моно та багатомовних корпусів текстів, та розробка засобів роботи з ними; Аналіз мови з експериментальної точки зору (які слова, вирази, граматичні конструкції дійсно вживаються носіями мови, як часто і з якою метою) Комп'ютерна лінгвістика (2009) Романюк А. Б. 14
МАШИННИЙ ПЕРЕКЛАД переклад текстів (письмових та усних) з однієї природної мови на іншу за допомогою спеціальної комп‘ютерної програми; напрямок наукових досліджень, пов'язаний з побудовою подібних систем. He saw the girl lying half in and half out of the open door of 914. Er sah die Mädchen belügt die Hälfte und die Hälfte der offenen Tür 914. - Moses Demo (статистичний машинний переклад) Er sah das Mädchen Hälfte in und Hälfte aus der offenen Tür 914 lügen. – PROMT Er sah das Mädchen, das halb in und halb aus der offenen Tür von 914. - http: //translate. google. com. ua Комп'ютерна лінгвістика (2009) Романюк А. Б. 15
СИСТЕМИ ПОШУКУ ТА КЛАСИФІКАЦІЇ Сучасні пошукові системи повинні : ◦ бути адаптованими для використання користувачами, які не працюють постійно з комп’ютерною технікою або взагалі з нею не знайомі; ◦ мати засоби інтерактивного уточнення запитів, розуміння природної мови, пошуку за змістом запита, генерації відповіді на запит. Комп'ютерна лінгвістика (2009) Романюк А. Б. 16
КОМП’ЮТЕРНА ЛЕКСИКОГРАФІЯ Комп’ютерна лексикографія - розділ мовознавства, який займається теорією і практикою складання словників, які працюють в інформаційних системах, прикладних програмах а також і окремих електронних словників. Комп'ютерна лінгвістика (2009) Романюк А. Б. 17
WORDNET (DOG) Noun ……(7 значень) verb S; (verb) chase, chase after, trail, tag, give chase, dog, go after, track (go after with the intent to catch) "The policeman chased the mugger down the alley"; "the dog chased the rabbit" ◦ Hyponym ◦ Direct hypernyms pursue ◦ Indirect hypernyms pursue travel Комп'ютерна лінгвістика (2009) Романюк А. Б. 18
АВТОМАТИЧНА ОБРОБКА ТЕКСТІВ ПРИРОДНОЮ МОВОЮ Обробка природної мови (Natural Language Processing, NLP)— загальний напрямок штучного інтелекту та лінгвістики. Він вивчає проблеми комп’ютерного аналізу та синтезу природної мови. Аналіз означає розуміння мови, а синтез – генерацію розумного тексту. Розробка методів та алгоритмів морфологічного, синтаксичного та семантичного аналізу природної мови. Комп'ютерна лінгвістика (2009) Романюк А. Б. 19
TRIPS Parser (James F. Allen - 2008) Комп'ютерна лінгвістика (2009) Романюк А. Б. 20
КОМП’ЮТЕРНА ЛІНГВІСТИКА ТА ІНШІ ЛІНГВІСТИЧНІ ДИСЦИПЛІНИ Лінгвістичні дисципліни Комп'ютерна лінгвістика як складник мовознавства Фонологія та фонетика Комп'ютерна граматика Акцентологія та інтонологія Аналізатори та синтезатори усного Морфемологія та мовлення дериватологія Лексикологія та фразеологія Граматика (морфологія та синтаксис) Семасіологія Лексикографія Комп'ютерна лексикографія: комп'ютерні версії традиційних словників, автоматичні словники, словникозоріентовані бази даних та лексико графічні процесори Теорія та практика перекладу (перекладознавство) Системи машинного перекладу Комп'ютерна лінгвістика (2009) Романюк А. Б. 21
КОМП’ЮТЕРНА ЛІНГВІСТИКА ТА ІНШІ ЛІНГВІСТИЧНІ ДИСЦИПЛІНИ(продовження) лінгвістика Лінгвістичні Комп'ютерна дисципліни Лінгвістика тексту Термінологія та термінографія як складник мовознавства Системи автоматичного перероблення тексту (АПТ), або опрацювання тексту (АСОТ): автоматичний морфологічний (АМА), синтаксичний (АСА) та логіко-семантичний аналіз, автоматична компресія тексту (індексування, реферування, анотування). Текстозорієнтовані бази даних: корпуси текстів та електронні картотеки (ілюстративні корпуси, корпуси цитат), комп'ютерні словопокажчики, конкорданси, частотні словники та текстові процесори Комп'ютерні термінологічні бази даних та словники. Комп'ютерні експертні системи Комп'ютерна лінгвістика (2009) Романюк А. Б. 22
КОМП’ЮТЕРНА ЛІНГВІСТИКА ТА ІНШІ ЛІНГВІСТИЧНІ ДИСЦИПЛІНИ(продовження) Лінгвістичні дисципліни Комп'ютерна лінгвістика як складник мовознавства Історія мови Комп'ютерні моделі реконструкції (прогнозування) минулих станів мови (моделі комп'ютерної ретрогностики). Комп'ютерні версії історичних та етимологічних словників. Комп'ютерне дешифрування давніх писемностей Лінгвістична стилістика Культура мови Соціолінгвістика Етнолінгвістика Лінгвокультурологія Комп'ютерна стилеметрія, атрибуція текстів, стилістична діагностика. Системи орфографічного та орфоепічного кон тролю. Автоматичні редактори текстів. Комп'ютерні моделі мовної концептуалізації світу. Автоматичні лінгвокраїнознавчі, етнолінгвістичні та лінгвокультурологічні бази даних і словники Комп'ютерна лінгвістика (2009) Романюк А. Б. 23
КОМП’ЮТЕРНА ЛІНГВІСТИКА ТА НЕЛІНГВІСТИЧНІ ДИСЦИПЛІНИ Нелінгвістичні дисципліни Комп'ютерна лінгвістика як складник інформатики та систем штучного інтелекту Політологія Політична лінгвістика, моделі впливу й оцінки в процесах мовного спілкування, моделі мовного планування та буді вництва Соціологія, культурологія, етнологія, теорія комунікації Моделювання процесів взаємодії соціо- та лінгводинаміки, ментальних стереотипів, прототипів, етнокультурної специфіки мовної категоризації дійсності, моделі мовного спілкування за допомогою комп'ютера Біологія, фізіологія, Моделі організації пам'яті людини та психологія, розумовомовленнєвих процесів. медицина Логічні структури представлення знань Діагностика хвороб за даними порушень мовленнєвої діяльності людини Комп'ютерна лінгвістика (2009) Романюк А. Б. 24
КОМП’ЮТЕРНА ЛІНГВІСТИКА ТА НЕЛІНГВІСТИЧНІ ДИСЦИПЛІНИ (прод. ) Нелінгвістичні дисципліни Комп'ютерна лінгвістика як складник інформатики та систем штучного інтелекту Кібернетика Обчислювальна математика. Програмування Лінгвоостатистика. Квантитативна лінгвістика. Ймовірнісні моделі мови для синхро- і футурогноетики. Лінгвістичне забезпечення систем АПТ, або АСОТ (лінгві стичні алгоритми та процесори). Лінгвістичне забезпечення діалогових систем Лінгвістичні проблеми побудови штучних мов з природномовною компонентою та мов програмування високого рівня Інформатика Інформаційно-пошукові системи. Моделі мовного кодування інформації. Стратегія створення лінгвістичних баз даних та знань. Автоматичне розпізнавання та синтез мовлення Комп'ютерна лінгвістика (2009) Романюк А. Б. 25
НЕОБХІДНО ПРОЧИТАТИ Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988. – Розділ 1 Introduction ст. 1 -16. Карпіловська Є. А. Вступ до комп’ютерної лінгвістики – Донецьк, 2003. – 184 с. Розділ 1, параграфи 1, 2 ст. 7 -33. Комп'ютерна лінгвістика (2009) Романюк А. Б. 26