KL-Lec18.ppt
- Количество слайдов: 44
АВТОМАТИЧНИЙ СЕМАНТИЧНИЙ АНАЛІЗ ЛЕКСИЧНА СЕМАНТИКА ЛЕКЦІЯ № 18
ЛЕКСИЧНА СЕМАНТИКА СЛОВА - ЗНАЧЕННЯ СЛОВА СЛОВО ? ◦ ЛЕКСЕМА – СЛОВО ЯК СУКУПНІСТЬ УСІХ ЙОГО ФОРМ І ЗНАЧЕНЬ, ЯК СТРУКТУРНИЙ ЕЛЕМЕНТ МОВИ ◦ ЛЕКСЕМА – ФОРМА (ОРФОГРАФІЧНА АБО ФОНОЛОГІЧНА) ТА ЙОГО ЗНАЧЕННЯ ◦ ЛЕКСИКОН – СКІНЧЕННИЙ СПИСОК ЛЕКСЕМ ◦ ЛЕМА – ПРЕДСТАВЛЯЄ ЛЕКСЕМУ (КИЛИМИ-КИЛИМ, СПІВАВ, СПІВАЛИ, СПІВАЮТЬ - СПІВАТИ) ◦ СЛОВОФОРМА – ГРАМАТИЧНА ФОРМА ТОГО САМОГО СЛОВА, ЙОГО ГРАМАТИЧНИЙ РІЗНОВИД, ЯКИЙ ВИЯВЛЯЄ ЛЕКСИЧНУ ТОТОЖНІСТЬ З ІНШИМИ СПІВВІДНОСНИМИ СЛОВОФОРМАМИ ЦЬОГО СЛОВА І ПРОТИСТАВЛЯЄТЬСЯ ЇМ ЗА СВОЇМИ ГРАМАТИЧНИМИ ЗНАЧЕННЯМИ Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ЛЕМАТИЗАЦІЯ ПРОЦЕС ВСТАНОВЛЕННЯ ЛЕМИ СЛОВОФОРМИ РЕЗУЛЬТАТ ЛЕМАТИЗАЦІЇ МОЖЕ ЗАЛЕЖАТИ ВІД КОНТЕКСТУ (FOUND – FIND, FOUND- FOUND, КОПАЄШ- КОПАТИ, КОПАЄШ - КОПАТИ) TABLES – ІМЕННИК TABLE, ДІЄСЛОВО TABLE МИЛА – МИЛИЙ(ПРИК. ), МИТИ(ДІЄСЛ. ), МИЛО(ІМ. ) СТЕМА СЛОВА ЦЕ НЕ ЗАВЖДИ ЙОГО ЛЕМА Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
СЕНСИ (ЗНАЧЕННЯ) СЛОВА Instead, a bank can hold the investments in a custodial account in the client's name. But as agriculture burgeons on the east bank, the river will shrink even more. Bank 1 Bank 2 – ЗНАЧЕННЯ МІЖ СОБОЮ НЕ ЗВ'ЯЗАНІ – ЗВ’ЯЗОК ОМОНІМІЧНИЙ Bank 1(фінансова установа) , Bank 3(місце збереження крові) - ЗНАЧЕННЯ МІЖ СОБОЮ ЗВ'ЯЗАНІ – ЗВ’ЯЗОК ПОЛІСЕМІЧНИЙ The bank is on the corner of Nassau and Witherspoon. СПОРУДА <-> ОРГАНІЗАЦІЯ (Bank 4) - метонімія Білий Будинок, Банкова, Я довго читав Джувавського Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
СЕНСИ (ЗНАЧЕННЯ) СЛОВА СКІЛЬКИ СЕНСІВ МАЄ СЛОВО? ЧИ ПОТРІБНО ДЛЯ ПОДІБНИХ ВИПАДКІВ ВЖИВАННЯ СЛОВА ВСТАНОВЛЮВАТИ ОКРЕМІ СЕНСИ? КРИТЕРІЇ ПРЕДСТАВЛЕННЯ РІЗНИХ ВИПАДКІВ ВЖИВАННЯ СЛОВА ЧЕРЕЗ ОКРЕМІ СЕНСИ ◦ ◦ ЛОГІЧНА ТОТОЖНІСТЬ РІЗНИЙ СИНТАКСИС НЕЗАЛЕЖНІ ЗВ'ЯЗКИ МІЖ СЕНСАМИ АБО ЯКЩО ЗВ'ЯЗКИ ВКАЗУЮТЬ НА АНТАГОНІСТИЧНІ ЗНАЧЕННЯ They rarely serve red meat, preferring to prepare seafood, poultry or game birds. He served as U. S. ambassador to Norway in 1976 and 1977. He might have served his time, come out and led an upstanding life. Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ЗЕВГМА ДОЗВОЛЯЄ РОЗРІЗНИТИ СЕНСИ Зе вгма (грец. ζεύγμα, [´zeugma] — «сполучення» , «зв'язок» ) — це стилістична фігура, яка означає сполучення двох слів, які через присудок підходять один одному, аби створити комічне враження. «Наприклад: З сокирою і тихим болем шукають петера у снігу (W. Busch). » Which of those flights serve breakfast? Does Midwest Express serve Philadelphia? ? Does Midwest Express serve breakfast and Philadelphia? Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
Діаграма Венна (Ейлера) Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ЯК ВСТАНОВИТИ СЕНС? ПОГЛЯНУТИ У СЛОВНИК ДОБРИЙ ВАРІАНТ ДЛЯ ЛЮДИНИ З ОБЧИСЛЮВАЛЬНОЇ ТОЧКИ ЗОРУ ДВА ПІДХОДИ ◦ АНАЛОГІЧНО ДО СЛОВНИКОВОГО ЧЕРЕЗ ВЗАЄМОЗВ'ЯЗКИ СЕНСІВ З ІНШИМИ СЕНСАМИ ЛІВИЙ Який розташований з того боку тіла, де серце. ПРАВИЙЯкий розташований з протилежного боку тіла, де неміститься серце. ◦ РОЗРОБКА НЕВЕЛИКОГО ЗА РОЗМІРАМИ, АЛЕ СКІНЧЕННОГО НАБОРУ ПРИМІТИВІВ, АТОМАРНИХ ОДИНИЦЬ ЗНАЧЕННЯ І ОПИСАТИ КОЖЕН СЕНС НА ОСНОВІ ЦИХ ПРИМІТИВІВ Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ВЗАЄМОЗВ'ЯЗКИ МІЖ СЕНСАМИ СИНОНІМИ І АНТОНІМИ Якщо сенси двох різних слів (лем) ідентичні, або майже ідентичні то ці сенси є синонімами Слова вважаються синонімами, якщо вони взаємозамінні в реченні (істинність речення не змінюється) Вода/H 2 O (Заміна в науковому тексті і у кулінарному рецепті) Розглядаємо синонімію, як взаємозв'язок між сенсами а не між словами Miss Nelson, for instance, became a kind of big sister to Benjamin. ? Miss Nelson, for instance, became a kind of large sister to Benjamin. 4/5/2012 Комп'ютерна лінгвістика (2010) Романюк А. Б.
ВЗАЄМОЗВ'ЯЗКИ МІЖ СЕНСАМИ ГІПОНІМИ І ГІПЕРНІМИ Сенс вважається гіпонімом іншого сенсу, як він є більш визначеним – підкласом іншого Superordinate vehicle fruit furniture mammal Hyponym car mango chair dog Сенс А є гіпонімом сенсу В, якщо все що А є також і В і отже бути А означає бути і В 4/5/2012 Комп'ютерна лінгвістика (2010) Романюк А. Б.
ВЗАЄМОЗВ'ЯЗКИ МІЖ СЕНСАМИ СЕМАНТИЧНІ ПОЛЯ Семантичні поля це модель більш інтегрованого цілісного представлення взаємозв'язків між наборами слів в одному домені reservation, flight, travel, buy, price, cost, fare, rates, meal, plane Чи встановлення всіх можливих бінарних зв'язків дозволяє створити один опис, який відображає як всі ці слова між собою пов'язані? 4/5/2012 Комп'ютерна лінгвістика (2010) Романюк А. Б.
WORDNET: БАЗА ДАНИХ ЛЕКСИЧНИХ ЗВ'ЯЗКІВ Word. Net був створений і підтримується в Лабораторії Когнітивних Наук Університету Прінстон під керівництвом професора психології Джорджа Міллера. Рорзобка почалась в 1985 році. POS Noun Unique Strings Synsets Total Word. Sense Pairs 117798 82115 146312 Verb 11529 13767 25047 Adjective 21479 18156 30002 4481 3621 5580 155287 117659 206941 Adverb Totals Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
WORDNET: БАЗА ДАНИХ ЛЕКСИЧНИХ ЗВ'ЯЗКІВ POS Noun Verb Adjective Adverb Totals POS Monosemous Words and Polysemous. Words Senses Polysemous. Senses 101863 15935 44449 6277 5252 18770 16503 4976 14399 3748 733 1832 128391 26896 79450 Average Polysemy Including Monosemous Words Average Polysemy Excluding Monosemous Words Noun 1. 24 2. 79 Verb 2. 17 3. 57 Adjective 1. 40 2. 71 Adverb 1. 25 2. 50 Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
WORDNET - DOG Noun S: (n) dog, domestic dog, Canis familiaris (a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds) "the dog barked all night" S: (n) frump, dog (a dull unattractive unpleasant girl or woman) "she got a reputation as a frump"; "she's a real dog" S: (n) dog (informal term for a man) "you lucky dog" S: (n) cad, bounder, blackguard, dog, hound, heel (someone who is morally reprehensible) "you dirty dog" S: (n) frank, frankfurter, hotdog, hot dog, wiener, wienerwurst, weenie (a smooth-textured sausage of minced beef or pork usually smoked; often served on a bread roll) S: (n) pawl, detent, click, dog (a hinged catch that fits into a notch of a ratchet to move a wheel forward or prevent it from moving backward) S: (n) andiron, firedog, dog-iron (metal supports for logs in a fireplace) "the andirons were too hot to touch" Verb S: (v) chase, chase after, trail, tag, give chase, dog, go after, track (go after with the intent to catch) "The policeman chased the mugger down the alley"; "the dog chased the rabbit" Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
WORDNET - DOG Noun S: (n) dog, domestic dog, Canis familiaris (a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds) "the dog barked all night" ◦ ◦ direct hyponym / full hyponym part meronym member holonym direct hypernym / inherited hypernym / sister term Все зводиться до абстрактних синсетів а далі до ENTITY – унікального єдиного початку Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
WORDNET Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
WORDNET: БАЗА ДАНИХ ЛЕКСИЧНИХ ЗВ'ЯЗКІВ ІМЕННИКИ Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
WORDNET: БАЗА ДАНИХ ЛЕКСИЧНИХ ЗВ'ЯЗКІВ 4/5/2012 ДІЄСЛОВА Комп'ютерна лінгвістика (2010) Романюк А. Б.
УЧАСНИКИ ПОДІЇ ПРЕДСТАВЛЯЮТЬСЯ ЗА ДОПОМОГОЮ СТРУКТУР ПРЕДИКАТ-АРГУМЕНТ ЯВНИЙ ОПИС КОЖНОГО УЧАСНИКА ПОДІЇ СЕМАНТИЧНІ ОБМЕЖЕННЯ НА АРГУМЕНТИ (УЧАСНИКИ ПОДІЇ) НА ОСНОВІ: ◦ СЕМАНТИЧНИХ РОЛЕЙ (SEMANTIC ROLES) ◦ СЕЛЕКЦІЙНИХ ОБМЕЖЕНЬ (SELECTIONAL RESTRICTIONS) Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ТЕМАТИЧНІ РОЛІ – ОДНА З МОДЕЛЕЙ СЕМАНТИЧНИХ РОЛЕЙ Sasha broke the window. Pat opened the door. ПІДМЕТИ ПРЕДСТАВЛЕНІ ЧЕРЕЗ Breaker ТА Opener ПОДІЯ Breaking - Breaker ПОДІЯ Opening - Opener Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ТЕМАТИЧНІ РОЛІ Breaker Opener - вольові агенти, живі істоти, несуть пряму відповідальність за подію Тематичні ролі фіксують спільні семантичні ознаки між аргументами Breaker, Opener – AGENT Broken. Thing, Opened. Thing - THEME Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ОСНОВНІ ТЕМАТИЧНІ РОЛІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ТЕМАТИЧНІ РОЛІ (ПРИКЛАДИ) Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ЧЕРГУВАННЯ ДІАТЕЗ Обчислювальні системи використовують тематичні ролі або семантичні ролі для того щоб отримати поверхневе представлення значення, яке дозволяє здійснювати простий вивід, який не можливо зробити на основі стрічки слів або дерева розбору ДІАТЕЗА (з грец. diathesis 'розміщення'), синтаксична категорія предиката, яка відображає певну відповідність між участниками ситуації, яку позначає предикат ( «семантичними актантами» , які виконують ті чи інші семантичні ролі) і членами речення, які заповнюють валентності даного предикату, – «синтаксичними актантами» , синтаксичні ролі яких виражені морфологичними або синтаксичними засобами. Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ЧЕРГУВАННЯ ДІАТЕЗ Множину тематичних ролей аргументів, які приймає дієслово називають тематичною мережею або – мережею або case frame Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ЧЕРГУВАННЯ ДІАТЕЗ Дієслова дозволяють тематичним ролям реалізовуватися різними (на різних) синтаксичними позиціями Чергування діатез це можливість різних реалізацій структури аргументів (Levin, 1993) Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ПРОБЛЕМИ ТЕМАТИЧНИХ РОЛЕЙ ◦ Як визначити стандартний набір тематичних ролей? ◦ Як дати чітке визначенні тій чи іншій ролі? ◦ Введення (поділ ролей на) більш специфічних ролей ◦ INSTRUMENT(intermediary, enabling) ◦ Введення узагальнених семантичних ролей PROTOAGENT, PROTO-PATIENT ◦ Введення специфічних семантичних ролей для дієслів Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
PROPOSITION BANK (Prop. Bank) Речення промарковані семантичними ролями Семантичні ролі визначені в залежності від сенсу дієслова (Arg 0 –PROTO-AGENT, Arg 1 –PROTOPATIENT) Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
PROPOSITION BANK (Prop. Bank) Arg 0 відсутній, оскільки, суб'єктом дієслова fall переважно є PROTO-PATIENT Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
PROPOSITION BANK (Prop. Bank) Семантичні ролі дозволяють отримати поверхневу семантичну інформацію про аргументи дієслова Встановити загальну структуру події не зважаючи на поверхневу форму (синтаксичну структуру речення) Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
Frame. Net Потрібно щоб система розпізнавала що “ціна бананів” це те що підвищилось а “ 5%” це те на скільки підвищилось, незалежно від того чи це прямий додаток дієслова increase або модифікатор іменника rise Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
Frame. Net Frame. Net – проект маркування семантичних ролей Ролі визначаються для окремих фреймів Фрейм це структура, яка складається з елементів фрейму FE (семантичних ролей) і слів LU, які визначають певний аспект фрейму і його елементів change_position_on_a_scale This frame consists of words that indicate the change of an Item's position on a scale (the Attribute) from a starting point (Initial_value) to an end point (Final_value). Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
Frame. Net Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
Frame. Net Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
СЕЛЕКЦІЙНЕ ОБМЕЖЕННЯ (SELECTIONAL RESTRICTIONS) Селекційне обмеження це вид обмеження семантичного типу, які накладає на вид концептів, яким дозволяється заповнити його аргументи I want to eat someplace that's close to ICSI. Eat- неперехідне Eat – перехідне (I want to eat Malaysian food) THEME події EATING має бути їстівним і це буде селекційним обмеженням яке накладає eat. Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
СЕЛЕКЦІЙНЕ ОБМЕЖЕННЯ Селекційні обмеження стосуються сенсів а не лексем Well, there was the time they served green-lipped mussels from New Zealand. Which airlines serve Denver? Селекційні обмеження доволі специфічні In rehearsal, I often ask the musicians to imagine a tennis game (жорсткі обмеження для AGENT а THEME довільні) To diagonalize a matrix is to find its eigenvalues (обмеження на THEME) Radon is an odorless gas that can't be detected by human senses. (річ яка може мати запах) Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ПРЕДСТАВЛЕННЯ СЕЛЕКЦІЙНИХ ОБМЕЖЕНЬ Розширене представлення подій Для врахування їстівності Y Ate a hamburger Проблеми: ◦ Використання логіки першого порядку для такої простої задачі – дуже дорога операція, потрібно щось простіше ◦ Потрібна велика база знань про концепти які будуть обмеженнями Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
Word. Net - СЕЛЕКЦІЙНІ ОБМЕЖЕННЯ Для кожного предикату визначаються синсети, як селекційні обмеження для кожного з його аргументів Представлення значення правильне, якщо слово заповнювач є гіпонімом цього синсету. Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ДЕКОМПОЗИЦІЯ ПРИМІТИВІВ Jim killed his philodendron. Jim did something to cause his philodendron to become not alive. Значення цих речень можна представити використовуючи семантичні примітиви: do, cause, become, not, alive Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ДЕКОМПОЗИЦІЯ ПРИМІТИВІВ Однаковий набір примітивів можна використати для представлення чергувань діатез Дієслова також підлягають декомпозиції Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ДЕКОМПОЗИЦІЯ ПРИМІТИВІВ КОНЦЕПТУАЛЬНІ ЗАЛЕЖНОСТІ Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
ДЕКОМПОЗИЦІЯ ПРИМІТИВІВ КОНЦЕПТУАЛЬНІ ЗАЛЕЖНОСТІ Дієслово brought представляється через два примітиви ATRANS та PTRANS Практичне використання примітивів стримується пошуком відповіді на наступні питання: Чи описує множина примітивів всі можливі види значення? Як отримати повну множину примітивів? Як перевірити чи справджуються зроблені припущення? Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
СЕМАНТИЧНІ ПРИМІТИВИ ВЕРЖБІЦЬКОЇ Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012
НЕОБХІДНО ПРОЧИТАТИ Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988. – Розділ, 19 ст. 611 - 635. Комп'ютерна лінгвістика (2010) Романюк А. Б. 4/5/2012


