
KL-Lec2.ppt
- Количество слайдов: 17
МОДЕЛЮВАННЯ ЛІНГВІСТИЧНИХ ОБ’ЄКТІВ ЛЕКЦІЯ № 2
Комп'ютерна лінгвістика (2009) Романюк А. Б. 2
ЛІНГВІСТИЧНА МОДЕЛЬ • Модель (від лат. modulus зменш. від modus “міра, спосіб”) – конструкція, зразок будови певного об’єкта або ділянки дійсності, у лінгвістиці – зразок будови одиниць мови або процесів, що відбуваються за їхньою участю. Комп'ютерна лінгвістика (2009) Романюк А. Б. 3
ТИПИ МОДЕЛЕЙ ОПИСУ МОВНОЇ ДІЯЛЬНОСТІ МОДЕЛЬ ОПИСОВОГО (ПОЯСНЮЮЧОГО) ТИПУ МОДЕЛЬ ВІДТВОРЮЮЧОГО ТИПУ • Несуперечливо пояснює дію мови взагалі, незалежно від того, як саме мова моделюється в цілому або в окремій її частині; • Не породжує мовного продукту, близького до того який створила б людина. • породжує мовний продукт, близький до того, який створила б людина. • Результат застосування моделі можна зіставити чи порівняти з наслідками людської мовної діяльності. Комп'ютерна лінгвістика (2009) Романюк А. Б. 4
ТИПИ ЗНАНЬ ДЛЯ ПОБУДОВМ ЛІНГВІСТИЧНИХ МОДЕЛЕЙ ДЕКЛАРАТИВНІ (СТАТИЧНІ) ПРОЦЕДУРНІ (ДИНАМІЧНІ) • Знання про те, як побудовані мовні одиниці, що вони становлять • Знання про те, як мовні одиниці функціонують, вживаються, “поводять себе” Морфемна будова сучасного українського слова • Відомості про типи і класи морфем у складі слів окремих частин мови, загальну кількість морфем у слові, їхній розподіл у слові за позиціями Комп'ютерна лінгвістика (2009) Романюк А. Б. • Відомості про вживання слів з тими чи іншими морфемами в різних типах текстів, їхній розподіл за частинами мови, за функціональними стилями мови. 5
НЕОБХІДНІ ЗНАННЯ ФОНЕТИКА ТА ФОНОЛОГІЯ ЗНАННЯ ПРО ЛІНГВІСТИЧНІ ЗВУКИ МОРФОЛОГІЯ СИНТАКС ЗНАЧУЩІ СКЛАДОВІ СЛОВА СТРУКТУРНІ ВЗАЄМОЗВ’ЯЗКИ МІЖ СЛОВАМИ СЕМАНТИКА ПРАГМАТИКА ЗНАЧЕННЯ ВЗАЄМОЗВ’ЯЗКИ ЗНАЧЕННЯ З МЕТОЮ І НАМІРАМИ МОВЦЯ ЛІНГВІСТИЧНІ МОДУЛІ БІЛЬШІ НІЖ ОДНЕ ВИСЛОВЛЮВАННЯ ДИСКУРС Комп'ютерна лінгвістика (2009) Романюк А. Б. 6
ЕТАПИ СТВОРЕННЯ ЛІНГВІСТИЧНОЇ МОДЕЛІ • Виділення формальних ознак, визначальних для окремого типу інформації про модельований об’єкт; • Встановлення функціонального навантаження формальних ознак в об’єкті, відношень між ними; • З’ясування схем взаємодії або взаємовиключення формальних ознак, їхнього комбінування; • Вироблення правил дії побудованої моделі для одержання нової інформації про будову об’єкта або його властивості. Комп'ютерна лінгвістика (2009) Романюк А. Б. 7
ВИМОГИ ДО ПОБУДОВИ ЛІНГВІСТИЧНОЇ МОДЕЛІ • Модель повинна: – Бути спрощеним аналогом, але не копією оригіналу; – Не бути складнішою за оригінал. Водночас застосування моделі дозволяє одержати потрібну інформацію про оригінал швидше за інші прийоми його дослідження; – Побудова моделі має бути вільною від суперечностей (логічно коректною), вичерпною і гранично простою. Між цими трьома критеріями існує пріоритетна залежність: коректність – вичерпність – простота. При рівності показників перевага надається моделі, яка швидше діє; Комп'ютерна лінгвістика (2009) Романюк А. Б. 8
ВИМОГИ ДО ПОБУДОВИ ЛІНГВІСТИЧНОЇ МОДЕЛІ(продовження) – Модель повинна мати універсальний характер, що дає змогу застосовувати її не до якогось конкретного об’єкта, а до певного класу натурних об’єктів; – Модель повинна мати пояснювальну силу, тобто здатність передбачувати, виявляти й пояснювати ще не реалізовані властивості оригіналу; – Модель мусить мати і евристичні (пошукові) властивості, тобто генерувати нові знання про оригінал. Комп'ютерна лінгвістика (2009) Романюк А. Б. 9
КЛАСИФІКАЦІЯ ПРИГОЛОСНИХ ЗВУКІВ УКРАЇНСЬКОЇ МОВИ Комп'ютерна лінгвістика (2009) Романюк А. Б. 10
ТИПИ ЛІНГВІСТИЧНИХ МОДЕЛЕЙ Об’єкт моделювання Тип моделі Структурні властивості оригінала, його будова Статична, структурна, класифікаторна, таксономічна Функціонування оригінала Динамічна, функціональна, процесуальна Система мови Мовна Мовленнєва діяльність Мовленнєва Аналіз оригінала Індуктивна (=аналітична) Синтез оригінала Дедуктивна (=синтетична, породжувальна, генерувальна) Нове знання про оригінал Гіпотетична (=евристична, пошукова) Нові об’єкти із заданими властивостями Відтворювальна (=конструювальна, імітаційна) Комп'ютерна лінгвістика (2009) Романюк А. Б. 11
ТИПИ МОДЕЛЕЙ ЗА СПОСОБОМ ПОБУДОВИ ІНДУКТИВНІ • Від аналізу конкретного мовного матеріалу до формування певної гіпотези про закономірності його організації та функціонування Комп'ютерна лінгвістика (2009) Романюк А. Б. ДЕДУКТИВНІ • Перевірка вірогідності заданої гіпотези на реальному мовному матеріалі 12
СТРУКТУРА РІВНІВ АБСТРАКЦІЇ В КОМП’ЮТЕРНІЙ ЛІНГВІСТИЦІ РІВЕНЬ КОМЕНТАР Реалізація граматики Конкретні правила і словник мови Лінгвістична теорія “Зміст<->Текст”, HPSG (Head-Driven Phrase Structure Grammar), RRG (Role and Reference Grammar) , FDG (Functional Discourse Grammar) Лінгвістична модель Певні моделі та рівні в лінгвістичних теоріях Граматичний формалізм Математичний аппарат (формальні граматики, скінченні автомати, ймовірнісні моделі, логіка. . . ) Алгоритми Пошук, динамічне програмування, машинне навчання…. . Обчислювальний формалізм Реалізація на С, Lisp, Perl, Python … Комп’ютерна реалізація Реалізація віртуальної машини, уніфікації, рекурсії і т. п. Комп'ютерна лінгвістика (2009) Романюк А. Б. 13
КРИТЕРІЇ ВИБОРУ ФОРМАЛІЗМУ ДЛЯ ОПИСУ ЛІНГВІСТИЧНИХ ЯВИЩ • Лінгвістична природність (зручність відображення явищ природної мови та можливість достатньо загальним чином описувати явища, що відносяться до багатьох мов) • Формальна потужність (визначається формальними граматиками ) • Обчислювальна ефективність (швидкодія ) Комп'ютерна лінгвістика (2009) Романюк А. Б. 14
ЗАГАЛЬНА СХЕМА ОБРОБКИ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ Комп'ютерна лінгвістика (2009) Романюк А. Б. 15
СИСТЕМА АВТОМАТИЧНОГО ОПРАЦЮВАННЯ ТЕКСТУ (АСОТ) • АСОТ – лінгвістична інтелектуальна система призначена для аналізу тексту на морфологічному, синтаксичному, семантичному рівнях та ідентифікації складників тексту в термінах відповідних модулів комп’ютерної граматики. Комп'ютерна лінгвістика (2009) Романюк А. Б. 16
СТРАТЕГІЇ СТВОРЕННЯ СИСТЕМ АСОТ СЛОВНИКОВИЙ • Передбачає створення допоміжних баз даних: словників, зведень для виконання розроблених алгоритмів НЕЗАЛЕЖНИЙ (БЕЗСЛОВНИКОВИЙ) • Передбачає представлення всіх потрібних відомостей про мовні одиниці у вигляді алгоритмічних правил. • Відмова від допоміжних баз даних сприяє ускладненню структури лінгвістичних алгоритмів, а спрощення алгоритмів спричиняє незручності при роботі з громіздкими, розгалуженими допоміжними базами даних. Комп'ютерна лінгвістика (2009) Романюк А. Б. 17
KL-Lec2.ppt