58d72717754396979c31c0e715dc9e00.ppt
- Количество слайдов: 28
Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1. 1. Модели и методы представления и организации знаний — лекции 1 -2. 1. 2. Количественная спецификация ЕЯ систем — лекции 3 -4, 8. 1. 3. Логико статистические методы извлечения знаний — лекция 5 -7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1. 4. Технология автоматизированного построения словаря тезауруса. 1. 5. Пример исследования ЕЯ ресурса.
Лекция 7. ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА § Парадигматическая модель ЕЯ описания ПОРМ § Производные парадигматические конструктивы
Литература Материал лекции представлен в книге: Ю. Н. Филиппович, А. В. Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика» . Вступ. Статья А. И. Новикова. М. : МГУП, 2002. — книга в комплекте с CD ROM — С. 64– 73.
ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ЕЯ ОПИСАНИЯ ПОРМ ЕЯО ПОРМ СТО ПОРМ СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ СТО ПОРМ ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА представление его в виде множества основных парадигматических конструктивов, или интерпретированных синтагматических конструктивов, полученных путем преобразования текста на основе его формально-языкового теоретико-множественного описания:
СТРУКТУРА ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА ЧАСТИ ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА Синтагматическая Парадигматическая — — формально языковое описание. естественно языковое описание, формально языковое описание, словарно тезаурусное описание. парадигматическая модель — множество синтагматических моделей текста и его интерпретаций
Литература Ю. Н. Филиппович Интеграция предмета, образа и субъекта в концептуальном проектировании информационных технологий и систем // Интеллектуальные технологии и системы. Сборник статей аспирантов, стажеров и студентов. Вып. 1. – М. : Изд во МГТУ им Н. Э. Баумана, 1998. С. 9– 33. Ю. Н. Филиппович Семиотическая концепция интеграции информационных технологий // Sсriрtа linguistiсае аррliсаtае. Проблемы прикладной линг вистики – 2001. Сб. ст. / Отв. ред. А. И. Новиков. – М. : «Азбуковник» , 2001. С. 319– 342.
ПАРАДИГМАТИЧЕСКИЕ КОНСТРУКТИВЫ ПАРАДИГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА — комплекс основных и производных парадигматических конструктивов. Основные парадигматические конструктивы: § словарные статьи, § парадигматические отношения. Производные парадигматические конструктивы: § частичные словники (ограниченные неформальным признаком), § словоуказатели (предметные, именные, и т. п. ), § конкордансы, § словари, § ареалы, § тезаурусы и др.
ПРЕДМЕТНЫЙ (ТЕРМИНОЛОГИЧЕСКИЙ) УКАЗАТЕЛЬ В предметный (терминологический) указатель могут быть включены основные термины и понятия ПОРМ, выраженные словами, словосочетаниями (2 -х и 3 -х словными). Отдельно могут быть представлены аббревиатуры. Предметный указатель получается путем интерпретации указателя слов, , образованного на основе формально языкового преобразования текста. Интерпретация состоит в выделении в нем «слов-предметов» . где: , — указатель слов, — выбор слов, обозначающих предметы реального мира.
ИМЕННОЙ УКАЗАТЕЛЬ В именной указатель могут быть включены все имена собственные, в т. ч. и представленные словосочетаниями. Отдельно могут быть представлены различные их типы: аббревиатуры, персоналии, организации, топонимы и др. Именной указатель получается путем интерпретации указателя слов, образованного на основе формально языкового преобразования текста. Интерпретация состоит в выделении в нем «слов-имен» . где: — указатель слов, — выбор слов, являющихся именами.
ГРАММАТИЧЕСКИЙ СЛОВАРЬ Грамматический словарь ЕЯ описания ПОРМ может включать: существительные, прилагательные, глаголы, наречия, числительные, предлоги, междометия, союзы, частицы и местоимения. Структура словарной статьи грамматического словаря <ЛЕММА> <МИ> {S} [S] <СЛОВОФОРМА 1> <МИ 1> [i 1] <СЛОВОФОРМА 2> <МИ 2> [i 2]. . . <СЛОВОФОРМАk> <МИk> [ik] ЛЕММА — слово в основной форме; МИ — морфологическая информация о слове; МИj — подробная грамматическая информация; s — количество словоформ в тексте; S — общее количество словоформ в тексте; ij — частота j ой словоформы. Интерпретация состоит в лемматизации путем формального морфологического анализа с последующим разрешением проблем омонимии субъектом.
Литература Г. О. Сидоров. Лемматизация в автоматизированной системе построения словарей языка писателей // Слово Достоевского. Сб. ст. / Под ред. Ю. Н. Караулова. – М. : Инт. Русск. яз. РАН, 1996. С. 266– 300.
СЛОВАРЬ СЛОВОСОЧЕТАНИЙ Структура словарной статьи словаря словосочетаний <ЛЕММА> (СЛОВОСОЧЕТАНИЕ 1), (СЛОВОСОЧЕТАНИЕ 2), . . (СЛОВОСОЧЕТАНИЕk). Здесь: ЛЕММА — слово в основной форме из грамматического словаря; СЛОВОСОЧЕТАНИЕ — двух , трехсловное словосочетание из предметного указателя, являющееся термином или основным понятием ЕЯ описания ПО. Интерпретация состоит в выборе устойчивых словосочетаний.
КОНКОРДАНС (СЛОВАРЬ КОНТЕКСТОВ) Структура словарной статьи конкорданса (словаря контекстов) <ЛЕММА/ СЛОВОСОЧЕТАНИЕ> <КОНТЕКСТ> <АДРЕС>. Здесь: КОНТЕКСТ — ближайшее “окружение” словоформы или словосочетания, размер которого может быть выбран произвольно, однако в большинстве случаев его следует ограничить предложением (количество контекстов для одной леммы должно быть от трех до пяти, а для словосочетания достаточно одного – двух); АДРЕС — указание на источник контекста. Интерпретация состоит в выборе контекстов, их величины и количества.
СЛОВАРЬ ОПРЕДЕЛЕНИЙ (1) Словарь определений может включать описание основных понятий ПОРМ, взятых из предметного указателя. Словарная статья может включать следующие сведения: • заголовочное слово (понятие из предметного указателя), • варианты определений (толкований) из других словарей определений, • устойчивые словосочетания (из словаря словосочетаний) • эксцерпции (примеры контекстов из текстов ЕЯ описания ПО) • указания источников контекстов из конкорданса • и др. Интерпретация состоит в определении состава и структуры словарной статьи
СЛОВАРЬ ОПРЕДЕЛЕНИЙ (2) СЛОВАРЬ РУССКОГО ЯЗЫКА XI–XVII ВВ. ИСКУССТВО, с. 1. Умение, знание, искусство. Како не зримъ прилежно мысленнымъ своимъ окомъ древняго дракона, врага нашего бодрого, и никогда же спящаго, и множаишими л#ты искуство злобы имущаго. Курб. Пис. , 387. XVII в. XVI в. 4 ч<еловека> бомбардировъ, немец кой породы, которые бы им#ли въ своей наук# и въ воинскихъ д#л#хъ доброе и свид#телствованное искуство. ДАИ XII, 383. 1695 г. 2. Опыт; способ к узнаванию чего-л. , эксперимент. Искусством бо сие разум#хомъ. М. Гр. I, 300. XVI—XVII вв. XVI в. Т#мъ искусствомъ опознаваемъ. 1. Травник Любч. , 407. XVII в. 1534 г.
СЛОВАРЬ ОПРЕДЕЛЕНИЙ (3) Структура словарной статьи Словаря русского языка XI-XVII вв.
ТЕЗАУРУС (1) Парадигматический конструктив тезаурус может быть представлен как тройка формальных объектов: или {<синтагма XI ><отношение R ><синтагма XJ >}. Такое представление парадигматического конструктива позволяет рассматривать его как элемент формального языка RX-кодов: X-термины; R-релатемы
ТЕЗАУРУС (2) Примерами парадигматических отношений являются формальные модели оценки «силы связи» между языковыми элементами — коэффициенты . В частности можно представить конструктив парадигматического отношения в следующем виде: , где является соответствующей интерпретацией R коэффициента. Парадигматическое отношение является элементом графа одной из формальных моделей представления знаний, (сетевых, фреймовых и т. п. ).
ТЕЗАУРУС (3) Описание тезауруса в виде простой семантической сети
ТЕЗАУРУС (4) Задача построения функции R(ui, uj) на основе корпуса текстов T = C 1(T)+. . . +Cq(T), где Сi(T) Cj(T)= , i, j (i j) [1, q] Введем характеристики: |T| – число слов в тексте T, |Сi(T)| – число слов в i ом контексте текста T. При условии, что Сi(T) Cj(T)= , i, j (i j) [1, q], имеем , где q – гранулярность разбиения, т. е. число непересекающихся контекстов, на которые разбивается текст T. Будем считать, что |Ci(T)|=|Cj(T)|, для i, j [1, q], тогда |T| = q|C(T)|, где С(T) некоторый контекст из выбранных.
ТЕЗАУРУС (5) Поскольку С(T) тоже является текстом, то для него можно определить частотную функцию N(w, C(T)), значение которой равно числу слов w в контексте С(T). Такая частотная функция вводится на всех контекстах N(w, C 1(T)), N(w, C 2(T)), . . . , N(w, Cq(T)). Будем рассматривать два слова w 1 и w 2, принадлежащие тексту T. Для них можно записать два ряда: N(w 1, C 1(T)), N(w 1, C 2(T)), . . . , N(w 1, Cq(T)) N(w 2, C 1(T)), N(w 2, C 2(T)), . . . , N(w 2, Cq(T)) Обозначим: N(w 1, C(T)) – число слов w 1 в некотором контексте из числа выбранных; N(w 2, C(T)) – число слов w 2 в некотором контексте из числа выбранных;
ТЕЗАУРУС (6) Определим функцию n(х, у) числа контекстов, в которых слово w 1 имело частоту х, а слово w 2 – частоту у. n(х, у) = n(N(w 1, C(T)), N(w 2, C(T))) N(w 1, C(T))=1 N(w 1, C(T))=2 . . . N(w 1, C(T))=R N(w 2, C(T))=1 n(1, 1) n(1, 2) n(1, R) N(w 2, C(T))=2 n(2, 1) n(2, 2) n(2, R) N(w 2, C(T))=3 n(3, 1) n(3, 2) n(3, R) n(R, 1) n(R, 2) nу n(R, R) . . . N(w 2, C(T))=R nх ух R = |С(T)| – размер контекста, nх – суммы по столбцам, nу – суммы по строкам, – средние значения по столбцам =
ТЕЗАУРУС (7) Для построения семантической сети требуется построение корреляционной матрицы для имеющихся в T пар слов
Литература А. В. Прохоров. Методы исследования естественноязыкового описания предметной области «Информатика и вычислительная техника» // Интеллектуальные технологии и системы. Сб. ст. аспирантов, стажеров и студентов. Вып. 1. – М. : Изд во МГТУ им. Н. Э. Баумана, 1998.
АРЕАЛ (1) Парадигматический конструктив ареал — часть тезауруса, выделенная по значению селективного критерия, например коэффициента «силы связи» . Построения парадигматических ареалов — задача кластерного анализа. В случае представления тезауруса в виде простой семантической сети задача сводится к нахождению подграфа с заданными свойствами вершин (лемм) или дуг (коэффициентов «силы связи» ).
АРЕАЛ (2) Тезаурус — неполносвязанный ориентированный граф L = (U, V) : U = { u 1, u 2, . . . , u. N }, , V U 2 , V = {
АРЕАЛ (3) Тезаурус в виде простой семантической сети L = (U, V) Удаление ребер
ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ 1. 2. 3. 4. 5. 6. Что такое парадигматическая модель текста? Какую структуру имеет парадигматический конструктив? Какую структуру имеют парадигматические конструктивы: предметный и именной указатели, словарь? Какую структуру имеют парадигматические конструктивы словарей: грамматического, словосочетаний, текстов, определений? Какую структуру имеет парадигматический конструктив тезаурус? Какую структуру имеет парадигматический конструктив ареал?


