Скачать презентацию Компьютерная лингвистика Тема 7  Содержание • Истоки Скачать презентацию Компьютерная лингвистика Тема 7 Содержание • Истоки

Компьютерная лингвистика7.ppt

  • Количество слайдов: 28

Компьютерная лингвистика Тема 7 Компьютерная лингвистика Тема 7

Содержание • Истоки компьютерной лингвистики. КЛ как прикладная лингвистическая дисциплина. • Задачи компьютерной лингвистики. Содержание • Истоки компьютерной лингвистики. КЛ как прикладная лингвистическая дисциплина. • Задачи компьютерной лингвистики. Моделирование в КЛ. • Понятие электронного текста и работа с ним. Гипертекстовые технологии представления текста. • Автоматизированный анализ: распознавание и синтез устной и письменной речи, морфологический анализ, проблемы семантического анализа, синтаксический анализ, реферирование и аннотирование текста. • Когнитивный инструментарий компьютерной лингвистики.

Связь компьютерной лингвистики с информатикой. КЛ как прикладная лингвистическая дисциплина. Информатика - наука и Связь компьютерной лингвистики с информатикой. КЛ как прикладная лингвистическая дисциплина. Информатика - наука и практическая деятельность, связанная с записью, хранением и переработкой информации, а также занимающаяся изучением и построением информационной модели мира. Язык человека – знаковая система, участвующая в создании, хранении и передаче информации. Языковая система изучается теорией информатики, связанной с теорией языка. Лингвистические проблемы информатики, таким образом, начинаются там, где начинается сама информатика. Эти проблемы сконцентрированы в области взаимодействия человека и машины. Основная цель — моделирование языка/моделирование коммуникации.

Связь компьютерной лингвистики с информатикой. КЛ как прикладная лингвистическая дисциплина. Компьютерная лингвистика – направление Связь компьютерной лингвистики с информатикой. КЛ как прикладная лингвистическая дисциплина. Компьютерная лингвистика – направление лингвистики, изучающее лингвистические основы информатики и все аспекты связи языка, мышления как непосредственной действительности мысли и моделирования этой действительности с помощью компьютерных программ. Исследует языковые единицы, меньшие, чем слово, равные слову, словосочетаний, предложения (высказывания), текст в целом, проблемы моделирования языковых операций, подобных извлечению смысла из текста или перевода текстов с одного языка на другой. Под термином «компьютерная лингвистика» (computational linguistics) обычно понимается широкая область использования компьютерных инструментов — программ, компьютерных технологий организации и обработки данных — для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях, а также сфера применения компьютерных моделей языка не только в лингвистике, но и в смежных с ней дисциплинах.

Связи КЛ и других научных дисциплин Междисциплинарная область: обработка естественного языка Автоматическая обработка тестов Связи КЛ и других научных дисциплин Междисциплинарная область: обработка естественного языка Автоматическая обработка тестов на ЕЯ Машинная /Инженерная лингвистика Вычислительная/ Компьютерная лингвистика Смежные области исследований Лингвистика Фонология (звуки речи) Морфология (структура и форма слов ЕЯ) Синтаксис (структура и функции предложений) Семантика и прагматика (смысл и значение высказываний) Лексикография (описание лексикона ЕЯ) Психолингвистика Математика

Связь компьютерной лингвистики с информатикой. КЛ как прикладная лингвистическая дисциплина. Компьютерное моделирование языка может Связь компьютерной лингвистики с информатикой. КЛ как прикладная лингвистическая дисциплина. Компьютерное моделирование языка может рассматриваться и как сфера приложения теории программирования (computer science) в области лингвистики. Однако сфера компьютерной лингвистики охватывает практически все, что связано с использованием компьютеров в языкознании: КЛ оформилась в 60 -е гг. и стала активно развиваться.

КЛ и ИИ Математика Математическая лингвистика Порождающие (формальные) грамматики - Н. Хомский Квантитативная лингвистика КЛ и ИИ Математика Математическая лингвистика Порождающие (формальные) грамматики - Н. Хомский Квантитативная лингвистика Искусственный интеллект (ИИ) Задача – компьютерные модели интеллектуальных функций Часть Computer Science, пересечение (по задачам и методам) с КЛ Первая известная работающая программа ИИ по обработке ЕЯ – система Т. Винограда (70 -е годы); Пример диалога с системой: Pick up a big red block. (человек) OK Is there a large block behind a pyramid? Yes, Three of them. Grasp the pyramid.

Когнитивный инструментарий компьютерной лингвистики Когнитивная лингвистика направлена на проблемы, связанные изучением и использованием в Когнитивный инструментарий компьютерной лингвистики Когнитивная лингвистика направлена на проблемы, связанные изучением и использованием в целях компьютерной (прикладной, вычислительной) лингвистики языковых единиц, больших, чем морфема, словосочетание. Речь пойдет о предложении, высказывании, синтагме, тексте и пр. , то есть о лингвистических единицах, выражающих то, что можно определить как некоторую законченную мысль. Частично вопрос о содержании высказывания рассматривается в синтаксическом и семантическом анализе. Однако незначительные результаты в формализации синтаксического и семантического анализа в прикладных целях объясняются тем, что эти уровни тесно связаны с мышлением человека. Соотношение языка мысли, интеллект, моделирование интеллекта и создание систем «искусственного интеллекта» .

Когнитивный инструментарий компьютерной лингвистики Концепция модели (картины) мира: стереотипы концептуальные и языковые, метафорические системы Когнитивный инструментарий компьютерной лингвистики Концепция модели (картины) мира: стереотипы концептуальные и языковые, метафорические системы языков. По степени, глубине, силе абстракции и обобщения необходимо различать, различные уровни познания: 1) чувственное восприятие 2) аналитическое осмысление Две ступени познания соотносятся с двумя видами мышления: 1. Сенсомоторный интеллект – оперирование наглядно-чувственными образами. 2. Логическое мышление реализуется в логических формах понятий, суждений, умозаключений, обязательно выраженных в формах естественного языка. Логическое мышление также может быть выражено и вне форм языка, это происходит тогда, когда мы думаем, рассуждаем про себя, вспоминаем о чем-нибудь, не прибегая к формам языка. Именно безъязыковое (авербальное) мышление и является, в сущности, типичной формой человеческого мышления.

Моделирование в КЛ Модель языка – описание свойств обрабатываемого текста. Особенности моделей КЛ: Формальность Моделирование в КЛ Модель языка – описание свойств обрабатываемого текста. Особенности моделей КЛ: Формальность и алгоритмизируемость; Функциональность: цель – воспроизведение функций языка как «черного ящика» , а не моделирование языковой деятельности человека; Общность модели, т. е. покрытие ею довольно большого множества текстов; Экспериментальная обоснованность, предполагающая тестирование модели Опора на те или иные словари как обязательную составляющую модели.

Виды моделей В зависимости от учета уровней ЕЯ: Структурные (несколько уровней) Редуцированные - Статистическая Виды моделей В зависимости от учета уровней ЕЯ: Структурные (несколько уровней) Редуцированные - Статистическая модель : - статистика символов/букв, их биграмм и триграмм (уровень символов) - или слов, их биграмм и триграмм Структурно-статистические На разных уровнях ЕЯ: Модели морфологии (анализ: лемма или основа с морфологическими характеристиками исходной словоформы) Модели синтаксиса, анализ: синтаксическое дерево: - деревья непосредственно составляющих (валентности слов, например: передать - кто? кому? что? – subcategorization frame) - деревья зависимостей (валентности – модели управления слов) Модели семантики представление смысла (свойства, отношения, состояния, действия) – на основе моделей ИИ: формулы исчисления предикатов или семантические сети

Гипертекст особый способ представления, организации текста, новый вид текста, противопоставленный по многим свойствам обычному Гипертекст особый способ представления, организации текста, новый вид текста, противопоставленный по многим свойствам обычному тексту, сформированному в гутенберговской тради ции книгопечатания. новый способ, инструмент и новая технология понимания текста. Ванневар Буш проект технической системы «Мемекс» : связывала тексты и их фрагменты по различным типам связей, преимущественно по ассоциативным отношениям. Механическая система; не реализовалась. Затем — компьютерная система «Ксанаду» Т. Нельсона. Позволяла пользователю прочитывать совокупность введенных в систему текстов различными способами, в различной последовательности. ПО давало возможность как запоминать последовательность просмотренных текстов, так и выбирать из них практически любой в произвольный момент времени. Множество текстов со связывающими их отношениями (системой переходов) было названо Т. Нельсоном гипертекстом.

Отличия гипертекста от текста конечность, законченность традиционного текста бесконечность, незаконченность, открытость гипертекста; vs. линейность Отличия гипертекста от текста конечность, законченность традиционного текста бесконечность, незаконченность, открытость гипертекста; vs. линейность текста vs. нелинейность гипертекста; точное авторство текста vs. отсутствие авторства (в традиционном понимании) у гипертекста; снятие противопоставления между автором и читателем; субъективность, односторонность обычного объективность, многосторонность гипертекста; текста vs. однородность обычного текста vs. неоднородность гипертекста.

Компоненты гипертекста Гипертекст — это граф (т. е. совокупность узлов и связей между ними). Компоненты гипертекста Гипертекст — это граф (т. е. совокупность узлов и связей между ними). В узлах — тексты, изображения, таблицы, видеоролики и т. д. Навигация по гипертексту идёт по его связям. Цепочка узлов, через которые проходит читатель при просмотре компонентов текста, образует путь или маршрут. Медленное чтение пред полагает нимательное знакомство с информацией в каждого узла. Часто медленное чтение сопровождается заметками, которые читатель может привязывать к узлам гипертекста. Быстрое чтение — браузинг — наиболее часто используется в информационных системах, основанных на гипер текстовой технологии. При поиске конкретной информации пользователь быстро передвигается по узлам сети, маркируя нужные фрагменты. Для браузинга создается специальная программная поддержка.

Типология гипертекста По структуре: Иерархический / сетевой Иерархическое — древовидное — строение гипертекста существенно Типология гипертекста По структуре: Иерархический / сетевой Иерархическое — древовидное — строение гипертекста существенно ограничивает возможности перехода между его компонен тами. Отношения между компонентами напоминают структуру тезауруса, основанного на родо видовых связях. Не реализованы все возможности технологии гипертекста => не пользуется попу лярностью у разработчиков. Сетевой гипертекст позволяет использовать различ ные ипы отношений между т компонентами, не ограничиваясь отноше ниями «род—вид» .

Типология гипертекста По возможности программного обеспечения. Простые / сложные Простое ПО гипертекста электронное оглавление Типология гипертекста По возможности программного обеспечения. Простые / сложные Простое ПО гипертекста электронное оглавление документа, система, которая дает возможность просматривать отсылки к литературе, содержащиеся в тексте, не обращаясь непосредственно к списку литературы. Сложные гипертексты обладают богатой системой переходов между компонентами гипертекста, в них отсутствует представление о базовом тексте, с кото рым связаны второстепенные по значимости тексты. В некотором смысле нормальный, обычный гипертекст и является сложным гипертекстом.

Типология гипертекста По способу существования: статические / динамические Статический гипертекст не меняется в процессе Типология гипертекста По способу существования: статические / динамические Статический гипертекст не меняется в процессе эксплуатации; в нем пользователь может фиксировать свои коммента рии, однако они не меняют существо дела. Для динамического гипер текста изменение является нормальной формой существования. Обычно динамические гипертексты функционируют там, где необходимо посто янно анализировать поток информации, то есть в информационных службах различного рода. Отношения между элементами гипертекста могут изначально фикси роваться оздателями, а могут порождаться всякий раз, когда происходит с обращение пользователя к гипертексту

Типология гипертекста По характеру архитектуры: гипер тексты жесткой структуры / гипертексты структуры. мягкой Мягкая Типология гипертекста По характеру архитектуры: гипер тексты жесткой структуры / гипертексты структуры. мягкой Мягкая структура: семантический анализ близости источников друг к другу. Широко распространено использование структуры на ключевых словах. технологий мягкой

Связь компьютерной лингвистики с информатикой. КЛ как прикладная лингвистическая дисциплина. Основная цель работы с Связь компьютерной лингвистики с информатикой. КЛ как прикладная лингвистическая дисциплина. Основная цель работы с электронным текстом - точная передача смысла естественно-языкового высказывания компьютеру. Это подразумевает последовательные фазы анализа: • анализ фонетической (графической) формы высказывания; • анализ грамматической (морфологической) структуры высказывания; • синтаксический анализ или построение его логической формы; • семантический анализ или установление смысла высказывания. • когнитивно-дискурсивный анализ и установление ситуативного смысла высказывания.

Распознавание и синтез устной и письменной речи Проблемы ввода устного и письменного текста. Автоматический Распознавание и синтез устной и письменной речи Проблемы ввода устного и письменного текста. Автоматический ввод предполагает самостоятельное различение машиной знаков текста и отождествление их со знаками языка. То же относится и к устной речи, к звукам человеческого голоса. Автоматическое распознавание звуков устной речи является чрезвычайно актуальной научной и технической проблемой.

Распознавание и синтез устной и письменной речи Запись акустических сигналов, созданных человеком-диктором, читающим слова. Распознавание и синтез устной и письменной речи Запись акустических сигналов, созданных человеком-диктором, читающим слова. Наборы акустических сигналов, составляющих слова, введены в машинную память. Такой тип распознавания речи имеет 3 принципиальных ограничения: • персональное, поскольку автомат распознает речь только определенного говорящего; • языковое — автомат распознает только ограниченное количество слов; • в подготовке — автомат распознает речь лишь в тех случаях, когда она заранее подготовлена. =>Невозможен диалог с системой на естественном языке в массовом обслуживании. Для снятия ограничений нужно, чтобы автомат распознавал не отдельные слова, а отдельные звуки и звукотипы. В основание пофонемного распознавания звуков речи положен анализ речи по длительности и динамике звучания и по чередованию акустического сигнала и пауз, при этом анализируется ритмомелодический контур звучащей речи в связи с паузами.

Распознавание и синтез устной и письменной речи В настоящее время наиболее доступной формой максимально Распознавание и синтез устной и письменной речи В настоящее время наиболее доступной формой максимально точной фиксации звучащей речи, прежде всего ее тембров и динамики, являются спектрограммы. Распознавание отдельных слов Проблема перехода от фонемы к графеме Распознавание графем. Исправление искаженных знаков текста Устранение искажений слов. Лингвистическая дешифровка

Морфологический анализ Морфология слова — то, что относится к его форме, — окончания, суффиксы, Морфологический анализ Морфология слова — то, что относится к его форме, — окончания, суффиксы, аффиксы, флексии и пр. , деление на корень и другие части словоформы Морфологический анализ — процедура, в результате которой из формы, внешнего оформления слова в тексте можно получить сведения о самых различных уровнях языковой структуры. Понятие «морфологический анализ» родилось в машинном переводе. Идентификация словоформ, группировка по каким-то функциональным классам.

Синтаксический анализ Цель — с помощью алгоритмов получить в явном виде синтаксическую структуру предложения, Синтаксический анализ Цель — с помощью алгоритмов получить в явном виде синтаксическую структуру предложения, простого и сложного (составного). «Предложением» - чаще всего простое предложение. Сложное или составное предложение называют обычно «фразой» . Проблемы автоматического синтаксического анализа: связь синтаксиса с семантикой. Отсутствие формальных критериев определения синтаксических ролей слов в предложении => создано множество всяких теорий вроде глубинных падежей, актуальных членений, ролевых структур и пр. , которые, хотя и продвигают к определенному осмыслению состава и структуры предложения с точки зрения связей слов между собой, очень редко служат основанием действующих алгоритмов анализа и/или синтеза синтаксических структур.

Основные проблемы автоматического семантического анализа Автоматический семантический анализ — совокупность методов и приемов, с Основные проблемы автоматического семантического анализа Автоматический семантический анализ — совокупность методов и приемов, с помощью которых можно путем строгой и однозначной формальной процедуры, реализуемой на компьютере посредством специально разработанных лингвистических алгоритмов, с достаточной точностью представить смысл произвольного высказывания на естественном языке в виде последовательности символов, образующих некоторую формальную систему. Формализация семантики Сложность: при изучении содержания (смысла) приходится выходить за пределы языка и обращаться к внешнему миру, к классификации предметов и представлений, лежащих вне сферы языка.

Основные проблемы автоматического семантического анализа Исследования в области формализации семантики можно условно разделить на Основные проблемы автоматического семантического анализа Исследования в области формализации семантики можно условно разделить на два направления. • Первое направление — исследования, ведущиеся на дедуктивном абстрактно-теоретическом уровне. • Цель – установить место семантики в рамках более общей науки о знаковых системах — семиотики и определить отношения между семантикой и другими составляющими семиотики — синтактикой и прагматикой, – построить модели человеческого мышления самого по себе и в связи с процессом коммуникации; – вывести универсальные закономерности образования понятий, связей между значениями слов и внутри высказывания между его составляющими; – сформулировать и разрешить на уровне абстракции другие проблемы, относящиеся к человеческому мышлению и особенно к языковой деятельности человека в связи с мышлением и коммуникацией.

Основные проблемы автоматического семантического анализа • Второе направление • Цель — решение конкретных прикладных Основные проблемы автоматического семантического анализа • Второе направление • Цель — решение конкретных прикладных проблем, связанных с формализацией семантики, смысла в языковых выражениях, — проблем машинного перевода, автоматического информационного поиска, прикладных систем искусственного интеллекта. Область формализации — ограниченное семантическое поле. Возможны вполне эффективные прикладные решения задач смыслового (семантического) анализа. «Смысл» текста и «содержание» текста связаны с представлением о языковой картине мира.

Список литературы 1. Баранов А. Н. Введение в прикладную лингвистику. – М. , 2001. Список литературы 1. Баранов А. Н. Введение в прикладную лингвистику. – М. , 2001. 2. Большакова Е. И. Компьютерная лингвистика. Методы, ресурсы, приложения. - материалы летней школы по КЛ, 5 -11 июля 2011. 3. Марчук Ю. Н. Компьютерная лингвистика: учебное пособие. – М. : АСТ: Восток – Запад, 2007. – 317 с. 4. Городецкий Б. Ю. Компьютерная лингвистика: моделирование речевого общения // Новое в зарубежной лингвистике. Вып. XXIV. Компьютерная лингвистика. М. , 1989. 5. Городецкий Б. Ю. Семантические проблемы построения автоматизированных систем обработки текстовой информации // Вычислительная лингвистика. М. , 1976. 6. Коваль С. А. Лингвистические проблемы компьютерной морфологии. СПб. , 2005.