ИТЛ2_01_ЕЯ.ppt
- Количество слайдов: 27
Информационные технологии в лингвистике Естественно-языковые системы
Обработка естественного языка 1. Автоматический перевод текстов (PROMT, Google Translate) 2. Создание вопросно-ответных систем (англ. question answering systems). 3. Автоматическое извлечение фактов из текста (англ. fact extraction, text mining) 4. Построение систем управления знаниями. 5. Автореферирование (automatic text summarization). 6. Корпусная лингвистика, создание и использование электронных корпусов текстов. 7. Создание электронных словарей, тезаурусов, онтологий. (Lingvo).
Естественно-языковые системы В конце 60 -х годов в исследованиях по искусственному интеллекту сформировалось самостоятельное направление, получившее название «обработка естественного языка» (Natural Language Processing). Задача данного направления: исследование методов и разработка систем, обеспечивающих реализацию процесса общения с компьютерными системами на естественном языке (систем ЕЯ-общения или ЕЯсистем).
Естественно-языковые системы 1. 2. 3. 4. 5. интеллектуальные вопрос - ответные системы; системы общения с базами данных; диалоговые системы решения задач; системы обработки связных текстов; системы машинного перевода.
Исходные понятия Общение - коммуникативное взаимодействие. Диалог - процесс достижения его участниками определенных согласованных целей путем обмена связанными высказываниями, выраженными в языке, о некотором реальном или гипотетическом мире (проблемной области). Применительно к диалогу между пользователем и компьютером: Общение - процесс обмена взаимосвязанными высказываниями, выраженными в языке, направленный на достижение целей пользователя, т. е. на удовлетворение информационных потребностей пользователя (ИПП).
Задача поддержки диалога предполагает: • Анализ и понимание реплик партнера; • Синтез правильного ответа. Высказывания участников общения образуют связный текст - дискурс. Связность дискурса обеспечивается: • лингвистическими средствами (родовидовыми, анафорическими, модальными, стилистическими согласованиями, согласованиями пресуппозиций и т. п. ), • экстралингвистическими средствами (ситуативными), т. е. с помощью временных, причинно-следственных и других связей, существующих в проблемной области.
Эффективность средств общения Зависит от того как учитываются важнейшие особенности процесса общения, направленного на удовлетворение реальных информационных потребностей пользователя.
Особенности процесса общения 1. Изменяемость информационной потребности пользователя. ИПП не может быть заранее четко определена в при разработке системы общения, она изменяется в ходе разработки и эксплуатации системы. 2. Несовпадение представлений, имеющихся у пользователя и системы о языке общения и проблемной области, относительно которой ведется общение. 3. Связность общения. В большинстве реальных случаев ИПП не может быть выражена в виде одного вопроса (предложения). Требуется определить контекст, в котором необходимо решать определенную задачу. Процесс общения должен иметь сложную, разветвленную структуру и состоять из обмена связанными высказываниями. 4. «Неправильность» высказываний пользователя. -пользователь обычно не в состоянии учесть все ограничения системы общения в части ее возможностей и знаний -использованием умолчаний, характерных для естественного общения и допускающих неоднозначное толкование высказываний, -отклонение предложений от грамматической нормы.
Учет особенностей общения 1. Разработка формализованных языков общения (APL, NOMAD, MAPPER). 2. Использование конечными пользователями для взаимодействия с компьютером естественного языка, семантически и прагматически ограниченного проблемной областью, относительно которой ведется общение.
Функции ЕЯ-системы 1. Ведение диалога - определение его структуры и роли, которую система и пользователь выполняют на каждом шаге диалога; 2. Понимание - преобразование поступающих от пользователя высказываний на естественном языке в высказывания на языке внутреннего представления (формализованном языке); 3. Обработка высказываний - формирование или определение заданий на решение задач или подзадач на данном шаге диалога; 4. Генерация - формирование выходных высказываний на ЕЯ.
Обобщенная схема ЕЯ-системы
Ведение диалога - выполняется по одной из двух схем: 1. Диалог ведет пользователь. Инициатива в основном находится у пользователя (за исключением сообщений об ошибках), а система только реагирует на его тре 6 ования, определяя по виду требования тип задания. Для системы весь диалог сводится к выработке реакции на текущие высказывания пользователя. 2. Диалог ведет система. Система ведет диалог в соответствии с имеющимися у нее представлениями о структуре диалога (т. е. о разбиении задач на подзадачи и о том, кто из участников, когда и какую подзадачу решает) и о способе обмена высказываниями.
Интеллектуальные вопрос-ответные системы - основное внимание уделяется языковому аспекту, т. е. максимальному приближению языка общения к литературному естественному языку. Пример: система ПОЭТ, созданная коллективом исследователей под руководством Э. В. Попова. Система ПОЭТ воспринимает вопросительные предложения русского языка с практически несущественными ограничениями на допустимые синтаксические конструкции и пунктуацию. ________________ Попов Э. В. Общение с ЭВМ на естественном языке. - М. : Наука. - 1982. – 360 с.
Пример диалога с системой ПОЭТ В: КАКОВ ОБЪЕМ ПЕРЕВОЗОК ЖЕЛЕЗНОДОРОЖНЫМ ТРАНСПОРТОМ В 1970 -ОМ ГОДУ? [Вариант: КАКОЕ КОЛИЧЕСТВО ГРУЗОВ ЖЕЛЕЗНОДОРОЖНЫЙ ТРАНСПОРТ ПЕРЕВЕЗ В 1970 -ОМ ГОДУ? ] [Вариант: ЧЕМУ РАВЕН В 1970 -ОМ ГОДУ ОБЪЕМ ПЕРЕВОЗОК ЖЕЛЕЗНОДОРОЖНОГО ТРАНСПОРТА? О: В 1970 ГОДУ ЖЕЛЕЗНОДОРОЖНЫЙ ТРАНСПОРТ ПЕРЕВЕЗ 1882 МЛН. ТОНН ГРУЗОВ. В: КАКОВ УДЕЛЬНЫЙ ВЕС ПЕРЕВОЗОК ЖЕЛЕЗНОДОРОЖНЫМ ТРАНСПОРТОМ В ОБЩЕМ ОБЪЕМЕ ПЕРЕВОЗОК ВСЕМИ ВИДАМИ ТРАНСПОРТА В 1975 ГОДУ? О: 18%.
Пример диалога с системой ПОЭТ В: КАКИЕ ОРГАНИЗАЦИИ ПОСТАВЛЯЛИ В 1 -ОМ КВАРТАЛЕ 1970 ГОДА ТОКАРНЫЕ СТАНКИ В МОСКОВСКУЮ ОБЛАСТЬ? О: В 1 -ОМ КВАРТАЛЕ 1970 ГОДА ПОСТАВЛЯЛИ ТОКАРНЫЕ СТАНКИ В МОСКОВСКУЮ ОБЛАСТЬ ЗАВОДЫ «РУБИН» И «ЗАРЯ» . В: ОСУЩЕСТВЛЯЛ ЛИ ЗАВОД «ЗАРЯ» В 1970 -ОМ ГОДУ ПОСТАВКИ ТОКАРНЫХ СТАНКОВ В МОСКОВСКУЮ ОБЛАСТЬ? О: ДА, ОСУЩЕСТВЛЯЛ.
Пример диалога с системой ПОЭТ В: КАКИЕ ПЕРЕВОЗКИ УГЛЯ ВОДНЫМ ТРАНСПОРТОМ БЫЛИ СОВЕРШЕНЫ В 1970 -ОМ ГОДУ? О: СЛОВО «ВОДНЫМ» ОТСУТСТВУЕТ В СЛОВАРЕ. О: СЛОВО «ВОДНЫМ» ПОНЯТО КАК ХАРАКТЕРИСТИКА ТРАНСПОРТА. В: ЧТО ИЗВЕСТНО О ВИДАХ ТРАНСПОРТА? О: РАЗЛИЧАЮТСЯ СЛЕДУЮЩИЕ ВИДЫ ТРАНСПОРТА: МОРСКОЙ, РЕЧНОЙ, АВТОМОБИЛЬНЫЙ, ЖЕЛЕЗНОДОРОЖНЫЙ. В: КАКИЕ ПЕРЕВОЗКИ УГЛЯ МОРСКИМ И РЕЧНЫМ ТРАНСПОРТОМ БЫЛИ СОВЕРШЕНЫ В 1970 -ОМ ГОДУ? О: В 1970 -ОМ ГОДУ СОВЕРШЕНО 5716 ПЕРЕВОЗОК МОРСКИМ И РЕЧНЫМ ТРАНСПОРТОМ.
Схема системы ПОЭТ
База знаний системы ПОЭТ 1. Лингвистические знания - хранятся в различных зонах словаря (морфологической и синтактико-семантической), - описания базовых событий представлены в виде моделей управления. 2. Проблемные знания - хранятся в семантической сети. - абстрактная (описывающая общие понятия и категории) и конкретная (описывающая конкретные сущности) семантические сети.
Фрагмент словаря системы ПОЭТ
Недостатки вопросно-ответных систем 1. Возможность получения ответов на ЕЯ-вопросы, относящиеся к ограниченным проблемным областям. Система ПОЭТ могла отвечать па вопросы о перевозках различных народнохозяйственных грузов. ДИСПУТ - об обслуживании контейнерных перевозок к морскому порту, LUNAR - о свойствах образцов лунных пород, LIFER - о дислокации и характеристиках судов военно-морских сил. 2. Жесткая структура диалога, при которой каждое высказывание пользователя воспринимается как очередной запрос, система играет пассивную роль. Следствие: задача – повышение гибкости общения.
Подходы к анализу ЕЯ-запросов 1. Использование синтаксических конструкций. Синтаксическое представление запроса строится на основе подлежащего, сказуемого, прямого дополнения и т. п. , которые определяются с помощью морфологических характеристик (часть речи, род, падеж, лицо и т. д. ). В результате анализа запроса дерево синтаксического разбора непосредственно отображается в выражение на формализованном языке или языке запросов к базе данных. Синтаксически-ориентированные системы используют грамматику, описывающую возможные синтаксические структуры пользовательских запросов. Типичная система, основанная на синтаксическом анализе LUNAR.
Пример преобразования запросов Какие студенты учатся в группе 630?
Пример преобразования запросов Какие студенты учатся в группе 630? Отображение дерева в выражение запроса производится с помощью правил и целиком основывается на синтаксической информации дерева разбора. Пример правил: • "какие" отображается в SELECT; • "студент" отображается в student; • "группа" отображается в group; • поддерево NT отображается в N="T" (в примере group="630"); • поддерево NP отображается в det(N) (SELECT (student)); • поддерево VP отображается в WHERE NT (WHERE group="630"); • S отображается в NP and VP (SELECT (student) WHERE group="630"). Результат: SQL-запрос SELECT (student) WHERE group="630"
Подходы к анализу ЕЯ-запросов 2. Семантически-ориентированный метод - предложен А. С. Нариньяни. - используется синтаксическая информация из предыдущего подхода, а также информация из семантических словарей. Каждое слово в словаре имеет характеристики, позволяющие определять смысловые отношения между ним и другими словами, точнее, их значениями. Полное описание связей между смыслами слов образует тезаурус, представляющий собой большую сеть со словами и их смыслами в качестве узлов. ЕЯ-запрос сначала обрабатывается синтаксическим анализатором с использованием набора синтаксических правил для построения дерева синтаксического разбора. Семантический интерпретатор последовательно трансформирует дерево синтаксического разбора в язык промежуточного представления, используя семантические правила.
Преобразование запросов
Подходы к анализу ЕЯ-запросов 3. Метод шаблонов Пример: система English Query от Microsoft основана на синтаксически-ориентированных шаблонах, связываемых с моделью предметной области, и через нее - со схемой базы данных. При настройке необходимо задать модель базы данных и предметной области, а затем для каждого отношения в базе данных (например, между товаром и его ценой) задать синтаксический шаблон английской грамматики, выбираемый из списка. Далее: системы обработки связных текстов, системы МП
ИТЛ2_01_ЕЯ.ppt