Скачать презентацию Информационные технологии в лингвистике Системы машинного перевода Скачать презентацию Информационные технологии в лингвистике Системы машинного перевода

ИТЛ2_02_МП.ppt

  • Количество слайдов: 54

Информационные технологии в лингвистике Системы машинного перевода Информационные технологии в лингвистике Системы машинного перевода

Машинный перевод (МП) - это автоматический перевод текстов с одного языка на другой (например, Машинный перевод (МП) - это автоматический перевод текстов с одного языка на другой (например, пословный перевод научно-технической информации, патентов, документов, инструкций, перевод программ ЭВМ с алгоритмического языка на машинный язык) - научное направление, охватывающее круг проблем, которые возникают при автоматизации перевода. Система МП - обычно содержит лингвистические описания входного и выходного языков, т. е. языков исходного текста и текста, полученного в результате перевода, и алгоритм, на основе которого выполняется данный перевод. - ориентированы преимущественно на работу с письменными текстами.

Машинный перевод (МП) В машинном переводе с самого начала задана ориентация на перевод только Машинный перевод (МП) В машинном переводе с самого начала задана ориентация на перевод только научных, информационных и научно-технических текстов. Оценка результатов базируется на условии Бар-Хиллела: перевод удовлетворителен, если специалист может повторить эксперимент, описанный в исходном тексте, на основе текста машинного перевода.

Проблемы машинного перевода: 1. Выбор структуры автоматического словаря 2. Формализация грамматик естественных языков 3. Проблемы машинного перевода: 1. Выбор структуры автоматического словаря 2. Формализация грамматик естественных языков 3. Решение задачи снятия омонимии слов и синтаксических конструкций 4. Обработка машинных оборотов

Структура автоматического словаря определяется: 1. типологическими характеристиками сопоставляемых языков; 2. выбором процедуры морфологического анализа; Структура автоматического словаря определяется: 1. типологическими характеристиками сопоставляемых языков; 2. выбором процедуры морфологического анализа; 3. подходом к хранению информации; 4. выбором структуры словарной статьи.

Формализация грамматик естественных языков определяется: 1. Типологическими характеристиками сопоставляемых языков 2. Общим подходом к Формализация грамматик естественных языков определяется: 1. Типологическими характеристиками сопоставляемых языков 2. Общим подходом к организации синтаксического анализа (анализ с трансфером, анализ с языкомпосредником) 3. Выбором конкретного грамматического формализма (грамматики зависимостей, грамматики составляющих).

Снятие омонимии слов и синтаксических конструкций определяется 1. Типологическими характеристиками сопоставляемых языков 2. Способом Снятие омонимии слов и синтаксических конструкций определяется 1. Типологическими характеристиками сопоставляемых языков 2. Способом описания морфологических, лексических, семантических характеристик слова 3. Способом согласования сем в высказывании 4. Процедурой контекстного анализа. Пример конверсионной омонимии: В управляющем операторе отсутствует слово, которое должно появиться… управляющем – существительное, ед. числа, предл. падеж, мужск. род, manager. управляющем – действительное причастие наст. времени, ед. числа, предл. падеж, мужск. /средн. род, managing, controlling, manipulated.

Обработка машинных оборотов определяется 1. Типологическими характеристиками сопоставляемых языков 2. Способом задания единиц словаря Обработка машинных оборотов определяется 1. Типологическими характеристиками сопоставляемых языков 2. Способом задания единиц словаря и указания на машинные обороты 3. Организацией автоматического словаря как комплекса 4. Процедурой лексико-морфологического анализа предложения.

Этап анализа исходного текста Результат анализа многовариантен – как выбрать правильную структуру? Выбор основывается Этап анализа исходного текста Результат анализа многовариантен – как выбрать правильную структуру? Выбор основывается на экстралингвистической информации – как ее хранить? В системах машинного перевода (МП) перевод моделируется как композиция лексических и семантико-синтаксических процедур.

Основные принципы организации практической системы МП: • Модульность. • Иерархичность организации. • Трансфер в Основные принципы организации практической системы МП: • Модульность. • Иерархичность организации. • Трансфер в качестве основного подхода к преобразованию. • Ориентация на предметную область. • Статистический подход к выбору элементов в лексикон и анализируемых структур.

Методы статистического анализа используются при решении следующих задач: 1. при определении структуры и состава Методы статистического анализа используются при решении следующих задач: 1. при определении структуры и состава АС и их словарных статей на основе анализа распределений слов в конкретной ПО; 2. при выборе основной терминологии, включаемой в АС, на основе изучения распределений в представительной совокупности текстов; 3. при исследовании синтаксических моделей предложений для ограничения применяемых процедур парсинга (автоматического синтаксического анализа); 4. при изучении структуры текстов для установления их особенностей.

При создании системы МП выделяются иерархически соподчиненные уровни реализации: 1. 2. 3. 4. 5. При создании системы МП выделяются иерархически соподчиненные уровни реализации: 1. 2. 3. 4. 5. 6. 7. автоматического предредактирования текста; лексико-морфологического анализа; контекстного анализа и анализа групп; анализа функциональных сегментов; анализа предложений; синтеза выходного текста; автоматического постредактирования.

Уровень автоматического предредактирования текста Цель: предварительная разметка текста с целью определения границ его разделов. Уровень автоматического предредактирования текста Цель: предварительная разметка текста с целью определения границ его разделов. • Определение границ частей, глав, параграфов, абзацев, перечислений. • Приписывание особых помет заголовкам, элементам оглавления и перечислений. • Запоминание графической структуры текста для ее восстановления при синтезе перевода. • Выделение таблиц. • Разбивка текста на предложения.

Уровень лексико-морфологического анализа Цель: получение лексико-грамматической информации о лексических единицах текста. • Преобразование исходной Уровень лексико-морфологического анализа Цель: получение лексико-грамматической информации о лексических единицах текста. • Преобразование исходной цепочки символов в цепочку отдельных словоформ. • Сравнение каждой словоформы с единицей автоматического словаря и установление границ словоформы или оборота. • Установление лексико-грамматических характеристик лексической единицы. • Определение информации о переводе. • Модификация в соответствии с морфологией лексической единицы.

Уровень лексико-морфологического анализа Результат: формирование специальной структуры текста, в которой вместо каждой словоформы или Уровень лексико-морфологического анализа Результат: формирование специальной структуры текста, в которой вместо каждой словоформы или сочетания словоформ (оборота) дается соответствующее ей (им) лексико-грамматическое описание с точностью до конверсионной омонимии и морфологических характеристик, а также соответствующее этим характеристикам описание перевода. Процедура лексико-морфологического анализа основана на структуре автоматического словаря. Методика сравнения текстовой словоформы со словарем определяется структурой словарной статьи.

Структура автоматического словаря (АС) Выбор заглавной единицы в словарной статье АС определяется типом языка. Структура автоматического словаря (АС) Выбор заглавной единицы в словарной статье АС определяется типом языка. Каждая лексическая единица, входящая в автоматический словарь, получает описание на морфологическом, синтаксическом, семантическом и функциональном уровнях в виде соответствующего набора характеристик. При выборе структуры АС должны быть выполнены задачи: • Определение формы заглавной единицы в словарной статье; • Определение комплекса информации, составляющей описание ЛЕ; • Выбор оптимального способа организации словарной статьи в базе.

Структура автоматического словаря (АС) Заглавие словарной статьи определяется типом языка. Форма заглавного слова: • Структура автоматического словаря (АС) Заглавие словарной статьи определяется типом языка. Форма заглавного слова: • Словоформа • Основа Тип языка 1. Аналитические 2. Синтетические: • Агглютинативные языки • Флективные языки • Инкорпорирующие языки Для отождествления необходимо полное совпадение словоформы в тексте и словарной единицы => процедура морфологического анализа.

Структура автоматического словаря (АС) Для агглютинативных языков: - выделение словаря основ и словаря аффиксов; Структура автоматического словаря (АС) Для агглютинативных языков: - выделение словаря основ и словаря аффиксов; - выбор принципа организации словаря аффиксов; - установление связи между словарями. Сравнение текстовой словоформы с АС для агглютинативных языков требует: • Разработки алгоритма последовательного отождествления аффиксов и основы (от начала словоформы или от конца). • Определения структуры словаря аффиксов (алфавитная, по последовательности агглютинации, по частям речи).

Пример анализа словоформ для создания словаря для агглютинативных языков: Словоформы и их переводы sultan Пример анализа словоформ для создания словаря для агглютинативных языков: Словоформы и их переводы sultan султан sultanlar султаны sultanlarimiz наши султаны sultanlarimizdan от наших султанов Основа и ее характеристики sultan сущ. , муж. род Аффиксы и их значения lar – множ. число imiz – принадлежность dan – родит. падеж

Словарь основ для флективного языка Для флективных языков характерны сложные чередования на стыках морф, Словарь основ для флективного языка Для флективных языков характерны сложные чередования на стыках морф, беглая гласная, переразложение и опрощение традиционных основ. При создании словаря основ производится: • Определение принципов выделения основы и окончаний; • Выбор принципа организации словаря окончаний; • Установление связи между словарями.

Принципы выделения основы и окончаний Инженерно-лингвистический подход к определению основы предполагает использование агглютинативной машинной Принципы выделения основы и окончаний Инженерно-лингвистический подход к определению основы предполагает использование агглютинативной машинной морфологии для описания флективного языка, формальное выделение в каждой словоформе двух частей: машинной основы и машинного окончания, т. е. машинной флексии. Машинная основа (МО) – последовательность букв от начала словоформы, общая для всех словоформ, входящих в формообразовательную парадигму данного слова.

Машинные окончания • Набор машинных окончаний, описывающих формоизменение конкретной лексемы, рассматривается как машинная (типовая) Машинные окончания • Набор машинных окончаний, описывающих формоизменение конкретной лексемы, рассматривается как машинная (типовая) парадигм этой лексемы. • Все возможные в конкретном языке наборы машинных окончаний составляют систему типовых парадигм, в которой каждый набор зафиксирован один раз. • Одной и той же типовой парадигме могут соответствовать несколько разных машинных окончаний с одними и теми же лексико-грамматическими характеристиками, а каждой машинной основе может соответствовать столько типовых парадигм, скольким словам соответствует основа.

Машинные окончания Словам отвага, фонетика, лексика соответствует одна основа, в которой нет форм множественного Машинные окончания Словам отвага, фонетика, лексика соответствует одна основа, в которой нет форм множественного числа; Основе лож соответствуют типовые парадигмы для описания слов ложь, ложиться.

Описание лексемы: • Нулевая парадигма – приписывается наречиям, несклоняемым существительным, союзам и частицам. Машинная Описание лексемы: • Нулевая парадигма – приписывается наречиям, несклоняемым существительным, союзам и частицам. Машинная основа равна самому слову. • Нулевая основа – используется для слов с супплетивным формообразованием (он, его, ему, им, …, идти, иду, шел, …), если выходным языком является русский. Если русский язык входной, такого рода слва вносятся в словарь как самостоятельные словоформы.

Омография машинных основ и словоформ в автоматическом словаре русского языка: 1. омографичны основы, но Омография машинных основ и словоформ в автоматическом словаре русского языка: 1. омографичны основы, но не возникает омографии форм слова: ср. дел_о, _а, _у и т. д. ; дел_ить, _ят, _им и т. д. ; 2. омографичны машинные основы и флексии: ср. клещ (насекомое), -а, -у, *ам …; клещ-и (инструмент), -ей, *ам …; катаракт (водопад) *а, *у, …, *ы, -ов; катаракт-а (заболевание) *а, *ы, *у …

Омография машинных основ и словоформ в автоматическом словаре русского языка: 3. омографичны канонические формы Омография машинных основ и словоформ в автоматическом словаре русского языка: 3. омографичны канонические формы слов, но не совпадают формы их парадигм: чернет-ь (птица), -и, -ью и т. д. ; черн-еть (приобретать черную окраску), -ю, -ешь, - ете и т. д. ; 4. омографичны каноническая форма одного слова и падежная форма другого: пар (вещество; поле), -а, -у, *ом … паром (транспортное средство), -а, -у, -ом …

Парадигма в морфологии — 1) система словоформ, образующих одну лексему; 2) образец, схема словоизменения. Парадигма в морфологии — 1) система словоформ, образующих одну лексему; 2) образец, схема словоизменения. Состав парадигмы конкретной лексемы определяется её принадлежностью к части речи и к определённому лексикограмматическому классу внутри неё (например, относительные прилагательные не имеют кратких форм и степени сравнения). Исходная форма представляет лексему в описаниях и словарях. В существительном и глаголе избирается форма, используемая в функции называния: им. п. ед. ч. для существительного и инфинитив для глагола, в прилагательном это форма муж. рода ед. ч. им. п.

Парадигма В формальном отношении парадигма классифицируются по след. признакам: 1) по набору окончаний — Парадигма В формальном отношении парадигма классифицируются по след. признакам: 1) по набору окончаний — таким образом устанавливается тип словоизменения: тип склонения существительных, тип спряжения глаголов и т. д. ; 2) по набору основ (типы соотношения основ позволяют выделить формальные классы глаголов — продуктивные и непродуктивные, группы существительных, имеющие, напр. , разные основы в подпарадигмах ед. и мн. ч. ); 3) по акцентуации - выявляются разные акцентные парадигмы.

Типовая парадигма В каждом поле типовой парадигмы может храниться информация трех видов: • буквенная Типовая парадигма В каждом поле типовой парадигмы может храниться информация трех видов: • буквенная последовательность, соответствующая конкретному окончанию; • пробел, соответствующий нулевому окончанию; • знак &, который ставится на месте первого символа поля в том случае, когда образование конкретной формы согласно норме литературного языка невозможно.

Типовая парадигма Типовая парадигма

Типовая парадигма Типовая парадигма

Типовая парадигма Типовая парадигма

Схема работы системы МП 1. Этапы анализа: - ввод фразы в ЭВМ; - лексический Схема работы системы МП 1. Этапы анализа: - ввод фразы в ЭВМ; - лексический анализ (на уровне слов и частей речи); - поверхностный синтаксический анализ (на уровне членов предложения); - глубинный синтаксический анализ (учитывающий смысловые связи между словами). - внутреннее представление фразы, отражающее ее смысл.

Схема работы системы 2. Этапы синтеза: - оснащение внутреннего представления фразы словами выходного языка Схема работы системы 2. Этапы синтеза: - оснащение внутреннего представления фразы словами выходного языка - расстановка слов в нужном порядке (с последующим извлечением из словаря их внешней лексической формы) -формирование окончательного вида переведенной фразы. Последовательность преобразований предложения: АНАЛИЗ – ТРАНСФЕР (межъязыковые операции)- СИНТЕЗ

Уровни анализа Уровни анализа

Классификации систем МП Системы с прямым и непрямым переводом. Системы с трансфером и с Классификации систем МП Системы с прямым и непрямым переводом. Системы с трансфером и с языком-посредником. Синтаксически-ориентированные и лексическиориентированные системы (под управлением словаря). Системы, основанные на знаниях.

Модульность лингвистического обеспечения - Отделение текущих знаний о тексте от языковых знаний - Отделение Модульность лингвистического обеспечения - Отделение текущих знаний о тексте от языковых знаний - Отделение языковых знаний от знаний ПО - Отделение словарей от грамматик - Отделение грамматик от алгоритмов их обработки.

Словари 1. Словари общеупотребительной лексики 2. Словари терминологической лексики При переходе к текстам другой Словари 1. Словари общеупотребительной лексики 2. Словари терминологической лексики При переходе к текстам другой предметной области можно ограничится сменой только терминологических словарей.

Лингвистическое обеспечение систем МП 1. Словари 2. Грамматики 3. Формализованные промежуточные представления единиц анализа Лингвистическое обеспечение систем МП 1. Словари 2. Грамматики 3. Формализованные промежуточные представления единиц анализа Математико-алгоритмическое обеспечение: - Механизмы (алгоритмы, процедуры) оперирования с имеющимися словарями, грамматиками и структурными представлениями.

Грамматики и алгоритмы 1. Контекстно-свободные (КС) – грамматики с конечным числом состояний – для Грамматики и алгоритмы 1. Контекстно-свободные (КС) – грамматики с конечным числом состояний – для каждого предложения строится дерево вывода 2. Цепочечные – фиксируют порядок следования элементов в терминах классов слов (прил. +сущ. ) или функциональных элементов (подлеж. +сказ. ) 3. Непосредственных составляющих (НС) – набор правил подстановки групп (именной, глагольной и т. п. ) 4. Зависимостей – задает иерархию отношений элементов предложения (главное-зависимое).

История развития систем МП Конец 40 -х – середина 60 -х Системы первого поколения История развития систем МП Конец 40 -х – середина 60 -х Системы первого поколения – пословный (прямой) перевод без промежуточного языка. Простота и скорость работы. Середина 60 -х – середина 70 -х Системы второго поколения – перевод с использованием синтаксических теорий. Построение синтактикосемантической структуры. Анализ и синтез независимы, связь этапов путем межъязыковых операций (трансфера). (И. А. Мельчук и Ю. Д. Апресян: лингвистический процессор ЭТАП)

История развития систем МП Середина 70 -х – середина 80 -х Комбинированные системы (ЭВМ+человек), История развития систем МП Середина 70 -х – середина 80 -х Комбинированные системы (ЭВМ+человек), перевод узкоспециализированных текстов. Семантический языкпосредник - универсальный. Середина 80 -х Многоязычные системы с использованием лексических, терминологически баз знаний и семантических теорий.

Технология TM (translation memory) - работает по принципу накопления: 1. В процессе перевода сохраняется Технология TM (translation memory) - работает по принципу накопления: 1. В процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных. 2. Если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. 3. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. Пример - система TRADOS (основана в 1984 г. ).

Комплекс ЭТАП - классический вариант синтактико-семантической системы МП. - основан на использовании механизма межъязыковых Комплекс ЭТАП - классический вариант синтактико-семантической системы МП. - основан на использовании механизма межъязыковых операций и обладает развитым синтаксическим компонентом, обогащенным семантическими сведениями. Синтаксическое представление в комплексе ЭТАП описывается деревом зависимостей: • ребра помечены именами синтаксических отношений, • узлами являются имена лексем предложения с набором морфологических характеристик.

Комплекс ЭТАП-1 - реализован перевод через поверхностно-синтаксическую структуру. ЭТАП-2 - процесс перевода делится на Комплекс ЭТАП-1 - реализован перевод через поверхностно-синтаксическую структуру. ЭТАП-2 - процесс перевода делится на шесть основных этапов: 1 -2. этапы морфологического и синтаксического анализа 3. этап нормализации синтаксической структуры. 4. преобразование нормализованной английской структуры в нормализованную русскую. Для этого морфологические характеристики английских слов преобразуются в соответствующие русские; английские лексемы заменяются их русскими эквивалентами. 5. развертывание нормализованной структуры в синтаксическую структуру будущего русского предложения, порождается все лексикосинтаксическое своеобразие русского предложения. 6. морфологизация синтаксической структуры и расстановка знаков препинания.

Система ФРАП (Леонтьева Н. Н. ) Система французско-русского автоматического перевода была разработана коллективом лаборатории Система ФРАП (Леонтьева Н. Н. ) Система французско-русского автоматического перевода была разработана коллективом лаборатории машинного перевода Всесоюзного центра переводов совместно с коллективом лаборатории машинного перевода МГПИИЯ им М. Тореза. 19761986 гг. - проектировалась как система с семантическим языкомпосредником. - синтаксический компонент может не давать на выходе правильного дерева анализа. -предусматривается этап семантической интерпретации, на вход которого могут подаваться структуры любого уровня полноты и правильности; на этом этапе должны уточняться первоначально неправильные, неоднозначные или неполные входные структуры. -В отличие от комплекса ЭТАП синтаксическая информация задается и декларативными, и процедурными средствами.

Русский Общесемантический словарь (РОСС) - используется при построении формального образа текста на семантическом уровне Русский Общесемантический словарь (РОСС) - используется при построении формального образа текста на семантическом уровне - содержит для каждого слова семантическую информацию как лингвистического характера (включая грамматический класс и валентную структуру лексемы), так и необходимую для стыковки с предметно-ориентированными словарями тех или иных областей знания –в виде Семантических Характеристик (СХ). Характеристики слова: – Набор СХ; – Грамматический класс; – Валентная структура; – Семантические и грамматические ограничения на выражение каждого актанта из валентной структуры; – Английские эквиваленты лексемы. Семантический язык (аппарат), на котором записан РОСС используют системы ФРАП, ПОЛИТЕКСТ и ДИАЛИНГ.

Русский Общесемантический словарь (РОСС) Из СХ строятся формулы (с логическими связками и, или). Примеры: Русский Общесемантический словарь (РОСС) Из СХ строятся формулы (с логическими связками и, или). Примеры: АБСТР - Любое абстрактное существительное или прилагательное Примеры слов с таким СХ: модель, план, тенденция, обстоятельство ДВИЖ Глаголы движения (в том числе декаузативы) Примеры: идти, ронять ЯВЛЕН Ситуация, для которой трудно найти причину Примеры: смерч, терроризм Несамостоятельные характеристики: ОТСУТ и КАУЗ - действуют на следующую за ними в семантической формуле СХ. 1. Оператор отрицания: СХ(бесчувственно) = ОТСУТ, ЭМОЦ СХ(стоять) = ОТСУТ, ДВИЖ. 2. Оператор каузации: СХ(наращивать) = КАУЗ, ИЗМ СХ(обязывать) = КАУЗ, МОДЛ.

Русский Общесемантический словарь (РОСС) Формат записи семантического отношения: R(А, B), где R – название Русский Общесемантический словарь (РОСС) Формат записи семантического отношения: R(А, B), где R – название семантического отношения, А – зависимый член отношения, B – управляющий член отношения. Для конкретных А, B и отношения R направление выбирается таким образом, чтобы формула R(А, B) была эквивалентна утверждению, что "А является R для B". Примеры: Это произошло вчера. ВРЕМЯ(ВЧЕРА, ПРОИЗОЙТИ) Указ Президента АВТОР(ПРЕЗИДЕНТ, УКАЗ) Высота дома – 20 метров ЗНАЧ(20 МЕТРОВ, ВЫСОТА) два яблока КОЛИЧ(ДВА, ЯБЛОКО) высота дома ПАРАМ(ВЫСОТА, ДОМ) ножка стула ЧАСТЬ(НОЖКА, СТУЛ)

История развития систем МП 90 -е – наши дни Развитие рынка ПК, разработка новых История развития систем МП 90 -е – наши дни Развитие рынка ПК, разработка новых систем МП, в том числе online-переводчиков.

translate. google. ru translate. google. ru

translate. ru translate. ru

systranet. com systranet. com