ИТЛ2_02_МП.ppt
- Количество слайдов: 54
Информационные технологии в лингвистике Системы машинного перевода
Машинный перевод (МП) - это автоматический перевод текстов с одного языка на другой (например, пословный перевод научно-технической информации, патентов, документов, инструкций, перевод программ ЭВМ с алгоритмического языка на машинный язык) - научное направление, охватывающее круг проблем, которые возникают при автоматизации перевода. Система МП - обычно содержит лингвистические описания входного и выходного языков, т. е. языков исходного текста и текста, полученного в результате перевода, и алгоритм, на основе которого выполняется данный перевод. - ориентированы преимущественно на работу с письменными текстами.
Машинный перевод (МП) В машинном переводе с самого начала задана ориентация на перевод только научных, информационных и научно-технических текстов. Оценка результатов базируется на условии Бар-Хиллела: перевод удовлетворителен, если специалист может повторить эксперимент, описанный в исходном тексте, на основе текста машинного перевода.
Проблемы машинного перевода: 1. Выбор структуры автоматического словаря 2. Формализация грамматик естественных языков 3. Решение задачи снятия омонимии слов и синтаксических конструкций 4. Обработка машинных оборотов
Структура автоматического словаря определяется: 1. типологическими характеристиками сопоставляемых языков; 2. выбором процедуры морфологического анализа; 3. подходом к хранению информации; 4. выбором структуры словарной статьи.
Формализация грамматик естественных языков определяется: 1. Типологическими характеристиками сопоставляемых языков 2. Общим подходом к организации синтаксического анализа (анализ с трансфером, анализ с языкомпосредником) 3. Выбором конкретного грамматического формализма (грамматики зависимостей, грамматики составляющих).
Снятие омонимии слов и синтаксических конструкций определяется 1. Типологическими характеристиками сопоставляемых языков 2. Способом описания морфологических, лексических, семантических характеристик слова 3. Способом согласования сем в высказывании 4. Процедурой контекстного анализа. Пример конверсионной омонимии: В управляющем операторе отсутствует слово, которое должно появиться… управляющем – существительное, ед. числа, предл. падеж, мужск. род, manager. управляющем – действительное причастие наст. времени, ед. числа, предл. падеж, мужск. /средн. род, managing, controlling, manipulated.
Обработка машинных оборотов определяется 1. Типологическими характеристиками сопоставляемых языков 2. Способом задания единиц словаря и указания на машинные обороты 3. Организацией автоматического словаря как комплекса 4. Процедурой лексико-морфологического анализа предложения.
Этап анализа исходного текста Результат анализа многовариантен – как выбрать правильную структуру? Выбор основывается на экстралингвистической информации – как ее хранить? В системах машинного перевода (МП) перевод моделируется как композиция лексических и семантико-синтаксических процедур.
Основные принципы организации практической системы МП: • Модульность. • Иерархичность организации. • Трансфер в качестве основного подхода к преобразованию. • Ориентация на предметную область. • Статистический подход к выбору элементов в лексикон и анализируемых структур.
Методы статистического анализа используются при решении следующих задач: 1. при определении структуры и состава АС и их словарных статей на основе анализа распределений слов в конкретной ПО; 2. при выборе основной терминологии, включаемой в АС, на основе изучения распределений в представительной совокупности текстов; 3. при исследовании синтаксических моделей предложений для ограничения применяемых процедур парсинга (автоматического синтаксического анализа); 4. при изучении структуры текстов для установления их особенностей.
При создании системы МП выделяются иерархически соподчиненные уровни реализации: 1. 2. 3. 4. 5. 6. 7. автоматического предредактирования текста; лексико-морфологического анализа; контекстного анализа и анализа групп; анализа функциональных сегментов; анализа предложений; синтеза выходного текста; автоматического постредактирования.
Уровень автоматического предредактирования текста Цель: предварительная разметка текста с целью определения границ его разделов. • Определение границ частей, глав, параграфов, абзацев, перечислений. • Приписывание особых помет заголовкам, элементам оглавления и перечислений. • Запоминание графической структуры текста для ее восстановления при синтезе перевода. • Выделение таблиц. • Разбивка текста на предложения.
Уровень лексико-морфологического анализа Цель: получение лексико-грамматической информации о лексических единицах текста. • Преобразование исходной цепочки символов в цепочку отдельных словоформ. • Сравнение каждой словоформы с единицей автоматического словаря и установление границ словоформы или оборота. • Установление лексико-грамматических характеристик лексической единицы. • Определение информации о переводе. • Модификация в соответствии с морфологией лексической единицы.
Уровень лексико-морфологического анализа Результат: формирование специальной структуры текста, в которой вместо каждой словоформы или сочетания словоформ (оборота) дается соответствующее ей (им) лексико-грамматическое описание с точностью до конверсионной омонимии и морфологических характеристик, а также соответствующее этим характеристикам описание перевода. Процедура лексико-морфологического анализа основана на структуре автоматического словаря. Методика сравнения текстовой словоформы со словарем определяется структурой словарной статьи.
Структура автоматического словаря (АС) Выбор заглавной единицы в словарной статье АС определяется типом языка. Каждая лексическая единица, входящая в автоматический словарь, получает описание на морфологическом, синтаксическом, семантическом и функциональном уровнях в виде соответствующего набора характеристик. При выборе структуры АС должны быть выполнены задачи: • Определение формы заглавной единицы в словарной статье; • Определение комплекса информации, составляющей описание ЛЕ; • Выбор оптимального способа организации словарной статьи в базе.
Структура автоматического словаря (АС) Заглавие словарной статьи определяется типом языка. Форма заглавного слова: • Словоформа • Основа Тип языка 1. Аналитические 2. Синтетические: • Агглютинативные языки • Флективные языки • Инкорпорирующие языки Для отождествления необходимо полное совпадение словоформы в тексте и словарной единицы => процедура морфологического анализа.
Структура автоматического словаря (АС) Для агглютинативных языков: - выделение словаря основ и словаря аффиксов; - выбор принципа организации словаря аффиксов; - установление связи между словарями. Сравнение текстовой словоформы с АС для агглютинативных языков требует: • Разработки алгоритма последовательного отождествления аффиксов и основы (от начала словоформы или от конца). • Определения структуры словаря аффиксов (алфавитная, по последовательности агглютинации, по частям речи).
Пример анализа словоформ для создания словаря для агглютинативных языков: Словоформы и их переводы sultan султан sultanlar султаны sultanlarimiz наши султаны sultanlarimizdan от наших султанов Основа и ее характеристики sultan сущ. , муж. род Аффиксы и их значения lar – множ. число imiz – принадлежность dan – родит. падеж
Словарь основ для флективного языка Для флективных языков характерны сложные чередования на стыках морф, беглая гласная, переразложение и опрощение традиционных основ. При создании словаря основ производится: • Определение принципов выделения основы и окончаний; • Выбор принципа организации словаря окончаний; • Установление связи между словарями.
Принципы выделения основы и окончаний Инженерно-лингвистический подход к определению основы предполагает использование агглютинативной машинной морфологии для описания флективного языка, формальное выделение в каждой словоформе двух частей: машинной основы и машинного окончания, т. е. машинной флексии. Машинная основа (МО) – последовательность букв от начала словоформы, общая для всех словоформ, входящих в формообразовательную парадигму данного слова.
Машинные окончания • Набор машинных окончаний, описывающих формоизменение конкретной лексемы, рассматривается как машинная (типовая) парадигм этой лексемы. • Все возможные в конкретном языке наборы машинных окончаний составляют систему типовых парадигм, в которой каждый набор зафиксирован один раз. • Одной и той же типовой парадигме могут соответствовать несколько разных машинных окончаний с одними и теми же лексико-грамматическими характеристиками, а каждой машинной основе может соответствовать столько типовых парадигм, скольким словам соответствует основа.
Машинные окончания Словам отвага, фонетика, лексика соответствует одна основа, в которой нет форм множественного числа; Основе лож соответствуют типовые парадигмы для описания слов ложь, ложиться.
Описание лексемы: • Нулевая парадигма – приписывается наречиям, несклоняемым существительным, союзам и частицам. Машинная основа равна самому слову. • Нулевая основа – используется для слов с супплетивным формообразованием (он, его, ему, им, …, идти, иду, шел, …), если выходным языком является русский. Если русский язык входной, такого рода слва вносятся в словарь как самостоятельные словоформы.
Омография машинных основ и словоформ в автоматическом словаре русского языка: 1. омографичны основы, но не возникает омографии форм слова: ср. дел_о, _а, _у и т. д. ; дел_ить, _ят, _им и т. д. ; 2. омографичны машинные основы и флексии: ср. клещ (насекомое), -а, -у, *ам …; клещ-и (инструмент), -ей, *ам …; катаракт (водопад) *а, *у, …, *ы, -ов; катаракт-а (заболевание) *а, *ы, *у …
Омография машинных основ и словоформ в автоматическом словаре русского языка: 3. омографичны канонические формы слов, но не совпадают формы их парадигм: чернет-ь (птица), -и, -ью и т. д. ; черн-еть (приобретать черную окраску), -ю, -ешь, - ете и т. д. ; 4. омографичны каноническая форма одного слова и падежная форма другого: пар (вещество; поле), -а, -у, *ом … паром (транспортное средство), -а, -у, -ом …
Парадигма в морфологии — 1) система словоформ, образующих одну лексему; 2) образец, схема словоизменения. Состав парадигмы конкретной лексемы определяется её принадлежностью к части речи и к определённому лексикограмматическому классу внутри неё (например, относительные прилагательные не имеют кратких форм и степени сравнения). Исходная форма представляет лексему в описаниях и словарях. В существительном и глаголе избирается форма, используемая в функции называния: им. п. ед. ч. для существительного и инфинитив для глагола, в прилагательном это форма муж. рода ед. ч. им. п.
Парадигма В формальном отношении парадигма классифицируются по след. признакам: 1) по набору окончаний — таким образом устанавливается тип словоизменения: тип склонения существительных, тип спряжения глаголов и т. д. ; 2) по набору основ (типы соотношения основ позволяют выделить формальные классы глаголов — продуктивные и непродуктивные, группы существительных, имеющие, напр. , разные основы в подпарадигмах ед. и мн. ч. ); 3) по акцентуации - выявляются разные акцентные парадигмы.
Типовая парадигма В каждом поле типовой парадигмы может храниться информация трех видов: • буквенная последовательность, соответствующая конкретному окончанию; • пробел, соответствующий нулевому окончанию; • знак &, который ставится на месте первого символа поля в том случае, когда образование конкретной формы согласно норме литературного языка невозможно.
Типовая парадигма
Типовая парадигма
Типовая парадигма
Схема работы системы МП 1. Этапы анализа: - ввод фразы в ЭВМ; - лексический анализ (на уровне слов и частей речи); - поверхностный синтаксический анализ (на уровне членов предложения); - глубинный синтаксический анализ (учитывающий смысловые связи между словами). - внутреннее представление фразы, отражающее ее смысл.
Схема работы системы 2. Этапы синтеза: - оснащение внутреннего представления фразы словами выходного языка - расстановка слов в нужном порядке (с последующим извлечением из словаря их внешней лексической формы) -формирование окончательного вида переведенной фразы. Последовательность преобразований предложения: АНАЛИЗ – ТРАНСФЕР (межъязыковые операции)- СИНТЕЗ
Уровни анализа
Классификации систем МП Системы с прямым и непрямым переводом. Системы с трансфером и с языком-посредником. Синтаксически-ориентированные и лексическиориентированные системы (под управлением словаря). Системы, основанные на знаниях.
Модульность лингвистического обеспечения - Отделение текущих знаний о тексте от языковых знаний - Отделение языковых знаний от знаний ПО - Отделение словарей от грамматик - Отделение грамматик от алгоритмов их обработки.
Словари 1. Словари общеупотребительной лексики 2. Словари терминологической лексики При переходе к текстам другой предметной области можно ограничится сменой только терминологических словарей.
Лингвистическое обеспечение систем МП 1. Словари 2. Грамматики 3. Формализованные промежуточные представления единиц анализа Математико-алгоритмическое обеспечение: - Механизмы (алгоритмы, процедуры) оперирования с имеющимися словарями, грамматиками и структурными представлениями.
Грамматики и алгоритмы 1. Контекстно-свободные (КС) – грамматики с конечным числом состояний – для каждого предложения строится дерево вывода 2. Цепочечные – фиксируют порядок следования элементов в терминах классов слов (прил. +сущ. ) или функциональных элементов (подлеж. +сказ. ) 3. Непосредственных составляющих (НС) – набор правил подстановки групп (именной, глагольной и т. п. ) 4. Зависимостей – задает иерархию отношений элементов предложения (главное-зависимое).
История развития систем МП Конец 40 -х – середина 60 -х Системы первого поколения – пословный (прямой) перевод без промежуточного языка. Простота и скорость работы. Середина 60 -х – середина 70 -х Системы второго поколения – перевод с использованием синтаксических теорий. Построение синтактикосемантической структуры. Анализ и синтез независимы, связь этапов путем межъязыковых операций (трансфера). (И. А. Мельчук и Ю. Д. Апресян: лингвистический процессор ЭТАП)
История развития систем МП Середина 70 -х – середина 80 -х Комбинированные системы (ЭВМ+человек), перевод узкоспециализированных текстов. Семантический языкпосредник - универсальный. Середина 80 -х Многоязычные системы с использованием лексических, терминологически баз знаний и семантических теорий.
Технология TM (translation memory) - работает по принципу накопления: 1. В процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных. 2. Если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. 3. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. Пример - система TRADOS (основана в 1984 г. ).
Комплекс ЭТАП - классический вариант синтактико-семантической системы МП. - основан на использовании механизма межъязыковых операций и обладает развитым синтаксическим компонентом, обогащенным семантическими сведениями. Синтаксическое представление в комплексе ЭТАП описывается деревом зависимостей: • ребра помечены именами синтаксических отношений, • узлами являются имена лексем предложения с набором морфологических характеристик.
Комплекс ЭТАП-1 - реализован перевод через поверхностно-синтаксическую структуру. ЭТАП-2 - процесс перевода делится на шесть основных этапов: 1 -2. этапы морфологического и синтаксического анализа 3. этап нормализации синтаксической структуры. 4. преобразование нормализованной английской структуры в нормализованную русскую. Для этого морфологические характеристики английских слов преобразуются в соответствующие русские; английские лексемы заменяются их русскими эквивалентами. 5. развертывание нормализованной структуры в синтаксическую структуру будущего русского предложения, порождается все лексикосинтаксическое своеобразие русского предложения. 6. морфологизация синтаксической структуры и расстановка знаков препинания.
Система ФРАП (Леонтьева Н. Н. ) Система французско-русского автоматического перевода была разработана коллективом лаборатории машинного перевода Всесоюзного центра переводов совместно с коллективом лаборатории машинного перевода МГПИИЯ им М. Тореза. 19761986 гг. - проектировалась как система с семантическим языкомпосредником. - синтаксический компонент может не давать на выходе правильного дерева анализа. -предусматривается этап семантической интерпретации, на вход которого могут подаваться структуры любого уровня полноты и правильности; на этом этапе должны уточняться первоначально неправильные, неоднозначные или неполные входные структуры. -В отличие от комплекса ЭТАП синтаксическая информация задается и декларативными, и процедурными средствами.
Русский Общесемантический словарь (РОСС) - используется при построении формального образа текста на семантическом уровне - содержит для каждого слова семантическую информацию как лингвистического характера (включая грамматический класс и валентную структуру лексемы), так и необходимую для стыковки с предметно-ориентированными словарями тех или иных областей знания –в виде Семантических Характеристик (СХ). Характеристики слова: – Набор СХ; – Грамматический класс; – Валентная структура; – Семантические и грамматические ограничения на выражение каждого актанта из валентной структуры; – Английские эквиваленты лексемы. Семантический язык (аппарат), на котором записан РОСС используют системы ФРАП, ПОЛИТЕКСТ и ДИАЛИНГ.
Русский Общесемантический словарь (РОСС) Из СХ строятся формулы (с логическими связками и, или). Примеры: АБСТР - Любое абстрактное существительное или прилагательное Примеры слов с таким СХ: модель, план, тенденция, обстоятельство ДВИЖ Глаголы движения (в том числе декаузативы) Примеры: идти, ронять ЯВЛЕН Ситуация, для которой трудно найти причину Примеры: смерч, терроризм Несамостоятельные характеристики: ОТСУТ и КАУЗ - действуют на следующую за ними в семантической формуле СХ. 1. Оператор отрицания: СХ(бесчувственно) = ОТСУТ, ЭМОЦ СХ(стоять) = ОТСУТ, ДВИЖ. 2. Оператор каузации: СХ(наращивать) = КАУЗ, ИЗМ СХ(обязывать) = КАУЗ, МОДЛ.
Русский Общесемантический словарь (РОСС) Каждому слову приписана некоторая формула, составленная из СХ и фиксируется валентная структура , где Аi - описание актанта, которое является парой <ГХi, CХi >, где ГХi - некое описание грамматического выражения актанта в предложении, а CХi семантическое описание актанта, и CХi - формула, составленная из СХ. идти босиком СПОСОБ(БОСИКОМ, ИДТИ) To paint smth. with grey СРЕДСТВО (paint, grey) резать ножом ИНСТР(НОЖ, РЕЗАТЬ)
Русский Общесемантический словарь (РОСС) Формат записи семантического отношения: R(А, B), где R – название семантического отношения, А – зависимый член отношения, B – управляющий член отношения. Для конкретных А, B и отношения R направление выбирается таким образом, чтобы формула R(А, B) была эквивалентна утверждению, что "А является R для B". Примеры: Это произошло вчера. ВРЕМЯ(ВЧЕРА, ПРОИЗОЙТИ) Указ Президента АВТОР(ПРЕЗИДЕНТ, УКАЗ) Высота дома – 20 метров ЗНАЧ(20 МЕТРОВ, ВЫСОТА) два яблока КОЛИЧ(ДВА, ЯБЛОКО) высота дома ПАРАМ(ВЫСОТА, ДОМ) ножка стула ЧАСТЬ(НОЖКА, СТУЛ)
История развития систем МП 90 -е – наши дни Развитие рынка ПК, разработка новых систем МП, в том числе online-переводчиков.
translate. google. ru
translate. ru
systranet. com