
Т.3Машинный перевод.ppt
- Количество слайдов: 29
Прикладные аспекты перевода. Проблемы машинного перевода. Тема 3.
Содержание Приложение лингвистики в области перевода. Виды перевода. Предпосылки возникновения и развитие машинного перевода (МП). Стратегии машинного перевода. Области использования машинного перевода. Важнейшие системы машинного перевода. Коммерческие системы машинного перевода. Проблемы машинного перевода. Лингвистические проблемы «естественного» перевода.
Приложение лингвистики в области перевода Проблемы перевода возникают и решаются с древнейших времен. Наука о переводе включает несколько составляющих: теория перевода, анализ перевода, методика обучения переводу.
Приложение лингвистики в области перевода Первые работы по теории перевода появились еще в период Античности. Марк Туллий Цицерон первым сформулировал принципы переводческой деятельности, настаивая на смысловом, а не формальном переводе. Активно теория перевода начинает развиваться в эпоху Возрождения (XIV —XVI вв. ), когда формируется как отдельное направление «художественный перевод» . Переводоведение как наука формируется в середине XX века во многом в связи с проблематикой автоматизированного перевода. В настоящее время создано несколько научных теорий перевода, направленных на решение различных задач переводческой деятельности. Общим для них является то, что все они базируются на гипотетической модели ментальной деятельности человека в процессе перевода.
Схема переводческой деятельности Исходный текст Текст результат Языковые знания Понимание на исходном языке Концептуальное представление текста Неязыковые знания Синтез на результирующем языке
Виды перевода по характеру переводческой деятельности; по цели; по переводному материалу; по степени механизации.
Лингвистические проблемы «естественного» перевода. Семантические. Различия в категоризации. Грамматические различия в структуре и внешней форме языков. Грамматические различия в категоризации. Скрытые категории. «Ложные друзья переводчика» .
Лингвистические проблемы «естественного» перевода. Синтаксические. Синтаксический тип языка. Лексическая сочетаемость. Способы введения прямой речи. Прагматические. Дескрипции в анафоре. Особенности стиля. Культурная обусловленность употребления.
Предпосылки возникновения и развитие машинного перевода (МП) резкое возрастание потока информации научно технического характера; формирование принципов кибернетики. Человек переводчик тратит 20 % своего времени на перевод, 40 % на поиск по словарю незнакомых слов и 40 % — на оформление перевода, а максимальная производительность труда переводчика составляет 4 5 авторских листов в месяц.
История развития: 1949 -1956 1949 г. Американский специалист по дешифровке Уоррен Уивер сформулировал идею МП и дал ей теоретическое обоснование. Основа – структурное сходство между языками, которое может быть формально описано. В 1948 г. А. Бут и Ричард Риченс произвели некоторые предварительные эксперименты по алгоритмическому описанию языка. Вскоре началось финансирование исследований. На ранних этапах разработка МП активно поддерживалась военными, при этом в США основное внимание уделялось русско английскому направлению, а в СССР — англо русскому. С этого времени в США появляются коллективы разработчиков МП (в Массачусетском технологическом институте — MIT, в Калифорнийском университете, в Национальном бюро стандартов в Лос Анджелесе, в Техасском университете).
История развития: 1949 -1956 Начало 50 х – информационный взрыв – резко увеличиваются объемы научно технической информации. Кроме того, необходимо отслеживание разработок противника, поэтому многие первые системы МП работали с русским языком. Важную роль сыграл предложенный в 1950 г. английским математиком А. Тьюрингом тест, который изменил вопрос о возможности машинного мышления в направлении человеко машинной коммуникации. В 1954 г. – Джорджтаунский эксперимент: перевод с РЯ на английский небольшого текста, при этом был использован словарь из 250 слов. 1955 г. В СССР –– перевод текстов по прикладной математике. Начало работ в Институте ПМ АН. Джорджтаунская система (IBM Mark II) в США, система МП И. К. Бельской в Институте математики Академии наук СССР, система АМПАР в Министерстве электропромышленности СССР, семейство практических систем машинного перевода в Ленинграде под руководством профессора Р. Г. Пиотровского и ряд других систем.
История развития: 1956 -1966 – доклад консультативного комитета по МП и автоматизированной обработке языка при Национальной АН США: ни одна из систем не оправдала себя ни в качестве, ни в экономичности. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Вторая причина отсутствие теоретической базы, необходимой для решения лингвистических проблем. Выявились две группы причин: лингвистические и экстралингвистические. Лингвистические —для разработки систем МП недостаточно имеющихся знаний о функционировании языковой системы. Экстралингвистические процесс понимания — важнейшая составляющая естественного перевода — далеко не обеспечивается чисто лингвистическим анализом речевого сообщения.
История развития: 1967 -1975 Разработка систем МП осуществлялась в США университетом Brigham Young University , штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе — группами GENA (Гренобль) и SUSY (Саарбрюкен). В 1960 г. в составе Научно исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.
История развития: 1967 -1975 И. А. Мельчук, Ю. Д. Апресян и А. К. Жолковский создают модель «Смысл — Текст» : набор правил, позволяющих человеку переходить от смыслов к тексту и обратно. Ю. Д. Апресян и А. К. Жолковский в 1974 г. в институте ИНФОРМ ЭЛЕКТРО начали работы по созданию системы франко русского пере вода (ЭТАП 1) и системы англо русского перевода (ЭТАП 2). В этом же году создается Всесоюзный центр переводов (ВЦП), в котором ряд научных коллективов работает над системами машинного перевода АМПАР (англо русский перевод), НЕРПА (немецко русский перевод) и ФРАП (французско русский перевод). С этого времени промышленные системы машинного перевода разрабатываются и широко используются в США, Европе и Японии.
История развития: 1975 - 1980 Новый подъем исследований в области МП, связанный с достижениями в области компьютерного моделирования интеллектуальной деятельности. Эта область исследований, возникшая несколько позже, получила название искусственного интеллекта, а создание систем машинного перевода было осмыслено в 1970 е годы как одна из частных задач этого исследовательского направления. За период 1978 93 гг. в США на исследования в области МП истрачено 20 миллионов долларов, в Европе — 70 миллионов, в Японии — 200 миллионов.
История развития: 1990 В 90 е годы происходит бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах. В настоящее время несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Language Engineering Corporation, Transparent Language, Nova Incorporated, Trident Software, Atril, TRADOS, Caterpillar Co. , Lingo. Ware; Ata Software; Lingvistica b. v. и др.
Европейское экономическое сообщество имеет свою службу перевода, вклю чающую около 2 тыс. переводчиков. Они переводят в год примерно 600 000 страниц текстов с пяти языков и также не справляются со все возрастающими потоками заказов на переводы. Это приводит к тому, что до специалистов различных стран зарубежная информация доходит с большим опозданием (порой через 5— 10 лет). Единственным способом увеличения скорости перевода является использование в переводческой деятельности современных компьютеров, которые в миллиарды раз быстрее человека могут выполнять необходимые для перевода логические действия. Если максимальная производительность труда переводчика составляет 4— 5 авторских листов в месяц, то такая, например, система машинного перевода, как SYSTRAN, пе реводит в час до 1 млн словоупотреблений (около 120 авторских листов).
Основные области использования машинного перевода. В службах научно-технической информации различных ведомств и организаций использование систем МП показало высокую эффективность, т. к. здесь требуется предварительная оценка информации. Крупные международные организации, использующие документы на многих языка, ООН и официальные структуры Европейского Союза, в которых документы должны появляться практически одновременно на всех языках членов ЕС, также используют системы МП. Область технической документации. Экспорт продукции, особенно высокотехнологичной, требует перевода больших массивов технических описаний и инструкций.
Системы машинного перевода. По принципу работы По количеству привлекаемых языковых пар. По тематической ориентации. По степени участия человека.
Принципы работы систем МП Технология МП, основанная на правилах (Rule based machine translation) Системы пословного перевода Трансферные системы — структуры входного языка > гр. конструкции выходного языка Интерлингвистические системы — язык посредник Преимущества: синтакс. и морфолог. точность Недостатки: трудоёмкость и длительность разработки, сложность работы с БД
Принципы работы систем МП Технология МП, основанная на сопоставлении корпусов текстов Технология МП, основанная на примерах (Example based machine translation) Технология МП, основанная на статистике (Statistical machine translation) Перевод генерируется на основе статистических моделей, параметры которых являются производными от анализа двуязычных корпусов текста.
Принципы работы систем МП Гибридная технология МП (Hybrid machine translation)
Стратегия перевода с использованием баз знаний. В МП стали преобладать системы перевода через базы знаний КВМТ (Knowledge Based Machine Translation). 1) 2) 3) анализ исходного текста, на основании которого строятся лингвистические и семантические структуры, представляющих содержание текста в форме баз данных, в виде концептуального графа, т. е. применяется язык концептуальных структур; сравнение лингвистических структур текста со специальными или с индивидуальными знаниями, также представленными в форме базы данных; генерация текстов на основе информации, заключенной в традиционных реляционных БД, а также в концептуальных текстовых структурах или в индивидуальных базах знаний.
Системы переводческой памяти Переводческая память – это база данных, где хранятся выполненные переводы. Технология ПП работает по принципу накопления: в процессе перевода в ТМ сохраняется исходный сегмент (предложение) и его перевод. Системы ПП: SDLX, TRADOS, Deja Vu, Star Transit, Trans Suite 2000, Word. Fast, Word. Fisher, ACROSS.
Важнейшие экспериментальные системы МП. Система GAT (Georgetown Automatic Translation). Системы СЕТА. Система TAUM. Системы семейства ЭТАП. Система ФРАП. Переводческий комплекс АМРАП. Система CULT. Системы семейства ALPS.
Коммерческие системы МП система Systran (Systran Software Inc); система PROMT. Современные системы этого производителя снабжены упрощенной базой данных ассоциированной памяти (translation memory). система TRADOS.
Проблемы машинного перевода К. Буатэ сформулировал 12 проблем современного машинного перевода, которые подразделяются им на 4 класса: концептуальные проблемы; проблемы архитектуры; инженерные проблемы; технические проблемы.
Проблемы архитектуры Проблемы «архитектуры» связаны с разработкой алгоритмов обработки языковых выражений: 1) конструирование и использование грамматических формализмов, которые позволили бы описать варианты (микроязыки или подъязыки) в рамках единого языка. 2) лексикографическая фиксация лексических данных, которые были бы пригодны для каждого подъязыка в рамках данного языка;
Литература Баранов А. Н. Введение в прикладную лингвистику. М. , 2001. Зубов А. В. , Зубова И. И. Информационные технологии в лингвистике: учеб. Пособие для студентов линг. фак. вузов. М. : Изд. центр «Академия» , 2004. Марчук Ю. Н. Компьютерная лингвистика: учебное пособие. М. : АСТ: Восток – Запад, 2007. Марчук Ю. Н. Проблема машинного перевода. М. , 1983. Новое в зарубежной лингвистике. Вып. XII. Прикладная лингвистика. М. , 1983. Краткая история машинного перевода. Журнал «Русский репортер» – http: //rusrep. ru/2010/24/istoriya_perevoda/
Т.3Машинный перевод.ppt