Технологии распознавания речи в работе письменного переводчика Дмитрий

Скачать презентацию Технологии распознавания речи в работе письменного переводчика Дмитрий

troitsky_tfr.pptx

Размер: 2.3 Мб
Автор:
Количество слайдов: 11

Описание презентации Технологии распознавания речи в работе письменного переводчика Дмитрий по слайдам

Технологии распознавания речи в работе письменного переводчика Дмитрий Троицкий, к. т. н. , доц. , директор агентства переводов TTS

Цель : повышение производительности при письменном переводе • Узкое место: преобразование текста на пути «мозг переводчика – цифровой носитель» 150… 200 знаков в минуту Перевод по хорошо знакомой тематике выполняется со скоростью набора текста на клавиатуре

Предлагаемое решение : распознавание речи Современные технологии: Распознавание offline – непригодно для практического использования Распознавание online с использованием распределенных вычислений – Google Speech API (разрабатывается с 2011 г группой из 32 человек). API бесплатна для разработчиков ПО

Принцип работы Google Speech API АЦП Файл FALC Сервер Google Текстовая строкаhttps Служебные данные

Особенности Google Speech API Отсутствие каких-либо настроек распознавания Поддержка многих языков с автоопределением (иногда ошибается и вместо русского слова выдает аналогичное английское) Наличие обширных словарей (знает даже очень редкие слова) Учет результатов поисковых запросов в Интернете (вероятностных связей между словами) Изредка возникают «затыки» — временная недоступность сервера

Качество распознавания Google не сообщает % распознавания В статье Julius Adorf Web Speech API (KTH Royal Institute of Technology, Stockholm) приводятся следующие данные для английского языка: В среднем 75… 85%

Применение в работе письменного переводчика Сервер Googleтекст CAT — система Локальное приложение Приложение разработано в среде Delphi XE 2 и выполняет следующие функции: Запись звука с выбранного источника в FLAC-файл (начало и конец записи – по нажатию и отпусканию заданной в настройках комбинации клавиш) Отправка FLAC-файла на сервер Google и получение ответа Вставка полученной текстовой строки в любое приложение

Оценка эффективности внедрения 150… 200 знаков в минуту 350… 450 знаков в минуту Значительно меньшая утомляемость (на управление мелкой моторикой рук тратится заметная часть «вычислительной мощности» мозга) Вместо туннельного синдрома – тонзиллит Упрощение диверсификации для устных переводчиков, переходящих на письменный перевод

Из личного опыта Качество микрофона, внешние шумы – не влияют на распознавание (частотный диапазон голоса очень невелик) Плохо распознаются окончания русских слов ( «переводчик и » , «переводчик а » , «переводчик у » …) Лучше распознается быстро произносимый текст (видимо, API сделано под темп речи английского языка) Говорить надо естественно, с обычной интонацией, не пытаясь выделять слова, удлинять паузы между ними и пр. Не надо «усиленно» диктовать, как лектор на лекции!

Основные преимущества Заметный рост производительности Отсутствие опечаток: все слова подставляются из словарей Снижение утомляемости повышение качества: устраняется подсознательное желание «подсократить перевод» , чтобы набирать поменьше букв Основные недостатки Требуется обязательное повторное вычитывание (я привлекаю корректора) для контроля окончаний и проверки, не проскочило ли похожее по звучанию слово ( «двух местных жителей» – « двухместных жителей » )

Спасибо за внимание, готов ответить на ваши вопросы!Выражаю благодарность Ирине Бариновой, модератору секции устного перевода сайта «Город переводчиков» , за ценные советы и поддержку при подготовке данного доклада.

Зарегистрируйтесь, чтобы просмотреть полный документ!

РЕГИСТРАЦИЯ