Распознавание речи Лекция 10 Речевые технологии конгломерат

Скачать презентацию Распознавание речи Лекция 10 Речевые технологии конгломерат

Лекция 10 Распознавание речи.pptx

Количество слайдов: 49

Распознавание речи Лекция 10

Речевые технологии конгломерат программных и аппаратных средств, позволяющих осуществлять прежде всего синтез и распознавание человеческой речи + инструментарий разработчика

Синтез речи звуковое представление какой-либо информации, которое воспринимается человеком как речь Качество! • механический голос, • отсутствие интонационных пауз, • ошибки в распознавании омонимов

Зачем синтез речи незрячие и слабовидящие пользователи компьютеров

Неудовлетворительное качество речи • • • вызывает утомление, влияет на работоспособность, снижает внимание и качество восприятия информации.

Распознавание речи задача преобразования устной речи в письменный ее эквивалент, т. е. в текст более доступен для компьютерной обработки

Распознавание речи (широкий смысл) определение смыслового содержания идентификации личности по голосу

Управление техническими средствами • • • голосовой набор телефонного номера, включение и выключение бытовых электроприборов, голосовое управление компьютером и т. п.

Адаптационные возможности Большой потенциал! Ограниченные физические возможности

История систем распознавания речи "Назад в будущее - 2" Управление телевизором

американская компания Bell Laboratories Год рождения: 1952 Audrey распознавал цифры • • • Диктующий человек должен был быть мужчиной Это человек должен был уже ранее работать с системой Пауза между словами должна была составлять около 350 миллисекунд 90% точности 60 -70% точности

1962 г. IBM, Сиэтл, Всемирная выставка компьютер Shoebox мог распознать шестнадцать слов на английском языке в лабораториях США, Великобритании, Японии, СССР ведутся опыты по разработке систем распознавания речи

1971 г. внимание военных США, финансирование Министерством обороны должен был распознавать не менее тысячи слов, и понимать связную речь, т. е. речь без четко определенных пауз между словами

1976 г. Шесть систем. Самая удачная "гарпия": Четыре секунды предложения = пять минут обработки - словарным запасом в 1011 слов, - понимала связную речь, - обладала эффективным алгоритмом поиска правильных конструкций

Нейронные сети для распознавания: огромный провал коммерческие программы типа Kurzweil text-to-speech (надиктовка)

80 -е годы Bell Laboratories и IBM системы, способных работать с акустической дисперсией, акцентами и не требующих предварительных тренировок Статистический метод распознание неизвестных параметров, на основании заданных. [ распознавать контекст на самом примитивном уровне и узнавать слова на основании неполных данных, вызванных помехами, акцентом и т. п. ]

1987 г. • реагировать на простые события: попадание на свет или темноту, • «читать» специальные книги из комплекта, пользуясь сенсорами на пальчиках Julie Talking Doll

1990 г. Dragon Dictate: коммерческая программа для обычных пользователей • • 9 000 $ надиктовка

1996 г. VAL от Bell. South – первый голосовой портал Функции: - обрабатывать телефонные справочные запросы, - информационные стенды в крупных торговых центрах и т. п.

1997 г. способна распознавать нормальную речь (~ сто слов в минуту) 695 долларов,

2001 г. Microsoft, Office XP несовершенства: − наличие «тренировки» , − перенастройки со сменой рабочего помещения, − нечеткости произношения массовость

2002 г. Google (тестовый режим) Voice Search требовалось звонить на специальный номер, что было весьма неудобно

2005 г. первая операционная система с функцией распознания речи Mac OS X Tiger: Voice. Over 1. распознание речи, 2. синтезатор - читать содержимое текстовых документов, почтовых и веб-страниц • • спикеронезависимая, работала с несколькими пользователями одновременно.

2006 г. Windows Vista с полноценной поддержкой функции распознания речи

2009 г. Voice Search от Google для i. Phone опирается на облачные вычисления своих суперкомпьютеров

Voice Search крупномасштабный анализ данных поиска совпадений между огромным числом голосовых запросов пользователей и их словами быстрый рост и совершенствование системы Появляется версия для Android

2011 г. функция распознавания голоса в браузере Chrome устранены ненужные звонки и прочие неудобства БД = около 230 миллиардов слов на многих языках мира

14 октября 2011 г. SIRI персональный виртуальный помощник: − обрабатывает естественную речь, − отвечает на заданные вопросы, − предоставляет рекомендации не использует стандартные программы, а идет живое общение между пользователем и аппаратом она не понимает русский (и неизвестно как долго еще будет не понимать) Апрель 2013, Siri распознает русские буквы

Siri нуждается в активном интернет-соединении 1 шаг взаимодействия = 50 -Кбайт пакет данных «Есть ли поблизости какая-нибудь неплохая пиццерия? » «Ну хорошо, а как насчет суши? » отлично учитывает контекст

Речевое взаимодействие В 2011 г. приложения для синтеза русской речи стремительно совершенствовались

РЖД стала использовать вместо дикторов роботов тел. 8 800 775 00 00 - Единый Информационный Сервисный Центр ОАО «РЖД» Крупнейшие компании-разработчики (ЦРТ; Nuance) • • не болеют, не увольняются, постоянно готовы к работе, можно создавать более гибкие голосовые сервисы

Центр речевых технологий 2010 год (по заказу правительства Мексики) первая в мире общенациональная система голосовой идентификации СПб Нью-Йорк 2012 год (Эквадор) проект по созданию первой в мире системы учёта и идентификации личности по двум биометрическим признакам — по голосу и по лицу. Более 1/3 объёма выпускаемой продукции экспортируется в более чем 70 стран мира Участник кластера Информационных технологий инновационного центра Активная разработка приложений для мобильных устройств

Следующий шаг: Интерфейсы безмолвного доступа Silent Speech Interfaces (SSI) получение и обработка речевых сигналов на ранней стадии артикулирования Недостатки обычного распознавания: • • • чувствительность к шумам необходимость четкой и ясной речи (беспокойство окружающих) конфиденциальность

2 типа систем распознавания работающие «на клиенте» (client-based) Speereo Software мобильность, независимость по принципу «клиент-сервер» (clientserver) Google Voice, Vlingo большая база для обучения

Основные способы распознавания речи

Распознавание отдельных команд раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря. Техническая реализация: точность распознавания ограничена объемом заданного словаря Применение: голосовая навигация по сайтам

Распознавание по грамматике распознавание фраз, соответствующих определенным заданным правилам (грамматике) Техническая реализация: задание грамматик: стандартные XML-языки (Voice. XML), обмен данными между системой распознавания и приложением: протокол MRCP. системы голосового самообслуживания (СГС)

Voice. XML Opera (с версии 7. 6) Moodle — планируется использовать во второй версии. + десятки тысяч других приложений

Поиск ключевых слов в потоке слитной речи распознавание отдельных участков речи Техническая реализация: автоматически находятся лишь те участки, которые содержат заданные слова или словосочетания в поисковых системах, в системах мониторинга речи

Распознавание слитной речи на большом словаре все, что сказано, дословно преобразуется в текст Техническая реализация: не решена нигде в мире потенциальная сфера применения технологии в коммерческих целях

ЭТАПЫ РАСПОЗНАВАНИЯ СЛИТНОЙ РЕЧИ

1. Оценка качества звукового сигнала определяется уровень помех и искажений

2. Работа модуля акустической адаптации Управляет модуль расчета параметров речи выделяются участки, содержащие речь

3. Декодер сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях Звуковой сигнал модели наиболее вероятная последовательность слов Конечный результат распознавания

Акустические модели небольшой рабочий словарь сопоставление входного потока речи с шаблонами отдельных звуков – акустическими моделями комбинирование различных подходов: ЦРТ классическая теория цифровой обработки сигналов + технологии искусственных нейронных сетей устойчивы к междикторской вариативности, а также к помехам и искажениям, вносимым окружением или каналом передачи

Языковые модели определить наиболее вероятные словесные последовательности Большой словарь: увеличивается количество слов, схожих или даже одинаковых по звучанию И человек не распознает

Сложность зависит от языка английский язык: статистические модели (N-граммы). высокофлективные языки (языки, в которых существует много форм одного и того же слова) + допустим произвольный порядок слов ( «мама мыла раму» - «раму мыла мама» ) ЦРТ: гибридные языковые модели, o правила русского языка, o информация о части речи и форме слова, o классическая статистическая модель

Модель определения темы разговора в зависимости от тематики речи автоматически менять словарь и языковые модели (с использованием теории data mining)

Высокое качество распознавания Зависит от 2 -х факторов: 1. Структура каркаса системы распознавания речи - набор программных модулей и алгоритмов, использующихся при распознавании 2. Качество моделей – акустических, языковых, тематических. модели обучаются с использованием большого объема материала • • • сотни часов записей речи тысяч дикторов, используются записи в различных каналах и различных условиях, используются текстовые корпуса объемом от сотен миллионов словоформ до нескольких миллиардов