Голосовые диалоговые системы Антон Романович Нехаев, ассистент каф. ИС Арсений Александрович Жижелев, ассистент каф. ИС
Определение диалоговой системы Интеллектуальная система, обеспечивающая человеко -машинное взаимодействие на естественном языке Диалоговая система Аппаратная часть
Архитектура диалоговой системы Текст Распознавани е устной речи Диалог Управление диалогом Звук Модел ь Обработка информации Разбор текста Синтез устной речи Генерация текста
История голосовых интерфейсов 1920 е – игрушка «Radio Rex» , распознавала одну голосовую команду 1950 -60 е – дикторозависимые системы, распознававшие цифры 1970 -80 е – теоретический фундамент современных голосовых интерфейсов (features, HMM, LM) 1990 е – новые задачи: идентификация говорящего, идентификация языка 1990 -2000 е – промышленные голосовые интерфейсы 2010 е – массовый продукт, проникновение в различные сферы жизни
Голосовой интерфейс: сферы применения Кофейный автомат (вендинг) Управление роботами Управление умным домом Телефонные услуги (справочно-информационные) Автомобильный навигатор Телефонный коммутатор
Виды голосовых интерфейсов Предопределённые ответы и команды Осмысленная речь, смешанная инициатива Пассивный диалог (Система преследует свою цель) Вопросно-ответный режим. Система задаёт вопрос, ожидает ключевое слово. Целенаправленный диалог. Система формулирует вопрос, ответ на который даст максимум информации для продвижения к своей цели. Активный диалог (Пользователь преследует свою цель) Командный режим. Ожидание командных фраз, подходящих под жёсткую грамматику. Каждая команда непосредственно исполняется. Речевой сервис. Пользователь сообщает системе то, что считает нужным в рамках предметной области системы. Система берёт инициативу только в тех случаях, когда что-либо неясно.
Области знаний голосовых систем Физиология слуха/речи Цифровая обработка сигналов Распознавание образов Теория вероятности/принятия решений Скрытые марковские модели (HMM) Фонетика Лингвистические модели высказываний (грамматики и вероятностные N-граммы) Просодия, внесинтаксическая составляющая речи (интонация акценты и т. п. )
Принципы ведения диалога Диалог на языке пользователя Лаконичность Получение максимума информации Максимальное правдоподобие
Пример диалога П: Чай с сахаром А: Чёрный или зелёный чай? П: Чёрный. А: Чёрный чай с одной ложкой сахара. А: Стоимость Вашего заказа - 12 р. П: *10 А: Получено - 10 р. П: *5 А: Получено наличными - 15 р. Сдача 3 р. А: (готовит чай, выдает сдачу) П: (забирает чай и сдачу)
Сторонние компоненты и технологии Компоненты Sphinx 4 + модель русского языка Festival + русский голос Технологии разработки Scala Java Maven OWL