d15383ad87d6b2c0f835b62a49448c52.ppt
- Количество слайдов: 1
14. 616. 21. 0056 Федеральная целевая программа «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014— 2020 годы» Приоритетное направление: Информационнотелекоммуникационные системы Программное мероприятие: 2. 2 - Поддержка исследований в рамках сотрудничества с государствами — членами Европейского союза Соглашение № 14. 616. 21. 0056 от 11. 2015 на период 2015 - 2016 гг. Тема: Исследование и разработка системы аудиовизуального распознавания речи на базе микрофона и высокоскоростной видеокамеры Руководитель проекта: Карпов Алексей Анатольевич Получатель субсидии Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН) Иностранный партнер Западночешский Университет (the University of West Bohemia) г. Пльзень, Чешская Республика, Eвропейский союз Интернет-сайт: http: //www. zcu. cz Вид деятельности: высшее учебное заведение Роль в проекте: иностранный партнер Со-руководитель проекта: Милош Железны (Miloš Železný) - Ph. D, профессор, заместитель декана факультета прикладных наук Западночешского Университета Ожидаемые результаты проекта 1. Усовершенствованные методы и алгоритмы определения границ речи в аудиовизуальном сигнале, параметрического представления аудио- и видеосигналов для многомодального распознавания речи, аудиовизуального распознавания речи на основе вероятностных моделей акустических и визуальных единиц речи. 2. Программное обеспечение системы аудиовизуального распознавания слитной русской речи и ПО для записи аудиовизуального корпуса речи. 3. Многодикторный аудиовизуальный корпус (база данных) слитной русской речи для обучения системы. 4. Автоматическая система (программно-аппаратный комплекс) аудиовизуального распознавания русской речи на базе цифрового микрофона Октава и высокоскоростной видеокамеры JAI Pulnix (обеспечивает 200 кадров в сек. при оптическом разрешении 640 x 480 пикселей). Цели и задачи проекта Целью проекта является создание системы аудиовизуального распознавания речи на базе микрофона и высокоскоростной видеокамеры для повышения точности автоматического распознавания речи и речевых команд на русском языке, а также повышения робастности к различным акустическим шумам. Основными задачами проекта являются: 1. Разработка нового программного обеспечения для записи аудиовизуального корпуса речи. 2. Создание аудиовизуального корпуса русской речи на базе микрофона и высокоскоростной видеокамеры. 3. Усовершенствование методов эффективного параметрического представления аудио- и видеосигналов, методов аудиовизуального распознавания речи на основе вероятностных моделей акустических и визуальных единиц речи. 4. Разработка программного обеспечения системы аудиовизуального распознавания русской речи. 5. Проведение экспериментальных исследований с системой аудиовизуального распознавания русской речи на основе собранной речевой базы данных. Перспективы практического использования Разрабатываемые решения по аудиовизуальному распознаванию русской речи предназначены для использования отечественными государственными и коммерческими компаниями, в том числе российскими специальными службами и военными ведомствами. Применение разрабатываемой системы аудиовизуального распознавания речи в ближайшем будущем может дать возможность пользователям осуществлять эффективный вербальный диалог с информационно-справочными системами массового обслуживания (информационные терминалы и инфокиоски в аэропортах, авто- и железнодорожных станциях, метро и т. д. ). Актуально применение системы аудиовизуального распознавания речи в интеллектуальных информационных киосках, которые, как правило, устанавливаются в довольно многолюдных местах (вестибюлях, залах и т. д. ), где невозможно соблюдать хорошие акустические условия. Также в будущем возможно развитие системы аудиовизуального распознавания речи для создания телетекста телевизионных передач, что актуально для людей с дисфункциями слуха. Текущие результаты проекта Архитектура автоматической системы аудиовизуального распознавания русской речи Примеры обработанных видеокадров различных дикторов из корпуса аудиовизуальной русской речи HAVRUS 14. 616. 21. 0056 Основные текущие результаты проекта: 1. Выполнен расширенный аналитический обзор современной научнотехнической, нормативной, методической литературы по теме исследований и выполнены патентные исследования. 2. Разработано новое программное обеспечение для записи дикторовносителей с применением высокоскоростной видеокамеры и цифрового микрофона с использованием языка программирования С++/C, ПО обеспечивает синхронизацию и запись цифровых сигналов с микрофона Октава и высокоскоростной видеокамеры JAI Pulnix. 3. Создан новый аудиовизуальный корпус слитной русской речи HAVRUS, содержащий записи 20 различных дикторов, содержащий видеофайлы без сжатия (с оптическим разрешением 640 x 480 пикселей при 200 кадр/сек. , цветность – 24 бита), аудиофайлы без сжатия (в формате PCM WAV с частотой дискретизации 16 КГц, 16 бит на цифровой отсчет, моно формат, отношение сигнал/шум SNR - не менее 30 д. Б), а также текстовые файлы временной сегментации обучающей части корпуса на фразы, слова, фонемы и виземы. 4. Разработаны новые и усовершенствованы существующие методы определения границ речи в аудиовизуальном сигнале, методы эффективного параметрического представления аудио- и видеосигналов, а также методы аудиовизуального распознавания речи на основе вероятностных моделей акустических и визуальных единиц речи. 5. Разработано новое программное обеспечение системы аудиовизуального распознавания русской речи на базе микрофона и высокоскоростной видеокамеры на языке программирования C/С++, функционирующее под управлением ОС семейства MS Windows 64 bit. 6. Опубликованы 2 статьи в Scopus в изданиях «Lecture Notes in Computer Science» (LNCS), участие в 3 мероприятиях (SPECOM, HCI International, WSCG),