RIS-TTS.ppt
- Количество слайдов: 22
ОСНОВЫ РЕЧЕВЫХ ТЕХНОЛОГИЙ СИНТЕЗ РЕЧИ ПО ТЕКСТУ Обзор технологии Национальный исследовательский университет Санкт-Петербургский государственный университет информационных технологий, точной механики и оптики
ИСТОРИЯ РАЗВИТИЯ СИНТЕЗА РЕЧИ 1779 Х. Краценштейн (атикуляторный синтез – 5 гласных: а, э, и, о, у); 1791 В. Фон Кемпелен (модель языка и губ, синтез гласных и согласных); 1846 Д. Фабер – говорящий орган «Euphonia» с возможностью пения; 1930 -е VOCODER – управление с клавиатуры, разборчивая речь (Bell Labs); 1968 - первый полноценный формантный синтез на компьютере (Bell Labs); 1970 -е – первые макрокоимпилятивные синтезаторы; 1980 – коммерческая реализация формантный синтеза в системе DECtalk (D. Klatt); 1990 -е - компилятивные синтезаторы, Unit Selection; 2000 -е – Unit Selection, HMM – синтезаторы, гибриды. 2
ЗАВИСИМОСТЬ КАЧЕСТВА СИНТЕЗА ОТ ИСПОЛЬЗУЕМОЙ ТЕХНОЛОГИИ 3
ПУТЬ ОТ ТЕКСТА К РЕЧИ 4
НОРМАЛИЗАЦИЯ ТЕКСТА Текст, подаваемый на синтез, часто содержит большое количество обозначений, которые не могут быть прочитаны (то есть транскрибированы) в исходном виде. Требуется их расшифровка, то есть приведение к обычным словам русского языка. Эта процедура называется нормализацией текста. К обозначениям, требующим расшифровки, относятся: - Сокращения: например, "и т. д. , и т. п. " будет расшифровано как "и так далее, и тому подобное". - Аббревиатуры: например, "СПб", "ЦРТ" должны быть прочитаны как "эспэбэ", "цээртэ". - Цифровые обозначения, в том числе количественные и порядковые числительные, номера телефонов, даты, время, римские цифры и т. п. - Знаки, не являющиеся буквами, цифрами и знаками препинания, например, "+", "№", "%". Расшифровка таких обозначений, как сокращения, аббревиатуры, специальные знаки представляет для русского языка особую сложность, поскольку одному и тому же сокращению или цифре может соответствовать несколько различных форм. Так, во всех следующих примерах цифра "12" будет иметь разную расшифровку: "12 стульев", "к 12 часам дня", "12 -й разряд", "12 годами старше". В словосочетании "16 Мб" сокращение следует расшифровывать как "мегабайт", а в словосочетании "32 Мб" - как "мегабайта". Разные формы и у числительного, и у знака процента должны быть в примерах "приобрел 25% акций" и "владеет 25% акций". Чтобы выбрать правильную расшифровку, программа синтеза речи производит анализ контекста. 5
ОПРЕДЕЛЕНИЕ МЕСТА УДАРЕНИЯ Для определения места ударения в слове система синтеза речи по тексту использует морфограмматический словарь. За основу был взят словарь группы АОТ, находящийся в свободном доступе; этот словарь был существенно расширен и усовершенствован. Из словаря также берется информация о наличии буквы "ё", которая на письме, как правило, передается как "е". Кроме того, для каждого слова сохраняется информация о грамматических характеристиках: часть речи, для имен - род, число, падеж, одушевленность, для глаголов - время, лицо, число и т. п. , а также о некоторых семантических характеристиках (имя, фамилия, географическое название. . . ). Эта грамматическая информация необходима для последующих этапов обработки: снятия омонимии и расстановки пауз. На данный момент объем словаря составляет более 190 тыс. лексем (словарных статей). Если слово все же не нашлось в словаре, программа синтеза речи пытается предсказать правильное место ударения и грамматические характеристики слова, основываясь на заданных правилах. Так, многие незнакомые слова являются приставочными образованиями (например, "гиперсовременный" от "современный"). Если в составе слова находится префикс из заданного списка, он отбрасывается и оставшаяся часть слова ищется в словаре. В других случаях производится анализ окончания и суффикса слова. Слово может не найтись в словаре и из-за орфографической ошибки (опечатки), поэтому анализ текста пытается исправить такие ошибки ("карова" -> "корова"). 6
СНЯТИЕ ОМОГРАФИИ Снятие омонимии (омографии) представляет из себя выбор одной из нескольких словоформ, соответствующих тому или иному слову текста. Эти словоформы могут отличаться ударением (з. Амок или зам. Ок), наличием буквы ё (все или всё), грамматическими характеристиками (стали - глагол или существительное). Выбор словоформы производится с помощью анализа контекста: лексического окружения слова, а также его грамматической позиции в предложении. 7
ВЫДЕЛЕНИЕ СИНТАГМ И ПАУЗАЦИЯ Деление предложения на синтагмы осуществляется в первую очередь с опорой на знаки препинания. В большинстве случаев наличие знаков препинания является надежным сигналом о наличии паузы. В то же время некоторые отдельные случаи, такие как вводные слова (возможно, к сожалению и т. п. ), обрабатываются по особым правилам, поскольку выделение их запятыми не обязательно обозначает возможность паузы при чтении. Длинный отрезок предложения, не разделенный знаками препинания, делится на синтагмы по особому алгоритму, включающему в себя анализ синтаксических связей между словами. 8
ОПРЕДЕЛЕНИЕ ТИПА ИНТОНАЦИИ И ФРАЗОВОГО УДАРЕНИЯ Для каждой синтагмы, выделенной в процессе анализа текста, выбирается наиболее подходящий интонационный контур (ИК). Набор интонационных контуров, используемый в системе синтеза речи, основан на стандартной классификации Е. А. Брызгуновой и включает в себя такие интонационные типы, как повествовательное предложение, общий вопрос, частный вопрос, восклицание и т. п. Выбор ИК осуществляется на основе знаков препинания (вопросительный знак, восклицательный знак, запятая, тире и т. п. ), а также лексического содержания предложения (например, наличия вопросительных слов). Деление на синтагмы сопровождается также выбором места фразового ударения, то есть основного ударения в синтагме. В большинстве случаев в русском языке фразовое ударение падает на последний ударный слог синтагмы, например: Студент читает книгу. Однако в некоторых случаях фразовое ударение может переноситься на другой слог, например, когда последним словом в синтагме является местоимение: Вы можете прочесть ее. 9
ТРАНСКРИБИРОВАНИЕ Построение транскрипции по правилам и учет исключений. Транскрипция – преобразование графического текста в транскрипционные знаки, обозначающие ее звучание. Соблюдение правил смягчения, озвончения, оглушения согласных. Предударные и заударные позиции гласного. Долгие согласные и т. д. Пример – p r’ i 1 m’ e 0 r Сделать – z d’ e 0 l a 4 t’ На небе Солнце – n a 1 n’ e 0 b’ e 4 s o 0 n c e 4 Помощь животным – p o 0 m a 4 G u 1 v o 0 t n u 4 m 10
РАЗМЕТКА РЕЧЕВЫХ ФОНОГРАММ 11
РАЗМЕТКА РЕЧЕВЫХ ФОНОГРАММ 12
ВЫБОР ЗВУКОВЫХ ЭЛЕМЕНТОВ. Алгоритм UNIT SELECTION Целевая последовательность стоимость замены • Стоимость замены • Стоимость связи Поиск оптимальной последовательности • стоимость связи 13
ВЫБОР ЗВУКОВЫХ ЭЛЕМЕНТОВ. Стоимость Замены i-й элемент фонетико-просодической последовательности, - элемент речевой базы, - вес k-ой характеристики в сумме, функция расстояния для k-ой характеристики, - p – число характеристик 14
ВЫБОР ЗВУКОВЫХ ЭЛЕМЕНТОВ. Используемые параметры стоимость замены: стоимость связи: • Тип контекста слева и справа • Величина разницы значений основного тона; • Величина разницы в спектральной картине на границе аллофонов; • Величина разницы по уровню энергии на границе аллофонов; • Величина разницы в производной по частоте основного тона, энергии, спектра; • Учет разрыва связи между естественной последовательностью аллофонов от аллофона; • Соответствие реальной и идеальной транскрипции; • Соответствие траектории основного тона заданной модели; • Состав дальнего контекста; • Отклонение длительности аллофона от статистических значений; • Отклонение энергии аллофона от статистических значений 15
ВЫБОР ЗВУКОВЫХ ЭЛЕМЕНТОВ. Поиск оптимальной последовательности • Разбиение предложения на фонетические слова • Подбор оптимальных кандидатов для синтеза ударной гласной • Построение траекторий в начало и конец фонетического слова • Выбор N-оптимальных (Витерби) • Выбор синтезирующей последовательности (Витерби) 16
Технология HMM-синтеза Преимущества Недостатки • Относительная независимость от состава звуковой базы; • Гибкость в реализации интонационного оформления; • Возможность имитации эмоционального состояния говорящего; • Возможность изменения тембровой окраски голоса, вплоть до смены пола говорящего; • Возможность имитации голоса конкретного человека. • Наличие «глобальной искусственности» в голосовом сигнале – роботизированность. 17
Технология HMM-синтеза 18
Технология HMM-синтеза. Генерация траектории ОТ 19
Технология HMM-синтеза. Использование классификаторов CART для создания моделей CART: Classification and Regression Tree – дерево классификации и регрессии. 20
Технология гибридного US+HMM синтеза 21
СПАСИБО ЗА ВНИМАНИЕ! О КАФЕДРЕ КОНТАКТНАЯ ИНФОРМАЦИЯ Кафедра «Речевые информационные системы» (базовая кафедра ООО «Центр речевых технологий» ) Санкт. Петербургского Национального исследовательского университета информационных технологий, механики и оптики (ИТМО) в рамках направления 230400. 68 «Информационные системы и технологии» осуществляет прием в магистратуру по образовательной программе 230400. 68. 04 «Речевые информационные системы» . Санкт-Петербург Адрес: Санкт-Петербург, ул. Красуцкого, 4 Телефон: (+7 812) 325 -88 -48 Факс: (+7 812) 327 -92 -97 Отдел продаж: (+7 812) 325 -88 -48 доб. 1 Эл. почта: ris@speechpro. com Почтовый адрес: 196084 Санкт-Петербург а/я 515 «Центр речевых технологий» Заведующий кафедрой – Генеральный директор ООО «Центр речевых технологий» , кандидат технических наук Хитров Михаил Васильевич, вице-президент консорциума «Российские речевые технологии» , член ISCA, IEEE. Кафедра «Речевые информационные системы» входит в состав факультета Информационных технологий и программирования, деканом которого является лауреат Премии Президента РФ в области образования, лауреат Премии Правительства РФ в области образования, член Международного организационного комитета чемпионата мира по программированию, региональный директор полуфинальных соревнований Северо. Восточного Европейского региона, лауреат премии 2009 ICPC De. Blasi Award, доктор технических наук, профессор Парфенов Владимир Глебович. Изменить или удалить колонтитул презентации можно в разделе Вставка>Колонтитул 22
RIS-TTS.ppt