Синтез речевого сигнала1.pptx
- Количество слайдов: 25
СИНТЕЗ РЕЧЕВОГО СИГНАЛА
КЛАССИФИКАЦИЯ СИСТЕМ СИНТЕЗА СЛИТНОЙ РЕЧИ (ССР) Классификацию методов синтеза речи можно провести по нескольким признакам: vпо характеру синтезируемой речи, vпо принципу построения синтезируемых сообщений, vпо методу синтеза, v по принципу реализации. По характеру синтезируемой речи: v предварительно закодированная, сжатая по возможности речь, v искусственные речеподобные звуки, сформированные электронным устройством. По методу синтеза речевого сигнала: vиспользование Марковских моделей, v нейросетей, vэвристических правил, vартикуляционной модели, v кодирования с линейным предсказанием (КЛП-синтез). По принципу построения сообщений: v компилятивные, vцелостные синтезаторы. По принципу реализации: v программные, v программно-аппаратные.
СИНТЕЗ НА ОСНОВЕ ЕСТЕСТВЕННОЙ РЕЧИ Синтезаторы на основе естественной речи используют заранее записанный речевой сигнал, который делится на фразы, слова, слоги, фонемы, дифоны и аллофоны. Для уменьшения объема занимаемой памяти используют широко известные из общей теории обработки сигналов способы сжатия сигнала: vописание формы речевой волны, vспектральное описание, vописание состояния речевого тракта. Для сжатия сигнала по описанию формы речевой волны используют: vлогарифмическую импульсно-кодовую модуляцию (ИКМ), v клиппирование, vаппроксимацию формы полуволны, v адаптивную дельта-модуляцию, vвсевозможные комбинированные способы. Самое сильное сжатие описания любого процесса дает выделение факторов (параметров), порождающих данный процесс: vописанию состояния речевого тракта (уравнение Вебстера), vописанию спектра сигнала: §при помощи разложения Фурье, §вейвлет-преобразования, vформантное описание (лежит на стыке решения уравнения Вебстера и спектрального описания).
КЛАССИФИКАЦИЯ СИСТЕМ СИНТЕЗА СЛИТНОЙ РЕЧИ (ССР)
Целостные синтезаторы При целостном синтезе естественная речевая информация записывается в виде единичных слов или фраз, а затем при выводе сигнал воссоздается путем соответствующего комбинирования ранее записанных речевых единиц. Целостный синтез обладает хорошей натуральностью звучания, но имеет ограниченный словарь. Кодирование (сжатие данных) Речевые сигналы Накопление Указание относительно выходной информации Декодирование Выходные сигналы синтезированной речи - оперирование большими объемами данных, значительно превышающими объемы, используемые в других методах, + весьма высокое качество речи в сравнении с компилятивным синтезом при использовании одних и тех же способов кодирования сигнала. Применяется в системах автоматического голосового оповещения и в других областях с небольшим количеством используемых слов (порядка нескольких десятков). Процессор MSM 9831: имеет встроенную память на 384 Кбит, адресация до 31 фразы, записанных с определенной частотой стробирования + информация управления фразами.
Компилятивные синтезаторы создают произвольные речевые сообщения по тексту из отдельных элементов естественного или искусственного происхождения. Прямой синтез уступает другим видам синтеза по натуральности речи, так как простая стыковка звуков не соответствует физике речеобразования и плохо воспринимается на слух, а для учета важнейших закономерностей речеобразования пока еще нет достаточно простых и эффективных моделей Системы компилятивного типа пока уступают целостным системам в натуральности звучания. Однако они имеют очень важные преимущества: компактность описания сообщений, неограниченный словарь, возможность синтеза речи по тексту. По правилам система должна иметь: v достаточно полный набор исходных речевых элементов, v иерархическую систему правил преобразования и объединения элементов в более крупные отрезки речи на уровнях звуков, слов и фраз с учетом просодических явлений (интонации, паузы, словесные и фразовые ударения), v иметь возможность накопления и использования опыта разработчиков-лингвистов, записанного в виде баз знаний.
Компилятивные синтезаторы Проще всего осуществлять такой синтез по фонетической транскрипции, иначе система должна обладать способностью преобразовывать орфографический текст в фонетический, а соотношение между ними очень сложное. текст Синтаксический анализ, деление на лексемы Расстановка ударений Декомпозиция на структурные элементы синтеза На синтез Использование набора правил дает Информация о качественных возможность формирования естественного характеристиках звука просодического оформления высказываний. В качестве элементов используются: v аллофоны, vфонемы, vдифоны и т. д. Основная проблема при выборе единиц синтеза – это учет коартикуляции, т. е. взаимного влияния артикуляционных движений при произнесении соседних звуков и, как следствие, зависимости параметров фонемы от фонетического окружения. Особенно подвержены коартикуляции переходные (начальный и конечный) участки фонем. -> использовать аллофоны – разновидности фонем, обусловленные конкретным звуковым контекстом. Число принимают равным 129.
Компилятивные синтезаторы
Компилятивные синтезаторы Одной из главных проблем при таком подходе остается предварительное выделение из речи набора аллофонов и последующее их согласование при синтезе, поскольку механическое расчленение и последующее соединение приводит к потере натуральности звучания слов. Улучшить качество работы подобных синтезаторов можно, усовершенствовав алгоритмы дробления слитной речи на составные элементы (например, фонемы), так как этот момент является одним из определяющих качество речевого синтеза. Примером таких алгоритмов может служить разработка компании «Истра» : фонемное описание сигнала без потери качества при сжатии от 20 до 200 раз.
Методы кодирования речевого сигнала Для того чтобы системы синтеза речи были более мобильными, имели меньшие требования к системе, их объемы уменьшают за счет более компактного описания речевого сигнала. Для этого используют: vкодирование формы речевой волны, vописание спектра звукового сигнала, vописание состояния речевого тракта. Исходная информация о сигнале поступает в виде последовательности отсчетов, взятых с некоторой частотой квантования fкв. Чем шире спектр сигнала, тем выше должна быть величина fкв. Согласно т. Котельникова А. В. , для того, чтобы при квантовании не потерять информацию о высокочастотных составляющих сигнала, необходимо выполнить условие fкв ≥ 2 fв f где в – верхняя граница спектра сигнала. Это соотношение верно при условии идеальной фильтрации восстановленной ступенчатой функции. Практически верхние частоты передаются со значительными искажениями, поэтому принимают fкв = (4 ÷ 5) fв или жертвуют точностью передачи высокочастотных компонент.
Методы кодирования речевого сигнала Кодирование формы сигнала v с помощью импульснокодовой модуляции (ИКМ), v разнообразных модификаций разностной ИКМ за счет представления формы волны некоторой упрощенной функцией. Например: vпрямоугольником, vтрапецией, vполусинусоидой, vколом и т. п. ).
Методы кодирования речевого сигнала Взятие отсчетов Восстановление сигнала в виде ступенчатой функции Способ представления аналоговых (непрерывных) сигналов с помощью последовательности отсчетов, взятых через равные интервалы времени , называют импульсно-кодовой модуляцией. Для ее характерна специфическая погрешность ступенчатой аппроксимации Если закодировать сигнал с помощью его приращений от отсчета к отсчету, то получится более компактное описание, которое называют разностной ИКМ. Разновидностью такого кодирования является случай, когда приращения квантуют только двумя уровнями (убыванием и увеличением на фиксированную величину). Такое кодирование называют дельта-модуляцией. Адаптивная дельта-модуляция отличается тем, что период квантования согласуют с характером изменения сигнала: при медленных изменениях сигнала квантование производится реже. Это снижает шумы квантования и позволяет сжать описание сигнала
Методы кодирования речевого сигнала Взятие отсчетов Восстановление сигнала в виде ступенчатой функции Линейная аппроксимация При восстановлении сигнала по ИКМ используют операцию интегрирования последовательных приращений. Погрешность такой линейной аппроксимации меньше, чем ступенчатой.
Методы кодирования речевого сигнала Описание состояния речевого тракта Одним из подходов кодирования речевого сигнала является описание состояния речевого тракта, то есть создание математического аппарата, который бы описывал процессы речеобразования. Созданием таких математических моделей занималось большое число исследовательских групп Европы, Америки, Японии, России и стран бывшего СССР. На основе теории физической акустики и электромеханических аналогий были установлены многие важные свойства акустических процессов в речево тракте и была создана акустическая теория речеобразования, которая учитывает податливость стенок речевого тракта, переменные граничные условия со стороны ка губ, так и голосовых складок, изменения во времени площади поперечного сечения речевого тракта, взаимодействие голосового источника с речевым трактом и т. д.
Методы кодирования речевого сигнала Описание состояния речевого тракта Имеются уравнения, описывающие различные характеристики речевого тракта. Уравнение Вебстера, или уравнение рупора: где площадь поперечного сечения S является функцией пространственной координаты x вдоль его оси и времени t, Ф – потенциал скорости, С – скорость звука. Уравнение речевого тракта относительно звукового давления где Р – звуковое давление на стенки речевого тракта. Уравнение речевого тракта относительно колебательной скорости где ϧ - среднее значение осевой компоненты вектора колебательной скорости.
Методы кодирования речевого сигнала Описание состояния речевого тракта Это уравнение во многих отношениях удобнее остальных. Здесь форма уравнения Вебстера получается без предположения о неизменной площади поперечного сечения S во времени. Кроме того, основное преимущество состоит в удобстве записи граничных условий, в которые часто входят и давление и скорость. Решив это уравнение, можно получить звуковое давление и скорость, продифференцировав потенциал скорости Ф по t и x.
Методы кодирования речевого сигнала Описание спектра сигнала Самое сильное сжатие описания любого процесса – выделение факторов (параметров), порождающих данный процесс. С этой точки зрения предпочтение надо отдать спектральному описанию v на основе быстрого преобразования Фурье (БПФ), v вейвлет-преобразованию, v формантному описанию v кодированию с помощью коэффициентов линейного предсказания (КЛП), которое так же основано на модели речеобразования. Частотная полоса речевого сигнала обычно лежит в пределах 4 к. Гц, а его частотный спектр изрезан множеством впадин, обусловленных явлением резонанса. Резонанс – избирательный, формируется голосовыми связками и источниками звука в ротовой полости при передаче звука по речевому тракту.
Методы кодирования речевого сигнала Спектрально-полосной синтез Спектрально-полосные синтезаторы основаны на восстановлении речевых колебаний по спектральному описанию речи. Как видно из пред. рисунка, частотный спектр изрезан множеством впадин, обусловленных явлением резонанса. Синтезатор содержит генератор импульсов тона и генератор шума, полосовые фильтры возбуждения Ф 1 , . . . , Фп частотных каналов, модуляторы М 1 , . . . , Мп, выходные полосовые фильтры Фвых , . . . , Фвых п и фильтр нижних частот Фн.
Методы кодирования речевого сигнала Спектрально-полосной синтез В данном случае голосовые связки представлены генератором периодических импульсов; они обусловливают звонкие звуки речи (гласные, полугласные и часть согласных). Источники шипящих и взрывных звуков в ротовой полости моделируются генератором белого шума, имитирующего в основном глухие звуки (часть согласных). Функции передачи звука аппроксимируется фильтром, имеющим множество резонансов.
Методы кодирования речевого сигнала Спектрально-полосной синтез Входной информацией здесь являются энергия частотных составляющих, частота основного тона, признак тоншум. Число спектральных полос выбирают в пределах 5 – 20. Сигнал возбуждения (тон или шум) имеет достаточно широкий спектр, перекрывающий спектр синтезируемого сигнала. Модуляторы под воздействием спектральных амплитуд А 1. . . , Ап формируют уровни частотных составляющих выходного сигнала. Эти составляющие с помощью выходных фильтров очищаются далее от боковых полос колебаний, возникающих при модуляции.
Методы кодирования речевого сигнала Спектрально-полосной синтез Недостатками полосных синтезаторов являются интерференция между составляющими спектра, возникновение временных сдвигов между этими составляющими, что в итоге приводит к неестественному звучанию и недостаточной разборчивости. Методы полосного синтеза интенсивно развивались в период 1940– 60 -х годов для задач вокодерной техники (для сжатия передаваемого речевого сигнала). Эти методы отражают типичный радиотехнический подход к проблеме обработки речи, характерный для того периода. В этом отношении они сходны с гармоническими и корреляционными методами. Корреляционный синтез Корреляционные методы синтеза речи основаны на принципиальной возможности однозначного восстановления ординат спектральной огибающей по функции автокорреляции. По своим данным корреляционные синтезаторы аналогичны полосным.
Методы кодирования речевого сигнала Гармонический синтез Сущность гармонического метода сводится к представлению энергетического спектра сигнала f(t) в виде коэффициентов разложения в ряд Фурье где , Сk – коэффициенты разложения, Т – период В зависимости от требуемой точности воспроизведения сигнала используют то или иное число членов ряда. Фурье-преобразование функций дает представление о частотной характеристике функции, но информация, касающаяся временной локализации, например пиков с высокой частотой, не извлекается.
Методы кодирования речевого сигнала Гармонический синтез В отличие от разложения Фурье, основанного на комбинации синусоидальных волн, которые являются бесконечными, и слабо отслеживают изменения сигнала во времени, вейвлеты используют сумму коротких "всплесков" – совершенно одинаковых, но разнесенных по времени, дополненных всевозможными растянутыми и сжатыми копиями. Коэффициенты разложения зависят от выбора изначального всплеска, называемого вейвлетом.
Методы кодирования речевого сигнала Гармонический синтез Вейвлет-преобразование разбивает данные на составляющие с разными частотами, каждая из которых изучается с нужным разрешением. где a, b , это копии одной и той же функции, сдвинутой и сжатой или растянутой. Изменение параметра b в позволяет смещать центр временной локализации. Большие a соответствуют малым частотам, малые а – высоким частотам. Каждая a, b(s) локализована около S=b Часто используют функцию "мексиканская шляпа", которая является второй производной функции Гаусса (t)=(1 -t 2)exp(-t 2/2), a, b имеют ширину во времени, соответствующую частоте: высокочастотные a, b являются узкими, а низкочастотные a, b – намного шире.
Методы кодирования речевого сигнала Гармонический синтез При выборе , a 0, b 0 m, n образует детерминированный базис. На практике удобно иметь a 0=2 и b 0=1, тогда m, n(х)=2 -m/2 (2 -mx-n), то есть переход от одного масштаба к другому означает умножение или деление на 2. Значение а и b удобно задавать функцией Хаара, которая определяется в соответствии с следующим правилом: 0. 5 на интервале от 0 до 0. 5 она принимает значение 1, от 0. 5 до 1 ее значение равно – 1, 1 в остальных случаях функция равна 0. достоинства 0 Результаты последних исследований приводят к выводу, что ухо использует вейвлет-преобразование, когда анализирует звук. Поэтому звуковой сигнал, преобразованный и синтезированный по вейвлетам, лучше воспринимается. Вейвлет-преобразование работает быстрее, чем преобразование Фурье, для него проще написать программу, поэтому многие разработчики в последнее время стремятся использовать именно этот математический аппарат.