Звук – волнообразные колебания твердых, жидких и газообразных
Звук – волнообразные колебания твердых, жидких и газообразных тел способные восприниматься органом слуха, ухом в форме особого ощущения – звука. Восприятие звука слухом зависит: от частоты звука (измеряется в Герцах, Гц) и от звукового давления (или уровня звука), измеряемого в децибелах (дБ). Слышимый диапазон звуков для здорового молодого слуха от 20Гц до 20.000Гц. Максимальная чувствительность слуха к звукам в районе 3000 Гц. С возрастом, верхняя граница слухового диапазона сокращается. Звуки с частотой нижу 20Гц называются «инфразвуком», выше 20.000Гц – «ультразвуком». Числовая величина звука обычно выражается как уровень звукового давления в логарифмических единицах – децибелах. Центр Речевых Технологий | анализ речевого сигнала
Колебания камертона приводят к движению частиц воздуха, создавая сжатие (область высокого давления) и разрежение (область низкого давления). Звук, производимый такими колебаниями камертона – это чистый тон, который можно изобразить синусоидальной волной, с уровнем звукового давления (уровнем звука, громкостью) по вертикальной оси и временем по горизонтальной оси. Центр Речевых Технологий | анализ речевого сигнала
Чувствительность Амплитуда, величина, уровень звукового давления (sound pressure level (SPL), громкость. Амплитуда – это отношение давления звуковой волны к нормальному, обычному уровню давления воздуха, выражаемая в децибелах, дБ. Разница в звуковом давлении может быть огромной: шепот – 20дБ, нормальная речь – 70 дБ, поезд в метрополитене 100 дБ, реактивный самолет 120 дБ. Человек воспринимает разницу в уровне звукового давления (SPL) в 10 дБ как удвоение громкости. Громкость относится к человеческому восприятию звука; амплитуда – это измеряемая величина разницы в давлении воздуха. Децибел – это стандартная мера уровня звукового давления. Разница в 1 дБ – это обычно минимальное различимое отличие в громкости. В аудио аппаратуре децибелы используются, чтобы показать диапазон звука от самого тихого до самого громкого. Центр Речевых Технологий | анализ речевого сигнала
Уровень распространенных звуков в децибелах SPL: Взлет реактивного самолета; повреждение слуха Болевой порог Пулемет Гром; рок группа Бензопила; ружье Отбойный молоток; метро Фура; вечеринка Автобусы; поезда Офис; кондиционер Разговор (с 2х метров) Уличный шум Холодильник Спальня ночью Ход часов; шепот Дыхание Порог слуха 160 140 120 100 80 60 40 20 0 Центр Речевых Технологий | анализ речевого сигнала
Частота, высота, Герц (Гц). Частота – это количество повторений колебаний в единицу времени (количество раз, когда волна пройдет полный цикл) звука или электромагнитной волны (любой другой волны). Чем выше частота, тем меньше длина волны. Частота измеряется в Герцах (Гц). 1 Гц = 1 цикл в секунду. Частота звуковой волны определяет высоту. Громкость – это восприятие амплитуды, высота звука – это восприятие частоты. Высота – это субъективное свойство звука, которое позволяет нам сравнивать два звука, является ли один звук «выше» или «ниже», чем другой. Осциллограмма сигнала. Амплитуда отображена по вертикальной оси, время – по горизонтальной. Мы видим 5 циклов в секунду, т.е. тон 5 Гц. Центр Речевых Технологий | анализ речевого сигнала
Тон 500 Гц. Чистый тон (чистый синус). Частота, высота, Герц (Гц). Центр Речевых Технологий | анализ речевого сигнала
Спектр сигнала 500 Гц. Спектр звука (амплитуда к частоте) дает нам картину частотного распределение сигнала, его гармоническую структуру. Тональный сигнал выглядит как пика, тогда как шумовой сигнал выглядит как широкие горизонтальные линии, состоящие из нескольких полос частот. Частота, высота, Герц (Гц). Центр Речевых Технологий | анализ речевого сигнала
Частота, высота, Герц (Гц). Сигнал 50, 500 и 1000 Гц (зеленый, синий, красный). Сигналы 50, 500 и 1000 Гц были смешаны вместе и формируют сложную синусоидальную волну. Речь будет выглядеть как смесь таких сложный модулированных синусоид (вокальных частей) и шумовых фрагментов (неголосовых частей, согласных). Центр Речевых Технологий | анализ речевого сигнала
Дискретизация. Цифровой звук – это способ представления электрического сигнала посредством дискретных численных значений его амплитуды. Преобразование аналогового сигнала в цифровой состоит из двух этапов: дискретизации по времени и квантования по амплитуде. Дискретизация по времени означает, что сигнал представляется рядом отсчетов (сэмплов), взятых через равные промежутки времени. Например, когда мы говорим, что частота дискретизации 44,1 кГц, то это значит, что сигнал измеряется 44 100 раз в течение одной секунды. (22,6 мкс). Основной вопрос на первом этапе преобразования аналогового сигнала в цифровой (оцифровки) состоит в выборе частоты дискретизации аналогового сигнала. Чем больше частота, тем точнее соответствует цифровой сигнал аналоговому. Однако пропорционально увеличению частоты возрастают: а) интенсивность потока цифровых данных, а пропускные возможности интерфейсов не безграничны, особенно если записывается/воспроизводится одновременно несколько каналов; б) вычислительная нагрузка на цифровые процессоры, а их вычислительные возможности также ограничены; в) объем памяти, необходимой для хранения цифрового сигнала. Очевидно, что необходим компромисс. Центр Речевых Технологий | анализ речевого сигнала
Дискретизация. Теорема отсчётов Найквиста — Котельникова (теорема Котельникова) гласит, что если непрерывный сигнал x(t) имеет спектр, ограниченный частотой Fmax, то он может быть однозначно и без потерь восстановлен по своим дискретным отсчётам, взятым с частотой Fдискр=2*Fmax, или, по-другому, по отсчётам, взятым с периодом Tдискр = 1/2Fmax Как известно, диапазон от 20 Гц до 20 кГц - это частотный спектр, воспринимаемый человеческим ухом, а следовательно, если этими частотами ограничен спектр сигнала, то частота дискретизации должна составлять минимум 40 кГц (20000 Гц * 2). Центр Речевых Технологий | анализ речевого сигнала
Квантование Насколько часто нужно делать выборки при оцифровке аналогового сигнала, разобрались. Теперь надо определиться с тем, сколько дискретных значений понадобится для описания амплитуды (напряжения) сигнала в каждой из выборок. Представление амплитуды сигнала в соответствии с заданной разрядностью называют квантованием. Разрядность сигнала измеряется в битах и определяет точность, с которой мы оцифруем амплитуду сигнала. Здесь ситуация обстоит так же, как и с дискретизацией: чем больше выборок на соответствующей оси, тем точнее мы передаем исходный сигнал. При 16-битном квантовании мы получаем 16565 выборок по оси абсцисс (2 в степени 16). 16-битная разрядность соответствует динамическому диапазону в 96 дБ, и при добавлении каждого дополнительного разряда мы увеличиваем диапазон на 6 дБ. Так 24 бита - это уже 140 дБ динамического диапазона. Центр Речевых Технологий | анализ речевого сигнала
Спектр. По аналогии со светом, который может быть разложен на составные цвета, аудио спектр – это представление звукового гармонического состава с точки зрения компонентных частот. Для анализа частотной структуры сигнала используется Спектро-анализатор. Спектро-анализатор отображает частотный спектр входного сигнала, обычно амплитуда по вертикальной оси и частота по горизонтальной оси. БПФ анализатор* самый распространенный вид спектро-анализатора в настоящее время. Осциллограмма (на верху) и спектрограмма (внизу) звука «шва». «Зубчатые» линии показывают гармоники. Кривая линия – частотный отклик вокального тракта - форманты. * БПФ Быстрое Преобразование Фурье – алгоритм преобразования данных из временной области в частотную (спектральную) для быстрого спектрального анализа; часто используется в обработке сигнала. Центр Речевых Технологий | анализ речевого сигнала
Спектр. Динамическая спектрограмма, сонограмма, «видимая речь» Спектрограмма речи – это визуальное отображение речи как функции времени (горизонтальная ось), частоты (вертикальная ось) и энергии голоса (степень зачернения, цвет). Наиболее темные горизонтальные полосы частот показывают спектральные максимумы, соответствующие вокальным резонансам, и называются формантами. Плотно расположенные вертикальные полосы отображают высоту голоса или вибрацию голосовых складок. Спектрограмма звука «а», произнесенная на двух фонограммах. По вертикальной оси шкала частот, по горизонтальной - время. Вертикальные полосы вызваны открытием и закрытием голосовых складок в процессе фонации. Центр Речевых Технологий | анализ речевого сигнала
Основной тон. Частота колебания голосовых складок называется частотой основного тона (ОТ) и субъективно воспринимается как высота голоса. Временной от резок между точками раскрытия и закрытия голосовых связок называется периодом основного тона. Сонограмма короткого фрагмента голоса. По вертикальной оси отложена амплитуда (в отсчетах), по горизонтальной – время (в секундах). Высокие по амплитуде пики обозначают время начала раскрыва голосовых складок. 6 периодов за 50 мс – 12 за 100 мс, т.е. частота ОТ для данного диктора 120 Гц. Кепстр вышеприведенного речевого сигнала. Кепстр показывает периодичность сигнала. Сигнал периодичен с частотой 121 Гц. Центр Речевых Технологий | анализ речевого сигнала
Артикуляторная система. Центр Речевых Технологий | анализ речевого сигнала
Артикуляторная система. Колебания голосовых связок приводят к появлению изменяющегося воздушного потока, который может быть рассмотрен как периодический источник (A). (Периодический сигнал цикличен. Спектр периодического сигнала состоит из гармоник). Вокальный тракт ведет себя как переменный фильтр (B) – его отклик является разным для разных частот. Он переменный, т.к. частотный отклик может быть изменен с изменением позиции органов артикуляции. Входной сигнал (А), прошедший через вокальный тракт (В) образует выходной сигнал (C). Центр Речевых Технологий | анализ речевого сигнала
Резонанс. Резонанс – это выборочное усиление частот внутри спектра. Резонатор избирателен к частотам, т.е. когда в него попадает входной сигнал, резонатор будет передавать одни частоты лучше других. Как видно на «мгновенном спектре», сложный тон состоит из ряда гармоник. Здесь представлен основной тон (F0) и его обертона. В реальности, ситуация будет иной. Что случится с этим сложным тоном, если его пропустить через систему с двумя естественными резонансами? Частоты вокруг каждого резонанса усилятся, тогда как другие частоты будут подавлены (отфильтрованы). Центр Речевых Технологий | анализ речевого сигнала
Форманты Вокальный тракт может быть рассмотрен как простая акустическая труба с открытым концом или резонатор. Форманта образуется за счет концентрации акустической энергии вокруг определенной частоты в звуковой волне. Форманты образуются при прохождении звуковой волны от звукового источника (голосовых складок) к губам. Звук частично отражается от губ говорящего и идет к слушателю, а частично отражается от губ и идет в обратном направлении к голосовым складкам. Звуковая волна, отраженная от открытого конца приходит к источнику звука в фазе или противофазе по отношению к первичной волне. Когда она приходит в фазе, отраженный звук становится усиливается за счет суммирования энергии. Когда фаза исходного и отраженного звуков не совпадает, уровень волны гаснет. Средняя скорость звука в теплом влажном воздухе C=350 м/сек. Т.о., если длина L вокального тракта взрослого мужчины около 17,5 см, то путь звуковой волны до первого резонанса 2L=35см (0.35 м). Центр Речевых Технологий | анализ речевого сигнала
Форманты Следует отметить, что волна, отраженная от открытого конца волновода – от открытых губ – меняет свою фазу. Т.о., 1ый резонанс вокального тракта, т.е. 1ая форманта, находится на частоте С/4L, т.е.. ~ 500 Hz. Более высокие резонансные частоты - нечетные кратные самого низкого резонанса, следовательно следующая форманта 1500 Гц, затем 2500 Гц, затем 3500 Гц, 4500 Гц и так далее (безударный нейтральный гласный звук). Изменение геометрии вокального тракта за счет движения артикулятов (языка, щек, губ, глотки и др.) приводит к изменению резонансных частот, т. е. формант. Центр Речевых Технологий | анализ речевого сигнала
Форманты Однако, по мимо геометрии вокального тракта на положение формант может влиять другие факторы. Так, любое расщепление звукового потока может вызвать изменение количества формант. Для носовых согласных и гласных звуков, вокальный тракт разбивается на носовую полость и ротовую полость. Интерференция этих двух каналов приводит к появлению антирезонансов. Более того, в носовой полости образуются свои резонансы, носовые форманты. Следовательно, в назализованных гласных звуках могут быть одна или две дополнительные носовые форманты, тогда как одна или более ротовых формант могут быть ослаблены или могут исчезнуть из-за носовых антирезонансов, антиформант. Центр Речевых Технологий | анализ речевого сигнала
Форманты Различия в гласных звуках очень тесно связаны с формой ротовой полости (она выступает как самый большой и потому существенно влияющий на качество звука резонатор). части по горизонтали, и концентрацией основной массы языка в той или иной области. Деление по вертикали соответствует ряду образования гласного звука, деление по горизонтали - подъему гласного. Губная артикуляция (лабиализованность - от лат. labri губы) в русском языке значима только для гласных заднего ряда (относятся [о], [у]), все остальные русские гласные независимо от окружения считаются нелабиализованными звуками. Все эти отличия позволяют гласным звукам выполнять смыслоразличительную функцию. Изменять форму ротовой полости можно с помощью языка, который выгибается и поднимается вверх или вниз, продвигается вперед, к зубам, или назад, к глотке. При выходе потока воздуха наружу играет роль и форма отверстия, образуемого губами. Поэтому основные классификационные принципы для гласных звуков связаны с разделением полости рта на переднюю, среднюю и заднюю части по вертикали и верхнюю, среднюю и нижнюю Центр Речевых Технологий | анализ речевого сигнала
Резонансы. Форманта 1 (F1) Нижняя, следовательно наиболее сильная частота, F1 относится к объему гортанной полости и к тому, как плотно сжат вокальный тракт.Для гласных звуков F1 может иметь значения от 300 Гц до 1000 Гц. Чем плотнее прижат язык к нёбу, тем ниже первая форманта. Спектр гласных звуков верхнего, среднего и низкого подъема -и-, -о-, -а- (слева направо). Центр Речевых Технологий | анализ речевого сигнала
Резонансы. Форманта 2 (F2) Относится к длине ротовой полости. F2 может иметь значения от 850 Гц до 2500 Гц. Значение F2 пропорционально продвинутости вперед или назад самой высокой части языка во время произнесения гласного звука. К тому же, лабиализация вызывает понижение F2. Спектр гласных звуков переднего, среднего и заднего ряда -э-, -ы-, -а-(слева направо). Центр Речевых Технологий | анализ речевого сигнала
Resonance. Форманта 3 (F3) F3 также очень важна в определении фонемного качества данного звука речи. Более высокие форманты - F4 and F5 определяют качество речи. Центр Речевых Технологий | анализ речевого сигнала
Резонансы. Трехмерная спектрограмма звука /а/. Центр Речевых Технологий | анализ речевого сигнала
Резонансы. Спектрограмма гласного /i/. Первые 2 форманты расположены далеко друг от друга В отличие от звука /а/ . Центр Речевых Технологий | анализ речевого сигнала
Resonance. Центр Речевых Технологий | анализ речевого сигнала
Resonance. Центр Речевых Технологий | анализ речевого сигнала
Vocal folds. When air is forced up the trachea from the lungs, at a certain pressure it is able to force its way through the vocal cords, pushing them open (2, 3 and 4). As air passes through the glottis, the air pressure in the glottis falls, because when a gas or liquid runs through a constricted passage, its velocity increases (the Venturi tube effect). This increase in velocity results in a drop in pressure of that gas or liquid (the Bernouilli principle). Because of the drop in pressure, the vocal cords snap together, at the lower edge first, closing again (6-10). The cycle then begins again. A single cycle of opening and closing takes in the region of 1/100th second: therefore, the cycle repeats at rates in the region of 100 times per second (to be more specific, between about 80-200 cycles per second). This rate is too rapid for the human ear to be able to discriminate each individual opening/closing of the vocal cords. However, we perceive variations in the overall rate of vibration as changes in the pitch of the voice, "pitch" being the perceptual correlate of acoustic frequency. Центр Речевых Технологий | анализ речевого сигнала
1906-sound_ru.ppt
- Количество слайдов: 30