
Л5 Сжатие звука.ppt
- Количество слайдов: 8
Сжатие звука — совокупность технологий по уменьшению объема данных, необходимых для передачи и хранения звуковой информации. Базируясь на основных принципах сжатия информации, при сжатии звука используются особенности звуковой информации, особенности природы, механизмов происхождения звука (речь, музыкальные инструменты и т. д. ) и звуковосприятия.
Представление звуковой информации в цифровом виде Звук представляет собой аналоговый сигнал, непрерывный во времени и принимающий произвольные неограниченные величины. Сигналы, которыми оперирует цифровая техника, являются дискретными и принимают конечное число значений. Для того, чтобы иметь возможность передавать, хранить и обрабатывать звук посредством цифровой техники необходимо преобразование его цифровой вид - квантование. При квантовании с аналогового сигнала производятся выборки через определенные промежутки времени (временное квантование), а затем сопоставление каждой выборке конечной дискретного значения — цифрового кода (квантование величины). Такое представление имеет название импульсно–кодовая модуляция (ИКМ). Обратное преобразование производится в обратном порядке: цифровое представление → сопоставление коду действительной величины → интерполяция отсчетов → аналоговый сигнал. Практически все методы сжатия используют в качестве исходного представления ИКМ.
Источники звука Источники могут иметь разнообразную природу происхождения. Если источник звука определен то его особенности могут использоваться для эффективного сжатия звука. Если источник неопределен, то как правило используются общие особенности звуковой информации.
Общие особенности звуковой информации Как правило звук представляет собой совокупность звуковых тонов определенной частоты и окрашенного шума, иногда — коротких всплесков. Имея средства разделения тоновой и шумовой составляющих можно кодировать только отдельные тона и огибающую спектра шума.
Речь, голос Упрощенно голосовой аппарат человека можно представить как совокупность двух генераторов: генератора шума и генератора периодического сигнала. в большинстве узкополосных голосовых кодеков (испольуемых, к примеру, в телефонии: GSM) используется именно такая модель. По цифровому каналу передается огибающая и частота периодического сигнала и спектр наложенного шума. В разработке находятся вокодеры, способные разбивать речь на осмысленные элементы — фонемы. Это может дать возможность передавать речь по очень узким каналам.
Простые методы сжатия Традиционные методы сжатия без потерь (Huffman, LZW, итд. ) обычно плохо применимы для сжатия аудио информации (по тем же причинам что и при сжатии визуальной информации) Ниже перечислены некоторые методы сжатия с потерями: • Сжатие тишины(пауз) - определяет периоды "тишины", работает аналогично run-length кодированию. • ADPCM - Adaptive Differential Pulse Code Modulation (в русскоязычной литературе применяется термин адаптивная дельта-импульсно-кодовая модуляция (АДИКМ). Например, стандарт CCITT G. 721 -- от 16 до 32 Kbits/sec: Кодирование разницы между двумя или более последовательными отсчетами; затем разница квантуется --> при квантовании часть информации теряется. Квантование адаптивно (меняет параметры в зависимости от сигнала), в результате меньшее количество бит необходимо для достижения лучшего SNR. Необходимо предсказывать как звук изменится --> сложно • Apple разработал собственную систему названную ACE/MACE. Сжатие с потерями, пытается предсказать, каково будет значение следующего отсчета. Сжатие порядка 2: 1. • Linear Predictive Coding (LPC) - пытается описать сигнал с помощью "речевой модели" и передает параметры модели --> звучит как компьютерно синтезированная речь, 2. 4 kbits/sec. • Code Excited Linear Predictor (CELP) - тоже самое что и LPC, однако дополнительно передает ошибку квантования (используя предопределенный набор "кодовых слов") --> телефонное качество при 4. 8 kbits/sec.
Методы сжатия, основанные на психоакустике Представители: MPEG layers 2, MPEG layer 3 (MP 3), AAC (Advanced audio coding), Twin. VQ, Ogg Vorbis, и др. Алгоритм кодека использующего психоакустику обычно состоит из следующих шагов: Обсчет психоакустической модели (маскирования). Разделение сигнала на частотные подполосы (FFT, DCT/MDCT, Filter. Banks, и т. д. ). Квантование сигнала в подполосах в соответствии с результатами психоакустической модели. Возможно использование одного квантового уровня. сразу для нескольких входных значений (векторное квантование - Vector Quantization) - Twin. VQ.
Л5 Сжатие звука.ppt