Лекции1Принципы сжатия видеоинформации.ppt
- Количество слайдов: 32
Принципы сжатия видеоинформации. - Сжатие неподвижного изображения - Сжатие цифровой видеоинформации 9 семестр, кафедра РТПи АС, лектор: доцент, к. т. н. Бугаев Юрий Николаевич и д. т. н. Дворкович Александр Викторович 2016 г. 1 1
Лекция 1 Общие принципы сжатия видеоинформации Основные вопросы курса: Сжатие цифровой неподвижного изображения Сжатие цифровой видеоинформации; 2 2
Литература Д. Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. Методы сжатия данных. Wallace G. K. «The JPEG still picture compression standard» // Communication of ACM. Volume 34. Number 4 April 1991. Климов А. С. «Форматы графических файлов» . // С. Петербург, Изд. «Диа. Софт» 1995. Цифровое сжатие видеоинформации и звука. Артюшенко В. М. , Шелухин О. И. , Афонин М. Ю. , Издательский дом Дашков и К, 2003, 425 стр. Методы сжатия цифрового видео. О. Татарников, Компьютер. Пресс 8'2004. Романов В. Ю. Популярные форматы для хранения графических изо бражений на IBM PC. М. : 1992. Дворкович А. В. Эффективное кодирование видеоинформации в новом стандарте H. 264/AVC // Труды НИИР, 2005. Цифровая обработка телевизионных и компьютерных изображений под ред. Зубарева Ю. Б. М , 1997 г. 212 с. Ансон Л. , Барнсли М. Фрактальное сжатие изображений для работы со сканером. // Мир ПК, 1992. № 4. с. 35 45. Ахмед Н. , Рао К. Р. Ортогональные преобразования при обработки цифровых сигналов / Пер. с англ. ; Под ред. И. Б. Фоменко, М. ; Связь. 1980 г. Переберин А. В. О систематизации вейвлет преобразований. – Вычислительные методы и программирование, 2002, т. 2, с. 15 40. 3 3
Введение в мультимедиа Мультимедиа (английский multimedia от латинского multum много и medium средства) комплекс аппаратных и программных средств, позволяющих пользователю работать в диалоговом режиме с разнородными данными (графика, текст, звук, видео), организованными в виде единой информационной среды. Мультимедиа это интерактивные системы, обеспечивающие работу с неподвижными изображениями и движущимся видео, анимированной компьютерной графикой и текстом, речью и высококачественным звуком, т. е. это сумма технологий, позволяющих компьютеру вводить, обрабатывать, хранить, передавать и отображать такие типы данных, как текст, графика, анимация, оцифрованные неподвижные изображения, видео, звук, речь. 4 4
Области применения мультимедиа Деловая сфера Образование Развлечения, игры, фильмы Понятие "Мультимедеа" Первое это "мультимедиа как идея", т. е. это новый подход к хранению информации различного типа. Второе значение мультимедиа это оборудование, которое позволяет работать с информацией различной природы. А третье значение мультимедиа это "мультимедиа продукт". 5 5
Общие принципы сжатия видеоинформации Современная техника связи, телевидения , радиолокации и других информационного измерительных систем там, где это только возможно старается перевести полезную информации в цифровую форму. Основные виды видеоинформации: телевидение; видеоконференц связь; различные задачи видеомониторинга; передача компьютерных изображений; - интернет поисковые системы; - интернет торговля и многое другое. 6 6
Проблема сжатия сигналов § При появлении нового научного направления «мультимедиа» проблема сжатия сигналов стала на первое место. § Использование цифровой информации по сравнению с аналоговой приводит к увеличению полосы занимаемых частот и соответственно к уменьшению скорости передачи информации при передаче различных видов видеоинформации. § Противоречие снимается применением эффективных методов цифрового кодирования (сжатия) информации. § Интенсивное развитие методов и аппаратуры для сжатия изображений стимулируется развитием цифровых сетей (Интернет) интегрального обслуживания и технологии «мультимедиа» . § Каждое из этих направлений характеризуется своими требованиями и в большинстве случаев невозможно использование разработанного устройства для различных целей. 7 7
Возможности сжатия обусловлены двумя факторами: Первый связан со свойствами зрительного восприятия человека, благодаря которым исходное изображение можно без ущерба для субъективного качества аппроксимировать более простым первичное сжатие. Второй – опирается на избыточность цифрового представления изображений (даже после первичного сжатия). Последовательность цифровых сигналов после устройства первичного сжатия, как правило, содержит остаточную избыточность, которую можно уменьшить с помощью неравномерного (статистического) кодирования 8 8
Методы сжатия Первый класс методов сжатия основан на свойствах изображения и динамики его изменения от кадра к кадру. Применение этого метода ведет к неизбежным потерям информации и ухудшению качества изображения. Этот способ может быть реализован как в виде внутрикадрового кодирования, так и виде межкадрового кодирования. На практике обычно применяют сочетание этих процедур. Энтропийное (статистическое) кодирование обеспечивает сжатие за счет использования статистических свойств сигналов и в принципе не ведет к потерям информации 9 9
Методы кодирования связанные с особенностями зрения Кодирование с предсказанием Линейное кодирование с преобразованием ортогональными рядами Фурье Карунена Лоэва Адамара Хартли Гильберта и косинусного и дтр. Межкадровое кодирование –основанное на том , что большинство изображений незначительно меняется от кадра к кадру Прореживание отсчетов (и кадров) с последующим восстановлением путем интерполяции или экстраполяции. Кодирование с разделением изображения на фрагменты Гибридное внутри межкадровое кодирование –сочетание перечисленных методов 10 10
Методы кодирования связанные с избыточностью информации Кодирование с использованием статистических кодов Код Хаффена; Код Джелинека; Арифметические коды; Кодирование с предсказанием (видео АДИКМ) - Линейное кодирование с преобразованием ортогональными рядами - Межкадровое кодирование –основанное на том , что большинство изображений незначительно меняется от кадра к кадру; Прореживание отсчетов (и кадров) с последующим восстановлением путем интерполяции или экстраполяции Векторное квантование Фрактальный метод сжатия Методы MPEG 11 11
Кодеки Устройства, которые осуществляют сжатие и кодирование – называются кодеками. Основное требование к неподвижных изображений и речевых сигналов является –возможно, более высокое сжатие без существенной потери качества, удовлетворение требованиям международных стандартов и рекомендаций, относительно невысокие сложность и стоимость. Первоначальная задача, которая ставилась перед разработчиками алгоритмов сжатия видеоизображения –это передача цветного изображения с разрешением 720 Х 576 элементов и скоростью 64 кбит/ сек. Это соответствовало требованиям передачи фотовидеотекстов и обеспечивало его применение в цифровых сетях с интегральным обслуживанием. 12 12
Использование в радиолокации цифровой и теле видеоинформации Сжатие информации в оптической (телевизионной и лазерно телевизионной) локации имеет свои особенности, подробнее которые мы будем изучать позднее. Одной из разновидностью телевизионного локатора является тепловизионный (ИК) локатор. Современные тепловизионные матрицы имеют структуру выходного сигнала и сигналы управления аналогичные телевизионным ПЗС матрицам. После физического преобразования в электрический видеосигнал, дальнейшая обработка практически не отличается в телевизионном и ИК каналах. Как правило, во всех современных радиолокаторах имеется дополнительный оптический активный (лазерный) или пассивный телевизионный (ИК) канал. Причем если раньше наличие ТВ канала носило вспомогательную или сервисную функцию, то в настоящее время в стрельбовых радиолокаторах это является фактором их живучести. 13 13
Использование в радиолокации цифровой и теле видеоинформации В оптических локационных системах обычно имеется два канала – измерительный (координатный) и канал видеоинформации. Сжатие информации происходит по разному в измерительном канала и визуальном каналах. Входная видеоинформации фильтруется и используется в полном объеме и с максимально возможным темпом в системах наведения, управления приводом, и записывается на носители локационной станции, как правило, в наиболее полном и неисправленном виде. Потребителю выдается первично сглаженная и прореженная информации, как правило, с более низким темпом передачи без пропусков и выбросов, и более низким числом разрядов. На выходе видео (визуального) канала Потребителю выдается записанная на кинопленку, видеомагнитофон или жесткие диски визуальная информация о цели или качестве слежения локатора. В кадр обычно включается и время привязки информации. Иногда сюда включается и сигнатурная информация (яркость, ЭПР, поляризация и т. д. ) 14 14
Сжатие информации в измерительном канале происходит исходя из алгоритма работы локатора. Входная видеоинформации фильтруется и используется в полном объеме и с максимально возможным темпом в системах наведения, управления приводом, и записывается на носители локационной станции, как правило, в наиболее полном и неисправленном виде. На основании этой информации в вычислительных системах станции (или с помощью операторов) происходит адаптация подсистем к конкретной целевой и помеховой обстановке. При необходимости происходит экспресс обработка этой информации, вносятся калибровочные и юстировочные параметры. Анализируется вероятности «правильного обнаружения» и «ложной тревоги» . Потребителю же выдается первично сглаженная и прореженная информации, как правило, с более низким темпом передачи без пропусков и выбросов, и более низким числом разрядов. Объем этой информации в несколько раз меньше исходной получаемой локатором непосредственно от цели в процессе измерения. Поэтому для передачи Потребителю конечной координатной информации и получению от него ЦУ не требуются скоростные каналы передачи данных. 15 15
Сжатие информации в визуальном канале В канале видео информации, сжатие цифровой информации происходит обычными методами сжатия телевизионной информации по стандартным алгоритмам и стандартным широкополосным каналам связи. Иногда координатная и видео информации дополнительно подвергается криптозащите, которая вносит дополнительную избыточность, но тут уж приходиться с этим мирится. 16 16
Алгоритм сжатия неподвижных изображений по стандарту JPEG В настоящее время алгоритмы сжатия неподвижных кадров (видеоизображений) основывается на международном стандарте JPEG (Joint. Photographic Experts. Group) Этот стандарт обеспечивает очень хорошее качество изображений для различных классов неподвижных видеоизображений. Основой стандарта является алгоритм адаптивного дискретного косинусного преобразования (AДКП Adaptive. Discrete. Cosine. Tnansform) – состоящий из трех основных частей: базовой системы; ряда расширителей возможностей; статистического кодирования. 17
1 шаг Кодирование изображения по алгоритму JPEG начинается с преобразования цветового пространства в сигнал яркости Y и два цветоразностных сигнала U и V. Хотя в принципе сам стандарт этого не требует, но это позволяет повысить эффективность сжатия. Степень сжатия компоненты яркости будет меньше, чем цветоразностных компонент, так как человеческий глаз меньше чувствителен к изменения цвета и значительно более чувствителен к изменению яркости. 18
2 шаг. После преобразования обычно, но не обязательно производится прореживание U и V данных цветности. При прореживании отбрасываются цветоразностные компоненты строк или столбцов пикселов с определенными номерами (например, каждой второй строки или каждого второго столбца). 19
3 шаг. Преобразование небольших блоков изображения при помощи двухмерного дискретного косинусного преобразователя. Обработка ведется блоками 8 х 8 пикселей, т. е. обрабатывается сразу 64 пикселя. Выбор такого блока обусловлен двумя причинами - блок с большой вероятностью содержит пиксели близкого цвета; - является достаточно большим и превышает интервал корреляции видеосигнала. Эта процедура во многом напоминает преобразование Фурье, которое вы уже проходили во многих РТ курсах. При выполнении этой операции 64 пиклеля преобразуются в матрицу из 64 коэффициентов. Важнейшей особенностью этой матрицы является т о , что основную энергию несут первые ее коэффициенты, а энергия последующих быстро убывает. 20
4 шаг. Далее преобразованная матрица проходит операцию квантования, которая позволяет сократить разрядность коэффициентов. Фактически это математически соответствует делению матрицы коэффициентов дискретного косинусного преобразования размерностью 8 х 8 на матрицу квантования также размерностью 8 х 8. После квантования значения чисел в левом верхнем углу становятся значительно меньше , а ближе к правому нижнему углу становятся равными нулю. Именно в этой операции происходит основная и необратимая потеря информации. Яркостная компонента квантуется обычно с большим числом разрядов, чем цветоразностные. 21
5 шаг. Матрица после квантования вытягивается в строку данных так, что все последовательности нулей правого нижнего угла оказываются в конце строки. В некоторых версиях информация о яркости и цвете кодируется так, что сохраняются только отличия между соседними блоками. Статистическое кодирование по методу Хаффмана, считается, что этот метод сжимает без потерь. Сначала анализируется вся последовательность символов. Часто повторяющимся сериям бит присваивается короткие элементы (маркеры). В частности последние нули в конце строки могут быть заменены одним символов конца строки. Так как все блоки имеют точно известную и одинаковую длину, то всегда можно точно определить, сколько нулей было опущено. 22
Степень сжатия Возможная степень сжатия зависит как от вида изображения , так и от применяемых типов матриц квантования. Гладкие полутоновые изображения без мелких деталей сжимаются лучше, чем с мелкими деталями. Например, изображения человеческого лица можно сжимать с большим коэффициентом сжатия, чем картинку с текстом. Увеличение размера матрицы квантования приводит к повышению коэффициента сжатия. Для различных компонентов Y, U, V. могут использоваться свои матрицы квантования. В настоящее время имеется несколько различных пакетов программ по алгоритму JPEG. Следует отметить, что многие системы сжатия по стандарту JPEG требуют большого объема памяти. 23
Очень важно отметить , что JPEG регламентирует лишь только метод сжатия, а не форму файла. Спецификацией сжатых по алгоритму JPEG является тип JFIF (JPEG File. Interchаnge. Fоrmat). Пользователи программ могут сами устанавливать различную степень сжатия, идя на компромисс между качеством изображения и размером файла. (т. е. временем вычислений или передачи) в зависимости от использования информации в дальнейшем. Обычно размер сжатого файла составляет от 1, 2 Мбайт до 30 Кбайт. В соответствии со стандартом JPEG обеспечивается сжатие подвижных изображений в 10 -100 раз. 24
Дискретные косинусные преобразования Как уже говорилось, основная идея дискретного косинусного преобразования состоит в разложении кодируемой реализации сигнала по косинусному ортогональному базису с последующим поэлементным квантованием полученных коэффициентов. Прямое и обратное (инверсное) двухмерное дискретное преобразование исходного массива данных s (x, y) , где х = 0, 1…. . 7 и у = 0, 1…. . 7, определяются соответственно выражениями 25
Прямое F(u, v) = 0. 25 C(u) C(v) [S(x, y) cos {(2 x+1) u π/ 16}cos {(2 y+1)vπ/16}], (1. 1) Обратное S(x, y) = 0. 25 [C(u) C(v) F(u, v) cos {(2 x+1) u π/ 16}cos {(2 y+1)vπ/16}], (1. 2) Где С(u) , C(v) = ½ для u = 0 и v = 0 ; C(u), C(v) = 1 для всех других значений u и v. S(x, y) – обозначает матрицу исходных данных обычно размером 8 х 8. 26
F(u, v) - матрица коэффициентов дискретного преобразования обычно от -1023 до 1023 S(x, y) - матрица исходных данных от -127 до 127. Двухмерные преобразования вычисляются в результате 8 х 8 кратного применения одномерного косинусного преобразователя. F(u, v) = (1/4) С(u)C(v)[cos] (1. 3) Где v -горизонтальная координата графического блока, u - вертикальная, x- вертикальная координата внутри блока; y - горизонтальная координата внутри блока. С(u) и C(v) = 2 для u, v =0 и С(u) C(v) = 1 для всех остальных случаев. 27
Графическое представление двумерного преоразования 28
Как уже говорилось, энергетические спектры сигналов изображений довольно быстро убывают с возрастанием номера спектрального коэффициента в базисе дискретного косинусного преобразования. Известно также, что искажения модулей коэффициентов преобразования сигналов для этого базиса до известных пределов мало сказывается на качестве восстановленного изображения. Отсюда появляется возможность дополнительно сжатия, использующего избыточность в амплитудной составляющей. Дискретное косинусное преобразование для большинства изображений хорошо аппроксимирует оптимальное дискретное представление Карунена-Лоэва, имеет алгоритм быстрого преобразования, просто в реализации и обеспечивает вполне существенное сжатие. Шаг квантования может регулироваться в соответствии со скоростью передачи. 29
Векторное квантование Считается перспективным и используется в JPEG векторное квантование. Векторное квантование эффективно, когда требуемое число битов на элемент изображения должно быть меньше одной двоичной единицы. Векторныйквантователь состоит из множества, называемого кодовой книгой, содержащей L кодовых векторов размерностью K. Векторы формируются путем деления исходного изображения на смежные неперекрывающиеся блоки изображений. Если кодовая книга создана, и она имеется на приемной и передающей стороне, то при получении номера индекса вектора приемник выбирает из своей книги соответствующий вектор и заполняет им необходимое место на изображении. Векторное квантование является очень экономным. Почти все первые программы САПР, которые строились на ЭВМ с ограниченными возможностями, имели векторную структуру представления данных. 30
Статистическое (энтропийное) кодирование используется для уменьшения избыточности сообщений, обусловленной неравной вероятностью появления элементов. Часто встречающиеся высоковероятные элементы кодируются короткими кодовыми комбинациями, а редко встречающиеся маловероятные можно кодировать более длинными кодовыми комбинациями. Необходимо также, чтобы короткие кодовые комбинации не совпадали с началом более длинных. В противном случае при декодировании возникнут ошибки. На возможность создания таких кодов указал еще Шеннон, а удобные алгоритмы предложил Фэно. Поэтому это кодирование еще называют кодированием по Шеннону-Фэно. 31
Кодирование по Шеннону-Фэно Подлежащие кодированию элементы располагаются в первом столбце таблицы в порядке убывания их вероятности. Элементы сообщений разбиваются на две группы с примерно равными суммарными вероятностями. Элементам первой группы в качестве первого знака присваивается 0, элементам второй -1. Элементы, входящие в каждую группу вновь разбиваются на две группы. Элементам первой группы присваивается второй индекс 0, второй группы -1. Этот процесс продолжается пока в каждом элементе не останется по одному элементу. 32
Лекции1Принципы сжатия видеоинформации.ppt