10 Сжатие и архивирование данных.ppt
- Количество слайдов: 20
Сжатие и архивирование данных 1. Понятие про архивацию и сжатие 2. Алгоритмы сжатия 2. 1. Алгоритм Хаффмана 2. 2. Алгоритм RLE 2. 3. Алгоритм LZ 3. Программы-архиваторы
Информация двдцть два трдцть три чтырста сорк чтыре Избыточность информации зависит от ее типа
Понятие про сжатие и архивацию Сжатие данных – это процедура перекодирования данных с целью данных уменьшения их объема. Бывает сжатия без потерь, когда исходные данные можно потерь восстановить без искажений (применяют для текстовой информации), и с потерями, когда данные возможно восстановить потерями только с искажениями, которые, однако, могут быть незаметными для человека (применяют к звуковой, графической и видеоинформации). Архивирование данных - это процесс подготовки данных к их данных хранению в архиве. Результатом этого процесса является файл, содержащий коды данных в перекодированном, как правило, сжатом виде. Такой файл называется архивным файлом или архивом. файлом архивом
Архивация Цели архивации: • уменьшить место, занимаемое файлами на диске • резервного копирования данных (на CD, DVD) • уменьшить объем данных, передаваемых через Интернет • объединить группу файлов в один архив • зашифровать данные с паролем 460 Kb
Алгоритмы сжатия
Алгоритм Хаффмана Идея алгоритма Хаффмана (1952 г. ) заключалась в том, что для улучшения степени сжатия необходимо кодировать символы, встречающиеся часто - короткими кодами, а те которые редко встречаются - длинными. Алгоритм Хаффмана сжимает данные в два прохода: 1. читаются данные и подсчитывается частота встречаемости символов. По этим данным строится дерево Хаффмана, а по нему коды символов. 2. читаются данные и генерируется выходной массив данных.
Дерево Хаффмана КОЛ_ОКОЛО_КОЛОКОЛА Какой начальный объем текста? Какой объем текста после сжатия?
Алгоритм RLE (англ. Run-length encoding - "кодирование путем RLE учета количества повторений") - в основу положен принцип выявления повторяющихся последовательностей и замены их простой структурой, в которой указывается код данных и коэффициент повторения. Примеры: АААААААА 15 А ФФФААААКУУУУК 3 Ф 4 А 1 К 4 У 1 К 255 255 128 0 0 0 4 255 2 128 0 5 Эффективность сжатия сильно зависит от того, что сжимается
Алгоритми LZ Алгоритмы LZ (Lempel-Ziv) - семейство алгоритмов словарного LZ сжатия данных. Название получили по инициалам двух исследователей - Абрахама Лемпеля и Якоба Зива, разработавшие в 70 -х годах алгоритмы LZ 77 и LZ 78. Идея методов заключается в том, среди данных отыскиваются последовательности, повторяющиеся и в сжатый файл записывают не сами последовательности, а ссылки на них. LZ 77 использует "скользящее" по сообщению окно, разделенное на две неравные части. Первая (словарь) включает уже просмотренную часть сообщения. Вторая (буфер) содержит еще незакодированные символы входного потока. Алгоритм пытается найти в словаре фрагмент, совпадающий с содержимым буфера.
Алгоритм LZ 77
Алгоритм LZW (Lempel-Ziv-Welch) - это универсальный алгоритм LZW сжатия данных без потерь. Он был опубликован Велчем в 1984 году, как улучшение реализации алгоритма LZ 78. В 1987 году алгоритм стал частью стандарта GIF, также сейчас алгоритм содержится в стандарте PDF.
Сжатие с потерями Для разработки и стандартизации эффективных методов сжатия аудио-и видеоинформации на рубеже 1980 -1990 -х годов были созданы группы экспертов по фотографическим изображениям (Joint Photographie Experts Group, сокр. JPEG) и группа экспертов по видеоизображениям (Motion Picture Experts Group, сокр. MPEG ) Алгоритмы с потерей информации не универсальны, они не могут использоваться для сжатия любых данных, поскольку полное восстановление исходной информации невозможно. Наиболее известными методами сжатия с потерей информации являются: • JPEG - метод сжатия графических данных; • MPEG - группа методов сжатия видеоданных; • МРЗ - метод сжатия звуковых данных.
Программы-архиваторы
Архиваторы Для сжатия данных используют специальные программы - архиваторы. Скопированные ими архиваторы файлы называют архивами. Архиваторы не только создают архивы, но и осуществляют управление ими (распаковка файлов из архива, их замену и др. ) и позволяют выбрать степень сжатия. Коэффициент сжатия - основная характеристика алгоритма сжатия. Она определяется как отношение объема начальных несжатых данных к объему сжатых данных: k = So / Sc, где k - коэффициент сжатия, So - объем исходных данных, а Sc - объем сжатых. Таким образом, чем больше коэффициент сжатия, тем алгоритм эффективнее.
Архиваторы Характеристики архиваторов: по степени сжатия; по быстроте сжатия. Характеристики архиваторов - обратно зависимые величины. Программы-архиваторы могут работать с архивными файлами в нескольких форматах. Самые популярные форматы для архивов – ARС, ZIP, RAR, 7 -Z, ARJ. ARС ZIP RAR ARJ Какой архиватор выбрать? поддержка разных форматов, возможность создавать многотомные архивы, возможность работы в качестве менеджера архивов, возможность защиты паролем.
Win. Zip - условно-бесплатный файловый архиватор и Win. Zip компрессор для Microsoft Windows фирмы Corel. Версия программы, Win. Zip 14. 5, поддерживает Windows 7 и ленточный интерфейс Microsoft Office 2010. Возможности: Сжатие (уменьшение размера файлов) ▪ создание файлов форматов Zip, а также новых Zipx-файлов ▪ открывает файлы форматов Zip, Zipx, RAR, 7 Z, LHA, BZ 2, CAB, IMG, ISO, а также другие ▪ сжатия изображений в формате JPEG на 20 -25% без потери качества ▪ создание Zip-файлов, самораспаковывающихся Обмен файлами (упаковка файлов и отправка по электронной почте) Шифрование (обеспечение безопасности конфиденциальных данных) Резервное копирование (предотвращение потери данных)
Win. RAR - это мощная утилита для создания и управления архивами, содержащая целый спектр дополнительных полезных функций (Разработчик Е. Рошаль). Возможности: сжимает файлы на 8 -15% лучше и зачастую быстрее, чем конкурирующие продукты. поддерживает все популярные форматы архивов (RAR, ZIP, CAB, ARJ, LZH, ACE, TAR, GZip, UUE, ISO, BZIP 2, Z и 7 -Zip). прекрасно подходит для сжатия мультимедийных файлов. позволяет разделять архивы на отдельные тома. идеален для передачи конфиденциальных данных через Интернет. shareware-продукт, который дает возможность бесплатно попробовать продукт перед покупкой в течение 40 дней.
7 -Zip - это архиватор файлов с высокой степенью сжатия. 7 -Zip это программное обеспечение с открытым кодом. Возможности: высокую степень сжатия благодаря формату 7 z с компрессией LZMA поддерживаемые форматы: архивация / распаковка: 7 z, ZIP, GZIP, BZIP 2 и TAR только распаковка: ARJ, CAB, CHM, CPIO, DEB, DMG, HFS, ISO, LZH, LZMA, MSI, NSIS, RAR, RPM, UDF, WIM, XAR и Z. создания архивов самораспаковки для формата 7 z Интеграция в проводник Windows мощный менеджер файлов плагин для FAR Manager переведен на 74 языка
Win. Ace - мощный архиватор, включающей собственный формат ACE и имеющий поддержку других широко распространенных форматов архивов. Возможности: создаются с помощью Win. Ace форматы архивов: Ace, Zip, Lha, Ms-cab, Java и Jar; самораспаковывающиеся: Ace и Zip; возможность просматривать файлы, находящиеся в архиве, не распаковывая их (графические файлы , MS Word-документы, HTML и ASCIIфайлы); возможность восстанавливать поврежденные архивы форматов Ace и Zip; наличие DOS-совместимости (управление из командной строки); возможность оптимизировать уже существующие архивы.
Сравнение Тест от 25 -26. 10. 2009 Входящая информация: Объем информации 2 440 341 213 байт Типы файлів jpg, bmp, tif, docx, xls, exe, txt Архиватор Час сжатия (часов: мин: сек) Степень сжатия, байт (% от оригинала) Win. Ace 2. 69 (x 32) 00: 28: 54 1 623 231 144 (66, 52 %) Win. RAR 3. 90 (x 64) 00: 16: 08 1 655 205 586 (67, 83 %) Win. RAR 3. 90 (x 32) 00: 16: 02 1 655 205 586 (67, 83 %) Win. Zip 14. 0 (x 32) 00: 23: 20 1 634 474 147 (66, 98 %) 7 Zip 4. 65 (x 64; Ультра) 00: 24: 04 1 655 193 805 (67, 83 %)


