1 вероятности события. Свойства I(A). I(A)=-logP(A).Энтропия ДСВ ξ как матожидание ДСВ

advertisement
1. Информация и энтропия. Информация – функция события. Количество И. – функция
вероятности события. Свойства I(A). I(A)=-logP(A).Энтропия ДСВ ξ как матожидание ДСВ
I(ξ=x). «Ипподромный» пример. Свойства энтропии: минимум, максимум, энтропия случайного
вектора. Кодирование исходов ξ числами или словами. Избыточность. Теорема Шеннона об
оптимальном кодировании. Задача о сжатии данных: дано слово w, нужно найти
низкоэнтропийную ДСВ, для серии испытаний которой w является «типичным» результатом и
экономно закодировать результаты опытов.
2. Источник информации. Марковская модель источника. Состояния. ДСВ для генерации
символов и ДСВ для перехода. Энтропия марковского источника. Вычисление стационарного
распределения. Простая модель МИ: конечный автомат, переходящий по сгенерированным
символам. Пример: антисловарное сжатие на {00,111,01010}.
3. Префиксное кодирование. Префиксный код: однопроходное декодирование. Дерево ПК.
Метод Шеннона-Фано. Метод Хаффмана. Неравенство Крафта-Макмиллана. Оптимальность
кода Хаффмана в классе префиксных кодов. Особенности реализации статического МХ:
сортировка деревьев за константное время, кодирование дерева (1бит на узел). Свойство
братьев. Динамический МХ: симметричность кодирования-декодирования, возможность
адаптации (масштабирование счетчиков). Особенности реализации: узел ART, перестройка
дерева (перестановка поддеревьев для сохранения свойства братьев).
4. Арифметическое кодирование. Представление сообщения вероятности p отрезком длины p.
Выбор кратчайшего числа на отрезке, оптимальность по Шеннону. Целочисленная реализация
АК: скользящее окно и нормализация интервала. Расширение узкого интервала (вдвое от
середины), хранение и передача отложенных битов. Динамический вариант: сбор статистики,
хранение таблиц частот в упорядоченном виде.
5. Словарные алгоритмы. Метод LZW. Кодирование символа и обновление словаря.
Симметричность кодирования/декодирования. Особая ситуация при декодировании, ее
обработка. Дожимание при помощи МХ. Другие идеи словарного кодирования: построение
автомата для распознавания подслов.
6. Статистическое кодирование. Контексты (левые и правые). Глубина контекста.
Контекстная модель, ее порядок. Модель источника как дерево контекстных моделей.
Взвешивание моделей. Неявное взвешивание. Метод PPM. Символы ухода. Метод исключений
(маскировка счетчиков при кодировании). Использование АК. Обновление КМ. Исключения
при обновлении. Пример: ACGAGACGGCCCG(T). Оценка вероятности ухода. Априорные
методы A, B, C, D, XC. Адаптивные методы: средняя частота ухода из похожих контекстов.
Метод Шкарина разбиения на однотипные контексты (с учетом трех типов контекстов). Выбор
порядка модели для кодирования символа: по максимальному значению вероятности.
Наследование информации при добавлении нового счетчика в КМ. Масштабирование счетчика
последнего символа при кодировании.
7. Преобразование Барроуза-Уилера (BWT) и связанные с ним алгоритмы сжатия. Прямое
BWT. Сведение к задаче о сортировке суффиксов. Структура BWT-образа: замена контекстных
закономерностей на локальную однородность. Обратное преобразование, его реализация за
линейное время (свойство стабильной сортировки). Алгоритм MTF («стопка книг») и его
модификации. Распределение частот символов после MTF. Алгоритмы RLE и ZLE.
Кодирование (N+1) вместо N в ZLE. Схема BWT+MTF+ZLE+ARI. Выбор порядка на алфавите.
Алгоритм кодирования расстояний (DC) вместо MTF. Эффективные алгоритмы для сортировки
суффиксов. Алгоритм Манискалько-Пуглизи: выбор сэмпла, сортировка на основе
отсортированного сэмпла, троичная сортировка сэмпла.
8. Сжатие бинарных данных. Черно-белые изображения: использование двумерной
структуры. Стандарт CCITT group 4: три режима, кодирование длин в горизонтальном режиме.
Бинарное BWT с разными вариантами арифметического кодирования. Использование
бинарного BWT для дожимания результатов CCITT 4. Представление массивов чисел в
кодировке Фибоначчи.
Полезные источники:
1. Д.Ватолин, А.Ратушняк, М.Смирнов, В.Юкин. Методы сжатия данных. М: Диалог-МИФИ,
2003.
2. M. Crochemore, T.Lecroq. Text data compression algorithms. In: Atallah M.J. Ed., Algorithms and
theory of computation handbook. Ch. 12. CRC Press, 1999.
3. В.В.Семенюк. Экономное кодирование дискретной информации. СПб: СПбГУ ИТМО, 2001.
4. Стандарт CCITT group 4. International telecommunication union, 1988.
5. M. Maniscalco, S. Puglisi, Faster lightweight suffix array construction, Proceedings of the 17th
Australasian Workshop on Combinatorial Algorithms (AWOCA'06), 2006. pp.16-29.
Download