Document 229479

advertisement
На правах рукописи
Рубина Ирина Семеновна
РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ И АЛГОРИТМОВ
УСТРАНЕНИЯ ИЗБЫТОЧНОСТИ ВИДЕОПОСЛЕДОВАТЕЛЬНОСТЕЙ НА
ОСНОВЕ СЕГМЕНТАЦИИ ВИДЕОДАННЫХ
Специальность: 05.13.11 – Математическое и программное обеспечение
вычислительных машин, комплексов и компьютерных сетей
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
Санкт-Петербург − 2013
2
Работа выполнена в Национальном Исследовательском
информационных технологий, механики и оптики.
университете
Научный руководитель:
Тропченко Александр Ювенальевич,
доктор технических наук, профессор.
Официальные оппоненты:
Потапов Алексей Сергеевич,
доктор
технических
наук,
доцент,
лаборатория
интеллектуальных
систем
компьютерного видения ФГУП «Научнопроизводственная
корпорация
«Государственный оптический институт им.
С.И. Вавилова» (г. Санкт-Петербург),
начальник.
Меженин Александр Владимирович,
кандидат технических наук, доцент, кафедра
инженерной и компьютерной графики НИУ
ИТМО, доцент.
Ведущая организация:
Филиал
ФГУП
Центральный
научноисследовательский
институт
связи
–
Ленинградское отделение ЦНИИС.
Защита диссертации состоится «23» мая 2013 г. в 15 часов 30 минут на заседании
диссертационного
совета Д 212.227.06 при Национальном исследовательском
университете информационных технологий, механики и оптики по адресу: 197101,
Санкт-Петербург, Кронверкский пр., д. 49, конференц-зал центра интернетобразования.
С диссертацией можно ознакомиться в библиотеке Национального
исследовательского университета информационных технологий, механики и оптики.
Автореферат разослан «22» апреля 2013 г.
Ученый секретарь
диссертационного совета
Лобанов И.С.
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы
Современный
этап
развития
информационно-вычислительных
систем
характеризуется широким внедрением технологий мультимедиа, в связи с чем
возникает потребность в разработке методов и алгоритмов сжатия цифровых
видеоизображений и видеопотоков, основанных на обработке групп изображений,
имеющих информационную избыточность. Постоянно растущая вычислительная
сложность алгоритмов обработки видеопоследовательностей и высокие затраты на
хранение данных требуют значительных вычислительных ресурсов.
Видеокомпрессия не только дает возможность использования цифрового видео в
среде передачи, не поддерживающей исходных (несжатых) видеоизображений, но и
повышает эффективность использования высокоскоростных каналов связи для
передачи видеопотоков высокого разрешения, в том числе при одновременной
передаче множества потоков видеоданных высокого уровня качества.
Существенный вклад в теорию сжатия видеоданных внесли Ватолин Д., Сэломон
Д., Гонсалес Р., Ричардсон Я. и многие другие видные ученые и специалисты.
Существующие системы обработки видеоданных используют методы сжатия с
потерями за счет передачи опорных (I- кадров), сжатых по пространственным
координатам, а также ссылочных (P- и B- кадров), сжатых по пространственновременным координатам, от количества которых зависит степень сжатия
видеопоследовательности. При этом учитываются особенности восприятия подобного
типа данных человеком. На сегодняшний день в определенной степени решена задача
устранения избыточности опорных кадров, тогда как для ссылочных кадров данная
задача является актуальной.
Основой кодирования ссылочных кадров является построение векторов
движения отдельных пикселов или их групп. Также эффективность работы
алгоритмов устранения временной избыточности улучшают путем повышения
эффективности алгоритмов кодирования преобразованием и интерполяции. Этим
проблемам посвящена данная диссертационная работа.
Цель работы – совершенствование существующих и создание новых методов
устранения
информационной
избыточности
видеопоследовательностей,
отличающихся пониженными вычислительными затратами при высоких показателях
коэффициента сжатия и качества восстановленного видеоряда.
Задачи исследования
В рамках диссертационного исследования решались следующие задачи:
1. Анализ алгоритмов построения траектории движущихся объектов на основе
сегментации видеоданных.
2. Разработка методов повышения эффективности существующих алгоритмов
сжатия, использующих адаптивную сегментацию, на основе нового
алгоритма классификации сегментов по маске, получаемой на основе
алгоритма выделения опорных пикселов.
3. Разработка алгоритмов сжатия на основе быстрых трехмерных алгоритмов
кодирования преобразованием.
4
4. Разработка методов сжатия за счет новых алгоритмов интерполяции отсчетов
сигнала и исследование их эффективности.
5. Построение модели кодека и программная реализация алгоритмов сжатия на
основе предложенных подходов.
Методы исследования
Диссертационное исследование основано на ряде теоретических и
экспериментальных методов. В рамках теоретической части исследования
использовались методы теории информации (RD-теории и устранения избыточности
данных), методы распознавания образов и цифровой обработки сигналов, а также
методы теории вероятностей. В рамках экспериментального исследования была
проведена программная реализация алгоритмов сжатия с последующим сравнением
реализованных алгоритмов с уже существующими алгоритмами. Экспериментальные
методы подразумевают моделирование и реализацию алгоритмов на языке высокого
уровня C++.
На защиту выносятся следующие положения:
1.
2.
3.
4.
5.
6.
Алгоритм выделения объектов видеопоследовательности, основанный на
определении опорных пикселов видеокадра.
Алгоритм
сжатия
на
основе
классификации
сегментов
кадра
видеопоследовательности адаптивного размера с использованием маски,
полученной путем выделения опорных пикселов.
Быстрый трехмерный алгоритм нисходящего кодирования преобразованием с
неразделимым ядром, основанный на дискретном преобразовании Хартли с
переменным размером матрицы преобразования.
Быстрый трехмерный алгоритм кодирования преобразованием, основанный на
дискретном косинусном преобразовании с переменным размером матрицы
преобразования.
Алгоритм интерполяции отсчетов видеосигнала с переменным размером ядра.
Метод сжатия видеоданных, основанный на сочетании предложенных
алгоритмов.
Научная новизна работы
1.
2.
3.
Разработан алгоритм выделения объектов видеопоследовательности, основанный
на определении опорных пикселов видеокадра, отличающийся эффективностью
работы для последовательностей с различной динамикой перемещения объектов.
Разработан алгоритм построения траектории движущихся объектов на основе
классификации сегментов кадра видеопоследовательности адаптивного размера с
использованием маски, полученной путем выделения опорных пикселов,
позволяющий сократить временную избыточность при допустимом уровне
вычислительных затрат и высоком уровне качества.
Разработан быстрый трехмерный алгоритм нисходящего кодирования
преобразованием с неразделимым ядром, основанный на дискретном
преобразовании Хартли с переменным размером матрицы преобразования.
5
4.
5.
6.
Разработан быстрый трехмерный алгоритм кодирования преобразованием,
основанный на дискретном косинусном преобразовании с переменным
размером матрицы преобразования.
Разработан алгоритм интерполяции отсчетов видеосигнала с переменным
размером ядра.
Предложен метод сжатия видеоданных, основанный на сочетании
предложенных алгоритмов, позволяющий повысить эффективность сжатия
видеоданных.
Практическая ценность результатов работы заключается в следующем:
1.
2.
3.
Предложенный метод, как показали результаты исследования его
эффективности,
обеспечивает
хорошее
качество
восстановленной
видеопоследовательности при более высоком значении коэффициента сжатия по
сравнению с существующими методами.
Разработанные быстрые алгоритмы многомерных преобразований Хартли и
ДКП позволили сократить объем вычислительных затрат.
Разработаны
программно-алгоритмические
средства,
реализующие
предложенную модель кодека, обеспечивающие кодирование и декодирование
видео файлов с возможностью изменения параметров кодирования, а также
иллюстрирующие процесс функционирования кодека в виде промежуточных
результатов его работы в сочетании с дружественным пользователю
интерфейсом.
Внедрение результатов работы
Основные результаты работы внедрены в учебном процессе НИУ ИТМО и
проведенных в НИУ ИТМО НИР №610481 «Разработка методов и средств
системотехнического
проектирования
информационных
и
управляющих
вычислительных систем с распределенной архитектурой» кафедры ВТ и НИР
№211115 «Исследование и разработка методов искусственного интеллекта
применительно к задаче построения обобщенного решения мультимодальной
биометрической идентификации» кафедры РИС. Программное обеспечение,
реализующее предложенные методы и алгоритмы прошло государственную
регистрацию пакетов программ для ЭВМ (свидетельство №2013612402). Результаты
исследования поддержаны грантами Правительства Санкт-Петербурга в 2010 и 2011
гг.
Апробация результатов работы
−
−
−
−
−
−
Результаты выполненных исследований были представлены на конференциях:
XXXIX научной и учебно-методической конференции СПбГУ ИТМО (2010 г.).
VII Всероссийской межвузовской конференции молодых ученых (2010 г.).
XL научной и учебно-методической конференции СПбГУ ИТМО (2011 г.).
VIII Всероссийской межвузовской конференции молодых ученых (2011 г.).
XLI научной и учебно-методической конференции НИУ ИТМО (2012 г.).
I Всероссийском конгрессе молодых ученых (2012 г.).
6
− Международной научно-практической конференции «Научные исследования и
их практическое применение. Современное состояние и пути развития’ 2012»
(2012 г.).
Публикации
Основные результаты диссертационного исследования опубликованы в 13-ти
научных публикациях общим объемом 42 страницы: в том числе в 4-х статьях в
изданиях, включенных в Перечень ВАК, 10 работ опубликовано без соавторов.
Структура и объем работы
Диссертационная работа состоит из введения, основной части, содержащей 5
разделов, заключения, списка литературы и 2 приложений. В приложениях
представлены порядок тестирования, характер тестовых последовательностей, а
также документы, подтверждающие использование диссертационной работы.
Основной объем работы – 118 страниц. Объем приложений 26 страниц. Работа
содержит 27 иллюстраций и 1 таблицу. Список литературы включает 78
библиографических источников.
СОДЕРЖАНИЕ РАБОТЫ
Введение содержит обоснование актуальности рассматриваемых в диссертации
вопросов. Формулируются цель, задачи и методы исследования.
В
первом
разделе
рассматриваются
общие
вопросы
сжатия
видеопоследовательностей. Определяются существенные особенности такого типа
данных, а также возможности по устранению существующей избыточности.
Также определяются основные этапы сжатия и выделяются основные
функциональные единицы видеокомпрессора, а именно пространственная и
временная модели. Рассматриваются существующие критерии оценки качества
восстановленной видеопоследовательности.
Проведен обзор существующих алгоритмов в рамках пространственной и
временной
модели
видеокомпрессора.
Выявлены
основные
недостатки
существующих методов сжатия видеопоследовательностей и определены основные
подходы к их устранению. В конце раздела формулируются цель и задачи
исследования.
Во втором разделе исследуются алгоритмы оценки и компенсации движения на
основе сегментации видеоданных.
Подход к устранению временной избыточности видеопоследовательности на
основе блоков можно реализовать двумя способами – на основе сегментов
фиксированного (FSBM) и переменного размера (VSBM). При этом выбор размера
блока всегда является компромиссом между коэффициентом сжатия и уровнем
вносимых искажений.
В основу разработанных алгоритмов выбора и классификации блоков положен
алгоритм VSBM, поскольку он обеспечивает сокращение потока векторов движения
на 60 % по сравнению с алгоритмом FSBM.
7
Для предложенного алгоритма ортогональной пирамиды (MPO) выбора блоков
был использован иерархический поиск  алгоритм усредненной пирамиды (MP), а
также алгоритм ортогонального поиска (OSA).
В разработанном алгоритме предлагается добавлять к множеству кандидатов на
проверку для блока вектор, полученный по алгоритму поиска по шаблону OSA, на
уровне 2 иерархического поиска (рисунок 1). В случае если прогноз OSA оказывается
лучшим из четырех, то осуществляется поиск для одного окна конечного кадра, иначе
осуществляется поиск в рамках трех окон и далее в одном окне конечного кадра.
Для оценки эффективности предложенного алгоритма было выполнено его
сравнение со следующими алгоритмами: полного перебора (FS), поиска по принципу
«один за раз» (OTA), ортогонального (OSA), трехшагового (TSS), двухмерного
логарифмического (TDL), четырехшагового (FSS), иерархического (MP) поиска.
В ходе анализа результатов, представленных на рисунках 2 и 3, было выявлено,
что единственный подход, сравнимый по качеству с FS, но снижающий его
вычислительную сложность  алгоритм иерархического поиска.
1:Уровень 1
Уровень 2
Четыре
точки
лучшего
совпадения:
3 MP+1 OSA
2:Уровень 1
Окна поиска
лучшего совпадения
Окно поиска
лучшего
совпадения
2:Уровень 0
Окно поиска лучшего
совпадения
Рисунок 1 Схема отбора блоков по алгоритму MPO
При этом в алгоритме MPO поиск вектора движения для каждого блока не
зависит от результатов поиска на более ранних итерациях алгоритма, что делает
разработанный алгоритм наиболее эффективным для сложных траекторий движения.
В целях сокращения передаваемой информации о движении, было выработано
требование объединения блоков в соответствии с выбранным критерием
принадлежности локальной области. При этом рассматриваются два случая,
приводящих к снижению качества: потеря областей малого движения и небольшое
количество пикселов для блоков малого размера. Для первого случая выбрано
ограничение размеров блока до 64х64 пиксела, а для второго случая предложено
разделение сравниваемых блоков по различным их типам.
8
N
N
260
35
230
30
200
25
170
20
140
15
110
10
80
5
50
0
20
1
6
11
16
номер кадра
6
1
11
16
номер кадра
а
б
Рисунок 2 Значения количества базовых операций (N) для ряда кадров
последовательности «Береговая охрана» для перечня рассматриваемых алгоритмов:
(а)
TSS;
TDL;
FSS;
OTA;
OSA; (б)
FS;
MP;
MPO
PSNR,ДБ
60
55
50
45
40
35
30
25
FS
TSS
TDL
FSS
OTA
OSA
MP
MPO
Рисунок 3 Значения PSNR для тестовых последовательностей:
«Дети»;
«Погода»;
«Береговая охрана»; «Акийо»;
«Телефон в машине»
Для сокращения передаваемой информации о движении, как комбинация
блочного и объектного подхода, были проанализированы следующие алгоритмы
разделения блоков:
1. разделение по направлению движения в соответствии с алгоритмом (VJ –
Vectors Joint based), который выполняется в три этапа:
 сортировка векторов движения по принципу увеличения параметров
движения;
 разделение векторов движения в соответствие с допустимым уровнем
отклонения параметров движения на группы;
 выравнивание поля векторов за счет значений векторов локальной
окрестности.
2. разработанный алгоритм разделения в соответствии с маской классификации
по мажоритарному признаку (PoI − Points of Interest based). При этом маска
формируется в соответствии с этапами, приведенными на рисунке 4.
Выбор алгоритма выделения опорных точек основан на исследовании
следующих алгоритмов: алгоритм ADC (Absolute Difference Criteria), алгоритм
Харриса, а также алгоритм SIFT (Scale Invariant Feature Transform). По результатам
9
проведенного анализа алгоритм SIFT с размером ядра Гаусса 5x5 был выбран в
качестве основы для расчета маски классификации.
На
рисунке
5
начало
представлены
зависимости
PSNR
и
Выделение опорных точек по
Обработка коротких строк (в области
алгоритму SIFT.
вычислительных
затрат
Q,
резких скачков интенсивности), а также
строк, составленных из опорных точек
выражаемых количеством
Создание обрамления для каждой точки и точек обрамления.
границы строки интереса, а также границ
базовых операций на блок
по краям изображения.
кадра, от размеров блока,
Объединение коротких строк в зоны
Создание массива строк интереса из
выражаемых минимальинтереса по принципу их стыковки
строк длиннее двух пикселов.
ным
размером
S
и
сверху или снизу хотя бы в одной точке.
максимальным приращеОбъединение строк в зоны интереса по
нием по каждой из сторон
принципу их стыковки сверху или снизу
конец
более, чем в двух точках.
d, а также RD-характеристика.
Рисунок 4 Последовательность этапов алгоритма PoI
PSNR, ДБ
Q, б.о./блок
1300
65
1100
55
900
45
700
35
500
25
300
15
100
2x2,+2
2x2,+6
2x2,+14
4x4,+4
4x4,+12
4x4,+28
8x8,+24
8x8,+56 S, d, пкс
2x2,+2
2x2,+6
2x2,+14
4x4,+4
4x4,+12
4x4,+28
8x8,+24
8x8,+56 S, d, пкс
R, К сж.
10
9,6
9,2
8,8
8,4
8
15,00
20,00
25,00
30,00
35,00
40,00
45,00
50,00
55,00
60,00 D, дБ
Рисунок 5 Зависимости для алгоритмов классификации
VSBM+PoI+MPO;
VSBM+VJ+MPO и
алгоритма VSBM для последовательности «Теннис»
10
Анализ результатов показал, что предложенный алгоритм способствует
улучшению показателей сжатия воспроизведенной видеопоследовательности (если
PSNR > 30дБ, то качество работы алгоритма оценки и компенсации движения
считается хорошим). Алгоритм VSBM+PoI+MPO превзошел существующие
алгоритмы VSBM и VSBM+VJ+MPO как с точки зрения качества восстановленной
видеопоследовательности, так и с точки зрения коэффициента её сжатия при схожей
вычислительной сложности. Необходимо также отметить, что при максимальном
значении размера блока, равном 64×64, проявляется эффект мажоритарности.
Третий
раздел
посвящен
исследованию
алгоритмов
кодирования
преобразованием.
На основе данных, представленных в разделе 1, разработаны быстрые алгоритмы
преобразования
Хартли
(с
наилучшим
качеством
восстановленной
видеопоследовательности) и косинусного преобразования (с наилучшим
коэффициентом сжатия).
Для начала сформулируем принципы, на основе которых будут построены
предлагаемые быстрые алгоритмы. Данные преобразования допускают разделение
области расчета на подобласти. Используя корреляцию соседних областей, можно
существенно сократить вычислительные затраты. Кроме того, присутствие
симметричных и ассиметричных компонент дает дополнительную возможность
декомпозиции сигнала.
Нисходящий алгоритм быстрого трехмерного преобразования Хартли (3DБПХП) на основе неразделимого ядра преобразования для блоков целой размерности
можно сформулировать следующим образом:
7
X (u, v , t )   x r (u, v , t ) ,
r 0
где u, v, t – размерность вычисляемого целого блока, r – номер частичной суммы,
2 t
x 0(u, v, t )  X 000  u, v, t  , x 1(u, v, t )  X 001 u, v, t  cas ,
P
2 v
x 2(u, v, t )  X 010  u, v, t  cas M ,
t 
  v
x (u, v, t )  X  u, v, t  cas  2  M  P   ,
011
3
2 u
  u t 
x (u, v, t )  X   u, v, t  cas N , x (u, v, t )  X  u, v, t  cas  2  N  P   ,
100
4
101
5
v 
v
t 
 u
 u
x (u, v, t )  X   u, v, t  cas  2  N  M   , x (u, v, t )  X   u, v, t  cas  2  N  M  P   ,
110
6
X
N M
P
1 1 1
2
2
2
abc
(u, v, t )     cas(2 (
i 0 j 0 k 0
111
7
2iu 2 jv 2kt


)) f (2i  a, 2 j  b, 2k  c) ,
N
M
P
N, M, P – размерность куба-кадра, casx  sin x  cos x , а abc – трехбитный двоичный
код, определяющий номер формируемой суммы.
Блоки промежуточной размерности формируются иерархически при помощи
более крупных блоков целой размерности на основе вычисляемых частичных сумм по
формуле:
X (u ', v ', t ')     x r (u , v, t ) 
7
r 0
где u’, v’, t’ – размерность вычисляемого промежуточного блока. Промежуточный
блок может иметь размерность, уменьшаемую вдвое хотя бы по одной из координат.
11
x0(u,v,t)
X(u,v,t)
P
x1(u,v,t)
X(u,v,t- )
x2(u,v,t)
X(u,v-
x3(u,v,t)
X(u,v-
x4(u,v,t)
X(u-
x5(u,v,t)
X(u-
x6(u,v,t)
X(u-
x7(u,v,t)
X(u-
N
2
N
2
N
2
N
2
2
M
2
M
2
,t)
P
,t-
2
)
,v,t)
,v,t,v,v-
P
2
M
2
M
2
)
,t)
,t-
Рисунок 6 Схема итерации
алгоритма 3D-БПХП с
соответствующими связями
вычитания,
сложения
P
2
)
Если размер блока уменьшается по
одному или по трем аргументам для функции
cas, то знак суммы считается отрицательным.
При уменьшении размеров ни по одному или
по двум аргументам для функции cas знак не
изменяется.
Иерархический процесс продолжается,
пока размерность целого блока не составит
2x2 пиксела. Схема одной итерации
предложенного алгоритма представлена на
рисунке 6.
Алгоритм
быстрого
трехмерного
косинусного преобразования на основе
вычисления текущего отсчета по набору
предыдущих отсчетов (3D-БКПП) можно сформулировать следующим образом:
F (u, v , t ) 
  C abc{1,0,1}   K 000 F 000 





t 
v  

   K 100  F 100  F 100  2 F 110 cos 2 M  2 cos 2 P  F 101  2F 111 cos 2 M    

 



t
u 
t  

 2 cos

cos

   K 010  F 010  F 010  2 F 011 cos
2P
2 N  F 110 2F 111
2 N   



u
v 
u  

   K 001  F 001  F 001  2 F 101 cos
 2 cos
 2 F 111 cos

F
011

8
2N
2M 
2 N   

c (u )c ( v )c (t )  


NMP
t

   K 110  F 110  F 110  F 110  F 110  2 cos
 F 111  F 111    

F
111
2P


 


   K 101  F 101  F 101  F 101  F 101  2 cos   F 111  F 111  F 111    
2M


 



u

 
 K




2
cos






F 011 F 011 F 011
0 11  F 0 11
2 N F 111 F 111 F 111  




   K 111  F 111  F 111  F 111  F 111  F 111  F 111  F 111  F 111  
 1
, u, v, t  0
где c(u, v, t)   2
, K abc  cos  (3i  2  a) u  cos  (3 j  2  b) v  cos  (3k  2  c) t  ,
2N
2M
2P






 1, u, v, t  0

  u 

 v 

  t 

C abc  2 a  b  c K abc cos   2 N  * a  cos   2M  * b  cos   2P  * c  ,
F K
abc
N M
P
1 1 1
3
3
3
abc
    f (3i  2  a,3 j  2  b,3k  2  c) K abc ,
i 1
j 1 k 1
а abc- трехбитный троичный код, каждый разряд которого принадлежит множеству
{-1, 0, 1}.
Необходимо отметить, что переменный размер матрицы преобразования
формируется на основе блочных структур изображений, полученных на этапе оценки
и компенсации движения, а временная компонента выбирается равной расстоянию
между опорными кадрами.
В ходе исследования было выявлено, что трехмерные алгоритмы позволили
вдвое увеличить коэффициент сжатия видеопоследовательности по сравнению с
двумерными вариантами алгоритмов при незначительном ухудшении ее качества при
12
30
30
25
25
20
20
Q2
Q1
восстановлении по сравнению с двухмерными вариантами алгоритмов. Это
объясняется тем, что алгоритмы выполняют преобразование не только в
пространстве, но и во времени, устраняя соответствующую избыточность.
В результате исследования для кадров последовательности «Теннис» получены
зависимости, представленные на рисунках 7 и 8.
15
15
10
10
5
5
0
0
4
8
3D-БПХ
16
32
3D-БПХФ
3D-БКПФ
V
3D-БКП
4
8
V
16
32
Рисунок 7 Вычислительная сложность алгоритмов кодирования преобразованием
(Q1, Q2-количество умножений и сложений, V-размер стороны блока).
R, K cж.
50
45
40
35
30
25
20
15
10
5
0
53
54
55
56
57
58
Рисунок 8 RD-кривые для алгоритмов
3D-БПХФ,
3D-БПХП,
3D-БКПП кодирования преобразованием.
59 D, дБ
3D-БКПФ,
Предложенный быстрый алгоритм 3D-БПХП позволил на 30 % сократить число
операций сложения/умножения на пиксел кадра видеопоследовательности за счет
иерархического расчета коэффициентов преобразования по сравнению с
предложенным Джеонгом И. алгоритмом. Также он позволил повысить качество
восстановленной видеопоследовательности на 2 % и коэффициент ее сжатия на 1,5 %
по сравнению с алгоритмом на основе фиксированного размера ядра (3D-БПХФ).
Предложенный быстрый алгоритм 3D-БКПП позволил на 40 % сократить число
операций умножения на пиксел кадра видеопоследовательности при незначительном
увеличении числа сложений по сравнению с предложенным Алшибами Х.
13
алгоритмом. Также он обеспечил повышение качества восстановленной
видеопоследовательности и коэффициента ее сжатия на 3 % по сравнению с
подходом на основе фиксированного размера ядра (3D-БКПФ).
Преимущество алгоритмов на основе переменного ядра преобразования
объясняется
использованием
адаптивно
выбираемого
размера
матрицы
преобразования для областей с мелкими деталями и для областей фона
соответственно.
В четвертом разделе исследуется алгоритм адаптивной интерполяции
центрального отсчета, а также разработанный алгоритм интерполяции с адаптивным
размером ядра.
В ходе исследования было выявлено, что адаптивный алгоритм центрального
отсчета (рисунок 9) и разработанный алгоритм с адаптивным размером ядра (рисунок
10) позволяют в лучшей степени сократить блокинг - эффект, полученный в
результате кодирования преобразованием на основе блоков.
о
о
о
с
о
о
о
с
о
о
о
с
о
о
о
Рисунок 9 Адаптивная интерполяция центрального отсчета
Рисунок 10 Интерполяция с адаптивным размером ядра: 1 - 2х2, 2 - 4х4, 3 - 8х8, 4 16х16, 5 - 32х32, о - опорные отсчеты, с - центральные отсчеты
14
Алгоритм интерполяции с адаптивным размером ядра является рекурсивным
алгоритмом, в рамках которого центральный основной и побочные симметричные
отсчеты вычисляются нисходящим образом в рамках адаптивного алгоритма
центрального отсчета, причем направление предсказания определяется в целом для
блока в соответствии с критерием минимизации суммарной ошибки интерполяции и
передается кодовым словом длиной 2 бита на блок. Оставшиеся пикселы являются
крайними и вычисляются по алгоритму «прямой крест», преимущества качественных
характеристик которого показаны в разделе 1.
Необходимо отметить, что для блоков различного размера, полученного на этапе
оценки и компенсации движения, применяются соответствующие ядра интерполяции,
обеспечивающие совместимость при стыковке блоков различного размера.
При этом интерполяционный остаток (разностное изображение) предлагается
формировать только для опорных кадров, а для ссылочных кадров предлагается
полагать все коэффициенты, кроме опорных, равными нулю.
Сравнительные оценки алгоритмов интерполяции, представленные на рисунке
11,
показали
возможность
увеличения
коэффициента
сжатия
видеопоследовательности на 20% за счет алгоритмов интерполяции, и в среднем на
30% за счет предложенного алгоритма интерполяции.
Q, б.о./блок
PSNR,ДБ
60
3000
55
2500
50
2000
45
1500
40
35
1000
30
500
25
20
0
2x2,+2
2x2,+6
2x2,+14
4x4,+4
4x4,+12
4x4,+28
8x8,+24
8x8,+56 S, d, пкс
2x2,+2
2x2,+6
2x2,+14
4x4,+4
4x4,+12
4x4,+28
8x8,+24
8x8,+56S, d, пкс
R, К сж.
6
5,5
5
4,5
4
3,5
3
20,00
25,00
30,00
35,00
40,00
45,00
50,00
55,00
60,00 D,дБ
Рисунок 11 Зависимости для алгоритмов интерполяции
адаптивной
центрального отсчета,
VSBM без квантования,
адаптивного размера ядра
для последовательности «Теннис»
В пятом разделе предлагается комплексный метод сжатия видеоданных,
основанный на сочетании предложенных алгоритмов, а также описывается
программная реализация предложенного метода.
15
На рисунке 12 представлена модель кодера. Пунктирной стрелкой обозначена
связь по данным блоков временной и пространственной модели.
В рамках пространственной модели отсчеты сигнала поступают на вход
анализатора кодирования, затем осуществляется интерполяция отсчетов сигнала по
алгоритму, представленному в главе 4, его переупорядочивание зигзаг сканированием и квантование алгоритмом кодового квантования, являющегося
частным случаем сеточного квантования, который использует вектора надежности
битовых плоскостей кадра.
Энтропийное кодирование осуществляется модифицированным кодом
Хаффмана переменной длины.
АК
входной
видеопоток
+
-
Кодирование
преобразованием
DCT
Кодирование
преобразованием
DHT
АК
Квантование
Компенсация
движения
Декодирование
преобразованием
DCT
Декодирование
преобразованием
DHT
+ +
Выбор
режима
выходной
видеопоток
Энтропийное
кодирование
Деквантование
Intra
предсказание
Буферизация
кадров
Оценка
движения
Рисунок 12 Модель кодера
Блок анализатора кодирования (АК) представляет собой анализатор движения,
описанный в разделе 3 с расширенным функционалом. На основании значений порога
анализатора T1 и T2 , равных 4 и 14 соответственно, осуществляется выбор 2D/3D
режима. Анализатор кодирования формируется в соответствии с условием:
M T и M
2 D  ДПХ , если T  M  T
2 D  ДКП , если M  T
3D  БПХП , если T  M  T
3D  БКПП , если T  M  T
первой плоскости, если
плоскость куба 
1
1
2
2
2
2
T1
4
,
4
1
2
3
3
2
2
где
M
1
 max(m1(0, 0), m1(0,
при m (a, b) 
1
a
max
t[0.. P 1]
M
N
N M
M
N
N M
), ( , 0), m1( , )) , M 2  max(m 2(0, 0), m 2(0, ), m 2( , 0), m 2( , )) ,
2 m1 2
2 2
2
2
2 2
N
M
1 b  1
2
2
 
u a
v b
c(u , v, 7)  c(u, v, t ) , m 2(a, b)  max
t[0.. P 1]
a
N
M
1 b  1
2
2
 
x a
c(u, v, 0)  c(u, v, t )
,
y b
где с и с’ значения яркостей пикселов текущего и предыдущего кадров.
16
Двухмерные алгоритмы кодирования преобразованием реализуются строчностолбцовым методом.
В ходе исследования было выявлено, что лучшие значения RD - характеристики
показали значения порогов анализатора T3 и T4 , равные 8 и 17.
Благодаря симметричности алгоритма, декодирование осуществляется
аналогично в обратном направлении.
В ходе диссертационной работы были разработаны программные средства в
среде разработки Visual C++. Блок-схема взаимодействия основных процедур
разработанного приложения представлена на рисунке 13.
Программные средства позволяют:
1. осуществлять
выбор
основных
параметров
кодирования;
Запуск программы « RubiRum»
2. отображать
результаты
Основное диалоговое окно
оценки
и
компенсации
просмотра и выбора файлов
движения в виде кадра, с
Переход к процессу сжатия
обозначением
блоков
и
выбранного файла
векторов движения;
Диалоговое окно предварительных
результатов сжатия (без сжатой
Меню общих параметров
3. осуществлять оценку основвидео последовательности)
сжатия
ных показателей сжатия, а
Меню настройки
именно качества, коэффикомпенсации движения
Настройка параметров сжатия
циента сжатия и битрейта;
видео последовательности
Меню настройки
4. осуществлять
сжатие
кодирования
преобразованием
видеопоследовательности по
Сжатие файла
Изменение настроек
с заданными
заданному
набору
Меню настройки
или сохранение
настройками
интерполяции
результата
параметров, воспроизводить
и
сохранять
результаты
Диалоговое окно предварительных
Окно предварительного
сжатия в формате mkv.
результатов сжатия (с сжатой
просмотра кадра данных
видео последовательностью)
Экспериментальные
Сохранение результатов
результаты, представленные
и выход из программы
Выход из
на рисунке 14, показали, что
программы
Конец сеанса работы
с программой RubiRum
качество работы предложенного видеокомпрессора не
Рисунок 13 Блок-схема взаимодействия
уступает видеокомпрессору
на основе стандарта H.264.
B, Кбит/c
R, Ксж
490
1600
420
1400
1200
350
1000
280
max
800
min
210
600
140
min
400
max
70
200
0
0
18
20
22
24
26
28
30
32
34
36
38
40 D, дБ
18
20
22
24
26
28
30
32
34
36
38
40
D, дБ
Рис.14 Зависимости коэффициента сжатия и битрейта от качества для
различных значений параметра квантования для видеокомпрессоров
H.264;
VP8 и
разработанного метода
17
Представленные зависимости приведены для двух крайних случаев для
последовательностей наименьшей (min) и наибольшей (max) динамичности.
Применение предложенного метода сжатия видеоданных позволило повысить
качество восстановленной видеопоследовательности на 5%, коэффициент ее сжатия
на 30% по сравнению с методом VP8, а также сократить необходимый битрейт на
30% и вычислительные затраты на 20%.
В заключении представлены основные результаты работы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1.
2.
3.
4.
5.
6.
7.
В результате исследования алгоритмов выбора блоков для сравнения предложен
иерархический алгоритм выбора блоков для сравнения.
В ходе исследования алгоритмов оценки и компенсации движения разработан
алгоритм классификации блоков кадра на основе маски, построение которой
осуществляется в рамках предложенного алгоритма построения маски.
Предложен иерархический алгоритм быстрого преобразования Хартли на основе
неразделимого ядра преобразования переменного размера.
Разработан алгоритм быстрого косинусного преобразования с переменным
размером ядра преобразования, базирующийся на расчете коэффициентов
преобразования по ряду предыдущих отсчетов.
Предложено использовать интерполяцию отсчетов сигнала для устранения
блокинг - эффекта на выходе блока кодирования преобразованием, а также
разработан алгоритм интерполяции на основе адаптивного выбора размера ядра.
Разработаны модель и метод сжатия видеоданных, основанные на сочетании
предложенных алгоритмов.
Выполнена программная реализация предложенного метода сжатия и получены
численные результаты компрессии видеопоследовательностей различной
динамичности, согласно которым общий выигрыш от использования
предлагаемого метода составляет порядка 25 %.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1.
2.
3.
Рубина, И. С. Анализ методов построения траектории движущихся объектов на
основе сегментации видеоданных / И. С. Рубина // Научно-технический вестник
Санкт-Петербургского государственного университета информационных
технологий, механики и оптики. – 2011. – С. 127-132 (из перечня ВАК).
Рубина, И. С. Анализ сегментного подхода к компенсации движения в задачах
детектирования движения и сжатия видеоданных в рамках натуралистических
исследований / И. С. Рубина, А. С. Румянцев // Сборник научных трудов Sworld.
Материалы международной научно-практической конференции «Научные
исследования и их практическое применение. Современное состояние и пути
развития ‘2012». – вып. 3. т. 4. – Одесса: Черноморье. – 2012. – С. 14-24 (из
перечня ВАК).
Рубина, И. С. Исследование алгоритмов выбора опорных пикселов в задачах
выделения сегментов кадра видеопоследовательности / И. С. Рубина,
18
А. Ю. Тропченко
//
Научно-технический
журнал
Приборостроение». – 2012. – С. 9-14 (из перечня ВАК).
«Известия
вузов.
4.
Рубина, И. С. Исследование алгоритмов кодирования преобразованием в задачах
сжатия кадров видеопоследовательности / И. С. Рубина, А. Ю. Тропченко // НаучноТехнический журнал «Известия вузов. Приборостроение». – 2012. - С. 26-31 (из
перечня ВАК).
5.
Рубина, И. С. Анализ методов построения траектории движущихся объектов на
основе сегментации видеоданных / И. С. Рубина // Сборник тезисов VII
Всероссийской межвузовской конференции молодых ученых. – 2010. – вып. 1. –
С. 24-25.
Рубина, И. С. Анализ проблем передачи видео в существующих системах
видеоконференцсвязи / И. С. Рубина // Материалы XXXIX научной и учебнометодической конференции СПбГУ ИТМО. – 2010. – С. 32.
Рубина, И. С. Исследование алгоритмов выделения опорных точек в задачах
классификации сегментов кадра видеопоследовательности / И. С. Рубина //
Материалы XL научной и учебно-методической конференции СПбГУ ИТМО. –
2011. – С. 32.
Рубина, И. С. Исследование методов устранения временной избыточности в
перспективных стандартах сжатия видеоданных / И. С. Рубина // Сборник научно
- исследовательских выпускных квалификационных работ студентов СПбГУ
ИТМО. – 2010. – С. 51-53.
Рубина, И. С. Исследование пространственно - временных алгоритмов
компенсации движения / И. С. Рубина // Материалы XLI научной и учебнометодической конференции НИУ ИТМО. – 2012. – С. 32.
Рубина, И. С. Исследование способов повышения эффективности сжатия видео
путем
устранения
временной
избыточности
сегментов
кадра
видеопоследовательности за счет решения апертурной проблемы / И. С. Рубина //
Сборник «XVI Санкт-Петербургская ассамблея молодых ученых и
специалистов». – 2011. – С. 144.
Рубина, И. С. Методы и алгоритмы построения траектории движущихся
объектов на основе сегментации видеоданных / И. С. Рубина // Сборник «XV
Санкт-Петербургская ассамблея молодых ученых и специалистов». – 2011. – С.
142.
Рубина, И. С. Устранение временной избыточности на основе сегментного
подхода к решению задач оценки и компенсации движения / И. С. Рубина //
Сборник тезисов VIII Всероссийской межвузовской конференции молодых
ученых. – 2011. – вып. 1. – С. 116-117.
Рубина, И. С. Устранение избыточности видеоданных на основе алгоритмов
кодирования преобразованием / И. С. Рубина // Сборник тезисов I
Всероссийского конгресса молодых ученых. – 2012. – вып. 1. – С. 48-49.
6.
7.
8.
9.
10.
11.
12.
13.
Download