Сравнительный анализ алгоритмов и профилей

advertisement
УДК 681.518.5 + 004.627
А.В. ТЮТЯКИН, В.А. ВЕРЕМЧУК, В.В. ЧЕРЕПКОВ
A.V. TIUTIAKIN, V.A. VEREMCHUK, V.V. CHEREPKOV
ПРЕДПОЧТИТЕЛЬНЫЕ ПРОФИЛИ СЖАТИЯ ИНФОРМАТИВНЫХ СИГНАЛОВ В
СИСТЕМАХ КОНТРОЛЯ И ДИАГНОСТИКИ ТЕХНИЧЕСКИХ ОБЪЕКТОВ
PREFERABLE SIGNALS-OF-INTEREST COMPRESSION PROFILES IN THE
TECHNICAL OBJECTS TESTING AND DIAGNOSTICS SYSTEMS
Статья посвящена выявлению предпочтительных профилей (т. е. сочетаний алгоритма, его
параметров и опций) сжатия массивов отсчетов информативных сигналов в системах контроля и
диагностики технических объектов. Установлены профили, обеспечивающие максимальные коэффициенты
сжатия распространенных категорий сигналов, а также характеристики сигналов, определяющие указанные
профили. Приведены общие рекомендации по выбору профилей сжатия.
Ключевые слова: система контроля и диагностики; отсчеты сигналов; сжатие данных; профиль.
The article is devoted to the exposing of preferable compression profiles (i. e. the combinations of compression
algorithm, its characteristics and options) for the signals-of-interest samples arrays in the technical objects testing and
diagnostics systems. The profiles which afford maximum compression ratings of widespread signals classes and the
signals characteristics which determine these profiles are established. The general directions for the compression
profiles selection are presented.
Keywords: testing and diagnostics system; signal samples; data compression; profiles.
В большинстве систем контроля и диагностики технических объектов (СКДТО)
контрольно-диагностические решения принимаются на основании анализа (во временной
или в частотной области) массивов отсчетов выходных сигналов датчиков физических
величин, характеризующих состояние объекта контроля. Для указанной разновидности
исходных данных СКДТО характерны следующие основные особенности [1]:
- значительные объемы каждого из файлов отсчетов (порядка сотен килобайт –
единиц мегабайт);
- обязательность протоколирования и хранения исходных файлов отсчетов в
электронных архивах, при количестве файлов, подлежащих хранению в архиве
документации каждого из объектов контроля, от нескольких десятков до нескольких тысяч;
- недопустимость каких-либо потерь информации, хранящейся в архивах, т. к.,
например, даже незначительные по длительности или по амплитуде фрагменты сигнала
могут иметь важное значение при принятии контрольно-диагностических решений.
Вышеуказанные особенности в большинстве практических случаев обусловливают
необходимость сжатия указанных файлов без потерь информации.
Известно достаточно много алгоритмов сжатия без потерь. Однако до настоящего
времени отсутствуют систематизированные данные о профилях сжатия (т. е. сочетаниях его
алгоритма, а также параметров, характеристик и опциональных возможностей последнего),
предпочтительных для компрессии исходных данных в СКДТО рассматриваемого класса, в
зависимости от категории указанных данных – области представления при анализе
(частотной или временной), степени зашумленности и т. п.
Целью исследований, результаты которых отражены в настоящей статье, являлось
выявление профилей сжатия, предпочтительных для компрессии исходных данных в СКДТО
рассматриваемого класса.
Для достижения указанной цели решены следующие задачи:
- выявление способов и алгоритмов сжатия, применимых для кодирования выходных
сигналов датчиков СКДТО;
- выявление профилей сжатия из числа применимых, предпочтительных для
кодирования различных категорий исходных данных в СКДТО рассматриваемого класса.
Очевидно, основным условием применимости способа / алгоритма сжатия для
кодирования выходных сигналов датчиков СКДТО является:
xˆi   xi  i ,
(1)
где xi и x̂i - значения i -го отсчета соответственно до сжатия и после
декомпрессии.
В таблице 1 представлены краткие описания методов сжатия, потенциально
применимых для кодирования выходных сигналов датчиков СКДТО [2, 3], а также
результаты анализа их применимости для решения данной задачи. На их основании сделаны
выводы, что применимыми для сжатия массивов отсчетов выходных сигналов датчиков
СКДТО и подлежащими исследованию на предмет предпочтительности являются:
- все алгоритмы / протоколы, ориентированные на сжатие дискретных сообщений;
- алгоритмы / протоколы сжатия без потерь методом адаптивной дифференциальной
импульсно-кодовой модуляции (АДИКМ).
В свою очередь, к предпочтительным следует отнести профили сжатия,
обеспечивающие максимальные коэффициенты компрессии, по крайней мере, какой-либо
одной категории исходных данных в СКДТО рассматриваемого класса, по сравнению с
другими профилями из числа применимых в указанных СКДТО. Также дополнительным
необходимым условием отнесения профиля к предпочтительным являются приемлемые для
СКДТО суммарные затраты времени на кодирование и декодирование, которые не должны
превышать нескольких секунд.
Таблица 1 – Краткие описания методов сжатия, потенциально применимых для
кодирования выходных сигналов датчиков СКДТО
Методы сжатия
Применимость в Распространенные
Применяемые
СКДТО
алгоритмы /
алгоритмом /
протоколы сжатия
протоколом способы
кодирования
1
2
3
4
Сжатие
массива Применимы
PPM
Арифметическое
отсчетов
как благодаря
кодирование; определение
дискретного
принципиальному
статистики сообщения –
сообщения
отсутствию
методом контекстного
(последовательности потерь
моделирования с
чисел).
информации при
предсказанием.
кодировании и
LZMA
Словарное кодирование.
декодировании.
BZip2
Префиксное
неравномерное
кодирование с
предварительными BWT и
MTF – преобразованиями.
Deflate
Комбинация словарного и
префиксного
неравномерного
кодирования.
Адаптивная
FLAC
Моделирование сигнала во
дифференциальная
времени полиномом или
импульсно-кодовая
способом линейного
модуляция (АДИКМ)
предсказания с
сигнала,
энтропийным
представляемого
кодированием ошибок
массивом отсчетов.
моделирования.
Окончание таблицы 1
1
Представление
выходного сигнала
датчика
последовательностью
отсчетов
его
амплитудного
спектра,
спектральной
плотности мощности
или
автокорреляционной
функции,
с
последующим
кодированием
данной
последовательности
как
дискретного
сообщения.
2
3
4
Применение в СКДТО нежелательно из-за неизбежности потерь или /
и искажений подлежащих протоколированию исходных данных при
спектральном или корреляционном анализе и, как следствие,
невозможности, в общем случае, обеспечения условия (1).
Для выявления предпочтительных профилей сжатия проведен сравнительный анализ
всех профилей, применимых в СКДТО рассматриваемого класса, по обеспечиваемым ими
коэффициентам сжатия на представительном множестве тестовых данных. В него были
включены примеры всех основных категорий исходных данных СКДТО рассматриваемого
класса – массивы отсчетов выходных сигналов датчиков СКДТО, с различными областями
представления при анализе (как частотной, так и временной), степенями зашумленности и
насыщенности информативными компонентами (спектральными при частотном
представлении, импульсными – при временном). Состав и краткие характеристики файлов
тестовых данных представлены в таблицах 2 и 3. Файлы СмСнSNR10, СмСнSNR3,
СмГсSNR10 и СмГсSNR3 сгенерированы искусственно, остальные получены в процессе
работы реальных СКДТО. Все файлы были представлены в формате массивов 32-битовых
чисел с плавающей точкой. Объем каждого из них – порядка нескольких сотен килобайт.
Таблица 2 – Состав и краткие характеристики файлов, использовавшихся в качестве
представительных примеров данных, анализируемых в частотной области
Файлы
Краткое описание
Вид спектра
данных
1
2
3
Массив отсчетов суммы
трех синусоид и
«белого» шума, с
отношением «сигналСмСнSNR10 шум», равным 10-ти.
Категория данных:
слабо насыщенные
информативными
компонентами, слабо
зашумленные.
Окончание таблицы 2
1
2
Массив отсчетов суммы
трех
синусоид
и
«белого»
шума,
с
отношением «сигналСмСнSNR3 шум», равным 3-м.
Категория данных:
слабо
насыщенные
информативными
компонентами,
зашумленные.
Массив
отсчетов
выходного
сигнала
резистивного датчика
состояния
опоры
качения при овальности
5 мкм.
ОК5мкм
Категория данных:
средне
насыщенные
информативными
компонентами,
зашумленные.
Массив
отсчетов
выходного
сигнала
резистивного датчика
состояния
опоры
качения при овальности
5 мкм.
ОК50мкм
Категория данных:
насыщенные
информативными
компонентами,
зашумленные.
3
Таблица 3 – Состав и краткие характеристики файлов, использовавшихся в качестве
представительных примеров данных, анализируемых во временной области
Файлы
Краткое описание
Вид временной диаграммы
данных
1
2
3
Массив отсчетов
суммы 2-х Гауссовых
импульсов и «белого»
шума, с отношением
СмГсSNR10 «сигнал-шум», равным
10-ти.
Категория данных:
слабо насыщенные
информативными
компонентами, слабо
зашумленные.
Окончание таблицы 3
1
2
Массив
отсчетов
суммы 2-х Гауссовых
импульсов и «белого»
шума, с отношением
СмГсSNR3 «сигнал-шум», равным
3-м.
Категория данных:
слабо
насыщенные
информативными
компонентами,
зашумленные.
Массив
отсчетов
выходного
сигнала
фотометрического
детектора жидкостного
хроматографа
при
минимальных шуме и
ХрК
дрейфе.
Категория данных:
слабо
насыщенные
информативными
компонентами,
не
зашумленные.
Массив
отсчетов
выходного
сигнала
фотометрического
детектора жидкостного
хроматографа
при
минимальном шуме и
ХрД
повышенном дрейфе.
Категория данных:
насыщенные
информативными
компонентами,
не
зашумленные.
Массив
отсчетов
выходного
сигнала
флуориметрического
детектора жидкостного
хроматографа
при
повышенных шуме и
ХрШД
дрейфе.
Категория данных:
слабо
насыщенные
информативными
компонентами,
зашумленные.
3
Коэффициенты сжатия, обеспечиваемые основными профилями перечисленных в
таблице 1 алгоритмов для представленных в таблицах 2 и 3 тестовых файлов, приведены в
таблице 4. Полужирным шрифтом выделены максимальные коэффициенты сжатия,
обеспечиваемые для каждого из файлов каждым из алгоритмов / протоколов, а полужирным
подчеркнутым – максимальные достигнутые коэффициенты сжатия каждого из файлов.
Также установлено, что по затратам времени на кодирование / декодирование все
исследованные профили сжатия применимы в СКДТО.
Deflate
32
Deflate
64
LZMA
6,93
1,35
1,52
1,25
1,29
1,48
11,2
1,56
13,5
1,87
1,42
11,1
1,49
7,01
1,60
6,07
6,26
9,78
10,2
6,46
10,5
3,83
4,35
4,58
4,82
4,85
5,52
6,18
6,65
7,27
7,51
7,74
4,86
1,24
ХрШД
ОК5мкм
1,61
ХрД
1,30
1,40
ХрК
1,28
СмГсSNR10
1,35
СмГсSNR3
СмСнSNR10
Разрядность
слова, бит
1,34
ОК50мкм
BZip2
Все доступные
в архиваторе
7zip
100
-**
200
300 –
900
8
12
16
32
24
32
48
64 258
8
12
16
64
24
32
48
64 257
8
16
32
1 МБ –
64
64 МБ
128
256
273
СмСнSNR3
РРМd
Размер
словаря,
Кбайт
Алгоритм /
протокол
Таблица 4 – Коэффициенты сжатия тестовых файлов, обеспечиваемые алгоритмами /
протоколами, применимыми для кодирования выходных сигналов датчиков СКДТО
Профиль
Коэффициенты сжатия файлов
3,82
4,35
4,63
4,87
4,95
7,78
8,27
7,85
5,52
6,18
6,66
7,34
7,61
7,84
8,51
1,43
7,01
1,36
1,42
1,37
1,35
1,68
1,41
6,12
7,86
8,75
9,56
9,98
10,0
10,1
10,0
8,25
1,59
8,50
1,76
1,77
1,79
1,76
9,21
9,63
9,93
10,1
10,2
Профиль по
2,44
2,46
2,44 7,60 3,81
2,16 2,37 2,17
умолчанию
* Разрядность слова не является выбираемым элементом профиля алгоритма BZip2
FLAC
1,60
7,77
7,94
5,34
5,84
6,10
6,14
6,13
1,59
1,75
1,74
1,73
2,05
На основании данных, представленных в таблице 4, можно сделать следующие
выводы.
1. Коэффициенты сжатия одних и тех же файлов при использовании различных
профилей могут различаться в 2 – 5 раз. С другой стороны, профиль, обеспечивающий
максимальный коэффициент сжатия некоторой категории данных, может оказаться наименее
предпочтительным для компрессии ряда других категорий. Это подтверждает необходимость
выявления предпочтительных профилей сжатия каждой из категорий данных.
2. Из исследованных профилей сжатия максимальные коэффициенты компрессии
обеспечивают, в зависимости от категории данных, или алгоритм PPMd (его профиль не
влияет на коэффициенты сжатия файлов исследованных типов и объемов), или протокол
FLAC (профиль по умолчанию). Таким образом, данные профили сжатия являются
потенциально предпочтительными для применения в СКДТО рассматриваемого класса.
3. Предпочтительный профиль сжатия конкретного файла данных определяется
степенью их насыщенности информативными компонентами (спектральными при
частотном представлении, импульсными – при временном). Для слабо насыщенных
указанными компонентами последовательностей отсчетов предпочтительно сжатие методом
АДИКМ, лежащим в основе протокола FLAC. Средне- и сильно
насыщенные
последовательности предпочтительно кодировать, как дискретные сообщения, способом
арифметического кодирования с контекстным моделированием, реализуемым алгоритмом
PPMd.
4. Область представления данных при анализе (частотная или временная) и степень
зашумленности не влияют на предпочтительный профиль сжатия.
5. Разработка алгоритмов выбора предпочтительного профиля сжатия для каждой
конкретной последовательности отсчетов на основании параметров и характеристик
представляемого ею сигнала является предметом дальнейших исследований. Однако,
благодаря относительно небольшим затратам времени на компрессию, характерным для
потенциально предпочтительных профилей, указанный выбор может осуществляться и
методом перебора. При этом подлежащая сжатию последовательность кодируется с
использованием каждого из потенциально предпочтительных профилей. По результатам
кодирования выбирается профиль, обеспечивший наибольший коэффициент сжатия.
В настоящее время проводятся работы по созданию автоматически профилируемых
программных средств сжатия и обработки данных в СКДТО.
СПИСОК ЛИТЕРАТУРЫ
1. Неразрушающий контроль и диагностика: Справочник / Под ред. В. В. Клюева. –
М.: Машиностроение, 2003. – 656 с.
2. Сэломон, Д. Сжатие данных, изображений и звука. – М.: Техносфера, 2006. – 368 с.
3. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео / Д.
Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. – М.: Диалог-МИФИ, 2003. – 384 с.
Тютякин Александр Васильевич
ФГБОУ ВПО «Госуниверситет - УНПК», г. Орел
К.т.н., доцент кафедры «Электроника, вычислительная техника и информационная безопасность»
Тел. 8-906-664-61-61
E-mail avt@rbcmail.ru
Веремчук Владимир Александрович
ФГБОУ ВПО «Госуниверситет - УНПК», г. Орел
Студент
Тел. , 8-910-266-42-67
E-mail kelleerhell@gmail.com
Черепков Валерий Викторович
ФГБОУ ВПО «Госуниверситет - УНПК», г. Орел
Студент
Тел. 8-930-862-01-55
E-mail valera-cherepkov@yandex.ru
Download