Оптимизация слабоконтрастных изображений на основе

advertisement
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
А.В. КОВАЛЬЧУК2, С.А. ПОЛЕВАЯ¹, А.Г. ХОБОТОВ2,
С.Б. ПАРИН3,В.A. АНТОНЕЦ2, В.Г. ЯХНО2
¹Нижегородская государственная медицинская академия
vostokov@appl.sci-nnov.ru
²Институт прикладной физики РАН, Нижний Новгород
aka.xzib1t@gmail.com
3
Нижегородский государственный университет им. Н.И. Лобачевского
parins@mail.ru
ОПТИМИЗАЦИЯ СЛАБОКОНТРАСТНЫХ ИЗОБРАЖЕНИЙ НА
ОСНОВЕ ПСИХОФИЗИЧЕСКИХ ФУНКЦИЙ
Обоснованы возможности психофизической функции для персонифицированной адаптации яркостного контраста на виртуальном изображении. Разработана система амплитудно-цветовой коррекции изображений,
позволяющая автоматически корректировать амплитудные характеристики слабоконтрастных фрагментов изображений. Для оптимального восприятия изображения использовались данные психофизических экспериментов о порогах распознавания объектов на изображениях. Выполняемое
преобразование позволяет выполнить процедуру сжатия изображения
до 1,5–2 раз.
Ключевые слова: интерфейс компьютер-человек, персонифицированная
адаптация изображений, психофизическая функция, алгоритмы перцепции
Введение
Рассогласования по временным, пространственным и амплитудным
масштабам между физическими сигналами и субъективными образами
проявляются в ошибках восприятия. В XIX веке было предложено строить специальные калибровочные кривые для органов чувств – психофизические функции, которые должны были обеспечить преобразование субъективных ощущений в реальные физические величины. Хотя в конце позапрошлого века такие измерения были очень трудоемкими, довольно
быстро появились методы, психометрические кривые и таблицы с коэффициентами для пересчета интенсивности ощущения в амплитуду физического сигнала для разных сенсорных модальностей. Экспериментально
полученные связи между приращением физической величины с приращением ощущения поспешно объявлялись универсальными законами чувУДК 004.032.26(06) Нейронные сети
46
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
ствительности. За право называться основным психофизическим законом
конкурировали логарифмическая функция Вебера-Фехнера, линейное
преобразование Бекеши, степенная функция Плато, распределение Пуассона и др. [1]. Каждая из этих зависимостей выведена экспериментально,
но в разном контексте, для разных диапазонов интенсивности, для разных
модальностей и, соответственно, не может претендовать на роль универсального закона. Кроме того, систематические измерения психофизических функций у разных людей в разных контекстах приподнесли неприятный сюрприз: оказалось, что функции разных людей даже по отношению к одной модальности даже в стандартизированном контексте различны и, более того, у одного человека могут изменяться не только коэффициенты апроксимирующей функции, но и характер самой зависимости. В
качестве курьеза можно привести исторический факт: в попытке отстаять
право логарифмической функции на универсальность Фехнер предложил
ввести в уравнение связи реального веса и ощущаемого еще один параметр – вес руки испытуемого, а Гельмгольц ввел в функцию различения
освещенностей еще и собственное излучение глаза [1].
Очевидно, восприятие человека не приспособлено для точных измерений. В рамках интеграционной парадигмы сознания [2–5] восприятие –
это выбор наиболее значимого образа из широкого репертуара возможных, а сенсорный сигнал является кодом для реконструкции информационных образов на основе внутренних моделей, отображающих связь этого
сигнала с экзогенным и эндогенным контекстами [6–8]. Мы предполагаем, что психофизическая функция отображает настроечные характеристики перцептивной системы конкретного человека, оптимизированные для
конкретного функционального контекста и, соответственно, измеряя психофизическую функцию, мы получаем данные, необходимые для адаптации объективных сигналов под индивидуальное сенсорное пространство.
Таким образом, актуальное назначение психофизической функции существенно отличается от исходного: вместо преобразования ощущений в
физическую величину, мы предлагаем, опираясь на психофизическую
функцию, приспособить физические величины под характеристики восприятия и увеличить информативность объективных сигналов для конкретного человека.
В нашей работе представлена технология для измерения индивидуальных психофизических функций по отношению к параметрам виртуальных
изображений и алгоритм адаптации яркостного контраста под восприятие
на основе информационной теории кодирования сигналов с использованием психофизической функции.
УДК 004.032.26(06) Нейронные сети
47
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
Технология измерения индивидуальных психофизических функций
для параметров виртуальных изображений
Существующие в настоящее время стратегии психофизических измерений требуют специализированной аппаратуры, не поддаются стандартизации и настолько разнообразны, что проблема психофизического картирования конкретного человека в конкретной ситуации до сих пор остается актуальной. Мы предлагаем новую архитектуру программной среды
для конструирования информационных технологий, обеспечивающих
прямое измерение пороговых характеристик основных информационных
каналов человека, связанных с осознанием сигнала, генерируемого компьютером или внешним устройством, управляемым через компьютер.
Ключом для конструкции стала идея отца кибернетики Норберта Винера,
утверждавшего, что внутренние свойства информационной системы проявляются в искажениях, которые эта система вносит в исходный сигнал. В
общей измерительной схеме реализован цикл: генерация физического
сигнала – субъективный сенсорный образ – моторное управление значимыми параметрами сигнала – регистрация параметров физического сигнала в процессе управления. Искажения, ошибки, вносимые человеком в
управляемый параметр стимула, и являются характеристикой его сенсорной системы:
- ошибки в обнаружении сигнала определяют абсолютный порог восприятия;
- ошибки в различении уровней сигнала – дифференциальные пороги;
- ошибки в идентификации сигнала, связанные с временными интервалами или пространственными градиентами, соответствуют временным и
пространственным порогам.
В рамках предложенной нами архитектуры обеспечивается настройка
экспериментальной среды для реализации как базовых психофизических
методов (метод границ, метод постоянных, метод установки), так и для
оригинальных психофизических стратегий.
УДК 004.032.26(06) Нейронные сети
48
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
Рис. 1. Психофизические функции для разных параметров виртуального
изображения (А) и для аналогичных физических величин (Б)
Измерения индивидуальных психофизических функций по отношению
к параметрам виртуального изображения проведены с помощью разработанной нами технологии компьютерной кампиметрии, в которой компьютер является источником сигнала и регистратором [7]. В базовой экспериментальной парадигме реализованы методы границ и метод средней точки, обеспечивающие измерение верхнего и нижнего порогов различения
для построения психофизических функций по любой из компонент цветового пространства: R, G, B или H, L, S (рис. 1А, 1,2,3). Результаты измерений могут быть представлены как в форме зависимости количества разУДК 004.032.26(06) Нейронные сети
49
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
личительных ступеней от величины виртуального параметра (психометрическая кривая), так и форме зависимости дифференциального порога от
величины виртуального параметра.
Психофизические функции параметров виртуального изображения хорошо воспроизводят зависимости, полученные для аналогичных физических величин реального объекта (рис. 1А, Б), и могут существенно отличаться как для разных людей (1А, 2), так и у одного человека по отношению к одной модальности в стандартизированном внешнем контексте
(1А, 1).
Процедура измерения полностью автоматизирована, длится не более
5 мин, не требует специальной подготовки и доступна даже для детей в
возрасте 5 лет и пациентов неврологической клиники с обширными
нарушениями мозгового кровообращения.
Алгоритм адаптации виртуального изображения
на основе психофизической функции
В качестве демонстрации эффективности подхода, основанного на использовании психофизической функции, была разработана программа
визуализации изображений. Алгоритм визуализации включает в себя два
последовательных процесса:

определение объектов на изображении, которые необходимо отличать друг от друга;

визуализация найденных объектов, в соответствии с особенностями зрительной системы.
В работах [12, 13] рассмотрен вопрос об определении методов и процедур кодирования амплитуды сигнала, при которых количество информации в конечном дискретном представлении было бы максимально с
использованием понятий и теоретических принципов изложенных в
[10, 11]. Критериальный подход, изложенный в них, ориентирован на обработку сигналов изображений в автономных системах. Что существенным образом отличается от данного подхода. Ниже проведём некоторые
основные положения иллюстрирующие данный подход.
В работах [12, 13] показано, что исходные регистрируемые сигналы, с
непрерывной плотностью распределения, потенциально содержат бесконечно большое количество информации. Ограничение количества «регистрируемой» информации связано только конечным динамическим диапазоном системы регистрации, обусловленным аддитивным шумом на приёмном тракте.
УДК 004.032.26(06) Нейронные сети
50
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
Количество уровней квантования амплитуды сигнала при неизвестных
распределениях плотности сигнала и шума оценивается как
L 
m  int  Y   1 при этом шкала квантования сигнала равномерная. При
 LN 
неизвестном законе распределения шума и известной оценке плотности
распределения сигнала, при условии, что плотность его распределения
имеет закон отличный от равномерного, m  int 2 H (Y ) log L  1 , при этом

2
ø óì

шкала квантования сигнала имеет нелинейный характер определяемый
соотношениями для уровней квантования Xi – P(Xi)=0 и
Xi
X i1
X i 1
Xi
 P Y  dY   P Y  dY , где Xi и соответственно P(Xi) – регистрируемые
отсчёты входного сигнала в отсутствии шума и вероятности их появления,
а Y – аддитивная смесь входного и шумового сигналов.
Алгоритм кодирования заключается:

в определении гистограммы распределения амплитуды видеосигнала на кадре, которая служит оценкой функции плотности видеосигнала;

в определении её энтропии и на её основе количества уровней
квантования видеосигнала. При этом подразумевается, что диапазон распределения шума на входе LN  LY , где m – количество уровней квантоm
вания амплитуды видеосигнала, LY – диапазон распределения амплитуды
 H re (Y ) log 2 LN 

входного видеосигнала. Тогда log 2 LN  0 в формуле m  2
,
 H (Y ) 
re

и m определится как m  2
;

в определении уровней квантования сигнала, согласно положениям квантилей функции плотности и нулевым её значениям.
Результаты таких преобразований проиллюстрированы на рис. 2.
Предлагается использовать гистограмму интенсивности с учетом психофизической функции восприятия. Наиболее значимым фактором, для
проведения данной процедуры является вид функции плотности распределения. Приближённой оценкой этой функции может служить гистограмма распределения амплитуды (яркости) изображения. Плотность вероятности ожидания пиксела с яркостью Li в этом случае определяется
по формуле:
УДК 004.032.26(06) Нейронные сети
51
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
L

i
(i )  L  вероятность смешивания,
hi (i)
i
, 
pi 
Li
 hi (i) 
i
 (i )  1  L  вероятность различения,

i
где функция (i) – вероятность различения/смешивания уровня интенсивности Li , которая рассчитывается из психофизической функции человека; hi – гистограмма яркости.
а
б
Рис. 2. Исходное изображение (а) и преобразование, согласно изложенному алгоритму с компрессией яркостной шкалы (б)
Алгоритм амплитудного преобразования разделяется на два этапа. На
первом, после подсчёта гистограммы распределения амплитуды видеосигнала на кадре определяется количество и положение уровней квантования амплитуды сигнала, и позиции α – квантилей плотности распределения амплитуды.
При этом редуцируется количество уровней квантования амплитуды.
Этим определяется режим компрессии изображения.
На заключительном этапе работы алгоритма полученные эквализированные амплитудные отсчеты необходимо расположить по яркостной
шкале, чтобы получить наилучший эффект восприятия. Зависимости
L(L) возможно трактовать как минимальный порог распознавания одного объекта на фоне другого, либо в непосредственной близости. Тогда
для отличения объекта с яркостью Li 1 от объекта с яркостью Li его расстояние по яркостной шкале должно быть не меньше чем L( Li )  Li . Исходя из этих соображений, применяется неравномерная сетка распределения объектов по яркостям с растяжением на всю шкалу.
УДК 004.032.26(06) Нейронные сети
52
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
Тестовые результаты
Следующие материалы иллюстрируют возможности процедуры оптимального, в информационном смысле преобразования сигналов с учетом
психофизической функции человека, в данной работе выбранной в виде
среднего распределения L(L) для нескольких человек. Преобразование
можно проводить по отношению к любому фрагменту или нескольким
фрагментам изображения. При этом преобразование производится исходя
из характеристик фрагмента, а модификацию можно проводить либо в
рамках выделенного фрагмента, либо на всём изображении в целом. Результаты таких преобразований проиллюстрированы на рис. 3.
Выполнены оценки возможности сжатия преобразованных файлов
изображений с помощью компрессии яркостной шкалы. Коэффициент
сжатия находится в диапазоне (1,5–2) раз.
а
б
Рис. 3. Исходное изображение с фрагментом преобразования (а) и преобразование, примененное ко всему изображению (б)
Необходимо добавить одно существенное замечание. Все преобразования осуществляются только с сигналом, представляющим амплитудную
(или энергетическую в другой трактовке) составляющую. ДополнительУДК 004.032.26(06) Нейронные сети
53
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
ный эффект даст кодирование по этому принципу цветовых составляющих, например в разложениях HSV, HSL или НSI координат H и S. при
этом подразумевается, что оптимизация отсчётов при кодировании цветовых компонент H и S должна происходить с сохранением шкалы контраста, иначе возможно искажение цвета.
Выводы
Психофизическая функция позволяет оптимизировать цифровой код
для представления виртуальных объектов на изображениях и увеличить
их информативность для конкретного человека. Дополнительные возможности для организации человеко-машинного интерфейса связаны с развитем методов измерения многомерной психофизической функции и разработкой алгоритмов адаптации виртуальных объектов в соответствии с
индивидуальными особенностями восприятия.
Список литературы
Фресс П., Пиаже Ж. Экспериментальная психология // М.: Прогресс.
1966. 432 с.
Иваницкий А.М. Физиология мозга о происхождении субъективного
мира человека // Ж. высш. нервн. деят. им. И.П. Павлова. 1999. Т. 49.
Вып. 5.
С. 707–714.
Edelman G.M. Naturalizing consciousness: a theoretical framework // Proc.
Natl. Acad. Sci. USA. 2003. V. 100. № 9. P. 5520–5524.
Koch C., Crick F. The Neuronal Basis of Visual Consciousness // The Visual Neurosciences. 2004. P. 1682–1694.
Friston K.J., Dolan R.J. Computational and dynamic models in neuroimaging // NeuroImage. 2010. № 52. P. 752–765.
Damasio A.R. The brain binds entities and events by multiregional activation from convergence zones // Neural Computation. 1989. № 1. P. 123–132.
Яхно В.Г., Полевая С.А., Парин С.Б. Базовая архитектура системы,
описывающей нейробиологические механизмы осознания сенсорных сигналов // Когнитивные исследования: Сборник научных трудов: Вып. 4 /
Под ред. Ю. И. Александрова, В.Д. Соловьева. – М.: Изд-во «Институт
психологии РАН», 2009. С. 273–301.
УДК 004.032.26(06) Нейронные сети
54
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
Яхно В.Г. Модели «адаптивных распознающих ячеек» для
формализованного описания психологических реакций человека //
Нейрокомпьютеры: разработка, применение. 2010. № 2. С. 11–17.
Полевая С.А. Интегративные принципы кодирования и распознавания
сенсорной информации. Особенности осознания световых и звуковых
сигналов в стрессовой ситуации // Вестн. НГУ. 2008. Т. 2. С. 106–117.
Nicolis J.S. Dynamics of hierarchical systems: an evolutionary approach.
Springer-Verlag Berlin Heidelberg. 1986.
Яглом А.М., Яглом И.М. Вероятность и информация // М. Наука. 1973.
Хоботов А.Г., Лысов В.И. Разработка алгоритмов и систем оптимального квантования амплитуды телевизионных сигналов в системах технического зрения промышленных роботов // «Электронная техника», серия
7. Вып. 4. № 143. 1987.
Хоботов А. Г. Исследование и разработка систем технического зрения
для управления робототехническими комплексами сборки изделий полупроводниковой техники. Диссертация на соискание учёной степени кандидата технических наук. УДК 621.3.043.77.002:681.5, на правах рукописи.
УДК 004.032.26(06) Нейронные сети
55
Download