В.В. БАБЕНКО, С.Н. КУЛЬБА НЕЙРОБИОНИЧЕСКАЯ МОДЕЛЬ СЕГМЕНТАЦИИ ПОЛУТОНОВЫХ ИЗОБРАЖЕНИЙ

advertisement
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
В.В. БАБЕНКО, С.Н. КУЛЬБА
Ростовский государственный университет
babenko@valeo.rsu.ru
НЕЙРОБИОНИЧЕСКАЯ МОДЕЛЬ СЕГМЕНТАЦИИ
ПОЛУТОНОВЫХ ИЗОБРАЖЕНИЙ
На основании результатов психофизиологических исследований была
создана компьютерная модель зрительной сегментации. Разработанная
модель реализует нескольких последовательных операций: входной
локальной фильтрации, универсального группирования результатов
фильтрации, выделения локальных максимумов среди результатов
группирования и выбор окон сегментации для считывания информации.
Начальные этапы сегментации осуществляются с использованием
жестких алгоритмов. Заключительная стадия реализуется с помощью
нейронной сети. Модель обеспечивает целевую сегментацию сложных
полутоновых сцен.
Чтобы приблизиться к пониманию того, как организован процесс
зрительного восприятия, необходимо ответить на два принципиальных
вопроса: 1) как входной сигнал представлен на выходе параллельного
локального описания и 2) как объединяются выходы локальных
операторов. И если в попытках ответить на первый из поставленных
вопросов собрано огромное количество информации, то решение второго
вопроса остается в основном на уровне теоретических рассуждений.
Обобщая результаты физиологических исследований, можно
заключить следующее: первым этапом обработки изображения в
зрительной системе человека является параллельная локальная
пространственно-частотная фильтрация; полоса пропускания фильтров на
уровне 0.5 от максимальной амплитуды составляет порядка 1.5 октав;
пространственно-частотные каналы распределены в диапазоне частотной
настройки порядка 6 октав; шаг изменения частотной настройки фильтров
составляет около 1 октавы; средний шаг изменения ориентационной
настройки стриарных фильтров в среднем равен 15 град.
В предлагаемой нами модели зрительной сегментации параметры
входных фильтров задаются весовыми коэффициентами в виде функции
Габора, протяженностью 1.5 периода:
F f ( x)  exp(0,5( x / ) 2 ) cos(2fx) ,
УДК 004.032.26(06) Нейронные сети 149
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
где f
– пространственная частота настройки фильтра,  –
пространственное стандартное отклонение.
Пространственное стандартное отклонение было подобрано таким
образом, чтобы минимизировать постоянную составляющую. В
результате полоса пропускания фильтров на уровне 0.5 от максимальной
амплитуды составляет порядка 1.5 октав, что близко к полосе
пропускания реальных фильтров зрительной коры.
Для реализации полосовой фильтрации в диапазоне 6 октав (как в
зрительной системе человека) в модели используются фильтры разной
протяженности. Протяженность фильтров последовательно изменяется в
2 раза, чтобы обеспечить шаг изменения их частотной настройки в 1
октаву. Количество фильтров n разной частотной настройки равно шести.
Длина наиболее высокочастотного фильтра была выбрана равной 6
элементам. Соответственно, наиболее низкочастотный фильтр имеет
длину 192 элемента.
Операция ориентационно-избирательной фильтрации может быть
описана следующим выражением:
Rf ( xij ) 
z/2

xi , v (i ,  ) F f
i z / 2
(xi , v (i ,  ) )
где
xij – входной сигнал, α – угол поворота фильтра в угловых
градусах, v(i,α) – второй индекс элемента входа, расположенного на оси с
наклоном альфа.
Учитывая, что средний шаг изменения ориентационной настройки
фильтров зрительной коры человека в среднем равен примерно 15
градусам, в модели реализована процедура фильтрации с помощью 12
фильтров разной ориентации, охватывающих диапазон 360 град.
Процедура фильтрации выполняется центрировано относительно каждой
из точек области обработки. Результат фильтрации по каждой полосе
частот и ориентаций представлен числовой матрицей Mполос размером
640х640. Выход операции фильтрации представлен 72 матрицами.
В зрительной системе человека этап параллельной локальной
фильтрации сменяется последовательным считыванием блоков локальной
информации, которые используются при опознании [1-3]. В этой связи
проблема сегментации включает в себя вопрос группирования
пространственно распределенных сигналов и выделения сформированных
блоков из окружения.
Полученные физиологические результаты [4, 5] позволили сделать
вывод, что выход этапа предобработки представлен набором
УДК 004.032.26(06) Нейронные сети 150
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
универсальных по своей организации механизмов группирования,
описывающих зрительную сцену с разным уровнем разрешения. Каждый
из параллельных уровней группирования образован пространственно
перекрывающимися механизмами одной пространственно-частотной
настройки. Чем выше их частотная настройка, тем на меньшей площади
поля зрения происходит объединение пространственно распределенной
информации и тем меньше размер изображения, на который настроены
механизмы группирования. Каждый участок поля зрения описывается
набором механизмов, охватывающих весь спектр ориентаций.
В предлагаемой модели группирование предусматривает объединение
выходов одинакового числа пространственно перекрывающихся фильтров
общей частотной настройки на интервале в 3.5 периода. Каждая из матриц
Mполос, полученных в результате полосовой фильтрации, служит
самостоятельным входом для процедуры группирования.
В модели реализовано перекрытие фильтров одной ориентации, равное
0.5 циклам на частоте настройки. Таким образом, на интервале в 3.5
периода (размер окна сегментации) модель объединяет выходы пяти
фильтров вдоль оси, перпендикулярной их ориентационной настройке.
Выбор точек для процедуры группирования производится следующим
образом. Сначала задаются координаты точки, которая является
центральной среди группируемых. Затем вдоль оси группирования
устанавливаются координаты точек, которые отстоят в обе стороны от
центральной на 1 и на 2 шага. Шаг выбирается равным протяженности
перекрытия фильтров, то есть 0.5 циклам на частоте настройки.
Координаты центров группирования меняются с тем же шагом. Для
матрицы, полученной в результате самой низкочастотной фильтрации,
этот шаг составляет 1/7 размера изолированного объекта (1/10 области
обработки). Для каждой следующей матрицы, полученной при более
высокочастотной
фильтрации,
шаг
уменьшается
в
2
раза
(пропорционально уменьшению протяженности фильтров).
Первый этап операции группирования представляет собой
суммирование абсолютных значений выходов фильтров одинаковой
частотной и ориентационной настройки. Суммирование производится с
весовыми
коэффициентами
kj,
которые,
согласно
нашим
экспериментальным данным, описываются гауссианом. В модели вес
фильтра, отстоящего от центрального на один шаг, составляет 0.67, а на
два шага – 0.2 от веса центрального фильтра. При этом результат
группирования фильтров одной ориентационной настройки в окне
сегментации можно описать следующим выражением:
УДК 004.032.26(06) Нейронные сети 151
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
G f ( x ) 
2
 k j | R(90), f ( x 
js( f )) | ,
j  2
где k  2  0.2, k 1  0.67 , k 0  1, k1  0.67 , k 2  0.2 .
Следующим этапом операции группирования является суммирование
результатов группирования по разным ориентациям:
G
345
 Gf
.
 0
Полученное значение отражает результат группирования выходов
фильтров всех ориентаций в двумерной области, ограниченной 3.5
периодами на частоте настройки фильтров.
Результаты операции группирования представлены шестью матрицами
Mгруп, состоящими их элементов G. Каждая матрица описывает функцию
G(f) распределения сгруппированных выходов фильтров одной частотной
настройки.
В предложенном нами способе группирования осуществляется сборка
элементов одинаковой пространственной частоты в заданном окне и
оценивается суммарная энергия этих элементов (пространственное
распределение энергии на каждом частотном слое). При этом
обеспечивается инвариантность к ориентации элементов. При
необходимости можно произвести оценку распределения энергии для
определенной ориентации. Важной особенностью предложенной нами
процедуры является то, что ее параметры (окно сегментации, степень
перекрытия фильтров, функция сглаживания и т.д.) определяются
закономерностями работы зрительной системы человека. Операцию
группирования можно рассматривать как способ формирования признаков
более высокого порядка.
Как же происходит конкуренция между результатами группирования?
Нами было проведено исследование, цель которого заключалась в
проверке предположения, что «областями интереса» являются
максимально активируемые (по сравнению с соседями) механизмы
группирования.
В проведенных нами исследованиях было показано, что области
скопления локальных максимумов, найденных моделью, и участки
изображения, привлекшие максимальное внимание испытуемого при его
длительном рассматривании, имеют сходное пространственное
расположение [6]. «Точки интереса» распределены по рисунку
УДК 004.032.26(06) Нейронные сети 152
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
неравномерно и в обоих случаях сконцентрированы в областях, богатых
перепадами яркости. Наибольший ответ формируется в тех механизмах
группирования,
которые
описывают
участки
изображения
с
максимальным скоплением градиентов яркости. Фактически это наиболее
информативные участки поля зрения.
В предлагаемой модели проверка точки на соответствие локальному
максимуму заключается в сравнительном переборе всех точек, лежащих
на окружности с радиусом Sm и центром, совпадающим с проверяемой
точкой. Подходящей считается та точка, вокруг которой нет точек с
большим значением. Далее строится эквипотенциальный контур,
включающий найденную точку (в предельном случае это одна
единственная точка) и находится «центр масс» этого контура, который и
принимается за локальный максимум.
Мы предполагаем перекрытие окон сегментации. В предложенной
модели рассматривается 50 % перекрытие. Следовательно, локальные
максимумы не могут располагаться ближе 1/2 размера окна сегментации.
Степень перекрытия окон сегментации не является жестко обусловленной
и может быть предметом дальнейших исследований. Найденные
локальные максимумы рассматриваются как потенциальные центры окон
сегментации. В результате операции определения областей интереса
определяются области-кандидаты для последующей сегментации.
Задача завершающего этапа сегментации, который мы назвали
собственно сегментацией, состоит в отборе из предложенного набора
«областей интереса» кандидатов для использования при решении задачи
распознавания. Эта операция выполняется с помощью предварительно
обученной нейронной сети. Целесообразно использование многослойной
сети модульного типа с алгоритмом обучения по типу обратного
распространения ошибки.
Процесс обучения осуществляется с учителем. Сначала с помощью
вышеописанных алгоритмов определяются области интереса. Напомним,
что роль потенциальных окон сегментации играют наиболее
активируемые механизмы группирования (локальные максимумы
функции G(f)). Затем из тех областей интереса, которые наиболее близки
по своему размеру к размерам целевого объекта, учитель выбирает
область (окно сегментации), которая включает интересующий объект.
Окно сегментации, содержащее целевой объект, включается в
положительный обучающий набор; окна, не содержащие целевой объект –
в отрицательный. Потенциально для обучаемой сети может быть
использован как прямой пиксельный вход, так и признаковый вход.
УДК 004.032.26(06) Нейронные сети 153
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
В первом случае входом окна сегментации является фрагмент Mполос.
Выход окна формируется двумерным фильтром Гаусса H(x, y). Маска
такого фильтра формируется с использованием следующих соотношений:
h( x, y)  e ( x
H ( x, y) 
2
 y 2 ) /( 22 )
;
h( x, y)
,
 h( x, y)dxdy

  {x, y x 2  y 2  r} ,
где r – радиус окна сегментации.
По координатам соответствующего локального максимума в матрице
Mгруп строится модулирующие функции P для данной Mполос.
Модулирующая функция описывается матрицей весовых коэффициентов
Mвес размером 640х640. Изначально все элементы Mвес принимаются
равными нулю. Затем в точках с координатами локальных максимумов
устанавливаются значения 1. В окрестностях локальных максимумов
снижение значений элементов матрицы соответствует распределению
Гаусса. Значения весовых коэффициентов модулирующей функции
совпадают со значениями маски.
Перед операцией сегментации входные матрицы Mполос преобразуются
путем вычитания значения, соответствующего средней яркости
выделенной области изображения. После этого каждый элемент
преобразованной матрицы умножается на соответствующее значение
модулирующей функции P. Полученные значения вновь увеличиваются
на величину, соответствующую средней яркости. Выходом процедуры
сегментации являются матрицы Mсегмент, описывающие фрагменты
входного изображения, пропущенные окнами сегментации на каждой из
отфильтрованных пространственных частот.
Данная операция имитирует процесс выделения из входного сигнала
информации для последующего обучения нейронной сети. Единицей
разложения входного изображения является сигнал, пропущенный одним
окном сегментации.
В случае, когда в качестве обучающего набора применяются признаки,
могут быть использованы результаты фильтрации (внутри выбранного
окна) по определенным ориентациям. При данном подходе используются
УДК 004.032.26(06) Нейронные сети 154
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
только информационно-значимые ориентационные слои. Возможно
использование как отдельных признаков, так и их комбинаций.
Затем внутри той области изображения, которая была использована в
качестве исходного окна сегментации, учитель определяет окна
сегментации на следующем, более высокочастотном слое. Информация из
этих окон используется нейронной сетью для доуточнения информации,
полученной из первого (более низкочастотного) окна, которая, в свою
очередь, играет роль контекста.
Традиционный подход к сегментации, как уже упоминалось, состоит в
группировании сходных элементов. При этом размер и форма области
сегментации остаются неопределенными и не связанными. Особенностью
предложенного нами алгоритма является то, что для выделения окна
сегментации достаточно найти его центр. Границы окна сегментации
являются фиксированными по размеру на каждом частотном слое, и
имеют круглую форму. Эти окна сегментации представляют собой
узкополосные фильтры, а их размер уменьшается пропорционально
увеличению пропускаемой пространственной частоты. Значимость
информации в пределах окна неодинакова. Выделенное изображение
имеет максимальный контраст в центре окна сегментации, который
экспоненциально убывает к периферии.
Универсальность организации окон сегментации обеспечивает и
универсальность организации входа для обучаемой сети. Тем самым
обеспечивается
инвариантность
сегментации
к
аффинным
преобразованиям. Так, изменение размера объекта (например, при
изменении расстояния до него) приведет тому, что он будет выделен на
другом частотном слое (при увеличении – на более низкочастотном, при
уменьшении – на более высокочастотном). При этом входная информация
в сеть не изменится. Не произойдет изменения входа в сеть и при
изменении локализации объекта. Предложенный способ сегментации
обеспечивает также основу для инвариантности к повороту.
В специальных исследованиях нами было показано [6], что
выделенная с помощью разработанной модели информация, является
необходимой и достаточной для опознания входного изображения.
Сжатие входной информации достигается не только благодаря выделению
наиболее информативных участков сцены, но и за счет
структурированности описания (набор окон сегментации), что позволяет
использовать только тот объем информации, который необходим для
решения конкретной зрительной задачи. В механизмах с наиболее
низкочастотной настройкой, охватывающих значительные области поля
УДК 004.032.26(06) Нейронные сети 155
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
зрения, выделяются крупные фрагменты сцены, объединяющие группы
объектов. В механизмах с более высокочастотной настройкой выделяются
отдельные объекты. Еще более высокочастотные механизмы способны
выделять отдельные детали объектов. Таким образом, сегментация сцены
происходит на нескольких уровнях: группы объектов, отдельные объекты,
детали объектов.
Обобщая полученные результаты, можно заключить следующее:
предложенный нами алгоритм сегментации является адекватным для
решения задачи выделения необходимой для опознания информации;
структурированность кода и его наращивание, начиная с низких частот,
позволяет организовать процесс опознания в виде последовательного
доуточнения и, тем самым, использовать лишь ту информацию, которая
необходима для решения конкретной зрительной задачи.
Список литературы
1. Neisser U. Cognitive Psychology. N.Y.: Appleton Centaury Cross.- 1967.- 351 p.
2. LaBerge D. Attention and the measurement of perceptual learning // Mem. a. Cogn.- 1973.Vol.1, No 2.- P.268-276.
3. Julesz B. Experiments in the visual perception of texture // Sci. Amer.- 1975.- Vol.232, No
1.- P.34-43.
4. Бабенко В.В. Зрительные механизмы, избирательные к общей протяженности
периодического паттерна // Физиология человека.- 1999.- Т.25, № 2.- С.30-35.
5. Бабенко В.В., Кураев Г.А., Кульба С.Н. Механизмы повышения контрастной
чувствительности при увеличении протяженности синусоидальной решетки // Сенсорные
системы. - 2001.- Т.15, №1.- С.3-10.
6. Бабенко В.В., Кульба С.Н. Модель механизма зрительной сегментации // Сенсорные
системы.- 2002.- Т. 16, № 3.- С. 179-189.
УДК 004.032.26(06) Нейронные сети 156
Download