Осцилляторная нейросетевая модель слежения за движущимся

advertisement
СЕКЦИЯ 1
Я.Б. КАЗАНОВИЧ1, Р.М. БОРИСЮК1,2
1Институт
математических проблем биологии РАН, Пущино, Моск. обл.
yakov_k@impb.psn.ru
2Центр теоретической и экспериментальной нейробиологии
Плимутский университет, Плимут, Великобритания
rborisyuk@plymouth.ac.uk
ОСЦИЛЛЯТОРНАЯ НЕЙРОСЕТЕВАЯ МОДЕЛЬ
СЛЕЖЕНИЯ ЗА ДВИЖУЩИМСЯ ОБЪЕКТОМ
Аннотация
Описывается нейросетевая модель зрительного внимания для слежения за целевым объектом, движущимся среди объектов-дистракторов.
Модель работает с набором идентичных зрительных объектов, которые
движутся по экрану в случайных и постоянно меняющихся направлениях.
В начальный момент модель произвольным образом выбирает в фокус
внимания один из имеющихся объектов. Этот объект рассматривается как
целевой; остальные объекты играют роль дистракторов, отвлекающих на
себя ресурсы системы внимания. В процессе функционирования модель
стремится сохранить выбранную цель в фокусе внимания до возникновения одной из следующих ситуаций: а) если цель выходит за пределы зрительного поля, то в качестве цели выбирается другой объект; б) если цель
пересекается с дистрактором, то фокус внимания распространяется на
весь составной объект, а после разделения объектов в фокусе внимания
остается один из этих объектов. Показано, что такая схема формирования
и переключения фокуса внимания реализуется при подходящем выборе
синхронизующих и десинхронизующих взаимодействий в нейронной сети
с центральным элементом.
1. Введение
Под вниманием в данной статье будет пониматься селективный механизм в работе мозга, который позволяет живому организму выделить из
всей поступающей на его сенсорные системы информации ту часть, которая в данный момент имеет наибольшую важность и которая должна обрабатываться с большей детальностью и надежностью. Потребность в
этом механизме определяется тем, что ресурсы мозга ограничены и недостаточны для быстрого анализа всей поступающей на его вход информации. Для реализации определенных стратегий формирования фокуса внимания мозг использует различные типы внимания. Применительно к зриУДК 004.032.26(06) Нейронные сети
25
СЕКЦИЯ 1
тельной системе различают два основных типа внимания, пространственное и объектно-ориентированное. Согласно существующим теориям пространственное внимание характеризуется в терминах «луча прожектора»
или «линзы», при этом селекция реализуется путем перемещения «луча»
или «линзы» по зрительному полю [8, 21]. Объектно-ориентированное
внимание привязано не к месту, а к дискретным объектам независимо от
того, какое положение в пространстве эти объекты занимают [22].
Важным свойством внимания является его метастабильность, проявляющаяся в том, что фокус внимания, будучи сформирован, стремится
сохраниться неизменным в течение некоторого времени (достаточно
большого по сравнению со скоростью изменения внешних стимулов). Для
того, чтобы фокус внимания изменился автоматически, обычно необходимо, чтобы объект в фокусе внимания исчез из поля зрения, или чтобы
на изображении появился новый объект, или чтобы параметры какого-то
объекта резко изменились. Фокус внимание может также переместиться
целенаправленно в результате заданной инструкции.
Объектно-ориентированное внимание наиболее очевидным образом
проявляется в экспериментах с движущимися объектами. Известной экспериментальной парадигмой такого рода является задача слежения за несколькими объектами (СНО). В традиционном эксперименте СНО [20]
испытуемый наблюдает за дисплеем, на котором имеется изображение
нескольких идентичных объектов. Некоторое подмножество этих объектов коротко подсвечивается вспышками света, чтобы испытуемый мог
идентифицировать эти объекты как целевые, за которыми требуется следить. Остальные объекты рассматриваются как дистракторы, то есть как
объекты, отвлекающие ресурсы внимания, но которые следует игнорировать. После этого все объекты начинают двигаться по экрану в случайных
и постоянно меняющихся направлениях, не приближаясь слишком близко
друг к другу. Было показано, что в таких экспериментальных условиях
может с достаточно высокой надежностью осуществляться слежение одновременно за пятью (или менее) объектами.
В последние годы внимание стало одним из популярных приложений
компьютерного моделирования. Существующие модели внимания можно
разделить на два класса. Первый из них представлен коннекционистскими
моделями [12, 19, 26], функционирование которых основано на принципе
«победитель получает все», реализуемом путем подходящей модификации величины связей в иерархической нейронной сети. Следует отметить,
что такие модели трудно применять в случае движущихся объектов. Это
обусловлено тем, что рабочим пространством для модели является двуУДК 004.032.26(06) Нейронные сети
26
СЕКЦИЯ 1
мерное пространство зрительного поля, поэтому для каждого нового расположения объектов величины связей приходится пересчитывать заново.
Другой класс моделей представлен осцилляторными нейронными сетями
[5, 13, 28] (см. также обзорную статью [1]). Они более подходят для объектно-ориентированного внимания, так как оперируют в фазовочастотном пространстве, что автоматически делает фокус внимания инвариантным к расположению объектов в физическом пространстве.
Ниже мы рассмотрим модель внимания с центральным осциллятором
(МВЦО) [4, 13-15] и опишем результаты ее использования для слежения за
одним целевым объектом, движущимся среди набора дистракторов. Мы
рассматриваем эту модель как предварительный шаг к построению модели
СНО. В последнем разделе мы дадим краткий набросок того, как можно
модифицировать МВЦО, чтобы получить работоспособную модель СНО.
На самом деле, МВЦО может работать в условиях несколько более
общих, чем это имеет место в традиционных экспериментах СНО. Так, мы
посчитали необходимым, чтобы модель могла работать в случае, когда
объекты пересекаются друг с другом в процессе перемещения по экрану.
Конечно, разрешение на возможные пересечение объектов может привести к увеличению числа ошибок при идентификации целей, но оно не
должно полностью дезорганизовать работу системы внимания. Поскольку
предполагается, что движения объектов непредсказуемы, модель не располагает информацией для однозначной идентификации цели после того,
как она была скрыта дистрактором. В этом случае наилучшей стратегией
для системы внимания является оставление в фокусе внимания одного из
двух объектов, которые налагались друг на друга и только что разошлись.
Таким образом, в рассматриваемой модели за исключением переходных
состояний в фокусе внимания всегда содержится не более одного связанного объект. Это свойство существенно для того, чтобы предотвратить
«размножение» целевых объектов, которое имело бы место, если бы оба
разошедшихся объекта оставались в фокусе внимания.
2. МВЦО: основные принципы построения и функционирования
МВЦО представляет собой однослойную сеть локально связанных осцилляторов. Эти осцилляторы называются периферическими осцилляторами (ПО). Периферические осцилляторы работают под управлением
центрального осциллятора (ЦО), который имеет прямые и обратные связи
со всеми ПО [2, 17]. ПО играют роль колонок кортикальных нейронов,
которые реагируют на локальные признаки входного изображения [18]. В
УДК 004.032.26(06) Нейронные сети
27
СЕКЦИЯ 1
частности, признак может быть какой-то физической характеристикой
света, отражаемого от отдельного пикселя. ЦО играет роль центрального
управляющего элемента (central executive) системы внимания [3, 6].
В МВЦО объекты представляются (кодируются) синхронными ансамблями ПО. Постулируется, что фокус внимания формируется теми ПО,
которые работают синхронно с ЦО [2, 17]. Синхронизация между ЦО и
ПО приводит к резонансному возрастанию амплитуды колебаний ПО,
поэтому фокус внимания включает те ПО, которые работают с большой
(резонансной) амплитудой [4, 14].
Архитектура МВЦО представлена на рис. 1. На вход модели подается
изображение на плоской решетке, которое содержит некоторое число изолированных объектов на белом фоне. Яркость пикселей, принадлежащих
объектам, задается в градациях серого. Решетка из пикселей имеет те же
размеры, что и сеть периферических осцилляторов. Каждый ПО получает
внешний сигнал от пикселя, расположение которого на решетке идентично расположению ПО. Мы рассматриваем простейшее кодирование изображения, при котором величина внешнего сигнала на ПО определяется
контрастом между яркостями пикселя и фона. Этот сигнал задает значение собственной частоты ПО, которая тем выше, чем выше уровень контраста. ПО, соответствующие пикселям объекта, называются активными.
Их динамика описывается приводимыми ниже уравнениями. ПО, соответствующие пикселям фона, называются молчащими. Они не участвуют в
динамике модели.
Центральный
осциллятор
Периферические
осцилляторы
Входное
изображение
УДК 004.032.26(06) Нейронные сети
28
СЕКЦИЯ 1
Рис.1. Архитектура МВЦО. Полая стрелка показывает присвоение значений собственным частотам ПО. Черные стрелки показывают синхронизующие связи
внутри слоя ПО и от ПО к ЦО. Серая стрелка показывает десинхронизующие связи от ЦО к ПО
Связи ПО с ближайшими соседями являются синхронизующими. Эти
связи используются для объединения ПО, представляющих связный объект, в синхронный ансамбль. Этот подход соответствует синхронизационной теории интеграции признаков объектов в цельный образ [23]. Связи
от ПО к ЦО синхронизующие, а связи от ЦО к ПО десинхронизующие.
Синхронизующие связи используются для фазового захвата частоты ЦО
некоторым ансамблем ПО. Десинхронизующие связи используются для
сегрегации различных ансамблей ПО в частотном пространстве. Это
необходимо для предотвращения одновременной синхронизации ЦО с
несколькими ансамблями ПО.
Поскольку ЦО может синхронизоваться лишь с теми ПО, собственные
частоты которых находятся в некотором диапазоне относительно собственной частоты ЦО, собственная частота ЦО адаптируется к текущему
значению частоты ЦО. Благодаря этой адаптации ЦО стремится синхронизоваться с одним из ансамблей ПО. Выбор подходящего соотношения
силы синхронизующих и десинхронизующих связей приводит к тому, что
различные ансамбли ПО конкурируют за синхронизацию с ЦО. Только
один ансамбль ПО может выиграть эту конкуренцию, поэтому в каждый
момент времени только один объект может быть включен в фокус внимания (исключение представляют кратковременные переходные состояния).
Периферические осцилляторы, представляющие этот объект, работают с
высокой (резонансной) амплитудой. Амплитуда остальных осцилляторов
подавляется до низкого уровня, так что эти осцилляторы перестают оказывать существенное влияние на ЦО
Осцилляторы, являющиеся элементами МВЦО, описываются как
обобщенные фазовые осцилляторы. Состояние такого осциллятора определяется тремя явно заданными переменными: фазой колебаний, амплитудой колебаний и собственной частотой колебаний. Динамика МВЦО
описывается следующими уравнениями:
d0
w
 2 0  0
dt
n
n
 si ai g (i  0 ) ,
i 1
di
 2 i  a0 w1h(0  i )  w2  a j p( j  i )   ,
dt
jN
i
УДК 004.032.26(06) Нейронные сети
29
СЕКЦИЯ 1
dai
 1(ai   f (0  i ))   2 (ai   f (0  i ))  ,
dt
d 0
d 

   2 0  0  .
dt
dt 

В этих уравнениях 0 - фаза ЦО,  i (i  1,..., n) - фазы ПО,
d 0
и
dt
di
- текущие частоты осцилляторов, 0 - собственная частота ЦО, i dt
собственные частоты ПО, a0 - амплитуда колебаний ЦО (константа), ai -
амплитуды колебаний ПО, w0 , w1, w2 , - положительные константы, задающие силу взаимодействия между осцилляторами, si – заметность пикселя (множество si образует карту заметности, s i  0 , если i-й ПО соответствует фону, в противном случае это положительная константа), n – число
активных ПО, Ni – множество активных осцилляторов в ближайшем соседстве осциллятора i,  - гауссов шум с нулевым средним и стандартным отклонением  , функции g, h, p задают взаимодействие между осцилляторами, f – задает амплитуду ПО и их переход в резонансное состояние, , 1 ,  2 ,  - параметры модели (положительные константы). Значения i определяются внешними входными сигналами, 0 , i , 0 , ai внутренние переменные, определяющие состояние сети. По определение,
 x if x  0;
 x if x  0;
( x)   
( x)  
0 if x  0,
0 if x  0.
Более подробное математическое описание модели можно найти в работах [4, 14].
Можно показать, что при подходящих правилах взаимодействия
МВЦО способна выбирать некоторый объект из имеющегося набора объектов в фокус внимания и удерживать его там в течение заданного времени [1, 4, 14]. При этом объекты с большей площадью или более заметные
имеют больший шанс быть выбранными в фокус внимания.
3. Пример имитационного моделирования
Мы проиллюстрируем функционирование системы в случае движущихся объектов на примере изображения размером 25 50 пикселей, содержащем 9 кругов радиуса 3. Рис. 2 показывает мгновенные состояния
УДК 004.032.26(06) Нейронные сети
30
СЕКЦИЯ 1
системы для моментов времени 0, 1, 2, ... (круги представлены с точностью до аппроксимации на решетке). Рамки упорядочены справа налево и
сверху вниз. Верхняя левая рамка показывает начальное положение кругов. Далее круги начинают двигаться в одном из случайно выбранных
направлений – вверх, вниз, налево или направо. Круг может изменить
направление движения в моменты времени кратные 0.1. Решение о том,
что должно быть выбрано новое направление принимается с вероятностью 0.3. После этого выбирается одно из четырех возможных направлений с вероятностью 0.25 (новое направление может оказаться совпадающим со старым). Движущийся круг может выйти за пределы поля зрения
(в этом случае он становится невидимым для системы внимания) и позднее снова вернуться в поле зрения.
Все пиксели, принадлежащие объектам, одинаково освещены и поэтому имеют один и тот контраст относительно фона. Для имитационного
моделирования был выбран диапазон тета-ритма: всем собственным частотам активных ПО были присвоены значения i  5 . Заметность si, соответствующая активным ПО, равна 1, для молчащих ПО она равна 0.
Рабочий диапазон для амплитуд ПО (0, 11). Порог для резонансной амплитуды R  0.88 . Если амплитуда ПО превосходит R, то считается, что
соответствующий пиксель включен в фокус внимания. На рис. 2 пиксели
в фокусе внимания окрашены в черный цвет, пиксели вне фокуса внимания – в серый, пиксели фона – в белый.
УДК 004.032.26(06) Нейронные сети
31
СЕКЦИЯ 1
1
2
3
4
5
6
1 7
2
3
4
5
6
7
8
Рис. 2. Мгновенные состояния системы фокусировки внимания
на движущихся объектах
Вследствие перемещения кругов их распределение по зрительному полю становится случайным. Кроме того, на изображении появляются составные объекты, которые формируются при пересечении кругов. В
начальный момент (левая верхняя рамка) ни один из кругов не находится
в фокусе внимания. После короткой задержки внимание автоматически
фокусируется на случайно выбранном круге (вторая рамка в верхнем ряду). Этот круг некоторое время сохраняется в фокусе внимания, но позднее (рамка 6 в первом ряду), когда он почти покидает пределы зрительного поля, внимание автоматически переносится на другой объект (рамка 7 в
первом ряду). Этот объект представляет собой комбинацию двух наложившихся кругов, в силу большего размера он оказался более «привлекательным» для системы внимания. Внимание фокусируется на этом составном объекте до тех пор, пока он существует, но как только круги, составляющие этот объект, расходятся в разные стороны (рамка 7 во втором
ряду), в фокусе внимания остается лишь один из кругов.
Рамка 6 в третьем ряду показывает ситуацию, когда круг, находящийся в
фокусе внимания, пересекается с другим кругом, дистрактором. В этом
случае внимание распространяется на весь составной объект. Но снова,
УДК 004.032.26(06) Нейронные сети
32
СЕКЦИЯ 1
вскоре после того, как эти круги разделяются (рамка 7 в третьем ряду),
только один их них остается в фокусе внимания (рамка 1 в четвертом ряду).
Сходные примеры выбора в фокус внимания одного круга из двух разошедшихся кругов можно видеть в рамке 4 ряда 6 и рамке 2 ряда 8. Мы
называем такую смену фокуса внимания эстафетой. Особенность этой эстафеты состоит в том, что «передача палочки» носит вероятностный характер.
4. Обсуждение
Рассмотренная модель внимания опирается на две основные нейробиологические идеи: это идея о ключевой роли колебаний нейронной активности и их синхронизации в обработке информации мозгом и идея о
наличии центрального управляющего элемента в системе внимания. Связь
между вниманием и синхронной колебательной активностью, хорошо
известная из экспериментов с ЭЭГ [11] и МЭГ [24], в последнее время
нашла подтверждение и экспериментах с отдельными нейронами и локальными полевыми потенциалами [9, 10, 25].
Идея центрального исполнительного элемента системы внимания привлекательна как с биологической, так и с технической точек зрения. Биологические аргументы в пользу этой идеи можно найти в [3, 5]. Вопрос о
локализации центрального управляющего элемента в мозге остается дискуссионным. Наиболее вероятные кандидаты – это передняя кора и гиппокамп, чье участие в работе системы внимания подтверждено многими
исследованиями [7, 11, 27]. С технической точки зрения важным свойством системы с центральным элементом является сравнительно небольшое число связей (порядка n, где n – число элементов в системе) по сравнению с архитектурой связей все-на-всех (в этом случае число связей
имеет порядок n 2 ).
В заключение обсудим коротко, какие усовершенствования должны
быть внесены в МВЦО, чтобы ее можно было использовать для СНО с k
целями. Наше предложение состоит в том, чтобы использовать сеть, состоящую из k слоев, каждый из которых представляет собой копию
МВЦО, при этом каждая копия МВЦО должна следить за одним объектом. При реализации этого подхода возникает два типа трудностей. Вопервых, нужно не допустить ситуацию, когда один и тот же объект попал
бы в фокус внимания сразу нескольких МВЦО. Во-вторых, система должна сохранять работоспособность в случае, когда имеет место пересечение
объектов при движении. Эти проблемы могут быть решены путем подхоУДК 004.032.26(06) Нейронные сети
33
СЕКЦИЯ 1
дящей организации взаимодействия между слоями сети. Наиболее важным элементом конструкции сети является введение десинхронизующих
связей между центральными осцилляторами различных слоев. Подходящий выбор силы этих связей гарантирует, что ансамбли осцилляторов,
соответствующие различным объектам, будут синхронизоваться с различными ЦО. Подробное описание модели СНО и результатов имитационного моделирования в настоящее время готовится к печати [16].
Данная работа была поддержана Российским фондом фундаментальных исследований (грант 03-04-48482) и Президентской программой для
ведущих научных школ (грант НШ 1872.2003.4).
Список литературы
1. Казанович Я.Б., Шматченко В.В. Осцилляторные нейросетевые модели сегментации
изображений и зрительного внимания // Лекции по нейроинформатике. VI Всероссийская
научно-техническая конференция. Ч. 1 / Под ред. Ю.В. Тюменцева. М.: МИФИ, 2004. С. 15-68.
2. Крюков В.И. Модель внимания и памяти, основанная на принципе доминанты и
компараторной функции гиппокампа // Журнал высшей нервной деятельности. Т. 54. № 1.
10-29. 2004.
3. Baddeley A. (1996). Exploring the central executive. Quarterly J. Experimental Psychol.,
49A, 5-28.
4. Borisyuk R., Kazanovich Y. (2004). Oscillatory model of attention-guided object selection
and novelty detection. Neural Netw., 17, 899-915.
5. Corchs S., Deco G. (2001). A neurodynamical model for selective visual attention using
oscillators. Neural Netw., 14, 981-990.
6. Cowan N. (1988). Evolving conceptions of memory storage, selective attention and their
mutual constraints within the human information processing system. Psychol. Bull., 104, 163-191.
7. Duncan J. (2001). An adaptive coding model of neural functions in prefrontal cortex. Nature Reviews/Neuroscience, 2, 820-829.
8. Eriksen C.W., St. James J.D. (1986). Visual attention within and around the field of focal
attention: a zoom lens model. Perception and Psychophysics, 40, 225-240.
9. Fell J., Fernandez G., Klaver P., Elger C.E., Fries P. (2003). Is synchronized neuronal
gamma activity relevant for selective attention? Brain Research Reviews, 42, 265-272.
10. Fries P., Reynolds J.H., Rorie A.E., Desimone R. (2001). Modulation of oscillatory neuronal synchronization by selective visual attention. Science, 291, 1560-1563.
11. Herrmann C.S., Knight R.T. (2000). Mechanisms of human attention: event related potentials and oscillations. Neuroscience and Biobehavioral Reviews, 25, 465-476.
12. Itti L., Koch C. (2000). A saliency-based search mechanism for overt and covert shifts of
visual attention. Vision Res., 40, 1489-1506.
13. Kazanovich Y.B., Borisyuk R.M. (1999). Dynamics of neural networks with a central element. Neural Netw., 12, 441-454..
14. Kazanovich Y., Borisyuk R. (2002). Object selection by an oscillatory neural network. BioSystems, 67, 103-111.
15. Kazanovich Y.B., Borisyuk R.M. (2003). Synchronization in oscillator systems with phase
shifts. Progr. Theor. Phys., 110, 1047-1058.
УДК 004.032.26(06) Нейронные сети
34
СЕКЦИЯ 1
16. Kazanovich Y.B., Borisyuk R.M. (2005). An oscillatory neural model of multiple object
tracking (in preparation).
17. Kryukov V.I. An attention model based on the principle of dominanta // In Neurocomputers and Attention I: Neurobiology, Synchronization and Chaos, Eds. A.V. Holden, V.I. Kryukov.
Manchester University Press, Manchester, 1991. Р. 319-352.
18. Kuzmina M/, Manykin E., Surina I. Oscillatory network with self-organized dynamical
connections for synchronization-based image segmentation // BioSystems. 76. 43-53. 2004.
19. Olshausen B.A., Anderson C.H., Van Essen D.C. A neurobiological model of visual attention and invariant pattern recognition based on dynamic routing of information // J. Neurosci., 13.
4700-4719. 1993.
20. Pylyshin Z. W., Storm R. W. Tracking multiple indepenedent targets: evidence for a parallel tracking mechanism // Spatial Vision. 3. 179-197. 1988.
21. Posner M.I., Snyder C.R.R., Devidson D.J. Attention and the detection of signals // J. Exp.
Psychol.: General. 109. 160-174. 1980.
22. Scholl B.J. Objects and attention: the state of the art // Cognition. 80. 1-46. 2001.
23. Singer W. Neuronal synchrony: A versatile code for the definition of relations // Neuron.
24. 49-65. 1999.
24. Sokolov A., Lutzenberger W., Pavlova M., Pressl H., Braun C., Birbauner N. Gammaband MEG activity to coherent motion depends on task-driven attention // Neuroreport. 10. 19972000. 1999.
25. Steinmetz P.N., Roy A., Fitzgerald P., Hsiao S.S., Johnson K.O., Niebur E. Attention
modulates synchronized neuronal firing in primate somatosensory cortex // Nature. 404. 187-190.
2000.
26. Tsotsos J.K., Culhane S.M., Wai W.Y.K., Lai Y., Davis N., Nufl, F. Modeling visual attention via selective tuning // Artificial Intelligence. 78. 507-545. 1995.
27. Vinogradova O.S. Hippocampus as comparator: role of the two input and two output systems
of the hippocampus in selection and registration of information // Hippocampus. 11. 578-598. 2001.
28. Wang D.L. Object selection based on oscillatory correlation // Neural Netw., 12. 579-592.
1999.
УДК 004.032.26(06) Нейронные сети
35
Download