Метод сегментации временного ряда поведенческих

advertisement
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
И.Н. СУКОНКИН
Национальный исследовательский ядерный университет «МИФИ»
chaosstruct@gmail.com
МЕТОД СЕГМЕНТАЦИИ ВРЕМЕННОГО РЯДА
ПОВЕДЕНЧЕСКИХ ХАРАКТЕРИСТИК ЛАБОРАТОРНОГО
ЖИВОТНОГО В БИОЛОГИЧЕСКОМ ЭКСПЕРИМЕНТЕ
Рассматривается задача сегментации векторного временного ряда
поведенческих характеристик лабораторного животного на акты
поведения без использования экспертных данных. Предлагается критерий
оптимальности решения задачи и метод поиска оптимальной сегментации
с помощью генетического алгоритма. Обсуждаются результаты
экспериментальных
исследований
с
использованием
данных
поведенческих тестов на лабораторных животных.
Ключевые слова: генетический алгоритм, сегментация векторных
временных рядов, биологический эксперимент, поведенческий акт
Введение
В настоящее время фенотипирование поведения лабораторных
животных (ЛЖ) в биологических экспериментах производится при
помощи
специальных
автоматизированных
систем.
Широкое
распространение получили системы, использующие видеорегистрацию в
качестве метода протоколирования экспериментов [1]. Одной из процедур
анализа поведения является процедура автоматического разделения
временного ряда поведенческих характеристик лабораторного животного
на акты поведения (“стойка с опорой”, “груминг”, “побежка”, “копание” и
т.д.).
В настоящее время детализированная сегментация поведения
животного
выполняется
специалистами-этологами
(экспертами).
Существующие алгоритмы автоматической сегментации используют
простейшие эвристические правила и позволяют выделить только
простейшие акты поведения, такие как “покой”, “побежка”, “поворот
* Работа выполнена при поддержке Федеральной целевой программы
«Научные и научно-педагогические кадры инновационной России», проекты
НИЯУ МИФИ № П264 и № П1052.
УДК 004.032.26(06) Нейронные сети
113
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
туловища” и т.д. [2]. Работы последних лет показали принципиальную
возможность использования для автоматической сегментации таких
математических методов, как скрытые марковские модели (СММ) [3,4] и
нейронные сети (НС) [5]. Методы с использованием СММ и НС
имитируют работу человека-эксперта и требуют предварительного
обучения на экспертных данных.
При обработке видеоматериала лабораторного эксперимента широко
используется трехточечная модель лабораторного животного [5],
представленная на рис. 1.
Рис. 1. Трехточечная модель лабораторного животного
Регистрируются следующие опорные точки ЛЖ: точка центра масс
животного ( X ц , Yц ), точка кончика носа животного ( X н , Yн ), точка
основания хвоста ( X хв , Yхв ). Используя текущие значения координатных
признаков, рассчитываются поведенческие характеристики животного:
длина тела, угол изгиба тела. По временному ряду координатных
признаков рассчитываются характеристики: модуль скорость движения,
ускорение, модуль угловой скорости и т.д.
Постановка задачи сегментации векторного ряда
Временной континуум перечисленных поведенческих характеристик
животного
образует
векторный
временной
ряд
x(t ) =  x1 (t ) xm (t )  m , t = 1, T , где m – количество используемых
признаков. Требуется решить задачу сжатия векторного временного ряда,
т.е. перейти от m – мерного временного ряда действительных чисел к
одномерному ряду объектов s( L, k ), которые будем называть сегментами.
Здесь L – продолжительность сегмента, k – класс сегмента, k  {0, 1,..., K} ,
K – число классов. Для каждого класса k требуется найти эталонный
вектор C ( k )  (c1( k ) , c2( k ) ,..., cm( k ) )  m , который аппроксимирует отрезки
УДК 004.032.26(06) Нейронные сети
114
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
временного ряда x(t ), t  1, T , сжимаемые в сегменты k–го класса,
постоянными значениями.
К сегментам и эталонным векторам классов выдвигаются следующие
требования:
- требование средней минимальной ошибки аппроксимации векторного временного ряда:
K
1
min 
Ck
k 1 | k
 d (C k , X (t )),
(1)
| tk
X (t ) – вектор, полученный из временного ряда x(t ), t  1, T ,
соответствующий моменту времени t; k – множество отсчетов, для
которых вектор признаков отнесен к классу k по принципу:
k (t )  arg min d ( X (t ), C k )
где
k
- требование существенной протяженности сегментов,
минимального количества смен классов сегментов:
T
min 1(k (t )  k (t  1)),
то
есть
(2)
t 0
где k (t ) – класс сегмента в текущий момент времени t.
- требование максимума различия эталонных векторов разных классов:
(3)
max  d (c ki , ck j ), ki , k j  1, K , ki  k j ,
ki , k j
- требование отсутствия коротких сегментов:
K
min  min | s j k |,
k 1
j  1, N ,
(4)
j
N – общее число сегментов.
В выражениях (1) и (3) под d(·) понимается мера (квадрат отклонения)
различия двух векторов, рассчитываемая по формуле:
m
d ( x ( A) , x( B ) )   ( xi ( A)  xi ( B ) )2 .
(5)
i 1
В биологической интерпретации задача сжатия векторного временного
ряда рассматривается как задача выделения актов поведения животного
по ряду его поведенческих характеристик.
Сегменты будут рассматриваться как поведенческие акты, классы
сегментов – как типы актов поведения, а векторный временной ряд – как
временная последовательность поведенческих характеристик, получаеУДК 004.032.26(06) Нейронные сети
115
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
мых от системы видеотрекинга. Количество типов актов поведения
жестко ограничено репертуаром действий лабораторного животного.
Поставленная задача поиска сегментов обладает высокой комбинаторной сложностью. Для её решения предлагается использовать
эволюционную модель.
Описание эволюционной модели
Эволюционная модель – это объект вида [6]:
EM   Struct , Param, fitn  .
Структурные компоненты модели
Struct  ( P, G, mt , cr , pl , es, cl ),
где P – популяция, G – группа особей для скрещивания, mt – оператор
мутации, pl – оператор отбора в новое поколение, cr – оператор
кроссинговера, es – оператор отбора в группу для скрещивания, cl –
оператор направленной корректировки особей.
Параметры модели Param  (r , g , kmt , b, v), где r – размер популяции,
g – размер группы для скрещивания, kmt – коэффициент мутации, b –
коэффициент оператора кроссинговера, v – коэффициент оператора
направленной коррекции.
Фитнес-функция обозначена fitn.
Схема функционирования модели представлена на рис. 2.
Эволюционный процесс начинается с инициализации всех хромосом
нулевого поколения случайными равномерно распределенными по
области изменения поведенческих характеристик значениями. Выбор
особей для скрещивания осуществляется при помощи классических
операторов отбора по фитнес-функции, применяемых в генетических
алгоритмах [7].
УДК 004.032.26(06) Нейронные сети
116
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
Инициализация нулевого поколения случайными
значениями
Выбор особей для скрещивания (оператор es)
Кроссинговер (оператор cr)
Формирование нового поколения
(оператор pl)
Направленная коррекция особей
(оператор cl)
Мутация (оператор mt)
Нет
Критерий останова
Да
Завершение эволюции
Рис. 2. Схема функционирования эволюционной модели. Для решения
задачи используются как классические, так и оригинальные генетические
операторы
Предлагается использовать оператор кроссинговера, функционирующий по следующим правилам:
hi1  (1  )ci1  ci 2 ,
hi 2  ci1  (1  )ci 2 ,
hi 3  (1  )ci1  ci 2 ,
где ci1 и ci 2 – гены родителей, hi1 , hi 2 , hi 3 – гены первого, второго и
третьего потомков соответственно. Таким образом, каждая пара хромосом
порождает трех потомков.
Оператор мутации mt использует генератор псевдослучайных чисел,
равномерно распределенных по области решения.
Структура хромосомы и критерия
Поставленная задача требует поиска таких оптимальных значений
эталонных векторов, которые будут удовлетворять требованиям (1)–(4).
Предлагается
определить
следующую
структуру
хромосомы,
участвующей в эволюционном процессе:
УДК 004.032.26(06) Нейронные сети
117
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
H  (c11 , c21 ,... cN1 , c12 , c22 ,... cN 2 ,..., c1K , c2 K ,... cN K ) .
Хромосома состоит из эталонных векторов K различных классов.
Для получения решения, удовлетворяющего требованиям (1)–(4),
предлагается сформировать фитнес-функцию как линейную комбинацию
соответствующих показателей. Для этого переформулируем требование
(3) следующим образом:
min
1
 d (c k , c k
i
j
)
, ki , k j  1, K , ki  k j .
(6)
ki , k j
Если рассмотреть требование (3) в форме (6), то выражения (1)–(4)
будут требованиями минимизации.
Тогда фитнес-функцию запишем следующим образом:
f  1 f I   2 f II  3 f III   4 f IV ,
где f I , f II , f III и f IV компоненты фитнес-функции, обеспечивающие
требования (1), (2), (6), (4) соответственно. Здесь i – экспериментально
подбираемые коэффициенты, подстройка которых производится
эмпиричеким способом после проведения нескольких пробных запусков
эволюционного процесса.
Оператор направленной корректировки особей
Используя априорную информацию о том, что оптимальный набор
эталонных векторов наилучшим образом аппроксимирует сегменты
векторного временного ряда, сформируем процедуру корректировки
хромосом, позволяющую ускорить сходимость алгоритма за счет
целенаправленного изменения эталонных векторов отдельных классов.
Процедура корректировки эталонных векторов состоит в следующем.
Случайным образом выделяется определенная доля хромосом. Для
каждого эталонного представителя (c1( k ) , c2( k ) ,... cN ( k ) ) хромосомы Hi
рассчитывается ряд ошибок аппроксимации d k (t ) данных (значения
элементов ряда рассчитываются по формуле (5)), относящихся к
сегментам k-го класса. Вычисляется дисперсия ошибок аппроксимации по
стандартной формуле:
Vk 
1
k
 (d (k ) (t )  d (k ) (t ))
2
,
tk
где d ( k ) – среднее выборочное значение ошибок аппроксимации.
УДК 004.032.26(06) Нейронные сети
118
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
Проводится сравнение дисперсии ошибок аппроксимации с некоторым
экспериментально устанавливаемым порогом. Если значение дисперсии
оказывается
меньше
порогового
значения,
то
предлагается
модифицировать эталонный представитель следующим образом:
ci k 
1
 xi k (t ), i  1, m,
| k | tk
где ci k – компоненты эталонного вектора k-го класса.
Исследование влияния компонентов фитнес-функции
на результаты сегментации поведенческой последовательности
Для проверки алгоритма были использованы данные трехточечной
регистрации положения животного в кадрах видеозаписи. Биологический
эксперимент был направлен на исследование «изучающего поведения»
мыши полевки в открытом поле. Использовался видеоролик
длительностью 15 минут, на котором экспертно были выделены 10 типов
поведенческих актов. По данным видеорегисрации были сформированы 5
поведенческих признаков: длина ЛЖ, угол изгиба ЛЖ, модуль скорости
ЛЖ, модуль ускорения центра масс ЛЖ, изменение направления ЛЖ.
Рассмотрим основные нежелательные эффекты сегментации, которые
возникают при обработке данных биологического эксперимента и методы
их устранения. Первая составляющая фитнес-функции f I обеспечивает
поиск эталонных векторов, близких к значениям поведенческих
характеристик отдельных поведенческих актов (рис. 2).
Рис. 2. Применение фитнес-функции, содержащей компонент f I , для
сегментации поведенческой последовательности. Сплошные линии –
УДК 004.032.26(06) Нейронные сети
119
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
поведенческие
характеристики,
штрихпунктирные
линии
–
соответствующие
уровни
эталонных
характеристик
классов,
прямоугольные шкалы – найденные сегменты
На рис. 2 можно выделить проблемные области трех типов: (а) –
область с недостаточной детализацией протяженных сегментов; (б) –
область, содержащая неинформативные короткие сегменты; (в) – область,
содержащая много коротких сегментов на переходных процессах.
Для наглядности далее будут приведены рисунки, содержащие только
два компонента векторного ряда поведенческих характеристик (угол
изгиба животного и скорость передвижения центра масс животного).
Для устранения неинформативных коротких сегментов вводится
аддитивный компонент фитнес-функции
Этот компонент
f IV .
обеспечивает предотвращение появления коротких сегментов. Результаты
применения этого компонента фитнес-функции приведены на рис. 3.
(а)
(б)
Рис. 3. Результаты использования фитнес-функции, содержащей
компонент f IV : (а) – фитнес-функция не содержит компонент f IV ; (б) –
фитнес-функция содержит компонент f IV
Для повышения детализации сегментации предлагается использовать
компонент критерия f III , за счет которого максимизируется расстояние
между эталонными векторами разных поведенческих актов. Результаты
применения критерия с компонентом f III приведены на рис. 4.
УДК 004.032.26(06) Нейронные сети
120
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
(а)
(б)
Рис. 4. Результаты использования фитнес-функции, содержащей
компонент f III : (а) – фитнес-функция не содержит компонент f III ; (б) –
фитнес-функция содержит компонент f III
Для уменьшения детализации переходных процессов можно
II
IV
II
использовать компоненты f и f . Компонент f
отвечает за
количество смен фаз поведения. Результаты применения фитнес-функции,
содержащей компоненты
f II и f IV , приведены на рис. 5.
(а)
(б)
Рис. 5. Результаты использования фитнес-функции, содержащей
компоненты f II и f IV : (а) – фитнес-функция не содержит компоненты
f II и f IV ; (б) – фитнес-функция содержит компоненты f II и f IV
Применением фитнес-функции, содержащей все компоненты
f
f II , f III , f IV , разрешаются основные негативные эффекты при
сегментации поведенческой последовательности. Полученные результаты
сегментации по детализации превосходят экспертно полученные. На
экспериментальной выборке, на которой эксперты выделяют порядка 300
сегментов (поведенческих актов), автоматическим образом выделяется
примерно 600 – 700 сегментов. Это свидетельствует о более высокой
детализации автоматически формируемой разметки поведенческой
последовательности. С одной стороны, более детальные данные сложны
для понимания человеком-экспертом. С другой стороны, такие данные
несут больше полезной информации и могут быть использованы при
решении таких задач, как поиск паттернов поведения.
I,
УДК 004.032.26(06) Нейронные сети
121
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
Выводы
Разработан генетический алгоритм для решения задачи сегментации
векторного временного ряда. Рассмотрено применение алгоритма для
выделения актов поведения по векторному временному ряду
характеристик животного, полученному при проведении биологического
эксперимента. Методика опробована на данных эксперимента,
направленного на изучение «изучающего поведения» мышей полевок в
«открытом поле». Рассмотрены основные требования, предоставляемые к
результатам сегментации.
Результаты тестирования показали, что предложенная методика
позволяет получить более детальную сегментацию, чем экспертная
разметка.
Высокая
детализация
полученных
результатов
позволяет
предполагать,
что
автоматическая
сегментация
поведенческих
последовательностей может быть эффективно использована при решении
задач поиска паттернов поведения.
Список литературы
1. Spruijt, B.M. Advanced behavioral screening: automated home cage
ethology /, B.M. Spruijt, L. DeVisser // Drug Discovery Today: Technologies.
2006. Vol. 3. № 2. P. 231–237.
2. Cherepov, A.B. Automatic segmentation of mouse behavior during video
tracking in home cages / A.B. Cherepov, T.V. Mukhina, K.V. Anokhin // 5th
Int. Conf. on Methods and Techniques in Behavioral Research. Measuring Behavior. 2005. P. 241–242.
3. Темлянцев, А.В. Структурный анализ поведенческой динамики /
А.В. Темлянцев, Д.П. Ветров, Д.А. Кропотов // Сборник трудов ММРО14. 2009. С. 512–516.
4. Ломакина-Румянцева, Е.И. Автоматическая сегментация поведения
лабораторных животных на основе выделяемых контуров. / Е.И.
Ломакина-Румянцева, Д.П. Ветров, Д.А. Кропотов // Сборник трудов
ММРО-14. 2009. С. 411–413.
5. Мишулина, О.А. Выделение фаз поведения лабораторных животных
нейросетевыми методами / О.А. Мишулина, И.Н. Суконкин // Материалы
избранных научных трудов по теме: актуальные вопросы нейробиологии,
УДК 004.032.26(06) Нейронные сети
122
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2
нейроинформатики и когнитивных исследований. Научная сессия НИЯУ
МИФИ. 2001. С. 237–246.
6. Кукин, В.Д. Эволюционная модель для евклидовой задачи
Штейнера с потоками и зависящими от них весами / В.Д. Кукин // Извесия
РАН. Теория и системы управления. – 2008. № 3. М. : Наука. С. 125–131.
7. Емельянов, В.В. Теория и практика эволюционного моделирования /
Емельянов В.В., Курейчик В.В., Курейчик В.И. – М.: Физмат, 2003.
УДК 004.032.26(06) Нейронные сети
123
Download