Биологически обоснованный метод формирования поискового поведения

advertisement
Биологически обоснованный
метод формирования поискового
поведения
В.А. Непомнящих
Институт биологии внутренних вод им. И.Д. Папанина РАН
В.Г. Редько
НИИ системных исследований РАН
План
1. Биологическое обоснование метода
2. Описание метода поискового поведения в приложении к
оптимизации функций
3. Результаты компьютерных расчетов
4. Выводы
Биологическое обоснование метода
Тактики поискового поведения
биологических организмов
Биологические организмы часто используют чередующиеся
тактики поискового поведения. Пример: поиск пищи по
запаху.
В настоящей работе построена модель поискового поведения
агента, использующего две тактики.
Первая тактика: организм перемещается в определенном
направлении на значительное расстояние.
Вторая тактика: частые случайные изменения направления
движения.
Переключение между тактиками инерционно: организм
придерживается текущей тактики в течение некоторого
времени, несмотря на вариации внешней стимуляции.
Модель личинок ручейников
Ранее было показано, что инерционное чередование тактик
может быть использовано при моделировании поискового
поведения личинок ручейников, обитающих на дне водоемов
и ищущих частицы подходящего размера, из которых они
строят свой чехол-домик (Непомнящих В.А., Попов Е.Е.,
Редько В.Г. // Известия РАН. Теория и системы управления,
2008. № 1). Результаты моделирования согласуются с
биологическими экспериментальными данными.
Аналогичный подход используется для формирования
процесса
поиска
минимума
функции
нескольких
переменных.
Ручейник и его чехол-домик
Личинки ручейников ведут поиск крупных частиц для
строительства чехла-домика
Биологический эксперимент
(В.А. Непомнящих, 2002)
Личинок ручейников
помещали в кольцевой
коридор с водой, дно
которого было покрыто
сплошным слоем песка.
На небольшом участке
коридора (1/6 площади
коридора) были еще
крупные плоские
частицы (скорлупки).
Эксперимент показал, что
личинки ручейников
находят участок с
крупными частицами, где
они строят домик в
основном из скорлупок.
Геометрия кольцевого коридора
2π/6
Личинка помещалась в точку М.
Крупные частицы (скорлупки) расположены на участке 2.
Вероятность встречи крупной частицы на участке 2 равна 0.2.
На участке 1 расположены только мелкие частицы (песчинки)
Результаты биологического эксперимента
• Эксперимент проводился с 40 личинками, которые
наблюдались в течение 1 часа с момента первого
прикрепления частицы
• Все личинки двигались по коридору и посещали участок 2
со скорлупками
• Личинки преимущественно (36 из 40) вели строительство
на участке 2, где они собирали домик из крупных частиц –
скорлупок
• Среднее число прикрепленных частиц для 36 личинок,
покидавших и возвращавшихся на участок 2, составило 5
скорлупок и 2 песчинки. 4 личинки, оставшиеся на
участке 1, в среднем прикрепили по 7 песчинок
Компьютерная модель
• Поведение регулируется мотивацией к прикреплению M(t)
• Возможны три действия личинки:
1) прикрепление протестированной частицы к домику,
2) тестирование частицы,
3) блуждание, поиск нового места
• Прикрепление происходит при превышении мотивацией
M(t) порога, пропорционального площади последней
прикрепленной частицы, при M(t) > Th = k0 Sattach , k0 > 0
• Тестирование происходит при Th > M(t) > 0
• Блуждание – при 0 > M(t)
Динамика мотивации к прикреплению M(t)
M(t) = k1 M(t-1) + ξ(t) + I(t) ,
время t дискретно, шаг по времени Δt = 1 с, k1 – параметр,
характеризующий инерционность (0 < k1 < 1, 1-k1 << 1 )
ξ(t) – нормально распределенная случайная величина со
средним 0 и средним квадратическим σ
I(t) – интенсивность раздражителя
При тестировании:
I(t) = k2 (Scurr – Slast)/ Slast ,
k2 > 0, Scurr , Slast – площади тестируемой и последней
протестированной частицы
При перемещении и прикреплении I(t) = 0
Параметры расчета
• Диаметр коридора d = 90 мм
• Размер песчинки = 0.5 мм (S = 0.25 мм2)
• Размер скорлупки = 1.5 мм (S = 2.25 мм2)
• Величина перемещения за один такт времени L = 2 мм
• k0 = 1, k1 = 0.99, k2 = 0.007, σ = 0.05
• Время тестирования / прикрепления =
песчинки), 10/120 c (для скорлупки)
5/60 c (для
• Расчет проводился в течение 7200 с (2 часа) для 40
личинок, аналогично биологическому эксперименту
• Исходная мотивация к прикреплению M(0) = 0
• Сначала личинка помещалась в центр участка 1
Результаты моделирования
• Почти во всех случаях (в 39 из 40)
прикреплялась крупная частица (скорлупка)
первой
• Количество частиц в течение часа после прикрепления
первой частицы в среднем по 40 расчетам составило: 4.2
крупные частицы (среднее квадратическое отклонение
1.68) и 0.6 мелких частиц (среднее квадратическое
отклонение 1.53)
• Прикрепление мелких частиц наблюдалось только в 8
расчетах из 40
• Среднее время начала прикрепления первой частицы
1815 с (среднее квадратическое отклонение 872 с)
Динамика площади домика S(t)
Преимущественно прикрепляются крупные частицы. Есть сильный
разброс числа прикрепляемых частиц и момента начала прикрепления.
Число прикреплений невелико.
Динамика мотивации к прикреплению M(t)
3
M
M
2
1
0
0
1000
2000
3000
4000
5000
6000
7000
t, c
-1
Прикрепление начинается в моменты t = 3288, 5140, 5595, 6090 с.
Есть эффект частичного успеха: есть рост мотивации M(t), но
мотивация не достигает порога и прикрепление не начинается
Модель и биологический эксперимент
качественно согласуются (данные по 40 примерам)
1. Личинки (как живые, так и модельные) обследуют весь
коридор: участок 1 и участок 2
2. Преимущественно прикрепляются крупные частицы: 4.2
в модели, 5 в эксперименте. Малое число прикрепленных
песчинок: 0.6 в модели, 2 в эксперименте
3. Есть сильный разброс числа прикрепляемых частиц и
момента начала прикрепления (как в модели, так и в
эксперименте)
4. Число прикрепленных частиц в обоих случаях невелико
Описание метода поискового
поведения в приложении к
оптимизации функций
Поиск минимума функций нескольких
переменных
Для определенности рассматривается случай функции двух
переменных f(x,y). Считаем, что в пространстве x,y движется
агент. Смещение агента в такт времени t :
Δx(t) = s cosφ(t), Δy(t) = s sinφ(t) ,
(1)
φ(t) характеризует направление перемещения агента,
s – величина перемещения, время t дискретно: t = 1,2,…
Имеются две поисковые тактики: 1) движение агента в
выбранном направлении, 2) случайный поиск нового
направления движения. Инерционное переключение между
тактиками регулируется мотивацией.
Мотивация
Вводится мотивация M(t) к сохранению направления поиска.
Динамика мотивации:
M(t) = k1 M(t-1) + ξ(t) + I(t) ,
(2)
0 < k1 < 1, 1-k1 << 1, ξ(t) – нормально распределенная
случайная величина с нулевым средним и дисперсией, равной
σ2. Величина I(t):
I(t) = – k2 [f(t) – f(t-1)] , k2 > 0 ,
(3)
f(t) и f(t-1) – значения f(x,y) в месте нахождения агента в
такты времени t и t-1.
Слагаемые в (2) определяют инерцию, стохастические
возмущения и направленное изменение мотивации.
Выбор тактики
Считаем, что
φ(t) = φ(t-1), при M(t) > 0
φ(t) = φ(t-1) + w при M(t) < 0
w – нормально распределенная случайная величина с
нулевым средним и дисперсией, равной w02 .
Таким образом, имеются две тактики:
1) движение в выбранном направлении (при M(t) > 0),
2) случайная вариация направления (при M(t) < 0).
Схема минимизации f(x,y) легко обобщается на произвольное
число переменных: достаточно ввести схему варьирования
направления перемещения в многомерном пространстве.
Результаты компьютерных расчетов
Общая характеристика результатов
Параметры расчетов: k1, k2, σ, w0 грубо подбирались так,
чтобы происходило достаточно быстрое нахождение
минимума f(x,y), s = 0.01.
Было продемонстрировано, что метод обеспечивает
нахождение минимума
- для одноэкстремальной функции, например, для
гауссовского распределения f(x,y);
- для функции, имеющей «плато», т.е. область в
пространстве x,y, в которой значение f(x,y) не меняется;
- при наличии в пространстве x,y непреодолимого барьера
ограниченного размера.
Кроме того, был построен аналог известного овражного
метода минимизации функций (Гельфанд, Цетлин, 1961).
Преодоление плато
Если имелось плато с постоянным значением f(x,y), то за счет
инерционности изменения M(t) и φ(t)
при малой ширине плато (например, равной 20s) агент
преодолевал его, не меняя направления движения;
при большей ширине плато (равной 70s) направление
движения при перемещении по плато несколько раз
менялось, но, в конце концов, агент проходил плато и
перемещался к минимуму функции.
Обход непреодолимого барьера
Функция f(x,y) имела вид:
 2 

f ( x, y )  
exp 

2
2


1
,
  x2  y2
(4)
Полагалось, что при
y1  y  y  y1  y,
x1  x  x  x1  x
(5)
расположен барьер. При попадании агента на барьер его
движение происходило только вдоль оси x, а координата y не
менялась.
x1 и y1 – координаты центра барьера, δx и δy – ширина и
толщина барьера.
Траектория агента при наличии барьера
y
1
0.5
x
0
-0.8
-0.6
-0.4
-0.2
-0.5
0
-1
-1.5
-2
0.2
k1 = 0.9
k2 = 1
σ = 0.0001
w0 = 2
x1 = 0
y1 = -1
δx = 0.1
δy = 0.01
-2.5
В начале поиска агент находится в точке x
«натыкается» на барьер и перемещается
концов, агент обходит барьер и движется
f(x,y), имеющей координаты x = 0, y = 0,
окрестности этой точки.
= 0, y = -2. Когда y = -1, агент
рядом с барьером. В конце
к точке минимума функции
а в дальнейшем блуждает в
Зависимость f(x,y) от времени t
0
f(x,y)
-0.1
-0.2
-0.3
-0.4
0
500
1000
1500
2000
t
При 115 < t < 1500 агент искал обход барьера, а после
нахождения обхода двигался к минимуму f(x,y).
Аналог овражного метода
Предполагалось, что минимизируемая функция имеет
достаточно глубокий «овраг», в котором она слабо меняется.
Полагалось
f ( x, y)  (   0 ) 2  x,
(6)
ρ = (x2 + y2)½ , ρ0 = 1, α = 0.01. Так как α << 1, то грубый
минимум, «овраг» соответствует окружности радиуса 1 с
центром в начале координат, а глобальный минимум
соответствует координатам xm = 1.005, ym = 0. При этом
f(xm , ym) = - 0.010025.
Траектория движения агента при наличии «оврага»
1.5
y
k1 = 0.5
k2 = 1
1
σ = 0.0001
w0 = 2
0.5
При t = 0
x
x=y=0
0
-1
0
-0.5
0.5
1
1.5
-0.5
За 100 тактов находится овраг, т.е. единичная окружность. Затем
происходит движение вдоль окружности, при t ≈ 800 достигается
глобальный минимум функции
Зависимость f(x,y) от времени t
1.2
0.02
1
f(x,y)
0.8
0.01
0.6
0
0.4
0
0.2
200
400
600
800
1000
-0.01
0
-0.2
0
200
400
600
800
1000
t
Агент быстро нашел овраг, затем происходило постепенное
уменьшение f(x,y) (на врезке – увеличенный масштаб)
Динамика мотивации M(t)
0.04
M (t)
0.02
0
0
50
100
150
200
-0.02
t
На первых тактах времени M(t) < 0, затем до t ≈ 100
мотивация M(t) > 0, далее мотивация испытывает
случайные колебания относительно нуля
Выводы
Предложен и проанализирован биологически обоснованный
метод построения схем поискового поведения, использующий
понятие мотивации, регулирующей процессы инерционного
переключения между поисковыми тактиками.
Хотя анализ метода проведен для минимизации функций,
этот метод может быть применен при формировании
поискового поведения автономных систем, например,
автономных мобильных роботов, ищущих скопления
определенных веществ в неизвестной им среде. Такие роботы
могут по инерции проходить плато с постоянной малой
концентрацией искомого вещества, обходить встречающиеся
барьеры, т.е. вести эффективный поиск аналогично
биологическим организмам.
Download