ОЦЕНКА СКОРОСТИ И ЭФФЕКТИВНОСТИ ЭВОЛЮЦИИ ДЛЯ ПРОСТЫХ ВАРИАНТОВ ГЕНЕТИЧЕСКОГО АЛГОРИТМА

advertisement
ОЦЕНКА СКОРОСТИ И
ЭФФЕКТИВНОСТИ ЭВОЛЮЦИИ
ДЛЯ ПРОСТЫХ ВАРИАНТОВ
ГЕНЕТИЧЕСКОГО АЛГОРИТМА
Редько В.Г.
НИИ системных исследований РАН,
vgredko@gmail.com
Цой Ю.Р.
Томский политехнический университет,
qai@mail.ru
План
•
Необходимость оценок эффективности генетического
алгоритма (ГА)
•
Модель квазивидов – ГА с рулеточным отбором
•
Роль нейтрального отбора
•
Оценка скорости эволюции в модели квазивидов
•
Проверка оценок численным расчетом
•
Модель узкого канала
•
Спин-стекольная модель эволюции
•
Итог: при эволюционном поиске требуется расчет
функции приспособленности для nобщ ~ N 2 особей
Необходимость оценок эффективности
генетического алгоритма (ГА)
•
Количественные скорости и эффективности ГА важны с
инженерной точки зрения.
•
Оценки целесообразно сделать для канонической
модели, непосредственно связанной с биологическим
прототипом.
•
В качестве такой модели рассматривается модель
квазивидов.
Модель квазивидов – эволюция
простейших модельных геномов
М. Эйген, Г. Кун, Дж. Эдельман
Рассматривается дарвиновская эволюция популяции
модельных геномов. Длина генома равна N, учитываются
точечные мутации, скрещивания нет.
Имеется один оптимум. Рассматривается процесс, который
сходится к квазивиду – распределению особей в окрестности
оптимума.
Согласно нашим аналитическим оценкам, в эволюционном
процессе «оптимальный» геном длины N можно найти при
испытании порядка N 2 особей.
Оценки проверены путем компьютерного моделирования.
Модель квазивидов
Рассматривается дарвиновская эволюция популяции
последовательностей S1 , S2 , ... , Sn .
Ski = 1, -1; k = 1,2,…, n; i = 1,2,…, N.
Длина последовательностей N и численность популяции n
велики: N, n >> 1. N = const, n = const.
Имеется оптимальная последовательность Sm , имеющая
максимальную приспособленность. Оптимальная особь
неизвестна особям популяции. Приспособленность произвольной особи S определяется расстоянием по Хеммингу
(S, Sm) между S и Sm (числом несовпадающих символов в
соответствующих позициях последовательностей):
f(S) = exp[-(S, Sm)],
 – интенсивность отбора.
(1)
Схема эволюции в модели квазивидов
Шаг 0. Формирование начальной популяции {Sk (0)}. Для
каждого k = 1, ..., n, и для каждого i = 1 , ..., N , выбираем
случайно символ Ski , полагая его равным +1 либо -1.
Шаг 1. Отбор
Подшаг 1.1. Расчет приспособленностей. Для каждого Sk из
{Sk(t)} вычисляем величину f(Sk), t – номер поколения,
k
=1, ..., n.
Подшаг 1.2. Формирование новой популяции {Sk(t+1)}.
Отбираем n особей в новую популяцию {Sk(t+1)} с
вероятностями, пропорциональными f(Sk).
Шаг 2. Мутации особей в новой популяции. Для каждого k =
1, ..., n, для каждого i = 1, ..., N, меняем знак Ski(t+1)
на противоположный с вероятностью P .
P - интенсивность мутаций.
Отбор пропорционально-вероятностный
Доля k-го сектора рулетки
q4 =
qk = fk [S l fl ]-1 , fk = f(Sk) .
1
8
q1 =
q3 =
1
8
q2 =
1
2
1
4
Ровно n раз крутим рулетку,
номер сектора определяет номер
особи, выбираемой в популяцию
следующего поколения.
Для каждого вращения
вероятность k-й особи попасть в
следующее поколение
пропорциональна ее
приспособленности fk .
Показан пример, для которого n = 4,
f1 = 1/2, f2 = 1, f3 = 1/4, f4 = 1/4.
Параметры модели
N - длина последовательности, длина генома
n - численность популяции
 - интенсивность отбора
P - интенсивность мутаций
N, n >> 1,  >~ PN, 1 >~ PN
Качественная схема эволюции
N = 500, n = N,  =1, P = 0,002
Качественная схема эволюции
Начальное распределение по  в популяции близко к
нормальному, <> = N/2, D = N/4.
На первой стадии происходит отбор особей, расположенных
"на
левом
крыле"
исходного
распределения,
и
распределение сжимается.
На второй стадии появление новых особей в популяции
ограничено мутациями.
Окончательное
распределение
распределение в окрестности  = 0.
есть
квазивид
-
При малых интенсивностях отбора и мутаций (1 >>  > PN)
распределение в квазивиде близко к распределению
Пуассона, <> = D = PN/ .
Роль нейтрального отбора
Если численность популяции n достаточно мала, то
эволюционный процесс существенно стохастический и
особи могут фиксироваться в популяции случайно,
независимо от их приспособленностей.
Роль нейтрального отбора исследовалась в работах М.
Кимуры [1], было показано, что характерное время Tn
(число поколений) нейтрального отбора составляет
порядка численности популяции n , Tn ~ n .
1. Кимура М. Молекулярная эволюция: теория
нейтральности. М.: Мир, 1985, 400 с.
Чисто нейтральная игра
1. Имеется популяция черных и белых шаров, общее количество шаров в
популяции равно n.
2. Эволюция состоит из последовательности поколений. Каждое
поколение состоит из двух шагов.
2.1. На первом шаге дублируем все шары, сохраняя их цвета: черный шар
имеет два черных потомка, белый шар имеет два белых потомка.
2.2. На втором шаге мы случайным образом (независимо от цвета)
удаляем из популяции ровно половину шаров.
Игра определяет марковский процесс, для которого показано, что:
1) рассматриваемый процесс всегда сходится к одному из поглощающих
состояний: все шары белые, либо все шары черные.
2) при больших n характерное число поколений Tn , требуемое для
сходимости к какому-либо из поглощающих состояний, равно 2n.
Чисто нейтральная игра
Чисто нейтральная игра
Популяция находится в l -состоянии, если число черных и
белых шаров равны l и n - l.
Вероятности переходов Plm есть:
 2l   2n  2l 







 m   n  m 

Plm  


0,

 2n 

 n 
 если 2l  n  m  2l

 ,
если m  2l или m  2l  n
Матрица Plm задает Марковский процесс, для которого
известно, что при больших n характерное время сходимости
Tn к какому-либо из поглощающих состояний равно 2n :
Tn = 2n .
Качественная схема эволюции
финальное распределение (квазивид)
n()
t1 < t2 < t3
t3
t2
t1
t=0
0
N/2
Для оценки скорости эволюции важна вторая, медленная стадия

Аналитическая оценка скорости эволюции
Предполагаем, что роль нейтрального отбора невелика:
Tn >~ T ,
(2)
T - характерное время эволюции, Tn ~ n .
Характерное время t-1, за которое среднее по популяции расстояние до
оптимума <> уменьшается на 1, составляет:
t-1 ~ tм + tот , tм ~ (NP) -1 , tот ~ 
-1
tм – характерное время мутаций , tот - характерное время отбора.
Отсюда для T ~ t-1 N имеем:
T ~ P -1 + N
-1.
(3)
Считаем отбор достаточно интенсивным: T ~ P -1 и мутации
«оптимальными» (одна мутация на геном) P ~ N -1. Тогда T ~ N.
Пусть (2) выполняется на пределе Tn ~ T , тогда n ~ Tn ~ T ~ N .
Общее число особей, участвующих в эволюции, равно nобщ = n T ~ N 2
Итог оценок для модели квазивидов
Для эволюционного поиска общее число особей,
участвующих в процессе поиска оптимального генома,
составляет nобщ = n T ~ N 2 .
Оценки были сделаны при достаточно разумном выборе
параметров:
1)  >~ 1 - интенсивность отбора достаточно велика.
2) P ~ N -1 - мутации «оптимальны» (одна мутация на геном).
3) n ~ N - условие пренебрежения нейтральным отбором
выполняется «на пределе».
Зависимость среднего расстояния до
оптимума от номера поколения
(n = N, P = N -1,  = 1)
Зависимости времени релаксации TR , времени выхода
на стационар TS и времени первого нахождения
оптимума TO от N
Зависимости времени релаксации TR , времени
выхода на стационар TS и времени первого
нахождения оптимума TO от N
При достаточно больших N имеем:
TR (N) = kRN + TR0
TS (N) = kSN + TS0
TO(N) = kON + TO0 ,
kR = 0.1772, kS = 0.3903, kO = 0.3685
TR0 = 8.2709, TS0 = 38.7356, TO0 = 21288
Аналитическая оценка T ~ N
Сравнение с другими алгоритмами
Для модели квазивидов общее число особей, участвующих в
процессе поиска оптимального генома, составляет
nобщ = n T ~ N 2 .
Для последовательного поиска (последовательный перебор
символов одной последовательности) nобщ = N.
Для случайного перебора nобщ = 2N .
Метод поиска
nобщ
nобщ при N = 1000
Последовательный
N
1000
Эволюционный
~ N2
~106
Случайный
~ 2N
~10300
Модель «узкого канала»
(мажорирующая модель)
Имеется N типов особей: sk , k = 1, ..., N.
Особь k-го типа может в результате мутации перейти
только в особь k-1-го типа и в особь k+1-го типа (узкий
канал). Вероятность любой из этих мутаций равна P1.
P1 можно рассматривать как аналог однократной мутации
в модели квазивидов P1 ~ NP.
Приспособленность особей k-го типа равна fk = exp (-k).
Численность популяции равна n.
Организуем эволюционный процесс точно так же, как в
модели квазивидов. В результате задача упрощается: нет
необходимости учитывать информационную структуру
последовательностей.
Расчет по модели узкого канала
Зависимость среднего по популяции расстояния до оптимума
<>, <k> для модели квазивидов и мажорирующей модели, N
= n = 1000, P = P1 = 0,001,  = 1, T ~ N, nобщ ~ N 2 .
Модель спинового стекла
Рассматривается система N спинов: S = S1,S2,...,SN ; Si = 1, -1;
N >> 1. Энергия системы S есть:
E (S) = - S i<j Jij Si Sj ,
i, j = 1,..., N ,
(4)
величины Jij нормально распределены:
P(Jij ) = (2p)-1/2 (N-1)1/2 exp [- Jij2 (N-1)2-1]
(5)
Число M локальных минимумов энергии экспоненциально
растет с увеличением N:
M ≈ exp (aN), a ≈ 0,2
Глобальный минимум энергии E0 – 0,8N.
Среднее вариации энергии ΔE при перевороте спина
(Si → - Si) равно 2.
(6)
Эволюционная модель поиска минимума
энергии спинового стекла
Приспособленность особи Sk определяем как:
f(Sk) = exp[-  E(Sk)] .
(7)
Эволюционный процесс строим так же, как и в модели
квазивидов. Удаление средней энергии от глобального
минимума порядка N, а вариация энергии при мутации
Si → - Si порядка 1, следовательно, оценки скорости и
эффективности для спин-стекольной модели по порядку
величины такие же, как для модели квазивидов.
Единственное отличие: эволюция сходится к одному из
достаточно глубоких локальных минимумов энергии EL ,
который может быть разным для различных реализаций
эволюционного процесса.
Качественная схема эволюции
Финальное распределение
n(E), n(ρ)
t2
t1
~ N 1/2
E0
t =0
E, ρ
EL
~N
Динамика распределения последовательностей n(E) и n(ρ);
E0 и EL – глобальный и локальный минимумы энергии
Оценка скорости и эффективности для
модели спинового стекла
Так как удаление средней энергии от глобального минимума
порядка и вариация энергии при мутации
Si → - Si
порядка 1, того же порядка, что и для модели квазивидов, то
для спиновых стекол также T ~ N, nобщ ~ N 2 .
Ранние расчеты (1980-е годы) показали, что эволюция
сходится к одному из локальных минимумов энергии EL ,
для которого |EL - E0 | << E0 .
Выводы
Для модели квазивидов и близких к ней моделей узкого
канала и спинового стекла можно подобрать параметры
моделей так, что справедливы оценки:
Число поколений составляет T ~ N .
Общее число особей, участвующих в процессе поиска
оптимального генома, составляет nобщ = n T ~ N 2 .
Выбор параметров:
1)  >~ 1 - интенсивность отбора достаточно велика.
2) P ~ N -1 - мутации «оптимальны» (одна мутация на геном).
3) n ~ N - условие пренебрежения нейтральным отбором
выполняется «на пределе».
Основная литература:
Редько В.Г. Эволюция, нейронные сети, интеллект: Модели
и
концепции
эволюционной
кибернетики.
Серия
«Синергетика: от прошлого к будущему». М.: УРСС, 2005.
Редько В.Г., Цой Ю.Р. Оценка эффективности
эволюционных алгоритмов // Доклады АН, 2005. Т. 404. N. 3.
С. 312-315.
Download