Sdd-алгоритм обучения в парадигме reinforcement learning

advertisement
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2
А.К. КРЫЛОВ
Лаборатория нейрофизиологических основ психики им. В.Б. Швыркова,
институт психологии РАН, Москва
krylov@psychol.ras.ru
SDD-АЛГОРИТМ ОБУЧЕНИЯ В ПАРАДИГМЕ
REINFORCEMENT LEARNING, ОСНОВАННЫЙ
НА ОБНАРУЖЕНИИ ЗНАЧИМОСТИ ЭФФЕКТОВ
ДЕЙСТВИЙ
Аннотация
Проведен анализ тестовой поведенческой задачи фуражирования с
точки зрения модели мобильного робота, погруженного в нее. На основе
анализа динамики показателей взаимодействия агента, управляемого алгоритмом Actor/Critic (A/C), со средой, предложен и реализован алгоритм
обучения SDD в рамках парадигмы Reinforcement Learning (RL), основанный на обнаружении значимости в эффективности действий. Проведено
его сравнение с A/C как двух возможных путей формирования нового
навыка – с вовлечением новых нейронов (SDD), и без (A/C).
Введение
В соответствии с теорией функциональных систем (ФС) [1] формирование нового навыка может обеспечиваться двумя путями. Процесс постепенного формирования навыка, при котором кривая научения имеет Sобразный вид, обеспечивается перестройкой межсистемных отношений,
без вовлечения нейронов «резерва», без образования новой ФС [2]. Такой
подход успешно моделируется в нейроинформатике, в парадигме Reinforcement Learning (RL) [3].
Другой вариант обучения – скачкообразное формирование нового
навыка, по типу инсайта. В этом случае формируется новая ФС за счет
специализации части нейронов «резерва» и нейронов, порожденных
нейрогенезом [2]. В моделировании этого процесса преобладают представления о его организации обнаружением статистических закономерностей в динамике смены ситуаций [4, 5]. Однако, эти модели работают с
дискретными данными, с непосредственно представленным результатом
каждого действия, требуют бинарной классификации каждой реализации
действия по принципу «успех»-«неуспех», и не имеют пока реализации,
УДК 004.032.26(06) Нейронные сети
38
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2
применимой к непрерывной величине отсроченного подкрепления, нечеткой задаче в духе RL [3, 6].
В настоящей работе сделан анализ тестовой поведенческой задачи
(раздел 1) с точки зрения агента работающего в ней (раздел 2); показана
динамика переменных, описывающих взаимодействие агента со средой, и
ее анализ (раздел 3); показана возможность выявления закономерностей
(раздел 4); на основе чего нами построен алгоритм обучения («SDD») и
проведено его тестирование в сравнении с Actor/Critic (раздел 5).
1. Методика: тестовая задача
На основе анализа детерминант поведения, рассматриваемых в теории
функциональных систем [1], нами выдвинуты критерии к тестовой поведенческой задаче, и на их основе предложена и обоснована задача фуражирования для компьютерной модели мобильного робота [6] – агент движется на плоскости, поедая пищевые объекты. Среда (рис. 1а) представляет собой развертку тора на плоскости, в которой изначально равномерно
разбросано N пищевых объектов. После «поедания» агентом одного объекта в случайном месте появляется новый объект.
Рис. 1. А – среда модели. Точки – объекты. Линией показана траектория движения
агента за последние 1000 тактов. Б – изменение сооношения агента и среды за
1 шаг («поворот вправо») для агента, угол поворота которого равен 90 градусов.
Сектора показывают зрительные поля агента. Треугольник – агент, линия по его
центру – его направление взора. Малый сектор – область захвата. В – пример цепочки действий, обеспечивающих подход к объекту
УДК 004.032.26(06) Нейронные сети
39
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2
Далее описывается один из вариантов морфологии тестируемого агента, представляющего собой модель двухколесного робота [7].
В каждый такт времени агент совершает одно из следующих действий:
захват пищи, поворот вправо, поворот влево, ожидание. Для каждого
агента угол поворота фиксирован (рис. 1б, в).
Агент имеет несколько визуальных сенсоров, каждый из которых детектирует наличие пищевого объекта в соответствующем секторе зрительного
поля. В данной реализации (рис. 1б) [7] таких сенсоров 3: «область захвата», область «слева», область «справа». Здесь визуальная «область захвата»
совпадает с той областью, в которой совершается действие «захват». При
этом датчики бинарные, т.е. не отражают информации о расстоянии до объекта, а значит, действия агента при подходе к объекту (рис. 1в) часто не
имеют непосредственно воспринимаемого эффекта, так как активация сенсоров может не измениться. Ограниченные рецептивные способности агента имитируют неопределенность реальной биологической среды [5, 6].
В качестве управляющего алгоритма (разделы 2-4) был выбран Actor/Critic [7] парадигмы RL, который многими исследователями предполагается моделью работы базальных ганглиев головного мозга [8]. В соответствии с этим алгоритмом агент обучается набору рефлексов: каждой
возможной сенсорной ситуации ставит в соответствие действие из заранее
заданного набора. Этот алгоритм можно сопоставить с процессом постепенного формирования навыка, при котором кривая научения имеет Sобразный вид.
2. Результаты: Тестовая задача с точки зрения агента
Ранее мы провели анализ этой тестовой задачи с точки зрения самого
агента [9, 10]. Для этого был проведен анализ динамики состояний его рецепторов в зависимости от выполняемых им действий. В ходе экспериментов велась статистика троек <S(t), A(t), S(t+1)>, т.е. для каждого возможного действия A(t) велась марковская статистика переходов из состояния S(t)
в состояние S(t+1). Оказалось, что даже при варьировании морфологии
агента, и на любом этапе обучения обнаруживаются инварианты, описывающие задачу с точки зрения агента: успешность (завершение подхода к
пищевому объекту) «правильного» действия статистически значимо превышает успешность «неправильного», а неуспешность (потеря объекта из
области видимости) «неправильного» действия статистически значимо превышает неуспешность «правильного» [9]. Этот результат позволил предположить возможность построения алгоритма обучения, решающего данную
задачу, на основе обнаружения статистических закономерностей.
УДК 004.032.26(06) Нейронные сети
40
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2
3. Результаты: Оценка успешности каждой реализации действий
В моделировании поведения животных [5] показана эффективность и
адекватность подхода основанного на бинарном разбиении действий
(проб) животного на «успешные» и «неуспешные», и последующем обнаружении статистических закономерностей по методу хи-квадрат. Однако
«правильное» действие отличается от «неправильного» по оценочным
функциям используемым в RL, лишь количественно, что не позволяет
бинарно классифицировать эффект каждой реализации действия на
«успех»-«неуспех». Например, алгоритм Actor/Critic основан на вычислении вещественной величины «ошибки временной разности» (Et) в блоке
Critic, определяемой как величина ошибки прогноза приближения к подкреплению начиная из данной ситуации:
Et  Rt   *Vˆt 1  Vˆt .
Здесь R(t) – величина полученного подкрепления в момент t, V(t) – оценка
суммарного будущего отсроченного подкрепления с учетом фактора его
обесценивания «лямбда» < 1.
Наши эксперименты показывают [6], что абсолютная величина оценок
V существенно варьирует в процессе обучения (рис. 2а), и затруднена бинарная классификация переходов из состояние в состояние по принципу
«успех»-«неуспех» на основе изменений оценки ситуации (рис 2б) ввиду
ее непрерывной шкалы.
В частности, для состояния «объект виден слева» была построена статистика величин E(t) за период обучения модели, для двух действий: «поворот влево» («правильное» действие) и поворот вправо («неправильное»
действие) (рис.3).
Оказалось, что различия между «правильным» и «неправильным» действиям лучше выявляются не по абсолютной величине Et, а по приведенной (вычитая оценку ее мат.ожидания, и деленную на оценку ее сигмы).
Поэтому на каждом такте в алгоритме SDD вычисляется:


2
N i  1; ti  Et  Eˆ t i ; it 
ti
N i 1
E i ~ E  Eˆ i
Et i  Et ; Eˆ t i  it ; Et  t i t .
N
t
;
Здесь i – номер текущей сенсорной ситуации. Теперь, сравнением такой
приведенной величины ошибки прогноза (Et с волной) с некоторым порогом, уже оказывается возможным бинарно классифицировать каждую
реализацию действия как «успех» или «неуспех».
УДК 004.032.26(06) Нейронные сети
41
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2
Рис. 2. А – динамика оценок различных ситуаций в процессе научения. Б – пример
оценок разных типов ситуаций в конце научения. Отмечена разница этих оценок
для переходов в них из ситуации S1 («виден один объект»), классифицированых
как «успешных» в случае появления объекта в области захвата и «неуспешных»
при потери объекта из видимости
Рис. 3. Пример статистики величины ошибки прогноза для «правильного»
(верхняя кривая) и «неправильного» действий (нижняя кривая). Положительная
величина ошибки (вверх по оси ординат) означает успешные случаи,
отрицательная – неуспешные. Общий характер обеих кривых сходный. Серым
цветом закрашены области различий
УДК 004.032.26(06) Нейронные сети
42
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2
4. Результаты: обнаружение наиболее эффективного действия
на основе статистической значимости
Разбиение эффекта каждой реализации любого действия на «успех»«неуспех», методом описанным в предыдущем разделе, позволяет сравнивать успешность произвольной пары действий по фи-критерию Фишера
для 4-полной таблицы. Динамика величины фи* показывает, что уже в
начале обучения по A/C можно было бы описанным способом выявить
«правильное» действие в каждой ситуации (рис. 4).
Рис. 4. Пример динамики показателя фи* различия эффективности действий в
сравнении с наиболее эффективным в данный момент, для состояния «объект виден слева». «Правильное» действие «поворот влево» достоверно (p < 0,01) эффективней всех остальных действий уже в момент «A», что опережает скорость обучения ему в Actor/Critic (пунктир, момент «B», шкала ординат иная)
5. Алгоритм SDD
В алгоритме SDD величина фи* вычисляется для каждой пары действий (Aj, Ak) в данной ситуации S, и определяет вероятность совершения
действия P{Aj|S}: exp(- max(k) фи*(Aj|S, Ak|S)).
Эксперименты показывают, что алгоритм SDD демонстрирует больший рост эффективности поведения на начальном этапе обучения по
сравнению с Actor/Critic, и иную кривую научения – экспоненциальную, в
отличие от S-образной у Actor/Critic (рис. 5а).
УДК 004.032.26(06) Нейронные сети
43
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2
Рис. 5. Средняя (А, слева) и дисперсия (Б, справа) результативности агентов,
собирающих объекты, работающих по алгоритмам SDD и Actor/Critic
К недостаткам описанной версии алгоритма SDD можно отнести более
высокую дисперсию эффективности поведения (рис. 5б), что говорит о
его меньшей стабильности по сравнению с Actor/Critic.
Заключение
Анализ тестовой поведенческой задачи фуражирования с точки зрения
компьютерной модели мобильного робота, работающего в ней, показал:
1) «Правильное» и «неправильное» действия, обладая во многом сходными характеристиками, все же обнаруживают статистически достоверные различия в успешности, которые можно выявить описанным методом,
вошедшим в предложенный нами алгоритм SDD.
2) Оказывается возможным не только обнаружить такие статистические значимости в эффективности различных действий по ходу обучения,
но и использовать эти показатели динамики взаимодействия агента со
средой в алгоритме обучения. На этом построен алгоритм SDD.
3) Эффективность обучения на основе алгоритма SDD качественно отличается от Actor/Critic.
В приложении к инженерным аспектам искусственного интеллекта,
эффективность предложенного алгоритма SDD, возможно, усилил бы алгоритм обнаружения закономерностей MMDR [4].
Данная работа подтверждает путем модельного эксперимента, предсказанную ранее [4, 5], возможность использования идеологии обнаружения статистических закономерностей в алгоритме обучения, идеи,
направленной на моделирование работы мозга, на основе теории функциональных систем [1].
УДК 004.032.26(06) Нейронные сети
44
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2
Каждая обнаруженная в процессе обучения закономерность может
быть сопоставлена с вовлечением нейронов в новую функциональную
систему [2, 11]. Дальнейшим развитием этой работы может быть сравнение специфики обнаруживаемых закономерностей и последовательность
их выявления агентом, со спецификой формирующихся функциональных
систем у живого организма и последовательностью их формирования.
Работа поддержана грантом фонда РГНФ (№05-06-06055а) и грантом
Совета по грантам Президента Российской Федерации ведущим научным
школам Российской Федерации (№НШ-1989.2003.6).
Список литературы
1. Анохин П.К. Философские аспекты теории функциональной системы. М.: Наука.
1978.
2. Александров Ю.И. Научение и память: традиционный и системный подходы. Журнал высшей нервной деятельности, 2005, в печати.
3. Sutton R., Barto A. Reinforcement Learning: An introduction. – MIT Press, 1998.
4. Витяев Е.Е., Формальная модель работы мозга, основанная на принципе предсказания // Модели когнитивных процессов. (Выч. Системы, 164), Новосибирск, 1998, с.3-61.
5. Салтыков А.Б., Толокнов А.В., Хитров Н.К. Поведение и неопределенность среды.
М.: Медицина, 1996.
6. Крылов А.К., Неопределенность результата действия в парадигме Reinforcement
Learning // Труды III-го международного научно-практического семинара «Интегрированные
модели и мягкие вычисления в искусственном интеллекте». –М.: Физматлит, 2005, с.238-243.
7. Krylov A.K. The smartest agent is not optimal in a motivationally driven actor/critic model //Proceedings of the International Scientific Conferences "Intelligent Systems (IEEE AIS'04) and
Intelligent CAD's (CAD-2004)", 2004, pp. 21-26.
8. Redgrave P., Prescott T.J. and Gurney K. The basal ganglia: a vertebrate solution to the selection problem?, Neuroscience, 89, 1009–1023, 1999.
9. Крылов А.К., Вероятностный анализ «восприятия» модельным роботом тестовой
поведенческой задачи фуражирования. // Труды 9-й национальной конференции по искусственному интеллекту с международным участием КИИ-2004.-М.:Физматлит, 2004, т.3,
с.1131-1138.
10. Крылов А.К. Тестовая поведенческая задача минимально необходимой сложности:
скрытая динамика // Труды международной научно-технической конференции «Интеллектуальные системы» (AIS’05). –М.:ФИЗМАТЛИТ, 2005, Т.1, с.237-244.
11. Shvyrkov V.B. Behavioral specialization of neurons and the system-selection hypothesis
of learning// Human memory and cognitive capabilities. Amsterdam. Elsevier, 1986, pp. 599-611.
УДК 004.032.26(06) Нейронные сети
45
Download