Sdd-алгоритм обучения в парадигме reinforcement learning

ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2 А.К. КРЫЛОВ Лаборатория нейрофизиологических основ психики им. В.Б. Швыркова, институт психологии РАН, Москва krylov@psychol.ras.ru SDD-АЛГОРИТМ ОБУЧЕНИЯ В ПАРАДИГМЕ REINFORCEMENT LEARNING, ОСНОВАННЫЙ НА ОБНАРУЖЕНИИ ЗНАЧИМОСТИ ЭФФЕКТОВ ДЕЙСТВИЙ Аннотация Проведен анализ тестовой поведенческой задачи фуражирования с точки зрения модели мобильного робота, погруженного в нее. На основе анализа динамики показателей взаимодействия агента, управляемого алгоритмом Actor/Critic (A/C), со средой, предложен и реализован алгоритм обучения SDD в рамках парадигмы Reinforcement Learning (RL), основанный на обнаружении значимости в эффективности действий. Проведено его сравнение с A/C как двух возможных путей формирования нового навыка – с вовлечением новых нейронов (SDD), и без (A/C). Введение В соответствии с теорией функциональных систем (ФС) [1] формирование нового навыка может обеспечиваться двумя путями. Процесс постепенного формирования навыка, при котором кривая научения имеет Sобразный вид, обеспечивается перестройкой межсистемных отношений, без вовлечения нейронов «резерва», без образования новой ФС [2]. Такой подход успешно моделируется в нейроинформатике, в парадигме Reinforcement Learning (RL) [3]. Другой вариант обучения – скачкообразное формирование нового навыка, по типу инсайта. В этом случае формируется новая ФС за счет специализации части нейронов «резерва» и нейронов, порожденных нейрогенезом [2]. В моделировании этого процесса преобладают представления о его организации обнаружением статистических закономерностей в динамике смены ситуаций [4, 5]. Однако, эти модели работают с дискретными данными, с непосредственно представленным результатом каждого действия, требуют бинарной классификации каждой реализации действия по принципу «успех»-«неуспех», и не имеют пока реализации, УДК 004.032.26(06) Нейронные сети 38 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2 применимой к непрерывной величине отсроченного подкрепления, нечеткой задаче в духе RL [3, 6]. В настоящей работе сделан анализ тестовой поведенческой задачи (раздел 1) с точки зрения агента работающего в ней (раздел 2); показана динамика переменных, описывающих взаимодействие агента со средой, и ее анализ (раздел 3); показана возможность выявления закономерностей (раздел 4); на основе чего нами построен алгоритм обучения («SDD») и проведено его тестирование в сравнении с Actor/Critic (раздел 5). 1. Методика: тестовая задача На основе анализа детерминант поведения, рассматриваемых в теории функциональных систем [1], нами выдвинуты критерии к тестовой поведенческой задаче, и на их основе предложена и обоснована задача фуражирования для компьютерной модели мобильного робота [6] – агент движется на плоскости, поедая пищевые объекты. Среда (рис. 1а) представляет собой развертку тора на плоскости, в которой изначально равномерно разбросано N пищевых объектов. После «поедания» агентом одного объекта в случайном месте появляется новый объект. Рис. 1. А – среда модели. Точки – объекты. Линией показана траектория движения агента за последние 1000 тактов. Б – изменение сооношения агента и среды за 1 шаг («поворот вправо») для агента, угол поворота которого равен 90 градусов. Сектора показывают зрительные поля агента. Треугольник – агент, линия по его центру – его направление взора. Малый сектор – область захвата. В – пример цепочки действий, обеспечивающих подход к объекту УДК 004.032.26(06) Нейронные сети 39 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2 Далее описывается один из вариантов морфологии тестируемого агента, представляющего собой модель двухколесного робота [7]. В каждый такт времени агент совершает одно из следующих действий: захват пищи, поворот вправо, поворот влево, ожидание. Для каждого агента угол поворота фиксирован (рис. 1б, в). Агент имеет несколько визуальных сенсоров, каждый из которых детектирует наличие пищевого объекта в соответствующем секторе зрительного поля. В данной реализации (рис. 1б) [7] таких сенсоров 3: «область захвата», область «слева», область «справа». Здесь визуальная «область захвата» совпадает с той областью, в которой совершается действие «захват». При этом датчики бинарные, т.е. не отражают информации о расстоянии до объекта, а значит, действия агента при подходе к объекту (рис. 1в) часто не имеют непосредственно воспринимаемого эффекта, так как активация сенсоров может не измениться. Ограниченные рецептивные способности агента имитируют неопределенность реальной биологической среды [5, 6]. В качестве управляющего алгоритма (разделы 2-4) был выбран Actor/Critic [7] парадигмы RL, который многими исследователями предполагается моделью работы базальных ганглиев головного мозга [8]. В соответствии с этим алгоритмом агент обучается набору рефлексов: каждой возможной сенсорной ситуации ставит в соответствие действие из заранее заданного набора. Этот алгоритм можно сопоставить с процессом постепенного формирования навыка, при котором кривая научения имеет Sобразный вид. 2. Результаты: Тестовая задача с точки зрения агента Ранее мы провели анализ этой тестовой задачи с точки зрения самого агента [9, 10]. Для этого был проведен анализ динамики состояний его рецепторов в зависимости от выполняемых им действий. В ходе экспериментов велась статистика троек <S(t), A(t), S(t+1)>, т.е. для каждого возможного действия A(t) велась марковская статистика переходов из состояния S(t) в состояние S(t+1). Оказалось, что даже при варьировании морфологии агента, и на любом этапе обучения обнаруживаются инварианты, описывающие задачу с точки зрения агента: успешность (завершение подхода к пищевому объекту) «правильного» действия статистически значимо превышает успешность «неправильного», а неуспешность (потеря объекта из области видимости) «неправильного» действия статистически значимо превышает неуспешность «правильного» [9]. Этот результат позволил предположить возможность построения алгоритма обучения, решающего данную задачу, на основе обнаружения статистических закономерностей. УДК 004.032.26(06) Нейронные сети 40 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2 3. Результаты: Оценка успешности каждой реализации действий В моделировании поведения животных [5] показана эффективность и адекватность подхода основанного на бинарном разбиении действий (проб) животного на «успешные» и «неуспешные», и последующем обнаружении статистических закономерностей по методу хи-квадрат. Однако «правильное» действие отличается от «неправильного» по оценочным функциям используемым в RL, лишь количественно, что не позволяет бинарно классифицировать эффект каждой реализации действия на «успех»-«неуспех». Например, алгоритм Actor/Critic основан на вычислении вещественной величины «ошибки временной разности» (Et) в блоке Critic, определяемой как величина ошибки прогноза приближения к подкреплению начиная из данной ситуации: Et  Rt   *Vˆt 1  Vˆt . Здесь R(t) – величина полученного подкрепления в момент t, V(t) – оценка суммарного будущего отсроченного подкрепления с учетом фактора его обесценивания «лямбда» < 1. Наши эксперименты показывают [6], что абсолютная величина оценок V существенно варьирует в процессе обучения (рис. 2а), и затруднена бинарная классификация переходов из состояние в состояние по принципу «успех»-«неуспех» на основе изменений оценки ситуации (рис 2б) ввиду ее непрерывной шкалы. В частности, для состояния «объект виден слева» была построена статистика величин E(t) за период обучения модели, для двух действий: «поворот влево» («правильное» действие) и поворот вправо («неправильное» действие) (рис.3). Оказалось, что различия между «правильным» и «неправильным» действиям лучше выявляются не по абсолютной величине Et, а по приведенной (вычитая оценку ее мат.ожидания, и деленную на оценку ее сигмы). Поэтому на каждом такте в алгоритме SDD вычисляется:   2 N i  1; ti  Et  Eˆ t i ; it  ti N i 1 E i ~ E  Eˆ i Et i  Et ; Eˆ t i  it ; Et  t i t . N t ; Здесь i – номер текущей сенсорной ситуации. Теперь, сравнением такой приведенной величины ошибки прогноза (Et с волной) с некоторым порогом, уже оказывается возможным бинарно классифицировать каждую реализацию действия как «успех» или «неуспех». УДК 004.032.26(06) Нейронные сети 41 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2 Рис. 2. А – динамика оценок различных ситуаций в процессе научения. Б – пример оценок разных типов ситуаций в конце научения. Отмечена разница этих оценок для переходов в них из ситуации S1 («виден один объект»), классифицированых как «успешных» в случае появления объекта в области захвата и «неуспешных» при потери объекта из видимости Рис. 3. Пример статистики величины ошибки прогноза для «правильного» (верхняя кривая) и «неправильного» действий (нижняя кривая). Положительная величина ошибки (вверх по оси ординат) означает успешные случаи, отрицательная – неуспешные. Общий характер обеих кривых сходный. Серым цветом закрашены области различий УДК 004.032.26(06) Нейронные сети 42 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2 4. Результаты: обнаружение наиболее эффективного действия на основе статистической значимости Разбиение эффекта каждой реализации любого действия на «успех»«неуспех», методом описанным в предыдущем разделе, позволяет сравнивать успешность произвольной пары действий по фи-критерию Фишера для 4-полной таблицы. Динамика величины фи* показывает, что уже в начале обучения по A/C можно было бы описанным способом выявить «правильное» действие в каждой ситуации (рис. 4). Рис. 4. Пример динамики показателя фи* различия эффективности действий в сравнении с наиболее эффективным в данный момент, для состояния «объект виден слева». «Правильное» действие «поворот влево» достоверно (p < 0,01) эффективней всех остальных действий уже в момент «A», что опережает скорость обучения ему в Actor/Critic (пунктир, момент «B», шкала ординат иная) 5. Алгоритм SDD В алгоритме SDD величина фи* вычисляется для каждой пары действий (Aj, Ak) в данной ситуации S, и определяет вероятность совершения действия P{Aj|S}: exp(- max(k) фи*(Aj|S, Ak|S)). Эксперименты показывают, что алгоритм SDD демонстрирует больший рост эффективности поведения на начальном этапе обучения по сравнению с Actor/Critic, и иную кривую научения – экспоненциальную, в отличие от S-образной у Actor/Critic (рис. 5а). УДК 004.032.26(06) Нейронные сети 43 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2 Рис. 5. Средняя (А, слева) и дисперсия (Б, справа) результативности агентов, собирающих объекты, работающих по алгоритмам SDD и Actor/Critic К недостаткам описанной версии алгоритма SDD можно отнести более высокую дисперсию эффективности поведения (рис. 5б), что говорит о его меньшей стабильности по сравнению с Actor/Critic. Заключение Анализ тестовой поведенческой задачи фуражирования с точки зрения компьютерной модели мобильного робота, работающего в ней, показал: 1) «Правильное» и «неправильное» действия, обладая во многом сходными характеристиками, все же обнаруживают статистически достоверные различия в успешности, которые можно выявить описанным методом, вошедшим в предложенный нами алгоритм SDD. 2) Оказывается возможным не только обнаружить такие статистические значимости в эффективности различных действий по ходу обучения, но и использовать эти показатели динамики взаимодействия агента со средой в алгоритме обучения. На этом построен алгоритм SDD. 3) Эффективность обучения на основе алгоритма SDD качественно отличается от Actor/Critic. В приложении к инженерным аспектам искусственного интеллекта, эффективность предложенного алгоритма SDD, возможно, усилил бы алгоритм обнаружения закономерностей MMDR [4]. Данная работа подтверждает путем модельного эксперимента, предсказанную ранее [4, 5], возможность использования идеологии обнаружения статистических закономерностей в алгоритме обучения, идеи, направленной на моделирование работы мозга, на основе теории функциональных систем [1]. УДК 004.032.26(06) Нейронные сети 44 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2 Каждая обнаруженная в процессе обучения закономерность может быть сопоставлена с вовлечением нейронов в новую функциональную систему [2, 11]. Дальнейшим развитием этой работы может быть сравнение специфики обнаруживаемых закономерностей и последовательность их выявления агентом, со спецификой формирующихся функциональных систем у живого организма и последовательностью их формирования. Работа поддержана грантом фонда РГНФ (№05-06-06055а) и грантом Совета по грантам Президента Российской Федерации ведущим научным школам Российской Федерации (№НШ-1989.2003.6). Список литературы 1. Анохин П.К. Философские аспекты теории функциональной системы. М.: Наука. 1978. 2. Александров Ю.И. Научение и память: традиционный и системный подходы. Журнал высшей нервной деятельности, 2005, в печати. 3. Sutton R., Barto A. Reinforcement Learning: An introduction. – MIT Press, 1998. 4. Витяев Е.Е., Формальная модель работы мозга, основанная на принципе предсказания // Модели когнитивных процессов. (Выч. Системы, 164), Новосибирск, 1998, с.3-61. 5. Салтыков А.Б., Толокнов А.В., Хитров Н.К. Поведение и неопределенность среды. М.: Медицина, 1996. 6. Крылов А.К., Неопределенность результата действия в парадигме Reinforcement Learning // Труды III-го международного научно-практического семинара «Интегрированные модели и мягкие вычисления в искусственном интеллекте». –М.: Физматлит, 2005, с.238-243. 7. Krylov A.K. The smartest agent is not optimal in a motivationally driven actor/critic model //Proceedings of the International Scientific Conferences "Intelligent Systems (IEEE AIS'04) and Intelligent CAD's (CAD-2004)", 2004, pp. 21-26. 8. Redgrave P., Prescott T.J. and Gurney K. The basal ganglia: a vertebrate solution to the selection problem?, Neuroscience, 89, 1009–1023, 1999. 9. Крылов А.К., Вероятностный анализ «восприятия» модельным роботом тестовой поведенческой задачи фуражирования. // Труды 9-й национальной конференции по искусственному интеллекту с международным участием КИИ-2004.-М.:Физматлит, 2004, т.3, с.1131-1138. 10. Крылов А.К. Тестовая поведенческая задача минимально необходимой сложности: скрытая динамика // Труды международной научно-технической конференции «Интеллектуальные системы» (AIS’05). –М.:ФИЗМАТЛИТ, 2005, Т.1, с.237-244. 11. Shvyrkov V.B. Behavioral specialization of neurons and the system-selection hypothesis of learning// Human memory and cognitive capabilities. Amsterdam. Elsevier, 1986, pp. 599-611. УДК 004.032.26(06) Нейронные сети 45

Sdd-алгоритм обучения в парадигме reinforcement learning

Related documents

Products

Support

Sdd-алгоритм обучения в парадигме reinforcement learning

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib