Метод повышения обобщающей способности нейронных сетей

advertisement
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
Д.И. ИГНАТЬЕВ
Центральный аэрогидродинамический институт им. проф. Н.Е. Жуковского,
Жуковский, Моск. обл.
Факультет аэромеханики и летательной техники
Московского физико-технического института, Жуковский, Моск. обл.
d.ignatyev@mail.ru
МЕТОД ПОВЫШЕНИЯ ОБОБЩАЮЩЕЙ СПОСОБНОСТИ
НЕЙРОННЫХ СЕТЕЙ ПРИ РАЗНОТИПНЫХ ДАННЫХ
В работе рассматривается задача разработки нейросетевых моделей,
обобщающих результаты разнотипных экспериментов. Для её решения
применяются рекуррентные нейронные сети. Для обучения нейронных
сетей предложен метод с использованием байесовской регуляризации,
учитывающий разнотипность исходных данных. На ряде примеров показано, что применение данного метода позволяет повысить точность при
аппроксимации данных, а также обобщающую способность нейронных
сетей.
Ключевые слова: искусственные нейронные сети NNARX, обучение,
байесовская регуляризация, разнотипные данные
Введение
Во многих областях науки и техники актуальной задачей является разработка математических моделей явлений по результатам различных экспериментов [1,2]. Характеристики явления при этом изучаются при различных значениях параметров. Построение моделей, способных описывать
наблюдаемые явления в исследуемых диапазонах признаков различных
экспериментов, является трудной и не всегда посильной задачей. Традиционным подходом является построение аппроксимирующих функций для
отдельных подмножеств данных с последующим "сращиванием" этих
функций. При этом границы разнородных областей не всегда заданы или
могут быть выявлены, особенно в пространстве переменных размерности 3
и выше. А сами области могут быть связными и несвязными. Всё это не
всегда позволяет воспользоваться традиционными подходами. Для решения
подобных задач могут быть использованы искусственные нейронные сети,
обладающие универсальными аппроксимирующими свойствами.
УДК 004.032.26(08) Нейронные сети
237
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
Немаловажной проблемой при разработке нейросетевых моделей является проблема повышения обобщающей способности нейронных сетей.
В работе [3] для создания математических моделей был предложен метод
регуляризации, основанный на теореме Байеса, позволяющий повысить
обобщающую способность модели. В дальнейшем в работе [4] этот подход был развит для обучения многослойного персептрона в случае однотипного набора описываемых данных. В настоящей работе предлагается
использовать подходы, изложенные в этих работах, для разработки метода
обучения, который бы позволил эффективно описывать данные разнотипных экспериментов.
1. Описание подхода
Регуляризация. В настоящей работе для построения нейросетевых
моделей использовались рекуррентные нейронные сети NNARX (nonlinear
autoregressive network with exogenous inputs) [5]. Выбор такой структуры
нейронной сети обусловлен тем, что рекуррентные нейронные сети обладают лучшей обобщающей способностью по сравнению с многослойным
персептроном [6,7].
В работе [8] было показано, что уменьшение весов связей нейронной
сети позволяет повысить её обобщающую способность. Поэтому в выражение для целевой функции F, которая минимизируется в ходе обучения,
помимо суммы квадратов ошибок работы сети добавляется регуляризатор.
Регуляризатором может выступать сумма квадратов весов связей и пороK
гов

j 1
2
j
(далее для простоты вместо "связи и пороги нейронной сети"
будем употреблять "связи"):
 K 2  N
(ai - yi ) 2
j  2 
2 j 1
i 1
где ai – исходные данные обучающего множества, а yi – результат работы
нейронной сети, N – количество паттернов обучения, K – количество связей нейронной сети.
Важной задачей является определение параметров целевой функции α
и β. Метод, который хорошо себя зарекомендовал для определения параметров целевой функции, предложен в работе [3]. В ней рассматривалась
задача поиска интерполирующей функции для однородного набора данных.
Попробуем расширить данный подход на случай, когда исходные данные не могут быть представлены в виде однородного набора данных.
F 
238
УДК 004.032.26(08) Нейронные сети
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
Предположим, что требуется аппроксимировать экспериментальные данные двух различных типов. Данное предположение сделано для простоты
рассуждений, хотя и не ограничивает общности и в случае большего количества подмножеств. При этом считаем, что ошибка в каждом из экспериментов имеет гауссово распределение с нулевым математическим ожиданием, но с разными стандартными отклонениями σm1 и σm2.
Предположим, что набор данных можно описать следующим образом:
am1  y ( xm1 )   m1 ,

am 2  y ( xm 2 )   m 2 ,
где
–
D1  {am1 , xm1}, m1  1 ... N1 , D2  {am2 , xm2 }, m2  1 ... N2
наборы данных, относящихся к различным типам экспериментов
(N°=°N1°+°N2), y – функция, аппроксимирующая исходный набор данных.
В таком случае целевая функция может быть записана в виде:
1
1
F  wT w  eT Β e ,
2
2
T
T
где w   12 ... K  - вектор весов, e   e1 ... eN  - вектор ошибок,
ei   y( xi ) - ai  - ошибка на i-ой паре данных, B – матрица размера N×N,
на диагонали которой расположены параметры целевой функции i, причем до N1  1 строки на диагонали стоит параметр β1, начиная с N1  1
строки, стоит β2, все остальные элементы нулевые.
Используя байесовское решающее правило, мы можем записать функцию плотности апостериорной вероятности для весов нейронной сети, т.е.
плотности вероятности того, что веса нейронной сети будут иметь определенные значения при заданном наборе исходных данных D1,D2, параметрах целевой функции α,B и данной конфигурации нейронной сети M.
P(w | D1 , D2 , , B, M ) 
P( D1 , D2 | w, B, M ) P(w | , M )
,
P( D1 , D2 | , B, M )
(1)
где P(w | , M ) - плотность априорной вероятности, P( D1 , D2 | w, B, M ) функция правдоподобия, P( D1 , D2 | , B, M ) - нормирующий множитель.
В предположении о том, что ошибка аппроксимации имеет гауссово
распределение, мы можем записать выражение для функции правдоподобия в виде:
P( D1 , D2 | w, B, M ) 
det B
 1
 1
 1

exp   eT Be  
exp   eT Be  ,
N /2
(2)
 2
 ZD
 2

УДК 004.032.26(08) Нейронные сети
(2)
239
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
Предполагая, что априорная вероятность также имеет гауссово распределение, можно записать:
1
 1
 1
 1

(3)
P(w | , M ) 
exp   wT w  
exp   wT w  .
K /2
2
Z
2




2

 
W
 

Таким образом, можно получить выражение для функции плотности
апостериорной вероятности
1
1
 1

P(w | D1 , D2 , , B, M ) 
exp   eT Be  wT w  .
ZF
2
 2

Байесовское правило теперь может быть использовано для поиска оптимальных значений параметров целевой функции α, B . Для этого можно
записать:
P( D1 , D2 | , B, M ) P(, B | M )
.
P(, B | D1 , D2 , M ) 
P( D1 , D2 | M )
Поскольку заранее мы ничего не знаем о значениях параметров целевой функции, то предположим, что они имеют равномерное распределение P(α,B|M). Тогда для максимизации апостериорной вероятности
P(α,B|D1,D2,M) необходимо максимизировать функцию правдоподобия
P(D1,D2|α,B,M). Вместе с тем, эта функция является нормирующим множителем в формуле (1). Выражая её оттуда, получим:
P( D1 , D2 | w, B, M ) P(w | , M )
Z
(4)
P( D1 , D2 | , B, M ) 
= F .
P(w | D1 , D2 , , B, M )
ZW Z D
Константы ZW, ZD определены выше (2, 3). Разложим целевую функцию в окрестности точки минимума (MP) в ряд Тейлора с точностью до
членов второго порядка:
1
F  F (w MP )  (w  w MP )T H(w  w MP )
2
где H  2 F –матрица Гессе целевой функции. Поскольку
ZF 




 ...  exp( F ) d 1...d K ,
K
то можно оценить Z F  exp ( FMP ) (2) K /2 (det H MP ) 1/2 .
Подставляя в (4) значения ZF, ZW, ZD получим:
240
УДК 004.032.26(08) Нейронные сети
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
P( D1 , D2 | , B, M ) 
exp ( FMP ) (2) K /2 (det H MP ) 1/2
.
(5)
N1 /2
N 2 /2
K /2
 2   2   2 
     
    1   2 
Оптимальное значение параметров можно найти, если приравнять нулю соответствующие производные логарифма выражения (5) по этим параметрам. Тогда получим

 T ,
w w
где   K   Sp(H 1 ) – эффективное число связей нейронной сети. Аналогично, для β1 и β2 можно получить:
Ni
i 
.
 dH -1 
d
B
T
e
e  Sp 
H 
di
 di

Для простоты изложения материала, в работе рассмотрен вариант, когда всё множество исходных данных разбивается на два подмножества.
Однако, очевидно, что полученные выражения легко могут быть обобщены на случай, когда исходное множество разбивается на любое произвольное количество подмножеств.
Для корректировки весов может быть использован метод Левенберга–
Марквардта:
w i  w i 1  (H  E) 1 g ,
где g = F градиент целевой функции. Для аппроксимации гессиана
можно воспользоваться методом Ньютона-Гаусса H  JT BJ  E , где J
– матрица Якоби для целевой функции. Градиент можно вычислить как
g  J T Be  αw i1 . Тогда выражение для корректировки весов на i-й итерации будет иметь вид:
wi  wi 1   JT BJ  (  )E 
1
 J Be
T
 wi 1 
2. Результаты
Тестовый пример. Вначале рассмотрим применение разработанного
метода для решения задачи аппроксимации зашумлённой функции. В качестве примера рассмотрим функцию |x| . К функции был добавлен шум,
имеющий гауссово распределение. Рассматриваемый шум имел нулевое
математическое ожидание, но различные стандартные отклонения на разУДК 004.032.26(08) Нейронные сети
241
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
ных интервалах: при x < 0 больше значение, при x > 0 – меньшее. Кроме
того, точек с меньшим стандартным отклонением "получено" меньше, чем
с большим. Таким образом, были смоделированы два вида эксперимента,
с помощью которых определяют искомую физическую зависимость в разных диапазонах независимой величины с разной точностью, что довольно
часто встречается на практике. Описанный набор данных был использован для обучения нейронной сети NNARX.
Обучение было проведено двумя методами. Вначале использовался алгоритм, который строится на предположении об однородности данных
(GNBR – Gauss-Newton approximation to Bayesian regularization) [4], затем
использовался вышеизложенный подход, основанный на Байесовской Регуляризации с учётом Разнотипности Данных (далее – БРРД). После этого
с помощью полученных нейронных сетей была смоделирована исходная
функция не только на данных, которые использовались при обучении, но
также на данных, выходящих за этот диапазон. Результаты моделирования
представлены на рис. 1. Там же даны исходные наборы данных, использованные при обучении, а также для сравнения изображена искомая зависимость.
242
УДК 004.032.26(08) Нейронные сети
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
Рис. 1. Сравнение методов обучения на тестовом примере
Представленный график демонстрирует, что новый алгоритм обучения
позволяет повысить точность описания искомой функции не только на
множестве, которое использовалось для "настройки" весов нейронной
сети, но также и на множестве, которое не использовалось для этих целей.
Построение нестационарной модели момента тангажа. Рассмотрим
применение предложенного метода для разработки нестационарной модели момента тангажа m z модели проектируемого самолёта. Экспериментальное исследование этой модели проводилось в аэродинамической трубе (далее – АДТ) в ходе участия ЦАГИ в Европейском проекте Simsac 6-й
рамочной программы [9]. Исследования в АДТ проводились в два этапа. В
ходе проведения первого этапа проводилось измерение m z при колебаниях модели с малыми амплитудами колебаний, а при проведении второго
этапа – при колебаниях с большими амплитудами. Нестационарные аэроУДК 004.032.26(08) Нейронные сети
243
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
динамические характеристики исследовались на обоих этапах при различных значениях амплитуд и частот колебаний.
Наличие двух различных экспериментов в данном случае необходимо,
т.к. динамические эффекты, наблюдаемые при испытаниях с малыми амплитудами, существенно отличаются от тех, которые наблюдаются при
испытаниях с большой амплитудой. Поэтому для разработки адекватной
математической модели нестационарного момента тангажа следует учитывать результаты обоих видов экспериментов.
В работе [7] была разработана нейросетевая модель момента тангажа
модели самолёта с помощью рекуррентной сети NNARX. Необходимо
подчеркнуть, что при обучении была использована байесовская регуляризация, которая предполагает, что экспериментальные данные представляют собой однотипный набор данных. Как уже описывалось ранее, всё
множество экспериментальных данных состояло из двух подмножеств –
данных эксперимента, в котором проводились вынужденные колебания
самолета по тангажу с малыми амплитудами, и данных эксперимента, в
котором проводились вынужденные колебания по тангажу с большими
амплитудами.
Сравним результаты, полученные в работе [7], с результатами, полученными в настоящей работе. Нейронная сеть, использованная в настоящей работе, имела один скрытый слой, содержащий 7 нейронов. Было
введено запаздывание по входу (1 шаг) и выходу из нейронной сети (2
шага). Функция активации – гиперболический тангенс. Для обучения
нейронной сети NNARX было использовано чуть менее половины данных
по малым амплитудам и 2/3 данных по большим амплитудам.
На рис. 2 представлены результаты моделирования гистерезисов момента тангажа нейронными сетями, обученными методами БРРД и GNBR.
Также для сравнения на графике приведены экспериментальные данные.
Данные результаты соответствуют колебанию модели с большими амплитудами. Из рисунка видно, что с помощью нейронных сетей NNARX удаётся достаточно хорошо моделировать нестационарные значения аэродинамических характеристик. Также можно отметить более высокую точность моделирования нейронной сетью, при обучении которой использовался метод БРРД.
244
УДК 004.032.26(08) Нейронные сети
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
Рис. 2 Сравнение нейронных сетей при моделировании момента тангажа
Для того чтобы количественно сравнить результаты, получаемые при
помощи предложенного метода обучения БРРД с результатами, получаемыми при обучении методом GNBR, в табл. 1 и 2 соответственно приведены относительные ошибки при описании аэродинамических характери

стик в сравнении с экспериментом. Комплекс производных mz z  mz был
получен по результатам колебаний модели самолёта с малыми амплитудами, а момент тангажа m z – по результатам колебаний с большой амплитудой. В качестве меры ошибки использовалась средняя квадратическая погрешность, отнесенная ко всему диапазону измеряемой величины.
Ошибки определены отдельно на множествах обучения и тестирования
(аппроксимация и обобщение соответственно).
Таблица 1. Величины относительных ошибок, метод БРРД
Величина

mz z

mz
Аппроксимация, %
5.65
УДК 004.032.26(08) Нейронные сети
Обобщение, %
5.77
245
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
mz
4.53
6.34
Таблица 2. Величины относительных ошибок, метод GNBR
Величина

mz z

mz
mz
Аппроксимация, %
7.09
Обобщение, %
8.58
5.59
8.3
Можно отметить существенное повышение точности аппроксимации и
обобщения. Так, ошибка аппроксимации mzz  mz уменьшилась на 25 %,
ошибка обобщения – на 49 %. Ошибка описания m z уменьшилась на 23 %
и 31% соответственно.
Заключение
В работе предложен метод повышения точности аппроксимации и
обобщающей способности нейросетевых моделей, основанный на Байесовской Регуляризации, учитывающий Разнотипность исходных Данных
(БРРД). На простом синтезированном примере, а также на примере моделирования момента тангажа модели самолёта показано, что данный метод
позволяет существенно уменьшить ошибку моделирования нейронной
сетью по сравнению с методом обучения, который не учитывает разнотипности данных.
Благодарности. Работа выполнена при частичной финансовой поддержке ФЦП «Научные и научно-педагогические кадры инновационной
России» на 2009-2013 годы (Соглашение №14.U01.21.8759) и Российского
фонда фундаментальных исследований (соглашение № 12-08-31107\12).
Список литературы
1. Мишулина О.А., Трофимов А.Г. Нейросетевой прогноз выживаемости клеток при гипертермическом воздействии// Искусственный интеллект и принятие решений. 2008. № 4. C.12-18.
2. Мишулина О.А., Ускова А.А., Щербинина М.В. Оптимизация модульной нейросетевой структуры для моделирования комбинации разнородных в пространстве функциональных зависимостей// Нейроинформа246
УДК 004.032.26(08) Нейронные сети
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
тика-2006. VIII Всероссийская научно-техническая конференция. Сборник
научных трудов. Ч. 2. М.: МИФИ. 2006. С. 138-144.
3. MacKay D. J. C, Bayesian Interpolation// Neural Computation. 1992. V.
4. P.415-447.
4. Foresee F.D., Hagan M.T. Gauss-Newton approximation to Bayesian
regularization// Proceedings of the International Joint Conference on Neural
Networks. 1997. P. 1930-1935.
5. Beale M.H., Hagan M.T., Demuth H.B. Neural Network Toolbox User’s
Guide. http://www.mathworks.com/help/
6. Ninomiya, H. and Sasaki, A. A Study on Generalization Ability of 3Layer Recurrent Neural Networks, Proc. IEEE&INNS/IJCNN'02, 2002.
P.1063-1068.
7. Игнатьев Д.И. Разработка математических моделей нестационарных
аэродинамических характеристик ЛА на больших углах атаки с использованием нейронных сетей// Материалы XXIII научно-технической конференции по аэродинамике. п. Володарского. ЦАГИ. 2012. С. 120.
8. Krogh A., Hertz J.A. A simple weight decay can improve generalization// Advances in Neural Information Processing Systems. Vol. 4. J.E. Moody,
S.J. Hanson and R.P. Lippman, eds. Morgan Kauffmann Publishers, San Mateo
CA. 1992. P.950-957.
9. Виноградов Ю.А., Жук А.Н., Колинько К.А., Храбров А.Н. Математическое моделирование динамических эффектов нестационарных аэродинамических характеристик, вызванных запаздыванием развития отрыва
потока на переднем горизонтальном оперении// Ученые записки ЦАГИ. т.
XLII. 2011. № 5. С.72-81.
10. Игнатьев Д. И., Храбров А.Н. Использование искусственных нейронных сетей для моделирования динамических эффектов аэродинамических
коэффициентов трансзвукового самолета// Ученые записки ЦАГИ. Т. ХLII.
2011. № 6. С. 84-91.
УДК 004.032.26(08) Нейронные сети
247
Download