Об использовании априорной информации для определения

advertisement
СЕКЦИЯ 7
А.И. САМАРИН, И.Е. ШЕПЕЛЕВ
НИИ нейрокибернетики им. А.Б. Когана, РГУ, Ростов-на-Дону
shepelev@krinc.ru
ОБ ИСПОЛЬЗОВАНИИ АПРИОРНОЙ ИНФОРМАЦИИ
ДЛЯ ОПРЕДЕЛЕНИЯ ЗНАЧЕНИЙ НЕОБУЧАЕМЫХ
ПАРАМЕТРОВ НЕЙРОННОЙ СЕТИ
Аннотация
Рассматривается задача определения значений необучаемых параметров нейронной сети на основе анализа обучающей выборки. Основное
внимание уделено оценке вклада коэффициента крутизны активационной
функции и порога нейронов скрытых слоев сети. Показано, что посредством вариации этих двух параметров достигается вычислительная способность сети необходимая для построения требуемого отображения без
усложнения структуры нейронной сети.
Введение
Развитие теории нейронных сетей и нейрокомпьютеров дало один из
самых мощных инструментов для решения задач аппроксимации и классификации – искусственные нейронные сети [1]. К основным причинам
успеха их применения в данных областях относят способность к обучению и универсальные аппроксимирующие способности данных структур.
При этом первая из них играет важную роль при построении идентифицирующей системы в условиях, когда имеются лишь немногочисленные
априорные сведения об исходных данных и традиционные методы поиска
решения не работают. Вторая является гарантией, что в нейронной сети
могут быть воспроизведены функциональные зависимости произвольной
сложности. В теории нейронных сетей известен ряд теорем [2], доказывающие данное утверждение. На практике остается открытым вопрос выбора топологии и ненастраиваемых алгоритмом обучения параметров
нейронной сети для решения конкретной задачи. Несоответствие такого
выбора существу моделируемого явления (в смысле формальной вычислительной сложности) приводит к тому, что процесс поиска удовлетворительного решения (обучения нейронной сети) может не сходиться вообще
или сходиться за неприемлемо большой промежуток времени. Таким образом, вне зависимости от используемого алгоритма обучения и его параУДК 004.032.26(06) Нейронные сети
39
СЕКЦИЯ 7
метров – коэффициент скорости обучения и т.д. – вычислительные способности нейронной сети будут всецело определяться ее размерами и параметрами, которые приняты как необучаемые.
В данной работе делается попытка ввести способы определения значений необучаемых параметров нейросети используя априорную информацию, заключенную в обучающей выборке. С целью получения неформализованных оценок функционирования исследуемых нейронных сетей
широко используется визуализация их передаточных функций. Находясь в
рамках коннекционистского подхода будем считать, что настраиваться в
ходе обучения нейронной сети могут только веса связей. Рассматривается
полносвязная многослойная нейронная сеть, обучаемая алгоритмом обратного распространения ошибки. Поэтому в качестве ненастраиваемых
параметров выступают коэффициент крутизны активационной функции
нейронов и размеры нейронной сети. Предметом исследования также является вопрос наличия настраиваемого порога у нейронов сети.
Общие понятия
Работа нейронной сети состоит в преобразовании входного вектора x в
выходной вектор y, причем это преобразование задается варьируемыми
весами связей и установленными параметрами сети. Тогда множество
возможных отображений x→y (ВО), которые способна построить сеть,
будет определяться всевозможными комбинациями весов связей нейросети. Алгоритмы обучения весовых коэффициентов связей неявно предполагают, что требуемое к построению отображение (ТО), задаваемое обучающей выборкой {xi, yi} в пространстве всех возможных отображений
(ВВО) при выбранных диапазонах изменения переменных x и y принадлежит области ВО (рис. 1, а). Поэтому задача алгоритма обучения состоит
в приведении сети из некоторого начального отображения (НО), задаваемого начальными весами связей в конечное состояние, соответствующее
ТО. В указанных терминах проблема слишком длительного обучения
нейронной сети может быть проиллюстрирована рис. 1, б) и объясняется
тем, что в области возможных отображений (ВО) состояния НО и ТО оказываются слишком разнесенными. Неспособность нейросети решить задачу соответствует тому случаю, когда требуемое отображение не лежит
внутри области возможных отображений (рис. 1, в). Поэтому при выбранных значениях ненастраиваемых параметров нейронной сети не существует такой комбинации весов, которая бы реализовала ТО.
УДК 004.032.26(06) Нейронные сети
40
СЕКЦИЯ 7
а)
б)
в)
Рис. 1. Нейронная сеть способна построить требуемое отображение посредством
настройки весов связей (а), длительное обучение обусловлено большим расстоянием между начальным и конечным состоянием нейросети в пространстве отображений (б), невозможность обучения связана с тем, что требуемое отображение
не принадлежит множеству возможных отображений, которые способна построить сеть (в)
Коэффициент крутизны активационной функции
Анализ обучающей выборки на предмет определения максимальной
скорости изменения аппроксимируемой функции, т.е. максимума выражения
yi  y j
xi  x j
, известного в литературе как константа Липшица обучаю-
щей выборки, позволяет определить наибольшую сложность при построении нейронной сетью требуемой аппроксимации [3]. В большинстве случаев достаточной для построения требуемого отображения вычислительной способности сети достигают увеличением нейронов в сети и наращиванием нейронных слоев. Подобного результата можно достичь при увеличении значения коэффициента крутизны  сигмоидной функции, выступающей в качестве активационной. На рис. 2 представлены результаты
экспериментов по аппроксимации некоторой функциональной зависимости f :  . Увеличение  при постоянном количестве нейронов в сети
приводит к резкому уменьшению количества итераций обучения. Кроме
того, при   1 нейронная сеть достигла удовлетворительного результата
только в 15 % случаев в серии проведенных экспериментов. Данные обстоятельства можно объяснить тем, что по мере увеличения  происхо1
УДК 004.032.26(06) Нейронные сети
41
СЕКЦИЯ 7
дит сближение начального состояния нейросети (НО) и требуемого конечного (ТО) (рис. 3) (см. рис. 1, б). Путь, который проделывают при обучении весовые коэффициенты связей в пространстве состояний оказывается короче, поэтому нейронная сеть быстрее обучается и у нее меньше
шансов попасть в локальный минимум при обучении. Действительно, вид
выходных функций внутренних нейронов свидетельствует о том, что при
малом  требуемая крутизна достигается сильным ростом весов связей
этих нейронов.
а) α = 1 (6000)
б) α = 4 (1400)
в) α = 16 (300)
Рис. 2. Нейронная сеть с 10 нейронами в единственном скрытом слое строит требуемую аппроксимацию как линейную комбинацию выходных функций нейронов
скрытого слоя, обозначенных на рисунках серым цветом. В скобках указаны среднее число итерации обучения
Максимальный коэффициент крутизны выборки,
представляющей
аппроксимируемую
функцию на рисунках, был равен 4. Не трудно
вычислить, что такую крутизну обеспечивают
скрытые нейроны с коэффициентом крутизны
активационной функции равным 16 (веса связей
сети могут оставаться в единичном интервале).
При этих условиях нейронная сеть начинает работать в режиме использования минимально необходимого количества скрытых нейронов, что
иллюстрируется рис. 2, в).
Рис. 3
Подстраиваемый нейронный порог
Подстраиваемый порог у нейронов многослойных сетей вводится как
дополнительный вход (единичное смещение) с единичным сигналом и
УДК 004.032.26(06) Нейронные сети
42
СЕКЦИЯ 7
настраиваемым весом. Часто наличие единичного смещения связывают с
ускорением обучения сети. Следующие эксперименты показывают, что в
действительности введение единичного смещения у нейронов сети приводит к увеличению ее вычислительных способностей и, как следствие,
расширению области возможных отображений, которые способна построить нейронная сеть (рис. 4) (см. рис. 1, в).
В предыдущем эксперименте (рис. 2) были
показаны результаты обучения нейронной сети с
одним скрытым слоем и наличием единичного
смещения у нейронов. На рис. 5 проиллюстрированы результаты обучения нейронной сети с
двумя скрытыми слоя без реализации подстраиваемого порога. Видно, что один скрытый слой
не способен в такой сети обеспечить необходимой широты функциональных преобразований
Рис. 4
(рис. 5, а). Поэтому необходимо наличие второго слоя (рис. 5, б).
а)
б)
Рис. 5. Выходные функции внутренних нейронов сети без реализации подстраиваемого порога: а) выходные функции нейронов первого скрытого слоя, б) выходные функции нейронов второго скрытого слоя
Заключение
Результаты проведенных экспериментов показывают, что настройка
коэффициента крутизны активационной функции нейронов скрытого слоя
в соответствие с вычислительной сложностью обучающей выборки позволяет не только ускорить обучение, но и минимизировать количество
скрытых нейронов, участвующих в построении требуемого отображения.
УДК 004.032.26(06) Нейронные сети
43
СЕКЦИЯ 7
Одновременно, наличие регулируемого нейронного порога у нейронов
сети позволяет минимизировать размеры нейросети в смысле количества
скрытых слоев. Данные выводы далее позволяют рассмотреть возможность определения количества нейронов в скрытом слое для решения конкретной задачи. Предварительные результаты, основанные на определении числа выпуклостей аппроксимируемой функции, подчиняющимся
определенным критериям, говорят о том, что с применением вышеизложенных принципов настройки нейронной сети можно определить минимально необходимое количество скрытых нейронов. Для определения же
верхней границы требуется более детальный анализ выборки и учет зависимости от требуемой точности приближения.
Список литературы
1. Bishop C.M. Neural Networks for Pattern Recognition. Oxford University Press, 1995.
2. Stone M.N. The Generalized Weierstrass Approximation Theorem. Math. Mag., 1948.
V.21. Р. 167-183, 237-254.
3. Миркес Е.М. Нейроинформатика: Учеб. пособие для студентов / Е.М. Миркес.
Красноярск: ИПЦ КГТУ, 2002. 347 с
УДК 004.032.26(06) Нейронные сети
44
Download