РЕЧЬ Слайд 1. Титульный лист Уважаемые члены государственной экзаменационной комиссии, представляю вашему вниманию дипломный проект на тему «Аппроксимация плотности распределения вероятности радиально-базисной нейронной сетью». Слайд 2. Постановка задачи Целью разработки системы является автоматизация процесса аппроксимации плотности распределения вероятности с помощью радиально-базисной нейронной сети. В задачи дипломного проекта входили: Во-первых, анализ предметной области: изучение понятий «Аппроксимация», «Плотность распределения вероятности», «Нейронная сеть». Во-вторых, разработка логического проекта. В-третьих, создание и обучение радиально-базисной нейронной сети для решения задачи аппроксимации. В-четвертых, исследование качества аппроксимации в зависимости от структурных особенностей сети, параметров и алгоритма обучения, а также качественных и количественных характеристик входных данных. Задача аппроксимации плотности вероятности формулируется следующим образом. Имеется массив точек с координатами {Xi, Yi}. Необходимо найти подходящее аналитическое выражение вида (1) ( x(t ), 0 , 1 ,.., n ) , где 0 , 1 ,.., n - неизвестные параметры, удовлетворяющие заданному критерию оптимальности, которое бы описывало зависимость Y от X. Слайд 3. Обзор существующих аналогов В ходе дипломного проектирования был проведен обзор существующих программ для работы с нейронными сетями. Для обзора выбраны наиболее распространенные пакеты. Ключевые особенности программ указаны на слайде в таблице 1, более подробный обзор приведен в записке. Разработанная автоматизированная система имеет ряд преимуществ перед аналогами: Во-первых, она адаптирована к решению конкретной задачи – аппроксимации радиальнобазисной сетью. Имеет простой и понятный графический интерфейс. Во-вторых, программа ориентирована на русско-язычного пользователя (интерфейс и руководство пользователя на русском языке). В-третьих, имеет более низкую стоимость по сравнению с аналогами. В-четвертых, является кроссплатформенным приложением, то есть может быть запущена в любой операционной системе с поддержкой Java-машины. Слайд 4. Структура автоматизированной системы Перейдем к рассмотрению структуры АС. На рисунке 1 представлена схема структуры автоматизированной системы. Она включает в себя следующие подсистемы: подсистему отображения интерфейса, подсистему работы с выборками статистических данных, подсистему работы с нейронными сетями, подсистему аппроксимации выборок нейронной сеть. Слайд 5. Диаграмма вариантов использования В ходе дипломного проекта был разработан логический проект системы в нотации UML с помощью инструментальных средств Enterprise Architector. На рисунке 2 представлена диаграмма вариантов использования (use case). Актором является пользователь системы. Функции системы показаны на диаграмме в виде юз кейсов (вариантов использования). Слайд 6. Диаграмма классов На данном слайде представлены диаграммы сущностных и граничных классов. Сущностный класс представляет собой объект предметной области. Выделены следующие сущности: Нейронная RBF-сеть, RBF-слой, RBF-нейрон, функция активации, выборка данных, алгоритм обучения. Граничным классом называется класс, расположенный на границе системы и окружающей среды (это экранные формы, отчеты и т.д.). Слайд 7. Радиально-базисная нейронная сеть Перейдем к описанию модели нейронной сети. В дипломном проекте была использована радиально-базисная нейронная сеть. В общем виде она имеет один входной слой, один выходной и один слой скрытых нейронов. Роль скрытого нейрона в радиально-базисной сети заключается в отображении радиального пространства вокруг группы точек, образующих кластер. Выходной нейрон линеен, его роль сводится к взвешенному суммированию сигналов, поступающих от нейронов скрытого слоя. На рисунке 5 представлена структура RBF-сети, используемая в дипломном проекте: один входной нейрон, один выходной, и варьируемое число скрытых нейронов. Аппроксимирующее выражение для RBF-сети может быть записано в виде линейной комбинации весовых коэффициентов и значений функций активации - формула (2), где K – число j - функции активации, w - весовые коэффициенты, альфа – нейронов в скрытом слое, неизвестные параметры функции активации. В качестве радиальной функции активации чаще всего применяется функция Гаусса вида (3), с параметрами Cj – центром и j - радиусом функции Гаусса. Задача аппроксимации RBF-сетью состоит в подборе соответствующего количества радиальных функций j и их параметров таким образом, чтобы решение уравнения (2) было наиболее близким к точному. Проблему подбора параметров аппроксимирующего выражения можно свести к минимизации целевой функции вида (4). Слайд 8. Алгоритм обратного распространения ошибки – схема Существует множество различных алгоритмов обучения, направленных на определение параметров сети. Рассмотрим алгоритмы обучения нейронной сети, реализованные в дипломном проекте. Первый, наиболее распространенный - алгоритм обратного распространения ошибки (BackPropagation). Основная идея метода состоит в распространении сигналов ошибки от выходов сети к ее входам, в направлении, обратном прямому распространению сигналов. Схема реализации алгоритма представлена на рисунке 6. Слайд 9. Алгоритм обратного распространения ошибки – формулы Алгоритм обратного распространения относится к классу методов обучения с учителем. Сети предъявляется набор обучающих примеров, т.е. пар значений {входное значение, желаемый выход сети}. Перед обучением система осуществляет инициализацию параметров сети – весовых коэффициентов, центров и радиусов скрытых нейронов. Значения радиусов рассчитываются по формуле (5). Обучение проводится итеративно, на каждой t-итерации по каждой i-выборке рассчитывается выход нейронной сети (формула (6)). Далее рассчитывается отклонение фактического результата от ожидаемого. Корректировка параметров осуществляется с применением градиентных методов оптимизации. Весовые коэффициенты изменяются по формуле (8) или (9) с учетом коэффициента момента. Параметры RBF-функций по формулам (10) и (12) соответственно. Алгоритм производит коррекцию параметров после каждого поступления на вход обучающего вектора (без накопления). Условия остановки алгоритма: … 1) число итераций 2) достижение установленной границы ошибки 3) окончание времени, отведенного на обучение Слайд 10. Алгоритм самоорганизации (схема + формулы) В дипломном проекте также реализована модификация метода обратного распространения ошибки. В ней используется алгоритм самоорганизации для уточнения параметров RBF-функций. Относится к алгоритмам обучения без учителя. Схема реализации на рисунке 7. Cуть алгоритма самоорганизации состоит в группировке (кластеризации) входных данных. Центр класса отождествляется с центром соответствующей RBF-функции. Случайным образом выбираем начальные значения центров. На вход подается обучающая выборка. По формуле (14) ищется центр-победитель, ближайший к X. Далее этот центр корректируется в соответствии с формулой (15). Повторяем процедуру, пока положения центров не стабилизируются. Радиусы подбираются таким образом, чтобы области охвата радиальных функций в совокупности покрывали все пространство входных данных – формула (16). Далее производится корректировка весовых коэффициентов по методу обратного распространения. Слайд 11. Гибридный алгоритм обучения – схема На рисунке 8 представлена схема гибридного алгоритма обучения. В гибридном алгоритме процесс обучения разделяется на три этапа: 1) Инициализация параметров сети; 2) Подбор весов выходного слоя с использованием метода псевдоинверсии; 3) Адаптация нелинейных параметров радиальных функций (центра c j и радиуса j ) . Слайд 12. Гибридный алгоритм обучения – формулы T Если обозначить d d1, d 2 ,..., dt вектор ожидаемых значений, вектор весов сети, а G – радиальную матрицу Грина вида (17): w w1, w2 ,..., wK T - ( x1 c1 ) ( x1 c2 ) ... ( x1 c K ) ( x c ) ( x c ) ... ( x c ) 2 1 2 2 2 K G , то задача нахождения вектора весов ... ... ... ... ( x p c1 ) ( x p c2 ) ... ( x p c K ) сводится к решению системы уравнений G(w)=d (18), линейных относительной весов. Уравнение (19) решается с использованием операции псевдоинверсии матрицы G. На практике пседоинверсия рассчитывается с применением декомпозиции SVD. Подбор параметров радиальных функций осуществляется по формулам (10) и (12). Многократное повторение обоих этапов ведет к полному и быстрому обучению сети. Слайд 13. Интерфейс АС: генерация выборок В ходе дипломного проектирования была написана программа на языке Java в среде разработки Intellij Idea. На рисунке 9 представлена форма генерации выборок. Перед генерацией пользователь выбирает один из типовых законов распределения случайной величины, объем выборки, число дифференциальных коридоров распределения вероятности в виде гистограммы, число выборок. для построения модели плотности Слайд 14. Интерфейс АС: обучение нейронной сети На рисунке 10 представлена форма обучения нейронной сети. Пользователь может выбрать метод и параметры обучения, условия остановки обучения, обучающие выборки. Слайд 15. Исследование зависимости погрешности аппроксимации -1 Для исследования качества аппроксимативных возможностей нейронной сети в качестве меры ошибки используется стандартное квадратичное отклонение, вычисляемое по формуле (20). На качество обучения влияет большое количество факторов, которые можно условно разделить на три группы. Первый фактор – структура сети. На слайде 15 приведены результаты исследования зависимости погрешности аппроксимации от числа скрытых нейронов при следующих параметрах обучения: (см слайд). Наилучшие результаты показаны при обучении сети с числом скрытых нейронов в диапазоне 10-25. Слайд 16. Исследование зависимости погрешности аппроксимации -2 Второй фактор, влияющий на качество аппроксимации, - параметры входных данных, в нашем случае смоделированной выборки плотности распределения вероятности. На слайде 16 представлены результаты исследования зависимости погрешности аппроксимации от числа дифференциальных коридоров, объема выборки и количества различных обучающих выборок. Как видно по графикам слайда 16, сеть показывает наилучшие результаты при M из диапазона [15;18], N = 10000 отсчетов и более, L из диапазона [3;7]. Слайд 17. Исследование зависимости погрешности аппроксимации -3 Третий фактор, влияющий на качество аппроксимации – параметры обучения. На слайде 17 представлены результаты исследования зависимости погрешности аппроксимации от коэффициента обучения [этта] и числа итераций обучения. Рекомендуется использовать коэффициент обучения из диапазона [0.05, 0.25. Оптимальное число итераций (эпох) обучения лежит в диапазоне [1000; 10000], для гибридного алгоритма – в диапазоне [10;100]. Слайд 18. Исследование зависимости погрешности аппроксимации -4 На слайде 18 представлены результаты сравнения аппроксимативных возможностей нейросети, разработанной в дипломном проекте и в диссертации И.В.Лезиной «..». Слайд 19. Экономическое обоснование разработки системы В разделе безопасности жизнедеятельности рассмотрены вопросы обеспечения безопасности на стадии разработки автоматизированной системы. На слайде 18 представлены результаты оценки экономической целесообразности разработки системы. Слайд 20. Заключение Доклад окончен, спасибо за внимание! - это коэффициент момента, принимающий значения в интервале [0, 1]. Первое слагаемое в формуле (3.39) соответствует алгоритму наискорейшего спуска, а второе слагаемое учитывает последнее изменение весов и не зависит от фактического значения градиента. Чем больше значение коэффициента , тем большее значение оказывает показатель момента на подбор весов. При постоянном значении коэффициента обучения t приращение весов остается примерно одинаковым, wij t pt wij t , поэтому эффективное приращение весов можно писать формулой: wij t pt 1 то есть (3.40) При значении =0,9 это соответствует десятикратному увеличению значения коэффициента обучения и, следовательно, десятикратному ускорению процесса обучения. При малых значениях градиента показатель момента начинает доминировать, что приводит к такому приращению весов, которое соответствует увеличению значения целевой функции, позволяющему выйти из зоны локального минимума. Однако показатель момента, не должен доминировать на протяжении всего процесса обучения, поскольку это приводит к нестабильности алгоритма. На практике, увеличение целевой функции не допускается больше, чем на 4%. В противном случае, wij t 0 . При этом показатель градиента начинает доминировать над показателем момента и процесс развивается в направлении минимизации, заданном вектором градиента К слайду 7 - Нейронная сеть является универсальным аппроксиматором: Теорема Вейерштрасса, теорема Стоуна, обобщенная аппроксимационная теорема Горбаня. RBF-сеть выполняет локальную аппроксимацию - теорема Ковера.