Сравнительный анализ методов оценки важности входных

advertisement
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
А.Г. ГУЖВА, С.А. ДОЛЕНКО, И.Г. ПЕРСИАНЦЕВ,
Ю.С. ШУГАЙ
НИИ ядерной физики им. Д.В. Скобельцына
Московского государственного университета им. М.В. Ломоносова
guzhva@srd.sinp.msu.ru, dolenko@srd.sinp.msu.ru
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ
ОЦЕНКИ ВАЖНОСТИ ВХОДНЫХ ПЕРЕМЕННЫХ
ПРИ НЕЙРОСЕТЕВОМ ПРОГНОЗИРОВАНИИ
В работе сравниваются методы оценки важности входных переменных
при нейросетевом решении задачи прогнозирования на основе многомерного временного ряда. Рассматриваются анализ главных компонент, линейная регрессия и метод группового учёта аргументов. Каждый из методов используется для отбора существенных входных переменных; затем
производится сравнение качества нейросетевых прогнозов, сделанных на
основании отобранных переменных, с качеством исходного прогноза.
Наилучшие результаты показал метод группового учёта аргументов.
Введение. Задача прогнозирования значений временного ряда чаще
всего предполагает использование в качестве входных переменных некоторого количества предыдущих значений прогнозируемого временного
ряда или других временных рядов, связанных с прогнозируемой переменной. Результатом погружения такого многомерного временного ряда является значительное увеличение количества входных переменных задачи,
что затрудняет работу алгоритмов прогнозирования и ухудшает точность
прогнозирования. Для таких задач становится весьма актуальной проблема понижения размерности входного пространства.
Кроме того, при решении задачи прогнозирования является актуальным поиск предвестников, т.е. комбинаций входных переменных задачи,
оказывающих решающее влияние на формирование значения прогнозируемой переменной. Эта задача логически делится на три этапа: 1) формирование первоначального списка входных переменных и погружение временного ряда; 2) определение задержки между предвестником и моментом прогнозирования [1]; 3) выделение из общего списка входных переменных существенных переменных, формирующих предвестник.
Помимо понижения входной размерности задачи, определение существенных переменных может позволить установить логические взаимосвязи между предвестником и прогнозируемой переменной. С учётом этоУДК 004.032.26(06) Нейронные сети
31
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
го авторами были исключены из рассмотрения методы понижения размерности, основанные на сложно интерпретируемом преобразовании исходных данных, например, нелинейный анализ главных компонент.
Задача прогнозирования. Для сравнительного анализа важностей
входных переменных была использована следующая задача реального
мира. Известно, что значительные возмущения магнитного поля Земли,
называемые геомагнитными бурями, оказывают существенное влияние на
функционирование электронных устройств. В связи с этим задача прогнозирования геомагнитных бурь является весьма актуальной.
Для количественного описания возмущений магнитного поля Земли
вводятся различные геомагнитные индексы. Индекс, использованный в
данной работе – так называемый Dst-индекс [2], его численные значения
предоставлены WDC-C2 KYOTO [3]. В качестве входных данных для
прогнозирования значений Dst-индекса использовались параметры солнечного ветра, записанные спутником ACE [4], который находится в точке гравитационного равновесия между Землей и Солнцем.
Задача данного исследования ставилась следующим образом: оценить
степень влияния параметров солнечного ветра на значение Dst-индекса.
Исходные данные. В качестве данных для анализа были взяты почасовые временные ряды, содержащие значения компонент межпланетного
магнитного поля Bx, By, Bz, скорости солнечного ветра V и плотности протонов np, а также значения индекса Dst – всего 35000 точек (данные за
1999-2003 годы). Было проведено погружение временного ряда с размером окна 24 часа. Входные переменные нормировались в диапазон [-1..1]
независимо друг от друга.
Одна из специфических особенностей рассматриваемой задачи прогнозирования состоит в том, что возмущения магнитного поля Земли принято делить на три условных класса: сильные магнитные бури
(Dst < -100 nT), умеренные магнитные бури (-100 nT < Dst < -50 nT) и
слабые геомагнитные возмущения (Dst > -50 nT). Так как магнитные бури
(особенно сильные) – явление редкое, то было проведено прореживание
исходных данных так, чтобы в получившемся наборе данных все три
класса были представлены одинаковым числом точек. В результате использованный в настоящей работе массив данных состоял из 9000 примеров (6300 примеров – тренировочный набор, 1800 – тестовый, 900 – экзаменационный). Прореживание исходных данных и разделение на наборы
производились после погружения временного ряда, что позволило использовать для разделения на наборы случайный выбор примеров. Общее
количество входных переменных задачи составило 120 (5 параметров
УДК 004.032.26(06) Нейронные сети
32
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
солнечного ветра, 24 часа – глубина погружения). Прогнозируемая переменная представляла собой значение индекса Dst в следующей за концом
окна погружения точке временного ряда.
После перенормирования значений индекса Dst в диапазон [0, 1] сильная магнитная буря соответствовала поддиапазону [0…0.690], умеренная – [0.690…0.786], слабое геомагнитное возмущение – [0.786…1].
Критерии оценки. Для оценки качества результатов работы какоголибо метода: использовался следующий подход. В качестве точки отсчёта
для сравнения использовалось прогнозирование значения Dst-индекса с
помощью нейронной сети, на входы которой подавался полный комплект
из 120 входных переменных задачи (исходная модель).
Далее для каждого из исследуемых методов выделялись наиболее существенные переменные, и на основании данных с сокращённым таким
образом набором входных переменных обучалась нейронная сеть, по своей архитектуре и параметрам аналогичная сети, обучавшейся на полном
комплекте переменных (трёхслойный персептрон, обучаемый по методу
обратного распространения ошибки, скорость обучения 0.01, момент 0.9;
количество нейронов в скрытом слое – 40). Для исходной модели и для
каждой полученной сети вычислялись следующие статистические показатели по отношению к известным истинным значениям индекса: линейный
коэффициент корреляции (r), среднеквадратичное отклонение (СКО), коэффициент множественной детерминации (R2) и среднее абсолютное отклонение (САО). В случаях, когда статистические показатели в результате
применения метода ухудшались, можно было сделать вывод о том, что не
все отброшенные методом входные переменные были несущественными.
Сводка значений статистических показателей для исходной нейронной
сети и для нейронных сетей, полученных в результате применения различных вариантов исследованных методов, приведена ниже в табл. 1. Следует
подчеркнуть, что показатели вычислялись на основе всего массива данных
с разными значениями Dst-индекса. Полный список переменных, оказавшихся наиболее существенными при применении каждого метода, не приводится, так как его значение не выходит за рамки решения рассматриваемой конкретной задачи. В то же время для всех случаев, где могли быть
сделаны более или менее общезначимые выводы, эти выводы приводятся
при описании результатов применения соответствующего метода.
Рассматриваемые методы оценки важности. В настоящей работе
опробовано три метода: линейный анализ главных компонент (ЛАГК),
линейная регрессия (ЛР), метод группового учета аргументов (МГУА).
УДК 004.032.26(06) Нейронные сети
33
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
Линейный Анализ Главных Компонент (см., например, [5]) – это линейный метод, заключающийся в повороте исходного пространства входных
переменных. Компоненты вектора преобразованного пространства называются Главными Компонентами (ГК). Поворот исходного пространства
осуществляется таким образом, чтобы в преобразованном пространстве
корреляционная матрица была ортогональной. При этом направление первой ГК соответствует направлению максимальной дисперсии (т.е. максимальной информативности) данных, вторая ГК ортогональна первой и соответствует направлению максимальной дисперсии в подпространстве,
оставшемся после исключения первой ГК, и т.д. В преобразованном пространстве можно выбрать несколько первых ГК, которые описывают нужный процент суммарной дисперсии, а остальные компоненты отбросить.
Таким образом, будет произведено уменьшение размерности данных.
Сделать выводы о существенности исходных переменных можно на
основании факторных нагрузок. Под факторной нагрузкой понимается
линейный коэффициент корреляции между одной из полученных ГК и
одной из входных переменных. Факторная нагрузка считается существенной, если она больше 0.7. Пространство полученных ГК поворачивалось
по методу VARIMAX [6], чтобы добиться большей выразительности факторных нагрузок.
Под линейной регрессией понимается построение аппроксимирующей
прогнозируемую переменную функции как линейной комбинации в определенном базисе функций входных переменных. В данной работе осуществлялось построение а) непосредственно в базисе входных переменных (линейная комбинация), FDst   ai xi  const ; б) в базисе полиномов второй степени по каждой из входной переменных («полиномиальная» линейная регрессия), FDst  const   ai xi   bi xi2 . Коэффициенты ai и bi находились с помощью метода наименьших квадратов, минимизировалось квадратичное отклонение аппроксимирующей функции от
истинных значений индекса. При использовании линейной комбинации
есть прямая возможность анализа важности входных переменных по коэффициентам ai; во втором случае можно анализировать, какой вклад в
общую сумму вносит полином по каждой из входных переменных, оценивая таким образом важность каждой входной переменной.
Метод группового учета аргументов, предложенный А.Г. Ивахненко
[7], строит полиномиальную, постепенно усложняющуюся регрессионную
модель. Отличительная особенность метода – возможность построить
весьма сложную модель, включающую высокие степени входных переУДК 004.032.26(06) Нейронные сети
34
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
менных и их сложные перекрёстные произведения, в то же время избегая
«переучивания». Такая возможность возникает благодаря тому, что на
каждом этапе («слое») построения модели рассматривается множество
моделей-кандидатов, отбираемых на основании критерия, способствующего увеличению точности решения задачи, но препятствующего построению чересчур усложнённых моделей. Модели, построенные на разных
этапах работы алгоритма, включают в себя разное количество входных
переменных, что позволяет осуществлять сравнительный анализ важности
входных переменных.
Результаты, полученные с помощью метода ЛАГК. Первые 18 ГК
объяснили 85 % суммарной дисперсии. Каждая из этих компонент объясняла, по меньшей мере, дисперсию одной входной переменной.
Было замечено, что для любой ГК существенными являются нагрузки
только для одного типа входных переменных (т.е. для разных задержек
только одной из пяти исходных переменных – параметров солнечного
ветра). Так, для первой ГК (объясняет дисперсию 24 переменных, 20.3 %
общей дисперсии) нагрузки существенны (имеют значения выше 0.85) со
всеми переменными из группы V; вторая ГК (17 переменных, 14.8 % общей дисперсии) имеет нагрузки выше 0.7 почти со всеми переменными из
группы np. Остальные ГК имеют существенные нагрузки для меньшего
числа переменных. Отсюда можно сделать вывод, что информативность
разных переменных группы V примерно одинакова, что, однако, не позволяет отбросить какие-либо из них.
Для оценки качества нейросетевых моделей, построенных на основании данных из преобразованного путём ЛАГК пространства, было рассмотрено 2 случая: использование первых 18 ГК (84.83 % суммарной дисперсии) и первых 60 ГК (97.55 % суммарной дисперсии). Полученные
результаты приведены в табл. 1. Следует ещё раз подчеркнуть, что входные данные в этом случае являлись линейными комбинациями всех исходных переменных, что не позволяет отбросить какие-либо из них как не
существенные. Полученный для 60 ГК результат показывает, что в линейном приближении размерность входных данных, по-видимому, чуть выше
60. Как известно, нейронная сеть учитывает также нелинейные взаимосвязи между входными переменными, что позволяет предположить, что количество существенных для решения данной задачи переменных не превышает 60. Однако ЛАГК не дал ответа на вопрос о выборе существенных
переменных для данной задачи.
Результаты, полученные с помощью линейной регрессии.
1. Линейная комбинация FDst   ai xi  const .
УДК 004.032.26(06) Нейронные сети
35
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
При рассмотрении коэффициентов ai оказалось, что для 8 входных переменных ai оказались по модулю меньше 0.01; для 21 входной переменной коэффициенты ai оказались по модулю больше, чем 0.1. Именно эти
21 переменная были сочтены наиболее существенными (в основном это
были переменные из группы V и переменные из группы Bz с задержками
18 и более). Статистические показатели нейронной сети, натренированной
на их основе, приведены в табл. 1. Видно, что показатели такой модели
значительно хуже, чем показатели исходной модели. Это свидетельствует
о том, что по крайней мере некоторые из отброшенных переменных также
являются важными для прогнозирования искомой величины.
Следует отметить весьма существенную деталь: регрессия данного вида не смогла описывать сильные магнитные бури (прогнозируемое этой
моделью значение индекса соответствовало слабым геомагнитным возмущениям.).
2. Полиномиальная ЛР FDst  const   ai xi   bi xi2 .
В этом случае не удалось выделить существенные входные переменные, непосредственно анализируя коэффициенты ai и bi. Однако можно
было изучить вклад полиномов по каждой из входной переменной в общую сумму, то есть определить диапазон изменений a i x i  bi xi2 . Оказалось, что диапазон изменений полиномов, соответствующих переменным
из группы Bz – порядка единицы; полиномов, соответствующих переменным из группы V – порядка 0.1; диапазон изменений остальных полиномов – порядка 0.01. На основании сравнения результатов, полученных
обоими вариантами ЛР, можно сделать вывод, что за сильные магнитные
бури отвечают переменные группы Bz (в том числе и с малыми задержками), за слабые магнитные бури – переменные группы V.
Отметим, что модель на основе полиномиальной ЛР оказалась в состоянии с примерно одинаковой погрешностью описывать магнитные бури
любой интенсивности, что подтверждает гипотезу о нелинейной взаимосвязи входных переменных.
Результаты, полученные с помощью МГУА. Как было отмечено выше, в процессе работы данного метода идёт постепенное усложнение модели. Для каждого этапа («слоя») существуют модели-победители. На
начальных слоях отличие критерия модели-победителя от «ближайших
конкурентов» достаточно велико, что позволяет делать выводы на основании того, какие входные переменные использованы моделью-победителем.
К последнему слою «контрастность» значений критериев у победителя и у
«конкурентов» падает, и здесь правильнее анализировать список переменУДК 004.032.26(06) Нейронные сети
36
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
ных, вошедших как в модель-победитель, так и в модели-конкуренты (и
считать эти переменные существенными). Соответственно, для тренировки
нейросетей и сравнения с исходной моделью для всех слоев, кроме последнего, брались входные переменные, которые входили только в модельпобедитель. В последнем слое были учтены входные переменные, которые
входили в несколько самых лучших моделей (61 переменная).
Полученные статистические показатели приведены в табл. 1. Их анализ позволяет сделать следующие выводы. Построение нейросетевых моделей на основе переменных, отобранных на первых слоях, не позволяет
по качеству решения задачи прогнозирования приблизиться к исходной
модели. Однако учёт нелинейности позволяет модели, полученной на основе 17 переменных 7-го слоя, заметно превзойти по результатам модель,
полученную на основе ЛАГК с аналогичной размерностью входного пространства (18). Значительное превосходство нейросети на основе 21 переменной 9-го слоя над сетью, построенной на основе того же количества
переменных, отобранных на основе линейной комбинации, обусловлено
учётом нелинейности и взаимодействия переменных. Наконец, модель на
основе 61-й переменной, отобранных по окончательному результату работы МГУА, превзошла модель на основе ЛАГК с той же размерностью
входного пространства, и практически повторила результаты исходной
модели. Это уже позволяет делать выводы о том, что отброшенные в этом
случае переменные действительно могут считаться несущественными. В
число отобранных как существенные вошли почти все переменные групп
By и Bz (однако переменные группы Bz вошли в модель на более ранних
слоях, что позволяет сделать вывод об их большей важности). Переменные группы Bx практически не вошли в модель. Отметим, что моделью
использованы переменные группы np с задержками от 15 до 19 и переменные группы V с задержками 16 и менее. Этот результат достаточно хорошо согласуется с общими физическими представлениями о связи параметров солнечного ветра и геомагнитной активности [2].
Таблица 1
Статистические показатели нейросетевых моделей
Источник
Исходная модель
МГУА, 10-й слой
ЛАГК
МГУА, 9-й слой
Входов
120
61
60
21
r
0.9685
0.9670
0.9624
0.9428
СКО
0.033
0.034
0.036
0.044
УДК 004.032.26(06) Нейронные сети
R2
0.9379
0.9348
0.9259
0.8884
САО
0.024
0.023
0.026
0.033
37
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1
МГУА, 7-й слой
ЛАГК
МГУА, 4-й слой
МГУА, 3-й слой
МГУА, 2-й слой
Линейная комбинация
МГУА 1ый слой
17
18
11
9
7
21
3
0.9354
0.9150
0.9139
0.9115
0.8961
0.9010
0.8147
0.047
0.050
0.053
0.054
0.058
0.057
0.076
0.8742
0.8356
0.8342
0.8307
0.8026
0.8114
0.6628
0.036
0.035
0.040
0.042
0.044
0.044
0.061
Выводы.
 Для данной задачи существенны нелинейность и взаимодействие
между переменными.
 Из трёх рассмотренных методов оценки важности входных переменных наилучшие результаты показал МГУА.
 Анализ индекса Dst с помощью аппроксимации полиномами выявил, что за сильные магнитные бури отвечают переменные группы Bz, за
слабые магнитные бури – переменные группы V, что совпадает с общепринятым мнением на данный момент [2].
Исследования поддержаны грантом РФФИ, проект 04-01-00506.
Список литературы
1. Нейросетевые алгоритмы прогнозирования событий и поиска предвестников в многомерных временных рядах / С.А. Доленко, Ю.В. Орлов, И.Г. Персианцев, Ю.С. Шугай //
Нейрокомпьютеры: разработка, применение. 2005. № 1 – 2. С. 21 – 28.
2. Gleisner H., Lundstedt H., Wintoft P. Predicting geomagnetic storms from solar-wind data
using time-delay neural networks // Annales Geophysicae. 1996. V. 14. P. 679 – 686.
3. http://swdcwww.kugi.kyoto-u.ac.jp/dstdir/dst1/final.html
4. http://www.srl.caltech.edu/ACE
5. http://alexbar.narod.ru/mgk/index.htm
6. http://alexbar.narod.ru/factor/index.htm
7. Ивахненко А.Г. Индуктивный метод самоорганизации моделей сложных систем.
Киев: Наукова думка, 1982. См. также http://www.gmdh.net
УДК 004.032.26(06) Нейронные сети
38
Download