П р а в

advertisement
Правительство Российской Федерации
Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
«Национальный исследовательский университет
"Высшая школа экономики"»
Санкт-Петербургский филиал федерального государственного
автономного образовательного учреждения высшего профессионального
образования
«Национальный исследовательский университет "Высшая школа экономики"»
Факультет ___экономики ___
Кафедра экономической теории
БАКАЛАВРСКАЯ РАБОТА
На тему: «Построение комбинированного прогноза цен на серебро»
Направление/специальность _____________________________
Программа ___________________________________________
Студент группы № 143
Смирнова М.Ю.
Научный руководитель
доцент, к.э.н.,Светуньков И.С.
Санкт-Петербург
2013
Оглавление
ВВЕДЕНИЕ ................................................................................................................... 4
ГЛАВА 1. НЕОПРЕДЕЛЕННОСТЬ И СОВРЕМЕННЫЕ МЕТОДЫ
ПРОГНОЗИРОВАНИЯ ЭКОНОМИЧЕСКИХ ПОКАЗАТЕЛЕЙ............................ 7
1.1. Виды неопределенности ............................................................................. 7
1.2. Нелинейные методы прогнозирования неопределенности ................... 10
1.2.1. ARIMA и ARCH/GARCH ................................................................... 10
1.2.2. Искусственные нейронные сети ........................................................ 15
1.3. Прочие методы прогнозирования ............................................................ 18
1.3.1. «Долгая память» .................................................................................. 18
1.3.2. Метод Хольта....................................................................................... 23
1.3.3. CEWMA ................................................................................................ 27
ГЛАВА
2.
КОМБИНИРОВАНИЕ
РАЗЛИЧНЫХ
МЕТОДОВ
ПРОГНОЗИРОВАНИЯ .............................................................................................. 29
2.1. Методы комбинирования прогнозных моделей ....................................... 30
2.1.1. Метод AFTER ......................................................................................... 31
2.1.2. Метод, основанный на минимизации критерия leave–h–out кросс
оценки ............................................................................................................... 33
2.2. Задания весов с помощью компьютерных программ .............................. 34
ГЛАВА 3. ПРАКТИЧЕСКИЕ РЕЗУЛЬТАТЫ......................................................... 36
3.1. Обзор рынка серебра ................................................................................. 37
3.2. Построение прогнозов с помощью линейных методов ......................... 40
3.2.1. Метод CEWMA ................................................................................... 42
3.2.2. Метод Хольта-Уинтерса ..................................................................... 44
3.2.3. Метод SARIMA ................................................................................... 47
3.3. Построение
прогнозов
с
помощью
нелинейных
методов
прогнозирования ................................................................................................. 50
3.3.1. Метод GARCH ..................................................................................... 50
3.3.2. Метод ANN .......................................................................................... 52
2
3.4. Комбинирование прогнозов ..................................................................... 59
ЗАКЛЮЧЕНИЕ .......................................................................................................... 68
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ ....................................................... 71
ПРИЛОЖЕНИЯ .............................................................................................. 75
Приложение 1. Данные цен за унцию серебра в USD ................................... 75
Приложение 1(продолжение). Данные цен за унцию серебра в USD.......... 76
Приложение 2. Коррелограмма 1-ой разницы цен на серебро в USD (с
03.09.12) ............................................................................................................. 77
Приложение 3. Коррелограмма уровня цен на серебро ................................ 78
Приложение 4. Коррелограмма цен на золото ............................................. 79
Приложение 5. Данные цен за унцию золота в USD.................................... 80
Приложение 6. Код к созданию регрессионной нейронной сети в
программе matlab .............................................................................................. 81
Приложение 6 (продолжение). Код к созданию регрессионной нейронной
сети в программе matlab.................................................................................. 82
Приложение 7. Код к созданию авторегрессионной нейронной сети в
программе matlab .............................................................................................. 83
Приложение 7(продолжение). Код к созданию авторегрессионной
нейронной сети в программе matlab ............................................................... 84
3
ВВЕДЕНИЕ
Человеческая жизнь и деятельность протекает в условиях, зачастую
трудно поддающихся предсказаниям и прогнозированию, поскольку в мире
существует огромное количество как внешних, так и внутренних факторов, и
все их учесть при планировании просто физически невозможно. Проблема,
связанная
с
прогнозированием
каких-либо
данных
заключается
в
изменчивости видов тенденций и неопределенности будущего поведения
данных (которое может отличаться от сегодняшнего). Хотя некоторые модели
прогнозирования помогают в той или иной мере решить подобную проблему,
все равно зачастую полученные результаты расходятся с реальностью. Чтобы
уменьшить риск получения неправильного прогноза, было предложено
комбинировать различные прогнозные методы, так чтобы они учитывали
недостатки друг друга, ведь одни методы прогнозирования, например,
хорошо улавливают тенденции в рядах данных, а другие могут выдавать
более точные прогнозы, несмотря на худшую аппроксимацию.
Темой
данной
выпускной
квалификационной
работы
является
получение прогноза по ценам на серебро путем комбинирования разных
моделей прогнозирования. Актуальность данной темы заключается в том, что
комбинирование прогнозов это достаточно новая тенденция в сфере
прогнозирования, которая имеет большой практический потенциал. От того,
насколько правильно скомбинированы те или иные методы, может сильно
зависеть итоговый прогноз, а следовательно и прибыль фирмы или же,
наоборот, убыток, получаемый от принятия тех или других решений.
Поскольку идея о комбинировании прогнозов относительно новая, то она еще
не совсем хорошо изучена. Несмотря на то, что существует несколько
методов комбинирования прогнозов, ни один из них не является идеальным и
обладает теми или иными недостатками. В связи с этим, остается еще
4
множество
вопросов,
над
которыми
можно
продолжать
проводить
исследования в попытках разработать такой метод комбинирования, который
был бы больше приближен к реальности, имел меньше негативных сторон, а
заодно позволял бы прогнозировать в условиях высокой неопределенности.
Таким образом, объектом данной работы являются различные методы
получения прогнозных значений, а предметом исследования – способ
комбинирования получившихся прогнозов.
Целью выпускной квалификационной работы является получение
достоверного прогноза цен на серебро путем объединения нескольких
моделей и задания весов полученным прогнозам.
Для достижения поставленной цели необходимо выполнить ряд задач:
 Рассмотреть понятие и виды неопределенности;
 Рассмотреть различные способы прогнозирования данных, такие
как ARIMA, ARCH, CEWMA, метод Хольта, модели «долгой
памяти» и искусственные нейронные сети;
 Рассмотреть алгоритмы комбинирования прогнозов;
 Получить прогнозы по обозначенным выше методам, выбрать
способ задания весов, получить прогноз по комбинированному
методу и сравнить результаты с полученными с помощью
прогнозирования по каждой модели по отдельности.
Для полного и всестороннего рассмотрения темы работы, будут
использованы научные методы исследования, в частности метод изучения и
анализа научной литературы.
При выполнении данной работы было использовано несколько
информационных ресурсов. В качестве основных источников в этой
выпускной квалификационной работе выступают следующие статьи: Gardner
S.E, Jr «Exponential Smoothing: The state of the Art», Gooijer J., Hyndman R. «25
5
years of time series forecasting», Hill T., Marquez L., O’Connor M., Remus W.
«Artificial neural network models for forecasting and decision making»,
Makridakis S., Hogarth R., Gaba A. «Forecasting and uncertainty in the economic
and business world», Zou H., Yang Y. «Combining time series models for
forecasting», Poom H. «Long memory volatility models», Reider R. «Volatility
Forecasting I: GARCH Models», Светуньков И.С. «Самообучающаяся модель
краткосрочного прогнозирования социально-экономической динамики»
6
ГЛАВА 1. НЕОПРЕДЕЛЕННОСТЬ И СОВРЕМЕННЫЕ МЕТОДЫ
ПРОГНОЗИРОВАНИЯ ЭКОНОМИЧЕСКИХ ПОКАЗАТЕЛЕЙ
Действительность
показывает,
что
зачастую
прогнозы
выдают
результаты, значительно отличающиеся от надвигающейся реальности, как в
худшую, так и в лучшую для кого-то сторону. Например, в 2008 году
накануне возникновения мирового финансового кризиса ведущие агентства и
аналитики не предсказывали столь масштабной катастрофы на финансовом
рынке. Наоборот, их прогнозы были вполне оптимистичными. Также
существует и немало других примеров ситуаций, когда все шло не так, как
прогнозировалось. По мнению Макридакиса, проблема всех этих прогнозов
заключалась в том, что они неправильно формулировались. Ведь при
составлении того или иного сценария развития событий необходимо также
указывать условия, при которых данный сценарий сможет воплотиться в
жизнь.
1.1.
Виды неопределенности
Для того, чтобы понять, какие события мы можем прогнозировать, а
какие не подвластны этой процедуре, необходимо ввести классификацию
видов неопределенности. Макридакис выделяет следующие два вида:
 Subway uncertainty (неопределенность «метро»), которая представляет
собой неопределенность, связанную с событиями, легко поддающимися
моделированию (например, время ожидания поезда на станции метро).
 Coconut uncertainty (неопределенность «кокос»), относящуюся к
событиям, предсказать и смоделировать которые нельзя (например,
падение
сосульки
неопределенности
на
голову
попадают
прохожему).
редкие
события
Под
с
такой
вид
критическими
последствиями.
7
Однако стоит заметить, что большинство событий представляют собой
смесь этих двух видов неопределенности. Чтобы определить, какие события
относятся к какому типу неопределенности, изначально необходимо понять
различия между «известными известными» (known knowns), «известными
неизвестными» (known unknowns) и «неизвестными неизвестными» (unknown
unknowns) данными. Эти различия показаны на рис. 1.1.1
known knowns
known unknowns
unknown
unknowns
Примеры Рентабельность
Подбрасывание Финансовые Положительные
застрахованного монеты
срочного вклада
пузыри
или негативные
«черные
лебеди»
Отсутствие
неопределенности
Subway
неопределенность
Coconut
неопределенность
(может быть
количественно
определена)
(не может быть
количественно
определена)
Рис. 1.1. Различия между неопределенностью вида «метро» и «кокос»
Помимо перечисленных выше видов, выделяют также и другие типы
неопределенности:
-
по
времени
возникновения
неопределенность
бывает
ретроспективной, текущей и перспективной. Фактор времени важно
1
Makridakis S., Hogarth R., Gaba A. Forecasting and uncertainty in the economic and business world//International
Journal of forecasting. 2009. Vol. 25. P. 794-812.
8
учитывать, поскольку затраты и выигрыши могут быть распределены во
времени, изменяя в итоге эффект от информации, которой мы обладаем.
- по факторам возникновения неопределенность может быть
экономической и политической (зачастую отделить один вид от другого
достаточно трудно). Но к экономической неопределенности относятся
различные
положительные
или
же
отрицательные
изменения
в
экономической сфере деятельности. В качестве примера можно привести не
очень сильную предсказуемость рыночных цен или недостаток информации о
конкурентах. Что касается политической неопределенности, то на нее влияет
изменение в политике государства, что в свою очередь может иметь какойнибудь эффект и на бизнес.
Также не стоит забывать о неопределенности, которая включает в себя
природные условия, климат, метеоритные дожди, апокалипсисы и пр.
Помимо этого, с точки зрения предприятия неопределенность может касаться
внутренней (обусловленной самим предприятием) или внешней среды
(носящей более общий характер). 2
Возможно, существует еще более подробная классификация видов
неопределенности, но уже из приведенной выше информации понятно, что
любая неопределенность сильно усложняет анализ данных и прогнозирование
будущих результатов. Поэтому зачастую для упрощения анализа и получения
хоть как-то определенных выводов предположение об изменчивости мира
опускают и работают с детерминированными моделями. Однако подобный
подход не позволяет принимать правильные решения особенно на рынках с
высокой волатильностью и эффективно управлять рисками. Для решения
Шапкин А.С. Система неопределенностей [Электронный ресурс]// Экономические и финансовые риски:
оценка, управление, портфель инвестиций: [сайт]. URL: http://yourforexschool.com/book/304-yekonomicheskiei-finansovye-riski-ocenka-upravlenie-portfel-investicij/7-113-sistema-neopredelennostej.html (дата обращения:
17.05.2012)
2
9
подобной проблемы был разработан ряд методов, которые в той или иной
мере учитывают в себе неопределенность.
1.2.
Нелинейные методы прогнозирования неопределенности
1.2.1. ARIMA и ARCH/GARCH
Прежде чем переходить к более сложным методам прогнозирования,
надо коротко описать базовые модели. В рамках данной работы, нас, прежде
всего, интересует такой метод, как ARIMA (AutoRegressive Integrated Moving
Average). Несмотря на то, что данная модель относится к классу линейных
методов, она в равной степени хорошо описывает стационарные и
нестационарные временные ряды. Кроме того, в данной модели не
используются независимые переменные, что означает использование для
прогнозирования только информации, заложенной в самих данных.
Авторегрессионная модель (AR) порядка p имеет следующий вид:
 = 0 + 1 −1 + 2 −2 + ⋯ +  − +  ,
(1.1)
где:
 - зависимая переменная в момент времени t;
0, 1, 2,…,  - оцениваемые коэффициенты;
 - ошибка, описывающая влияния переменных, которые не учитываются в
модели.
Модель скользящего среднего (MA) порядка q описывается следующим
образом:
 =  +  − 1 −1 − 2 −2 − ⋯ −  − ,
(1.2)
где:
 - зависимая переменная в момент времени t;
- постоянное среднее процесса;
 - ошибка в момент времени t;
10
1 , 2 ,…, 
- оцениваемые коэффициенты.3
Некоторые нестационарные временные ряды можно привести к
стационарным, используя оператор последовательной разности. Допустим,
что есть временной ряд  , к которому  раз применили данный оператор,
после чего ряд стал стационарным Δd yt и удовлетворяющим условиям модели
ARMA (p,q). Модель авторегресии и скользящего среднего будет иметь вид
Ф() =  +  () ,  ~(0,  2 ), где Ф() = 1 − 1  − ⋯ −  
и 
() = 1 − 1  − ⋯ −   - полиномы от оператора сдвига. В таком случае 
будет назваться интегрированным процессом авторегресии и скользящего
среднего или ARIMA (p,d,q).4
Данная модель позволяет строить весьма точные прогнозы с небольшой
дальностью прогнозирования. Она также достаточно гибкая и может подойти
для описания различных временных рядов. К тому же, модели ARIMA просто
проверяются на их адекватность. Однако к минусам этого метода можно
отнести потребность в большом количестве исходных данных и отсутствие
простого способа корректировки параметров модели.
Кроме того, в случае если в ряде данных присутствует сезонность, то
модель ARIMA можно модифицировать в метод SARIMA, который в общем
виде выглядит следующим образом: SARIMA(p,d,q)X(P,D,Q)s, где p –
порядок AR, d – параметр разницы, q – порядок MA, P – порядок SAR, D –
параметр сезонной разницы, Q – порядок SMA и s – лаг сезонности. Если
выражать все это математически, то формула выглядит так:
Ф (  ) ()(1 − ) (1 −   )  =  (  ) () ,
(1.3)
где:
Ф (  ) - функция SAR(P),
Ханк Д.Э., Уичерн Д.У., Райтс А. Дж. Метод Бокса-Дженкинса (ARIMA)// Бизнес-прогнозирование, 7-е
издание.: Пер. с англ. – М.: Издательский дом «Вильямс», 2003. C.453-544.
4
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Модели Бокса-Дженкинса (ARIMA)// Эконометрика.
Начальный курс: учебник. – 7-е изд., испр. – М.:Дело, 2005. C.253-275.
3
11
 () - функция AR(p),
(1 − ) - оператор разностей d для ARIMA,
(1 −   ) - оператор сезонных разностей D,
 (  ) - функция SMA(Q),
 () – функция простой MA(q).
Однако, если в ряде данных присутствует гетероскедастичность, то
использовать данные методы будет уже некорректно. Стандартные модели
типа ARMA не улавливают необычную волатильность в данных, так как в
таких моделях условная вариация постоянна. Для решения подобной
проблемы, связанной с учетом случайных выбросов в значениях доходности
различных
финансовых
инструментов,
можно
использовать
методы
ARCH/GARCH.
ARCH (Autoregressive Conditional Heteroskedasticity) представляет
собой модель авторегрессии условной гетероскедастичности. В таких
моделях условная вариация имеет структуру, схожую со структурой
условных ожиданий в моделях авторегрессии. Для начала имеет смысл
рассмотреть
наипростейшую
форму
модели
ARCH
(1),
в
которой
волатильность следующего периода зависит от информации, полученной в
текущем периоде. Главной задачей данной модели было понять, как
информация,
использующаяся
для
прогнозирования
математического
ожидания и дисперсии ошибок, зависит от информации прошлых периодов.
Если рентабельность активов представляет собой  =  +   , где 
- последовательность нормально распределенных случайных величин, тогда
остаточные ошибки во времени t,  −  , определяются как  =   .
Волатильность в таком случае для ARCH(1) будет представлять собой
следующее выражение:
2
2 = 0 +1 (−1 − −1 )2 = 0 + 1 −1
,
(1.4)
12
где 0 >0 и 1 ≥ 0 обеспечивают положительную вариацию, а 1 < 1 отвечает
за стационарность.5 Если остаточная ошибка −1 обладает необычно
большим абсолютным значением, то прогноз условной волатильности на
следующий период,  , будет больше обычного, и  также будет обладать
необычно большой магнитудой. Из-за подобного поведения необычная
волатильность в  имеет тенденцию к сохранению, хоть и не навсегда.
Условная вариация склонна возвращаться к безусловной дисперсии, которая
обеспечивает
выполнение
условия
1 < 1,
превращая
процесс
в
стационарный с конечной вариацией. К свойствам данной модели можно
отнести нелинейную вариацию и линейное математическое ожидание:
( ) =
0
1−1
и ( ) = 0. 6
Преимущества данного метода заключаются в том, что модели вида
ARCH достаточно легко строить, они учитывают кластерные ошибки,
нелинейность
и
изменения
в
эконометрической
способности
к
прогнозированию (в работе Engle (1982) было замечено, что мощность
прогноза меняется от одного периода к другому).7
Что касается метода GARCH, который представляет собой обобщенную
разновидность ARCH модели (Generalized ARCH), то его разработал T.
Bollerslev в 1986 году, и по своей идее модель напоминает ARMA метод. Она
является моделью средневзвешенных прошлых квадратов остатков, но
обладает уменьшающимися весами, которые никогда не достигают нуля.
Данная форма метода позволяет достаточно успешно прогнозировать
5
Reider R. Volatility Forecasting I: GARCH Models [Electronic resource]// New York University Courant Institute
of Mathematical Sciences: [website]. URL: http://cims.nyu.edu/~almgren/timeseries/Vol_Forecast1.pdf (дата
обращения17.05.2012)
6
Ruppert D. GARCH Models// Statistics and Data Analysis for Financial Engeneering [Electronic resource]//
University of Washington: [website]. URL: http://faculty.washington.edu/ezivot/econ589/ch18-garch.pdf (дата
обращения17.05.2012)
7
Perrelli R. Introduction to ARCH&GARCH models [Electronic resource]// Univeristy of Illinois: [website]. URL:
http://www.econ.uiuc.edu/~econ472/ARCH.pdf (дата обращения17.05.2012)
13
условную вариацию. В наиболее простой модификации модели GARCH(1,1)
предполагается, что лучшим предсказателем вариации следующего периода
является взвешенное среднее значение долгосрочной средней вариации
(иными словами безусловной вариации), вариация, предсказанная на текущий
период, и новая информация в текущем периоде, которая улавливается
наиболее недавними квадратами остатков.8 В модели GARCH вариация
описывается
2
2
2 = 0 + 1 −1
+ 1 −1
,
выражением
где веса 0 > 0, 1 > 0, 1 > 0 и 1 + 1 < 1. Это означает, что прогноз
вариации на следующий период представляет собой смесь из прогноза на
прошлый период и квадратных остатков прошлого периода. Безусловная
вариация описывается формулой: ( ) =
0
1−1 −1
.9
В модели GARCH (1,1) первое число относится к количеству
авторегрессионных лагов (или условий ARCH), которые используются в
уравнении, в то время как второе число описывает количество лагов
скользящего среднего, которые в свою очередь зачастую называются
условиями GARCH.
Помимо обозначенных выше моделей вида ARCH/GARCH существует
также немало их расширений и модификаций. Например, GARCH(1,1) может
быть приведена к общему виду GARCH(p,q), модели с дополнительными
лагами. Такого рода спецификация метода полезна, когда используются
долгосрочные данные (дневные данные за несколько десятилетий).
К недостаткам моделей ARCH/GARCH можно отнести тот факт, что
они игнорируют информацию о направлении ошибок. Однако на практике
было показано, что направление влияет на волатильность. Чтобы учесть
8
Engle R. GARCH 101: The use of ARCH/GARCH models in Applied Econometrics//Journal of Economic
Perspectives. 2001. Vol.15. P. 157-186.
9
Reider R. Volatility Forecasting I: GARCH Models [Electronic resource]// New York University Courant Institute
of Mathematical Sciences: [website]. URL: http://cims.nyu.edu/~almgren/timeseries/Vol_Forecast1.pdf (дата
обращения17.05.2012)
14
данный факт были разработаны асимметрические модели GARCH, как то
модель EGARCH (Nelson,1991) и TARCH (пороговая модель ARCH)10.
Однако, все вышеперечисленные методы из семейства методов ARCH
работают только в условиях гетероскедастичности.
1.2.2. Искусственные нейронные сети
Искусственные нейронные сети (в дальнейшем ANN от artificial neural
networks) представляют собой метод, который может легко моделировать
любой
тип
параметрических
или
непараметрических
процессов
и
автоматически и оптимально трансформировать входящие данные. Система
обработки информации в данном методе состоит из большого числа тесно
связанных процессорных элементов (нейронов), функционирующих вместе
для решения специфичных проблем. ANN являются универсальной функцией
аппроксимации любого рода данных.11 Также модель может оценивать
нелинейные функции и извлекать любые остаточные нелинейные элементы
из данных после того, как линейные члены будут удалены. Вдобавок к этому,
ANN позволяют определять тренды, которые слишком сложны, чтобы быть
замеченными
человеком
или
другими
программами.
К
прочим
преимуществам метода можно отнести:
1. Возможность адаптивного обучения (модель узнает, как выполнять
определенные задания на основе данных, используемых при
обучении и первоначальном опыте);
2. Возможность
самоорганизации
(модель
создает
собственную
организацию на основе информации, получаемой в процессе
обучения);
10
Engle R. GARCH 101: The use of ARCH/GARCH models in Applied Econometrics//Journal of Economic
Perspectives. 2001. Vol.15. P. 157-186.
11
Hill T., Marquez L., O’Connor M., Remus W. Artificial neural network models for forecasting and decision
making// International Journal of Forecasting. 1994. Vol.10. P.5-15.
15
3. Работа в реальном времени (вычисления в данном методе могут
осуществляться параллельно).12
Данный метод был создан по принципу действия биологических
нейронов. Такие искусственные нейронные сети обладают входящими
данными
(как
и
биологические
нейроны
обладают
дендритами)
и
исходящими данными (как биологические нейроны – аксонами). Кроме этого
искусственные нейроны имеют некоторые предрасположенности, которые
влияют на силу исходящих данных. Принцип обучения в данных моделях
изменяет силу связи между нейронами и предположениями.
Математически нейронные сети могут быть описаны следующим
образом: нейронный входящий путь (входящие данные)  обладает сигналом
 , а сила пути характеризуется весом  . Нейрон моделируется как сумма
взвешенных сигналов входящих данных с добавлением узла смещения .
Количество
узлов
соответствует
числу
переменных,
которые
надо
спрогнозировать. Исходящие данные  обычно представляют собой
сигмовидную логистическую функцию последней суммы:  =
1
1+ −
, где
 = ∑   + .
Процесс обучения возникает при корректировке весов и узла смещения.
Чаще всего для этих целей используют метод, который называется обратным
распределением
ошибки.
В
этом
методе
веса
корректируются
для
минимизации квадрата разности между модельными исходящими данными и
желаемыми
исходящими
данными.
Квадратная
ошибка
затем
распространяется назад по сети и используется для корректировки весов и
смещений. Ошибка описывается формулой:
12
Stergiou C., Siganos D. Neural Networks [Electronic resource]// Neural Networks: [website]. URL:
http://www.doc.ic.ac.uk/~nd/surprise_96/journal/vol4/cs11/report.html (дата обращения17.05.2012)
16
1
 = ∑ ∑(, − , )2 ,
2
(1.5)
где:
c –индекс по набору данных, используемых для оценки сети,
j – индекс по исходящим элементам сети,
y – фактическое состояние исходящих элементов для данного набора
входящих данных,
d – желаемое состояние исходящих элементов для данного набора входных
данных.
Помимо слоев с входящими и исходящими данными, искусственные
нейронные сети могут содержать от 1 и более промежуточных слоев (так
называемых скрытых слоев). Каждый слой состоит из искусственных
нейронов, которые соединены с другими нейронами в близлежащих слоях.
Так как эти сети содержат много взаимодействующих нелинейных нейронов
в множественных слоях, то они могут улавливать относительно сложное
поведение данных.13 Схема нейронной сети будет выглядеть следующим
образом (см рис.1.2.):
Рис.1.2. Простая нейронная сеть14
К практическим проблемам, связанным с методом ANN, относятся:
Hill T., Marquez L., O’Connor M., Remus W. Artificial neural network models for forecasting and decision
making// International Journal of Forecasting. 1994. Vol.10. P.5-15.
14
Stergiou C., Siganos D. Neural Networks [Electronic resource]// Neural Networks: [website]. URL:
http://www.doc.ic.ac.uk/~nd/surprise_96/journal/vol4/cs11/report.html (дата обращения17.05.2012)
13
17
1. Динамичное развитие нейронных сетей, поскольку все время
появляется что-то новое и происходит улучшение предыдущих
техник прогнозирования с использованием нейронных сетей;
2. Большая
интенсивность
использования
компьютеров
и
программного обеспечения при работе с подобными моделями;
3. Сложность интерпретации структуры модели.15
Поскольку искусственные нейронные сети лучше всего подходят для
определения моделей поведения и трендов в данных, то они особенно хорошо
подходят для:
 прогнозирования продаж,
 управления производственным процессом,
 исследования клиентов,
 проверки достоверности данных,
 управления рисками,
 целевого маркетинга.16
1.3.
Прочие методы прогнозирования
1.3.1. «Долгая память»
Так как иногда ряд процессов ARIMA не может быть смоделирован
целым числом d, а характер ACF в таком случае соответствует скорее какомуто промежуточному d между 0 и 1, были предложены модели с «долгой
памятью». В таких моделях параметр интеграции d является дробным числом
или превышает 0, а сам процесс испытывает эффект долгой памяти в том
плане, что наблюдения на длительном промежутке времени имеют
Hill T., Marquez L., O’Connor M., Remus W. Artificial neural network models for forecasting and decision
making// International Journal of Forecasting. 1994. Vol.10. P.5-15.
16
Stergiou C., Siganos D. Neural Networks [Electronic resource]// Neural Networks: [website]. URL:
http://www.doc.ic.ac.uk/~nd/surprise_96/journal/vol4/cs11/report.html (дата обращения17.05.2012)
15
18
определенную зависимость. В рядах данных с долгой памятью коэффициенты
автокорреляции
убывают
допустим,

что
с
гиперболической
дискретный
-
процесс
скоростью.17
с
Например,
автокорреляционным
коэффициентом  лага j, то тогда процесс содержит «долгую память», если
выполняется условие:
lim ∑| | = ∞
(1.6)
→∞
Таким образом, долгая память подразумевает, что процесс содержит много
временных зависимостей.18
К моделям, содержащим в себе «долгую память» можно отнести,
например, модели ARFIMA (AutoRegressive Fractionally Integrated Moving
Average)19 и ARARMA.
Модель ARARMA основана на концепции памяти, определенной Parzen
в 1981 году. Он предложил, что первым шагом в моделировании должна
являться классификация рядов данных по трем видам памяти: отсутствие
памяти (белый шум), короткая память (стационарные ряды) и долгая память
(нестационарные ряды). Основная идея прогнозирования рядов данных,
содержащих в себе третий вид памяти, заключается в приведении их к
стационарному виду.
Для того, чтобы определить какой вид памяти содержится в
определенном
ряде
данных,
необходимо
рассмотреть
линейную
трансформацию временных рядов ̂ =  + 1 −1 + ⋯ +  − , где:
2
̂ |2
∑
=1+|
̂ = ∑
2
=1+| |
(1.7)
17
Poom H. Long memory volatility models [Electronic resource]// Manchester Business School: [website]. URL:
https://phps.portals.mbs.ac.uk/Portals/49/docs/spoon/LM.pdf (дата обращения17.05.2012)
18
Lildholdt P. Long memory and ARFIMA modeling [Electronic resource]// Aarhus University: [website]. URL:
http://mit.econ.au.dk/vip_htm/plildholdt/Master%20thesis.pdf (дата обращения17.05.2012)
19
Gooijer J., Hyndman R. 25 years of time series forecasting// International Journal of Forecasting. 2006. Vol. 22. P.
443-473.
19
В таком случае, для рядов без памяти все значения ̂ удовлетворяют
правилу:
̂ 2 +
2

1
>− ,
(1.8)

А для рядов с длинной памятью некоторые значения ̂ удовлетворяют
8
правилу: ̂ 2 < .

По мнению Parzen, короткую память можно описать моделью ARMA, а
длинную – AR (отсюда и название метода).
20
Идея модели заключается в
процессе трансформации из  в ̂ . Методика построения ARARMA может
быть описана следующим образом:
1. Сначала стоит выбрать одну из нескольких моделей AR(1), AR(2)
либо модели высоких лагов вида: Yt = anYt−n ;
2. Далее следует оценить выбранную AR модель для описания
нестационарности в ряде данных (на основе коррелограммы ряда
данных), после чего надо выбрать лучшую для описания модель,
используя информационные критерии AIC или CAT.
3. Затем надо рассчитать остатки модели: ̂′ =  − ̂ ,
Если выполняется условие, что ̂′ - нормально распределена, то модель
«фильтра» выбрана правильно. То есть, следует выбирать ту спецификацию
AR, у которой распределение остатков наиболее приближено к нормальному.
4. Далее строится модель AR, и на ее основе рассчитываются
прогнозные значения. Кроме того на этом шаге необходимо
сгенерировать новый ряд на основе остатков выбранной AR модели
для определения вида модели ARMA, которую можно было бы
использовать в дальнейшем.
20
Parzen E. ARARMA Models for Time Series Analysis and Forecasting//Journal of Forecasting. 1982. Vol.1. P.6782.
20
5. Дальнейшим шагом будет определение вида модели ARMA по
стационарному процессу (в этом случае остатки также должны быть
нормально распределены).
6. Затем надо, как и в случае с AR процессом, получить расчетные и
прогнозные значения.
7. В итоге надо будет сгенерировать два новых ряда, один из которых
представляет собой сумму расчетных значений, полученных с
помощью AR и ARMA, а другой – сумму прогнозов. После
объединения этих двух рядов в один, мы получим ряд данных,
который описывает реальные значения и выдает также прогноз на
будущее.
Кроме того, для прогнозирования рядов с долгой памятью часто
используется модель ARFIMA. Данный метод является обобщением модели
ARIMA, в которой параметр d, отвечающий за степень интеграции, может
быть дробным числом. Granger и Joyeux (1980) и Hosking (1981) независимо
друг от друга разработали данный метод. Дробное значение параметра
разницы d может вызвать некоторые затруднения в понимании данного
метода, поэтому здесь стоит остановиться более подробно. Для начала
определим лаговый оператор B, для которого верно следующее:  = −1 .
Далее стоит определить оператор разницы ∆= 1 − , то есть ∆ =
(1 − ) =  − −1 . Случайное блуждание имеет параметр d=1 и может
быть записано как ∆ =  , то есть первая разница для ряда данных 
является белым шумом. Аналогично,  = ∆−1  =
1
,
1− 
где ∆−1 и есть
оператор интеграции.21
Модель ARFIMA (p,d,q) определяется как:
21
Poom H. Long memory volatility models [Electronic resource]// Manchester Business School: [website]. URL:
https://phps.portals.mbs.ac.uk/Portals/49/docs/spoon/LM.pdf (дата обращения17.05.2012)
21
() = ()(1 − )−  ,
(1.9)
где:
параметр d принадлежит промежутку (-0,5;0,5),
() = (1 − 1  − ⋯ −   ) имеет порядок p,
() = (1 − 1  − ⋯ −   ) – порядок q соответственно со всеми их
корнями вне единичного круга.22
Для различных значений d выполняется следующее:
 Если d не принадлежит промежутку (-0,5;0,5), то процесс является либо
стационарным, либо обратимым, но может быть суммирован или
дифференцирован конечное целое число раз, до тех пор пока d не
попадет в желаемый интервал.
 Если
1
2
≤  < 1, то процесс не обладает стационарной ковариацией, но
возвращает значения среднего в том плане, что эффект шоков затихает,
хотя и достаточно медленно.
 Если d=0, то мы имеем дело с обычной моделью ARMA.
1
 Если − <  < 0, то значения автокорреляции отрицательны и
2
уменьшаются гиперболически, а сам процесс является неустойчивым.23
Однако стоит отметить, что данный метод может давать неадекватные
результаты относительно рядов данных, содержащих долгую память, если
они обладают в одно и то же время линейной и нелинейной структурой. Для
того, чтобы избавиться от этого недостатка, используется комбинирование
линейных и нелинейных
моделей, что улучшает точность прогнозов. В
22
Aladag C., Egrioglu E., Kadilar C. Improvement in Forecasting Accuracy Using the Hybrid Model of ARFIMA
and Feed Forward Neural Network [Electronic resource] // Scientific and Academic Publishing: [website]. URL:
http://article.sapub.org/10.5923.j.ajis.20120202.02.html#Sec2 (дата обращения17.05.2012)
23
Andersson M. On Testing and Forecasting in Fractionally Integrated Time Series Models [Electronic resource]//
Academic
Archive
On-line:
[website].
URL:
http://www.divaportal.org/smash/record.jsf?searchId=1&pid=diva2:221764 (дата обращения17.05.2012)
22
следующей
главе
данная
тема
объединения
нескольких
методов
прогнозирования
является
прогнозирования будет раскрыта подробнее.
1.3.2. Метод Хольта
Одним
из
самых
простых
методов
экспоненциальное сглаживание. В общем своем виде такие методы не
подходят для целей нашего исследования, потому что они зачастую не
учитывают существование трендов в данных.
Однако
существует
несколько
расширений
стандартного
экспоненциального сглаживания. К таким методам относится и метод Хольта
(иногда называется двойным экспоненциальным сглаживанием). Этот метод
используется, когда данные отображаются в виде тренда. Двойное
экспоненциальное сглаживание чем-то напоминает простое сглаживание за
исключением того факта, что в данном случае каждый период должны
обновляться две компоненты: уровень и тренд ряда. Уровень представляет
собой сглаженное значение данных в конце каждого периода, а тренд –
сглаженное значение среднего роста в конце каждого периода. Формальная
запись двойного экспоненциального сглаживания представляет собой
рекуррентную форму модели Хольта 2-1 (см. табл. 1.1.). Примечательно, что
текущее значение ряда используется для того, чтобы подсчитать его
сглаженное значение замещения в двойном экспоненциальном сглаживании.
У данного метода есть преимущество в гибкости, которая позволяет
выбирать соотношение, отслеживающее как уровень, так и наклон. При этом,
в методе Хольта оба значения сглаживаются непосредственно, но с
использованием разных постоянных сглаживания для каждого из них.
Помимо двойного сглаживания, существуют также модели тройного
экспоненциального сглаживания. Данный способ используется при наличии
23
тренда и сезонности. Для управления сезонностью необходимо ввести третий
параметр. Таким образом, вводится третье уравнение в модель, которая
известна
как
модель
Хольта-Уинтерса.
Различают
две
главных
ее
разновидности в зависимости от типа сезонности: модель с аддитивной
сезонностью и с мультипликативной.24 (см. табл. 1.1.)
Таблица 1.1.
Модели линейного тренда Хольта-Уинтерса25
Модель
Рекуррентная форма
Скорректированная
на ошибку форма
Несезонная
(2-1)
(модель Хольта)
С
аддитивной
сезонностью (2-2)
С
мультипликативной
сезонностью (2-3)
 =  + (1 − )(−1 + −1 )
 = −1 + −1 + 
 = ( − −1 ) + (1 − )−1
 = −1 + 
⏞ () =  + 

⏞ () =  + 

 = ( − − ) + (1 − )(−1 + −1 )
 = −1 + −1 + 
 = ( − −1 ) + (1 − )−1
 = −1 + 
 = ( −  ) + (1 − )−
 = − + (1 − )
⏞ () =  +  + −+

⏞ () =  +  + −+

 = ( /− ) + (1 − )(−1 + −1 )
 = −1 + −1 +  /−
 = ( − −1 ) + (1 − )−1
 = −1 +  /−
 = ( / ) + (1 − )−
 = − + (1 − ) /
⏞ () = ( +  )−+

⏞ () = ( +  )−+

где:
α – сглаживающий параметр для уровня ряда;
γ – сглаживающий параметр для тренда;
δ – сглаживающий параметр для сезонных факторов;
St – сглаженный уровень ряда, подсчитанный после наблюдаемого Xt. Также
ожидаемая оценка данных в конце периода t в некоторых моделях;
Tt – сглаженный тренд в конце периода t;
24
Kalekar P.S. Time series forecasting using Holt-Winters exponential smoothing. [Electronic resource]// Kanwal
Rekhi
School
of
Information
Technology:
[website].
URL:
http://www.it.iitb.ac.in/~praj/acads/seminar/04329008_ExponentialSmoothing.pdf (дата обращения17.05.2012)
25
Gardner S.E, Jr Exponential Smoothing: The state of the Art// Journal of Forecasting. 1985. Vol.4. P.1-28
24
It – сглаженный сезонный индекс или фактор в конце периода t;
Xt – наблюдаемое значение временного ряда в периоде t;
m – число периодов в прогнозируемом процессе освоения;
p – число периодов в сезонном цикле;
X t (m) - прогноз на m периодов вперед от первоначального t;
εt – прогнозная ошибка на шаг вперед.
Ниже приведена таблица (см. табл.1.2.), в которой отображены
основные формулы для моделей линейного тренда Брауна, являющихся
частными случаями моделей Хольта-Уинтерса.
Таблица 1.2.
Модели линейного тренды Брауна (* обозначает эквивалентные
модели)26
Модель
Рекуррентная форма
Скорректированная на
ошибку форма
Несезонная (3-1)*
 =  + (1 − )−1
 = −1 + −1 + 
 = ( − −1 ) + (1 − )−1
 = −1 +  2 
1−
⏞ () =  + (

) + 

1−
⏞ () =  + (

)  + 

 =  + (1 − )−1
 = −1 + −1 + (2 − )
Несезонная (3-2)*
⏞ ()

∗
∗ =  + (1 − )−1

= 2 − ∗ + (
)( − ∗ )
1− 
С аддитивной
сезонностью (3-3)
 = −1 +  2 
⏞ () =  + 

 = −1 + −1 + (2 − )
N/A
 = −1 +  2 
 = − + [1 − (2 − )]
⏞ () =  +  + −+

С
 = −1 + −1 + (2 − ) /−
мультипликативной
сезонностью (3-4)
26
N/A
 = −1 +  2  /−
 = − + [1 − (2 − )] /
⏞ () = ( +  )−+

Gardner S.E, Jr Exponential Smoothing: The state of the Art// Journal of Forecasting. 1985. Vol.4. P.1-28
25
N/A – not applicable
В модели 2-1 используются разные параметры для сглаживания уровня
и тренда ряда. В моделях Брауна применяется единый параметр для
сглаживания обоих компонентов. Для развития моделей Хольта-Уинтерса
использовалось эвристическое обоснование, в то время как в моделях Брауна
дисконтированный
дисконтирования
метод
наименьших
квадратов
с
фактором
 = 1 − . Модель Хольта - Уинтерса является более
общей по сравнению с моделью Брауна. Так, например, модели 3-1 и 3-2
эквивалентны и в обоих случаях являются частными случаями моделей
Хольта-Уинтерса.
Сезонные модели 2-2 и 2-3 требуют наличия трех параметров, которые
могут быть громоздкими в больших предсказывающих системах. В случае же
с моделями Брауна, требуются только два параметра. Это достигается путем
добавления Holt-Winters сезонной обновленной процедуры к модели Брауна
3-2. Макридакис отмечал, что и модели Хольта-Уинтерса, и модели Брауна
дают хорошие результаты в краткосрочной перспективе. Однако на более
длинных горизонтах (>3-4 периода вперед) они имеют тенденцию завышать
данные.27
Модель Хольта-Уинтерса чаще используется на практике. Она является
развитием модели Хольта и отличается от нее наличием сезонной
составляющей. Преимущество данных моделей заключается в том, что с их
помощью можно учитывать тенденции в рядах исходных данных. Однако эти
модели обладают и парой недостатков: в их основе лежит «допущение о
наличии этих тенденций» и идея о несильной их изменяемости, что редко
достигается на практике. Таким образом, через некоторый промежуток
времени происходят расхождения, и довольно большие, с реальными
27
Gardner S.E, Jr Exponential Smoothing: The state of the Art// Journal of Forecasting. 1985. Vol.4. P.1-28
26
значениями. Помимо этого, отдельные сложности сопряжены с подбором
значений коэффициентов сглаживания.
Если говорить о постоянных сглаживания, необходимо также отметить,
что обычное ограничение на , принадлежащие промежутку от 0 до 1,
вводится по аналогии с моделью Брауна, что вызывает некоторое ухудшение
моделей, поскольку данное условие принесено в них извне.28 Поэтому для
корректного прогнозирования имеет смысл использовать расширенные
границы.
1.3.3. CEWMA
В качестве еще одного метода, с помощью которого можно было бы
попробовать прогнозировать данные, можно назвать метод CEWMA
(Complex
Exponentially
Weighted
Moving
Average).
Данная
модель
представляет собой несколько более сложную модификацию модели Брауна.
Прогнозные значения задаются по следующему алгоритму:
̂+1 + ̂+1 = (0 + 1 )( +  ) + (1 − 0 +  − 1 )(̂ + ̂ ) (1.10)
где:
0 и 1 - параметры сглаживания,
 - комплексное число.
В данной модели коэффициенты принадлежат следующим интервалам:
1 ∈ (1 − √1 − (1 − 0 )2 ; 1 + √1 − (1 − 0 )2 )
и
0 < 0 < 2.
Здесь
с
практической точки зрения большую роль играют сходимость и скорость
сходимости ряда комплексных чисел. Чем быстрее ряд сходится, тем
большую значимость получают текущие значения.
Светуньков И.С. Самообучающаяся модель краткосрочного прогнозирования социально-экономической
динамики //Модели оценки, анализа и прогнозирования социально-экономических систем. Харьков: Харьков
ИД «ИНЖЕК», 2010. С. 11—32.
28
27
Характерной особенностью модели CEWMA является то, что для ее
построения не требуется априорное задание вида тенденции в ряде данных, в
отличие от той же модели Брауна и ее модификаций. Кроме того, данная
модель достаточно гибка и позволяет улавливать тенденции изменения
данных и описывать их.
Эффективность
модели
зависит
от
выбираемых
значений
коэффициентов 1 и  0 . При проведенных ранее исследованиях было
замечено, что наиболее точные результаты получаются, если комплексный
коэффициент сглаживания приближен к 0, 5  i . Помимо этого, выяснилось,
что модель достаточно чувствительна к первоначальным условиям. Это
означает, что малейшие изменения в перечисленных данных могут вызвать
неожиданное поведение прогнозных значений. 29
29
Светуньков И.С. Самообучающаяся модель краткосрочного прогнозирования социально-экономической
динамики //Модели оценки, анализа и прогнозирования социально-экономических систем. Харьков: Харьков
ИД «ИНЖЕК», 2010. С. 11—32.
28
ГЛАВА 2. КОМБИНИРОВАНИЕ РАЗЛИЧНЫХ МЕТОДОВ
ПРОГНОЗИРОВАНИЯ
Поскольку существует такое большое количество моделей, с помощью
которых можно прогнозировать риски и неопределенность, то встает вопрос о
выборе наилучшего метода. Однако здесь мы сталкиваемся с определенными
трудностями. Во-первых, если выбирать прогнозный метод, руководствуясь
подходами, основанными на статистическом тестировании гипотез, то
необязательно выбранная модель будет давать лучшие прогнозные значения
и лучше предсказывать риск. Кроме того, при небольшом или умеренном
количестве наблюдений, близкие друг к другу модели трудно различить и
критерии, на которых основывается обычно выбор метода прогнозирования, в
таком случае будут также очень близки друг к другу. Малейшее изменение в
данных может привести к выбору совершенно другой модели, и как
вследствие прогноз, основанный на таком методе, будет обладать большой
изменчивостью и непостоянностью. Чтобы избавиться
от подобных
трудностей, было предложено использовать комбинацию нескольких методов
прогнозирования. Впервые данное предложение выдвинули Bates и Granger в
1969 году, а затем другие исследователи развили его. Однако не все
исследователи считают, что данный способ оправдан: например, статистики
возражают против использования комбинирования прогнозов, поскольку в
таком случае традиционные техники проверки статистической значимости не
срабатывают. Но исследования показывают, что при использовании данной
процедуры обычно получаются более точные прогнозы, чем при оценивании
каждой модели по отдельности.30
30
Zou H., Yang Y. Combining time series models for forecasting// International Journal of Forecasting. 2004.
Vol.20. P.69-84.
29
2.1. Методы комбинирования прогнозных моделей
Прежде чем переходить к различным техникам комбинирования,
следует сказать пару слов о рекомендациях к ним. Так J. Scott Armstrong
подытоживает семь основных принципов комбинирования прогнозов:
 Использование различных методов прогнозирования или данных из
различных источников (или все вместе);
 Использование прогнозов из 5 методов, когда это возможно;
 Использование формальных процедур комбинирования;
 В случае высокой неопределенности использование равных весов;
 Использование порядковых средних (trimmed mean);
 Веса должны быть основаны на доказательствах первоначальной
точности;
 Если есть строгие доказательства, что одна из моделей ведет себя
лучше другой, то ей надо назначать большие веса при комбинировании;
Кроме того, автор отмечает, что комбинирование наиболее эффективно,
когда неясно какой из методов прогнозирования лучше всего выбрать, когда
непонятна сама прогнозируемая ситуация и когда цена ошибки достаточно
велика.
Основным способом комбинирования является назначение весов
прогнозам различных моделей. Основная проблема заключается в выборе
этих самых весов. Так помимо всего прочего различают 5 основных методов
механического распределения весов, а именно: равные веса, сравнимые веса
(peer weights), собственные веса (self weights), групповые веса и средние веса
(основанные на собственных и групповых). 31
31
Armstrong J.S. Combining forecasts//Principles of Forecasting: a handbook for researchers and practitioners,
Kluwer Academic Publishing, 2001. P.417-439.
30
2.1.1. Метод AFTER
Одним
из
возможных
способов
комбинирования
моделей
для
получения более точных прогнозов может являться метод AFTER (Aggregated
Forecast through Exponential Re-weighting), предложенный Y. Yang (Yang,
2001b). Он заключается в задании соответствующих весов, при которых
комбинированные прогнозы имеют меньшую изменчивость, то есть точность
этих прогнозов возрастает.32
Yang выделяет несколько способов задания весов при комбинировании
прогнозов в зависимости от того, известны ли нам условные дисперсии (что
бывает очень редко), или же мы оцениваем их, или в случае, когда мы не
используем оценку дисперсий вовсе. В рамках данной работы наибольший
интерес представляют два последних случая.
Когда
мы
имеем
дело
с
оцененными
дисперсиями
̂, ,
то
предполагается, что их оценки близки к истинным значениям, то есть
существует такая константа  > 1, что выполняется условие для всех  ≥
1 и  ≥ 1:
1

≤
̂,

≤
(2.1)
Тогда веса будут назначаться согласно следующему алгоритму, где
,1 =  , а для всех  ≥ 2 верно:
, =
2
̂ , )

−1( −
∑
exp(−0,5 =1
)
0,5
̂,

∏−1
,
=1
2
̂ ′ )
 ′
( −


,
∑′ ≥1
exp(−0,5 ∑−1
)
0,5
=1
̂ ′

∏−1

 ,
′
=1
 ,
(2.2)
И тогда прогнозы комбинируются согласно их весам:
̂∗ = ∑∞
̂, ,
=1 , 
(2.3)
где:
32
Zou H., Yang Y. Combining time series models for forecasting// International Journal of Forecasting. 2004.
Vol.20. P.69-84.
31
̂, - прогнозные значения, полученные с помощью различных методов
прогнозирования, используемых затем в комбинировании.
В том случае, когда мы не используем оценки дисперсий (если,
например, данные нестационарны, то может быть достаточно сложно оценить
условную дисперсию правильно), веса будут задавать по следующему
принципу:
 Выполняется предположение о том, что все прогнозы лежат в пределах
от –А до А, где А положительная константа;
 Предположим, что ψ является фиксированной неотрицательной конвекс
функцией, где ψ(0)=0;
 Предположим, что существует константа 0 > 0 и продолжающиеся
функции 0 < 1 (), 2 () < ∞ на промежутке (-0 , 0 ) такие, что для
всех −0 ≤  ≤ 0 и  ≥ 1:
 | |2 exp(| | ) ≤ 1 ()
 exp(| | ) ≤ 2 (),
(2.4)
где  > 0
 Тогда если ,1 =  , то для всех  ≥ 2 выполняется:
, = ∑
̂ , ))
 exp(− ∑−1
=1 ψ( −
′ ≥1
̂ ′ , ))
′ exp(− ∑−1
=1 ψ( −
,
(2.5)
где  представляет собой положительную константу.
 Комбинирование происходит по тому же принципу, что и в
предыдущей ситуации (см. уравнение 2.3). 33
Данный метод, однако, обладает несколькими недостатками, такими
как: сложность применения и сильная зависимость получаемых весов от
первого задаваемого значения. Задание весов с помощью компьютерных
33
Yang Y. Combining Forecasting Procedures: Some Theoretical Results// Department of Statistics and Statistical
Laboratory Iowa State University. 2000. P.1-20.
32
программ,
использующих
подбор
параметров
при
определенных
ограничениях, позволит избежать оба этих минуса метода.
2.1.2. Метод, основанный на минимизации критерия leave–h–out кросс
оценки
′
Рассмотрим модель вида  = −ℎ
̂ + ̂ , оцененную уже с помощью
МНК, которая позволяет прогнозировать на h шагов вперед. В таком случае
прогнозные значения задаются как: ̂+ℎ| = ′ ̂ .
Далее
стоит
рассчитать
некоторые
критерии,
которые
можно
использовать для выбора той или иной модели прогнозирования. Для начала
посчитаем MSFE (Mean Square Forecast Error) по формуле:
 = (+ℎ − ̂+ℎ| )2
(2.6)
Кроме того, стоит посчитать leave-h-out cross-validation критерий,
который немного похож на AIC (Akaike information criterion), но устойчив к
гетероскедастичности:
1
2
ℎ = ∑=1 ̃,ℎ
,

(2.7)
где ̃,ℎ – остатки, полученные с помощью МНК с 2h+1 наблюдениями {t-h+1,
… , t+h-1}, которые были пропущены.
Допустим теперь, что мы рассматриваем M прогнозных моделей, где
каждая модель обладает k(m) регрессорами, остатками ̂ (), оцененной
дисперсией ̂ 2 () и прогнозом ̂+ℎ| (). Прогнозы комбинируются
следующим образом: ̂+ℎ| = ∑
̂+ℎ| (). Теперь главная задача
=1 ()
заключается в выборе набора весов (), при котором комбинированная
модель будет обладать большей точностью.
33
Поскольку мы имеем дело с прогнозированием на несколько шагов
вперед, то веса следует выбирать так, чтобы минимизировать leave-h-out
cross-validation критерий:
1
2
2
ℎ () = ∑=1(∑
=1 () ̃ ,ℎ ()) ,
(2.8)

который основан на предложенном Hansen и Racine в 2009 году методе JMA
(Jackknife model averaging).34
Как и в случае с предыдущим методом задания весов, данный способ
также
отличается
запутанностью
применения
и
довольно
большим
количеством шагов, которые необходимо выполнить прежде, чем получить
веса. Кроме того, предложенный метод имеет в своей основе немного
модифицированную идею задания весов, основанную на минимизации
остатков (правда полученных с помощью МНК с 2h+1 наблюдениями),
которую можно было воплотить быстрее и с меньшим количеством усилий
при использовании компьютерных программ.
2.2. Задания весов с помощью компьютерных программ
Как было сказано выше, помимо различных статистических и
экспертных методов задания весов для комбинирования тех или иных
прогнозов вместе можно использовать алгоритмы, уже заложенные в
различные
пакеты
обработки
данных.
Подобный
способ
позволяет
автоматизировать процедуру задания весов и избавлен от ряда недостатков
уже перечисленных методов. Наверное, одним из самых простых способов
будет использование «поиска решений» в
MS Excel
при
задании
определенных ограничений. В качестве ограничений можно выдвинуть
34
Hansen B. Multi-step Forecast Model Selection [Electronic resource]// University of Wisconsin: [website]. URL:
http://www.ssc.wisc.edu/~bhansen/papers/hstep.pdf (дата обращения 17.05.2012)
34
следующие: ∑=1  = 1; 0 ≤  < 1 для ∀  ∈ (1, ) или wj = 1, j ≠ i, тогда
все остальные wi = 0.
Для критерия, используемого в подборе весов, можно использовать
принцип минимизации квадратов остатков:
∑=1( − ̂∗ )2 → 0,
(2.10)
Тогда веса буду назначаться по принципу:
̂∗ = ∑=1  ̂ ,
где:
̂ -
прогнозы,
прогнозирования,
полученные
используемых
с
при
(2.11)
помощью
различных
комбинировании,

методов
-
веса,
назначаемые этим прогнозам, ̂∗ - прогнозные значения комбинированной
модели и  - собственно значения ряда данных.
По сравнению с другими методами комбинирования, данный способ
интуитивно понятен, легко применим на практике, и для него не требуется
каких-то дополнительных расчетов.
Кроме данного способа, можно также при задании весов использовать
оценку коэффициентов регрессии, в которой объясняемая переменная будет
зависеть от прогнозов, полученных по другим моделям.
Исходя из всех выше перечисленных способов задания весов, мы
решили остановиться на использовании алгоритма «Поиска решений» в Excel
из-за простоты применения данного метода. Кроме того, было решено
сравнить, при каком способе комбинированные модели будут давать лучший
результат:
1. Если веса назначать, минимизируя квадраты остатков, полученные
по ряду данных, или
2. Если
веса
назначать,
минимизируя
квадраты
остатков
по
прогнозным значениям, которые мы затем будем сравнивать с
реальными данными (по формуле 2.11).
35
ГЛАВА 3. ПРАКТИЧЕСКИЕ РЕЗУЛЬТАТЫ
Для практической части данной работы было решено использовать
данные по серебряному фиксингу, курс которого публикуется The London
Bullion Market Association. Серебряный фиксинг представляет собой метод
ежедневного установления цены на серебро на Лондонском межбанковском
рынке серебра, начиная с 1897 года. Данный показатель был выбран по ряду
причин. Во-первых, драгоценные металлы широко используются в качестве
финансовых активов. Кроме того, они являются объектом инвестирования и
играют
немаловажную
роль
в
некоторых
отраслях
промышленного
производства. Наш выбор пал на серебро из-за сложности прогнозирования
цен на данный металл (различные инвесторы сходятся во мнении, что рынок
серебра является одним из самых волатильных и непредсказуемых товаров
для инвесторов) и из-за огромного его значения для промышленности.
Помимо традиционных сфер применения серебра, таких как создание
фотографий и изготовление ювелирных изделий и столового серебра, данный
металл благодаря своим свойствам необходим для создания различных плат
переключателей в электронике (например, кнопки телевизора, клавиатура),
используется для покрытия CD и DVD дисков и является одной из
составляющих плазменных экранов. Серебро также необходимо для создания
батареек, аккумуляторов, кинопленки и, как ни странно, пластмассы (где
данный металл используется в качестве катализатора при получении оксида
этилена и формальдегида). Вдобавок к этому, серебро необходимо для
дистилляции воздуха и воды. И наконец, серебро из-за своих бактерицидных
свойств широко используется в медицине (причем не только в качестве сырья
для изготовления различных медицинских приборов, но и как составляющая
некоторых лекарств).
36
3.1.
Обзор рынка серебра
Теперь необходимо сказать пару слов о самом рынке серебра. Данные
по спросу и предложению серебра приведены на рис.3.1. (по данным World
Silver Survey 2012, опубликованным The Silver Institute):
Рис.3.1. Спрос и предложение серебра на 2010 и 2011 года35
Как видно из данного рисунка общее предложение в 2011 году
сократилось на 3 % по сравнению с 2010 и составило 1040,6 Moz (где 1
Moz=31,103 тонн). Подобное падение было обусловлено сокращением
чистого правительственного объема продаж (Net Government Sales) и
снижением хеджирования среди производителей (Producer Hedging) (см.
рис.3.2.). Что касается падения правительственных продаж, то оно было
35
Thomson Reuters GFMS for The Silver Institute/ World Silver Survey 2012 A Summary [Electronic resource]//
SilverWheaton:
[website].
URL:
http://www.silverwheaton.com/files/docs_quick%20links/World%20Silver%20Survey%202012%20Summary.pdf
(дата обращения17.05.2012)
37
почти полностью вызвано значительным снижением выбытия из России. Но,
несмотря на все это, добыча серебра возросла по сравнению с 2010 годом.
Рис.3.2. Изменения в предложении серебра36
Что касается спроса, то здесь по всем пунктам кроме монет и медалей
произошло снижение (хоть и небольшое, если рассматривать каждый пункт в
отдельности). Нагляднее всего изменения в спросе видны на рис.3.3.
Применение в промышленности сократилось в основном из-за проблем в
Еврозоне (хотя 10-летний тренд использования серебра в промышленности
остается возрастающим); сокращение спроса на серебро, требующееся для
фотографий, продолжило падающий тренд для данного показателя (что,
скорее всего, указывает на
изменение видов фотоаппаратов); спрос в
ювелирной среде понизился из-за высоких цен и общего слабого
36
Klapwijk P. World Silver Survey 2012. [Electronic resource]// Thomson Reuters GFMS: [website]. URL:
http://www.gfms.co.uk/media_advisories/TR%20GFMS%20World%20Silver%20Survey%202012%20Presentation.
pdf (дата посещения 12.04.2012)
38
экономического состояния в мире;
спрос на серебряные изделия также
снизился из-за высоких цен и структурных трендов.37
Рис. 3.3. Изменения в спросе на серебро у изготовителей38
Таким образом, из сводной таблицы (рис.3.1.) мы можем видеть, что
добыча серебра увеличивается, несмотря на небольшое сокращение спроса.
Причем стоит отметить, что самыми крупными зонами роста добычи серебра
стали такие страны, как Мексика, Россия, Польша и Китай (вместе увеличили
вклад в добываемое серебро на 27,3 Moz (что эквивалентно 850 тоннам).
Значительное сокращение в добыче наблюдалось в Австралии, Перу, США и
Турции (составило 632 тонны).39
Из всего вышеперечисленного можно сделать вывод, что в дальнейшем
спрос и предложение серебра будут немного увеличиваться по мере выхода
37
Thomson Reuters GFMS for The Silver Institute/ World Silver Survey 2012 A Summary - [website]. URL:
http://www.silverwheaton.com/files/docs_quick%20links/World%20Silver%20Survey%202012%20Summary.pdf
38, 39
Klapwijk P. World Silver Survey 2012. [Electronic resource]// Thomson Reuters GFMS: [website]. URL:
http://www.gfms.co.uk/media_advisories/TR%20GFMS%20World%20Silver%20Survey%202012%20Presentation.
pdf (дата посещения 12.04.2012)
39
из слабой экономической ситуации и укрепления уверенности и доверия
инвесторов к данному драгоценному металлу. В то же время по отдельным
составляющим предложения и спроса продолжатся понижающиеся тренды
(как, например, будет понижаться спрос на серебро для нужд фотоиндустрии
и столового серебра и предложение, связанное с правительственными
продажами и хеджированием).
3.2.
Построение прогнозов с помощью линейных методов
Сначала было решено построить прогнозы по полученным данным с
помощью линейных методов (CEWMA и метод Хольта). Для начала был
рассмотрен сам ряд данных. Ниже приведен график цен на серебряные
слитки, начиная с 03.01.12 по 28.03.13 гг. (см. рис.3.4., также сами данные
доступны в приложении 1).
Цена за унцию серебра в USD за 2012-2013 гг.
29
28
27
26
25
24
USD
23
22
21
03-Jan-12
18-Jan-12
02-Feb-12
17-Feb-12
05-Mar-12
20-Mar-12
04-Apr-12
23-Apr-12
09-May-12
24-May-12
12-Jun-12
27-Jun-12
12-Jul-12
27-Jul-12
13-Aug-12
29-Aug-12
13-Sep-12
28-Sep-12
15-Oct-12
30-Oct-12
14-Nov-12
29-Nov-12
14-Dec-12
03-Jan-13
18-Jan-13
04-Feb-13
19-Feb-13
06-Mar-13
21-Mar-13
20
Рис. 3.4. Цена за 1 унцию серебра в USD
Из графика видно, что во второй половине данных наблюдается некая
сезонность, поэтому было решено проверить эту часть ряда на данный факт,
40
для чего была построена коррелограмма 1-ой разности ряда (см. приложение
2). Из приложения 2 видно, что коррелограмма улавливает некую
техническую сезонность в 21-22 шага. Подобная сезонность могла
возникнуть по ряду причин. Во-первых, цены на серебро очень сильно
зависят от цен на золото (корреляция составляет порядка 0,8). В свою очередь
сезонность золота объясняется сезонами праздников в Азии и Рождеством на
Западе, а также переводом излишка наличности в данный драгоценный
металл в конце финансового года. Трейдеры обычно склонны покупать
серебро, когда они видят, что золото дорожает. Во-вторых, цены на серебро
также сильно зависят от настроения инвесторов (было замечено, что период,
начиная с апреля и до сентября, является худшим временем в году для белого
металла). Однако низкие цены, образовавшиеся в конце лета, дают толчок к
покупке серебра, поэтому в сентябре происходит резкий скачок цен на
данный металл. В сентябре цены на золото идут вверх, ведя за собой и
серебро. В октябре (как и в марте) происходит небольшое падение цен на
золото (и серебро опять повторяет данную тенденцию), затем золото
начинает расти в ноябре (серебро продолжает все повторять за золотом), в
декабре же поведение этих двух металлов начинает расходиться – золото идет
вверх, а цена на серебро корректируются. Однако стоит отметить, что у
серебра и золота характер сезонности хоть и похож, он не является
одинаковым.40
Стоит отметить, что подобная сезонность не является постоянной, и
скорее всего к началу апреля поменяет свой характер, будучи подвержена
влиянию цен на золото.
Хамильтон А. Сезонные колебания цена на серебро [Электронный ресурс]// Goldenfront.ru: [сайт]. URL:
http://goldenfront.ru/articles/view/sezonnye-kolebaniya-ceny-na-serebro (дата обращения 17.05.2012)
40
41
3.2.1. Метод CEWMA
Исходя из того факта, что начиная с сентября в ряде данных цен на
серебро наблюдается сезонность, было решено строить модель по данным,
начиная с 03.09.12 по 28.02.13, в то время как данные за март и апрель будет
предназначены для сравнения прогнозных значений с реальными данными и
оценки точности модели. Мы отказались от идеи использовать все данные
цен на серебро по причине сложности учета тенденций в ряде данных.
С помощью функции «поиск решения» в MS EXCEL были найдены
коэффициенты, минимизирующие сумму квадратов остатков. Для подобной
модели коэффициенты получились следующими: 0 = 1,46 и 1 = 0,94.
Общий
вид
модели
выглядит
следующим
образом:
̂+1 + ̂+1 =
(1,46 + 0,94)( +  ) + (−0,46 + 0,06)(̂ + ̂ ) При таких значениях
параметров получились прогнозные значения, изображенные на рис. 3.5.
40
38
36
34
32
30
28
26
24
22
20
forecast
USD
реальные данные
tdown
tup
03-Sep-12
12-Sep-12
21-Sep-12
02-Oct-12
11-Oct-12
22-Oct-12
31-Oct-12
09-Nov-12
20-Nov-12
29-Nov-12
10-Dec-12
19-Dec-12
02-Jan-13
11-Jan-13
22-Jan-13
31-Jan-13
11-Feb-13
20-Feb-13
01-Mar-13
12-Mar-13
21-Mar-13
01-Apr-13
цена серебра
CEWMA с сезонностью
Рис.3.5. CEWMA с сезонностью
Как видно из данного рисунка, при построении модель не очень хорошо
описывала ряд, о чем также свидетельствуют следующие посчитанные
коэффициенты: MAPE1=2,9% и MAPE2=2,16%.
42
MAPE является средней процентной ошибкой и показывает точность
метода
прогнозирования.
В
данной
работе
мы
посчитали
данный
коэффициент двумя способами:
1. 1 =
2
100%
 ( − )
√∑
,
=1
̅

2. 2 =
100%

∑=1 |
 −

(3.1)
|
где:
 - действительные значения ряда,
 - прогнозные.
Чем меньше данный показатель, тем лучше. В нашем случае средняя
процентная ошибка не превысила 3%. Показатель средний, но он не помогает
нам судить о том, насколько хорошо ряд в будущем будет соответствовать
действительности – он лишь помогает судить об аппроксимационных
свойствах модели.
Что касается прогнозных значений, то для расчета их точности было
решено использовать показатель sMAPE (симметричный MAPE). Он был
рассчитан уже не для всего ряда, а лишь для ретропрогноза по формуле:
 =
100

∑=1
| − |
 +
(3.2)
Данный показатель оказался равен 3,44 %. Само по себе это значение
тоже среднее, но указывает на расхождение прогнозных и реальных данных.
Несмотря на то, что модель уловила сезонность, она была не в состоянии
учесть внешнего шока, изменившего характер этой сезонности. Отсюда и
вытекает такое расхождение предсказанных и действительных значений.
Если бы в реальных данных не произошло изменение характера этой самой
сезонности, вполне вероятно, что модель дала бы очень хорошие прогнозные
значения.
43
Кроме того, чтобы понять, правильно ли выбрана модель, стоит
посмотреть на распределение остатков (см. табл. 3.1.):
Таблица 3.1.
Тесты на нормальное распределение остатков CEWMA
Method
Value
Adj. Value
Probability
Lilliefors (D)
0.082025
NA
0.0369
Cramer-von Mises (W2) 0.086492
0.086835
0.1691
Watson (U2)
0.083516
0.083848
0.1562
Anderson-Darling (A2)
0.512383
0.515506
0.1911
По результатам теста мы не можем отклонить гипотезу о нормальности
распределения остатков на 5% уровне значимости (во всех случаях кроме
Lilliefors), поэтому модель выбрана верно.
3.2.2. Метод Хольта-Уинтерса
Поскольку раньше при построении модели CEWMA было решено, что
ряд содержит сезонность, то вместо модели Хольта, лучше строить ее
модификацию, а именно метод Хольта-Уинтерса, которая в общем виде
описывается следующей системой уравнений:
̂+ = (  +  ) + −+
 = ( − − ) + (1 − )(−1 + −1
(3.3)
 = ( − −1 ) + (1 − )−1
 = ( −  ) + (1 − )− ,
где s – шаг сезонности в модели,  ,  и  - параметры модели, , ,  ∈
(0,1) – постоянные сглаживания. В данном случае при оценке модели в MS
Excel при помощи все того же «Поиска решений» были получены следующие
значения:  = 0,55,  = 0,42 и  = 0,99. Таким образом, модель выглядит
так:
44
Прогнозные значения и их соотношение с действительностью лучше
всего смотреть на графике (см. рис.3.6.)
39
37
35
33
31
29
27
25
USD
Y^
tниж
tверх
03-Sep-12
12-Sep-12
21-Sep-12
02-Oct-12
11-Oct-12
22-Oct-12
31-Oct-12
09-Nov-12
20-Nov-12
29-Nov-12
10-Dec-12
19-Dec-12
02-Jan-13
11-Jan-13
22-Jan-13
31-Jan-13
11-Feb-13
20-Feb-13
01-Mar-13
12-Mar-13
21-Mar-13
01-Apr-13
цена серебра
Метод Хольта-Уинтерса
реальные данные
Рис.3.6. Метод Хольта-Уинтерса
Как видно из данного графика, модель ведет себя схожим образом с
методом CEWMA, но поскольку она предназначена для прогнозирования
данных с сезонностью, она не учла небольшое изменение этой самой
сезонности. Однако, если посмотреть на коэффициенты MAPE для данного
метода, то они получились достаточно хорошими (даже лучше, чем в случае
использования
метода
CEWMA),
что
говорит
о
неплохих
аппроксимационных свойствах модели: MAPE1=1,91 % и MAPE2=1,47%
Что касается соотношения реальных и прогнозных значений, то здесь
наблюдается некое их расхождение (если смотреть на график). Кроме того
посчитанный коэффициент sMAPE выдает средний результат (хуже, чем при
построении модели CEWMA), а именно 4,23%.
45
Теперь следует посмотреть на распределение остатков модели (см.
табл. 3.2.):
Таблица 3.2.
Тесты на нормальное распределение остатков модели ХольтаУинтерса
Method
Value
Adj. Value
Probability
Lilliefors (D)
0.084040
NA
> 0.1
Cramer-von Mises (W2) 0.082685
0.083171
0.1885
Watson (U2)
0.082200
0.082684
0.1622
Anderson-Darling (A2)
0.541873
0.546823
0.1596
Результаты тестов на нормальное распределение указывают, на тот
факт, что мы не можем отклонить гипотезу о нормальности распределения
остатков на 5% уровне значимости, а значит модель выбрана верно.
В
первом
случае
CEWMA
продемонстрировала
средние
аппроксимационные свойства, в то время как модель Хольта-Уинтерса
хорошие. Кроме того, обе модели в той или иной степени улавливали
тенденции
изменения
ряда
данных.
Судя
по
среднему
значению
коэффициента sMAPE для обеих моделей, нельзя сказать, что они выдают
очень хорошие прогнозные значения. Это может объясняться, во-первых, тем,
что методы не предназначены для прогнозирования волатильных данных
(используется для линейных значений), а во-вторых, они дают хорошие
результаты на небольшом горизонте прогнозирования.
В общем и целом, мы и не ожидали, что два вышеперечисленных
метода дадут хорошие результаты, так как эти методы используются для
линейных данных без высокой волатильности. Однако, они были построены
46
для того, чтобы в дальнейшем учесть их при комбинировании, поскольку
выше упоминалось, что рекомендуется использовать несколько различных
методов
прогнозирования
для
достижения
лучших
результатов
при
комбинировании.
3.2.3. Метод SARIMA
Одним
из
признаков
того,
что
можно
использовать
методы,
содержащие в себе «долгую память», является коррелограмма ряда,
убывающая гиперболически. Однако, если посмотреть на коррелограмму
ряда данных цен на серебро, то можно заметить, что она убывает скорее
экспоненциально (см. приложение 3). Исходя из этого и из того, что в ряде
обнаружилась небольшая сезонность, то вместо методов с «долгой памятью»,
было решено обратиться к классической модели SARIMA.
Для нашего случая s (лаг сезонности) брался, исходя из анализа
коррелограммы,
и
составил
22
шага.
Кроме
того,
ряд
является
нестационарным, поскольку согласно тесту на наличие единичного корня
нулевая гипотеза о наличии единичного корня (то есть о том, что ряд является
нестационарным) не отклоняется на 5 % уровне значимости (см. табл. 3.3):
Таблица 3.3.
Тест на наличие единичного корня по уровню ряда
Null Hypothesis: USD has a unit root
Lag Length: 0 (Automatic - based on SIC, maxlag=12)
Augmented Dickey-Fuller test statistic
t-Statistic
Prob.*
-1.210996
0.6684
47
Если же рассматривать первую разность, то нестационарность
пропадает (см. табл. 3.4.):
Таблица 3.4.
Тест на наличие единичного корня по 1 разности
Null Hypothesis: D(USD) has a unit root
Lag Length: 0 (Automatic - based on SIC, maxlag=12)
Augmented Dickey-Fuller test statistic
t-Statistic
Prob.*
-13.86324
0.0000
Из коррелограмы самого ряда данных (см. приложение 2) видно, что мы
имеем дело с процессом ARMA(1,0). Коррелограмма и тест на единичный
корень по первой разности указывают на то, что вместо уровня ряда надо
использовать первые разности. Коррелограмма по разности показывает, что
существует некая сезонность в размере 22 шага. Исходя из всего
вышеперечисленного, мы будем строить модель SARIMA вида: (1,1,0)(1,0,0)22
(результат ее оценки изображен в табл. 3.5.; для оценивания использовалась
программа R):
Таблица 3.5.
Результаты оценки SARIMA
AR1
SAR1
Коэффициенты
-0,1789
-0,2870
Стандартные ошибки
0,0894
0,0975
Общий вид: (1 + 0,28722 )(1 + 0,1789)(1 − )1  = 
После того, как мы оценили модель, необходимо построить прогнозные
значения (см. рис.3.7.):
48
SARIMA
35
33
USD
31
SARIMA
29
реальные данные
27
tdown
25
tup
03-…
12-…
21-…
02-…
11-…
22-…
31-…
09-…
20-…
29-…
10-…
19-…
02-…
11-…
22-…
31-…
11-…
20-…
01-…
12-…
21-…
01-…
цены на серебро
37
Рис.3.7. Прогноз цен на серебро по модели SARIMA
Из графика видно, что данный метод хорошо учитывает сезонность.
Аппроксимация ряда почти идеальная, если посмотреть на коэффициенты
MAPE, посчитанные для этой модели, то они также выдают очень хорошие
значения: MAPE1=1,44 % и MAPE2=1,09 %, то есть процентная ошибка при
построении самой модели весьма мала. Что касается прогнозных значений, то
коэффициент sMAPE составил 1,4 %, что тоже хорошо. Кроме того из
графика видно, что в реальных данных произошел какой-то внешний шок,
который изменил поведение сезонности, и соответственно модель не смогла
его уловить.
Теперь стоит посмотреть на остатки модели (см. табл. 3.6.):
Таблица 3.6.
Тесты на нормальное распределение остатков SARIMA
Method
Value
Adj. Value
Probability
Lilliefors (D)
0.076185
NA
0.0697
Cramer-von Mises (W2) 0.099289
0.099683
0.1136
Watson (U2)
0.094130
0.094504
0.1101
Anderson-Darling (A2)
0.594490
0.598113
0.1182
49
Результаты тестов на нормальное распределение указывают на тот
факт, что мы не можем отклонить гипотезу о нормальности распределения
остатков на 5% уровне значимости, а значит модель выбрана верно.
3.3.
Построение
прогнозов
с
помощью
нелинейных
методов
прогнозирования
3.3.1. Метод GARCH
Далее решено было посмотреть насколько изменится ситуация с
прогнозными значениями, если вместо линейных методов прогнозирования
использовать нелинейные. Для начала рассмотрим метод, основанный на
наличии эффекта ARCH (т.е. рассмотрим метод GARCH). Прежде чем
переходить к собственно построению модели, надо убедиться, что данные, с
которыми мы имеем дело, являются стационарными. Для наших данных по
ценам за унцию серебра тест на наличие единичного корня, построенный по
уровню ряда, показал, что ряд является нестационарным на 5% уровне
значимости (см. табл. 3.3.), следовательно, для дальнейшей работы с ним, его
надо привести к стационарному виду путем взятия разностей (значение теста
на наличие единичного корня для разностей приведено в табл. 3.4.). Из
рис.12. видно, что если рассматривать не уровень ряда, а его первую
разность,
то
ряд
становится
стационарным,
поэтому
далее
будет
рассматриваться именно эта переменная.
Далее если взглянуть на остатки ряда 1-ой разности (см. рис.3.8.), то
можно заметить, что на протяжении всего рассматриваемого периода в ряде
данных присутствует стабильная волатильность.
50
2
1
0
2
-1
1
-2
0
-1
-2
M9
M10
M11
M12
M1
M2
2012
2013
Residual
Actual
Fitted
Рис.3.8. Остатки 1-ой разницы
Кроме того стоит проверить, есть ли в модели, где 1-ая разность цены
на серебро зависит от некой константы и содержит в себе процесс AR(1),
эффект
(то
есть
присутствует
гетероскедастичность).
Для
этого
ARCH
ли
стоит
в
такой
провести
модели
тест
на
гетероскедастичность остатков для ARCH. В результате теста получился
следующий аутпут (см. табл.3.7.):
Таблица 3.7.
Тест на наличие гетероскедастичности
Heteroskedasticity Test: ARCH
F-statistic
0.237966
Prob. F(1,122)
0.6266
Obs*R-squared
0.241396
Prob. Chi-Square(1) 0.6232
В данном тесте нулевая гипотеза заключалась в том, что в модели
отсутствует ARCH эффект, и эта гипотеза в данном случае не отвергается,
поскольку значения вероятностей превышают 5%, а это означает, что не
имеет смысла использовать модели из семейства ARCH (в том числе и
GARCH),
поскольку
в
остатках
модели
отсутствует
сама
гетероскедастичность.
51
3.3.2. Метод ANN
Следующим методом, который было решено использовать для
прогнозирования цен на серебро, стали искусственные нейронные сети. С
помощью пакета Matlab было произведено моделирование, а вследствие и
прогнозирование ANN, основанное на методе обратного распределения
ошибки. Было решено рассмотреть два вида сети: регрессионную и
авторегрессионную. Ранее упоминалось, что между золотом и серебром
существует сильная корреляция. Кроме того, выяснилось, что основным
драйвером цен на серебро являются цены на золото, то есть цены на серебро
зачастую повторяют тенденции, происходящие с золотом.41 Поэтому было
решено рассмотреть регрессию цен серебра от цен золота, для выявления
связей.
Нейронные сети позволят не только построить зависимость цен
серебра от золота, как это сделала бы обычная регрессия, но они также
помогут учесть другие зависимости и тренды, не различимые в обычных
условиях человеком или другими программами. Авторегрессионная же сеть
будет использоваться нами при комбинировании.
Сначала
моделировании
рассмотрим
поведение
использовался
регрессионной
алгоритм
создания
сети.
При
нелинейной
авторегрессионной сети с экзогенными внешними входящими данными
(NARX), чья схема в общем виде выглядит как на рис. 3.9. Кроме того код к
созданию подобной сети в программе MATLAB доступен в приложении 6.
Рис.3.9. Схема нейронной сети NARX
41
Хамильтон А. Сезонные колебания цена на серебро [Электронный ресурс]// Goldenfront.ru: [сайт]. URL:
http://goldenfront.ru/articles/view/sezonnye-kolebaniya-ceny-na-serebro (дата обращения 17.05.2012)
52
В модели использовался один ряд входных данных, а именно данные по
золотому фиксингу (нормированные от 0 до 1) (оригинальные данные цен на
золото доступны в приложении 5). В качестве исходных данных были взяты
цены по серебряному фиксингу, также пронормированные к 1. После анализа
коррелограммы цен на золото было принято предположение о том, что лаг
равняется 9 (см. приложение 4).
Модель содержала 10 скрытых слоев (для повышения точности).
Обучение проводилось по 75% данных, оценка по 15% и тестирование по
15% данных. В результате обучение и тренировка сети потребовали 8
итераций, после чего был достигнут минимальный градиент (аутпут оценки
сети приведен на рис.3.10).
Рис.3.10. Результат тренировки сети NARX
После моделирования сети и для дальнейшей цели прогнозирования,
был построен прогноз цен на золото по модели SARIMA(0,1,0)(1,0,0)9,
поскольку ряд также содержал некую сезонность. В результате оценки
уравнения
модели
(см.
табл.3.8.)
получились
прогнозные
значения,
изображенные на рис.3.12.
53
Таблица 3.8
Результат оценки модели SARIMA(0,1,0)(1,0,0)9
Dependent Variable: D(USD)
Method: Least Squares
Included observations: 116 after adjustments
Convergence achieved after 2 iterations
Variable
Coefficient
Std. Error
t-Statistic
Prob.
SAR(9)
0.239215
0.086613
2.761876
0.0067
R-squared
0.047526
Mean dependent var
-1.612069
Adjusted R-squared
0.047526
S.D. dependent var
12.94148
S.E. of regression
12.63021
Akaike info criterion
7.918643
Sum squared resid
18345.05
Schwarz criterion
7.942381
Log likelihood
-458.2813
Hannan-Quinn criter.
7.928279
Durbin-Watson stat
2.110833
Inverted AR Roots
.85
.65+.55i
.65-.55i
.15+.84i
-.43+.74i
-.43-.74i
-.80-.29i
.15-.84i
-.80+.29i
1900.00
1800.00
1700.00
1600.00
1500.00
1400.00
Gold
03-Sep-12
17-Sep-12
01-Oct-12
15-Oct-12
29-Oct-12
12-Nov-12
26-Nov-12
10-Dec-12
24-Dec-12
10-Jan-13
24-Jan-13
07-Feb-13
21-Feb-13
07-Mar-13
21-Mar-13
04-Apr-13
цена на золото
SARIMA_gold
Forecast+fitted
Рис.3.12. Прогноз цен на золото по модели SARIMA
Полученные прогнозные значения цен на золото далее использовались
в качестве новых входных данных для того, чтобы получить прогнозные
значения цен на серебро. Поскольку сеть уже была настроена, то для
получения прогнозов по методу ANN, требовалось добавить прогноз по
золоту в сеть. В итоге получились следующие значения (см. рис.3.13.):
54
ANN (reg)
цены на серебро
37
35
33
silver_real
31
реальные данные
ANN
29
tdown
27
tup
03-Sep-12
12-Sep-12
21-Sep-12
02-Oct-12
11-Oct-12
22-Oct-12
31-Oct-12
09-Nov-12
20-Nov-12
29-Nov-12
10-Dec-12
19-Dec-12
02-Jan-13
11-Jan-13
22-Jan-13
31-Jan-13
11-Feb-13
20-Feb-13
01-Mar-13
12-Mar-13
21-Mar-13
01-Apr-13
25
Рис.3.13. Прогноз по методу ANN (регрессионная модель)
Из приведенного рис.3.13. видно, что прогнозные значения совсем не
повторяют реальные данные и не похожи на прогноз, полученный по золоту с
помощью метода SARIMA. Зато в данном методе удалось учесть сезонность
золота, которая отличается немного от сезонности серебра, поэтому и
прогнозные значения цен на серебро скорее учитывают сезонность цен на
золото. Однако данный метод обладает не самым лучшим показателем
точности прогноза, sMAPE=2,78%. Что касается точности аппроксимации
модели, то здесь получились следующие показатели: MAPE1=1,46% и
MAPE2=1,18%, что приблизительно равно показателям точности SARIMA и
превышает показатели точности линейных методов прогнозирования.
Построение данного метода позволяет нам судить о том, что все-таки цены на
серебро не полностью зависят от цен на золото, и если строить прогноз,
основанный на подобной регрессии, то его результат, скорее всего, окажется
некорректным.
55
По результатам тестов (см. табл. 3.9.), можно сделать вывод о принятии
нулевой гипотезы о нормальности распределения остатков на 5 % уровне
значимости, следовательно, модель выбрана верно.
Таблица 3.9.
Тесты на нормальное распределение остатков модели NARX для
регрессии цен серебра в зависимости от цены золота
Method
Value
Adj. Value
Probability
Lilliefors (D)
0.053025
NA
> 0.1
Cramer-von Mises (W2) 0.041196
0.041372
0.6565
Watson (U2)
0.040806
0.040981
0.6077
Anderson-Darling (A2)
0.300009
0.301982
0.5770
Далее необходимо смоделировать сеть и построить прогноз для
авторегрессионной модели, в которой цены на серебро зависят не от внешних
данных, а от прошлых значений. Для этого необходимо было построить
нелинейную авторегрессионную сеть, чей общий вид изображен на рис. 3.14.
(код к созданию сети в программе MATLAB см. в приложении 7):
Рис. 3.14. Нейронная сеть NAR
В данном случае в модели использовался только один вид данных, а
именно цены на серебро. Как и в прошлом случае, модель содержала 10
скрытых слоев, а обучение проводилось по 75% данных, оценка по 15% и
тестирование по 15% данных. Исходя из коррелограммы цен на серебро (см.
приложение 2), был выбран лаг 22. В итоге обучение сети заняло 10 итераций
(результат оценки сети приведен на рис. 3.15.).
56
Рис.3.15. Результат обучения сети NAR
Поскольку в данном случае сеть содержала лишь один ряд данных, то
для получения прогноза на следующие 25 значений, нам было необходимо
закрыть эту сеть и в качестве новых исходных данных нужно было подавать
количество последних изначальных данных, равное числу лагов плюс
неизвестные 25 значений, которые предстояло симулировать. В результате
получились следующие прогнозные значения (см. рис. 3.17.):
ANN (NAR)
37
33
silver_real
31
реальные данные
29
ANN
27
tdown
25
tup
03-Sep-12
12-Sep-12
21-Sep-12
02-Oct-12
11-Oct-12
22-Oct-12
31-Oct-12
09-Nov-12
20-Nov-12
29-Nov-12
10-Dec-12
19-Dec-12
02-Jan-13
11-Jan-13
22-Jan-13
31-Jan-13
11-Feb-13
20-Feb-13
01-Mar-13
12-Mar-13
21-Mar-13
01-Apr-13
цены на серебро
35
Рис.3.17. Прогноз по ANN (NAR)
Данная модель обладает отличной аппроксимацией: коэффициенты
MAPE1 и MAPE2 соответственно равняются 1,39% и 0,98%. Что касается
показателя точности самого прогноза, то sMAPE в данном случае составил
2%, что является вторым лучшим результатом среди всех уже рассмотренных
57
методов. Из рис. 3.17 видно, что прогнозные значения учитывают сезонность,
но естественно модель не смогла предугадать изменение этой сезонности
(такие события относятся к «черным лебедям»).
Что касается остатков модели, то они распределены следующим
образом (см. табл. 3.10.):
Таблица 3.10.
Тесты на нормальное распределение остатков модели NAR
Method
Value
Adj. Value
Probability
Lilliefors (D)
0.089546
NA
0.0391
Cramer-von Mises (W2) 0.209070
0.210075
0.0040
Watson (U2)
0.174189
0.175026
0.0069
Anderson-Darling (A2)
1.397346
1.407714
0.0012
Из табл. 3.10. видно, что нулевая гипотеза о нормальности остатков
отклоняется на 5 % уровне значимости, а в самих данных присутствует
асимметрия. Условие о нормальности остатков является желательным для
выбора правильной модели прогнозирования (а необязательным), но
поскольку распределение все-таки близко к нормальному, мы будем считать,
что данную модель также можно использовать для наших дальнейших целей
комбинирования.
Подытоживая результаты данного раздела 3-ей главы диплома,
составим
таблицу,
в
которой
бы
отражались
показатели
точности
аппроксимации и прогнозных значений моделей (см. табл. 3.11.):
58
Таблица 3.11.
Основные показатели точностей моделей
CEWMA
Хольт-
ANN
(сезонная)
Уинтерс
(NAR)
SARIMA
MAPE1
2,9%
1,9%
1,39%
1,44%
MAPE2
2,16%
1,5%
0,98%
1,09%
sMAPE
3,04 %
4,2%
2,00 %
1,4 %
Таким образом, лучшей аппроксимацией обладает метод, основанный
на нейронных сетях, в то время как самая высокая точность прогноза
замечена у метода SARIMA. Кроме того, достаточно большим показателем
точности прогноза обладает и метод, основанный на использовании
искусственных нейронных сетей.
3.4.
Комбинирование прогнозов
При комбинировании прогнозов мы решили использовать наиболее
простой метод, а именно критерий минимизации суммы отклонений. Мы
решили назначать веса по двум способам минимизации квадратов остатков.
В результате минимизации RSS по аппроксимации получились
следующие значения весов (подобранные с помощью «Поиска решений»):
 = 0,07047;  = 0,41779; ℎ− = 0,04487;  =
0,46687.
Как видно, наибольшие веса получили те модели, коэффициент MAPE
у которых был самым низким (то есть самым лучшим). После получения
подобных значений весов, прогнозные значения задавались по формуле:
̂ =  × ̂ +  × ̂ + ℎ− × ̂ℎ +  ×
̂
(3.5)
где:
59
 − веса  − ой модели,
̂ – прогноз по i-ой модели.
В итоге получились следующие прогнозные значения (см. рис. 3.18.):
Combined (rss_fitted)
цены на серебро
37
35
33
31
USD
29
реальные данные
27
Combined1
03-Sep-12
12-Sep-12
21-Sep-12
02-Oct-12
11-Oct-12
22-Oct-12
31-Oct-12
09-Nov-12
20-Nov-12
29-Nov-12
10-Dec-12
19-Dec-12
02-Jan-13
11-Jan-13
22-Jan-13
31-Jan-13
11-Feb-13
20-Feb-13
01-Mar-13
12-Mar-13
21-Mar-13
01-Apr-13
25
Рис.3.18. Комбинированный прогноз (критерий: минимизация RSS по
аппроксимированному ряду)
Для сравнения та же процедура назначения весов была осуществлена по
критерию RSS, посчитанному уже для прогнозных значений. В этом случае
веса равнялись следующим значениям:  = 0;  = 0,76403;
ℎ− = 0;  = 0,23597.
В данном случае, наибольшие веса получили те модели, которые
обладали лучшим коэффициентом sMAPE. Прогнозные значения задавались
по формуле (2.11.). В результате получился следующий прогноз (см. рис.
3.19.):
60
37
35
33
31
29
27
25
USD
реальные данные
Combined2
03-Sep-12
12-Sep-12
21-Sep-12
02-Oct-12
11-Oct-12
22-Oct-12
31-Oct-12
09-Nov-12
20-Nov-12
29-Nov-12
10-Dec-12
19-Dec-12
02-Jan-13
11-Jan-13
22-Jan-13
31-Jan-13
11-Feb-13
20-Feb-13
01-Mar-13
12-Mar-13
21-Mar-13
01-Apr-13
цены на серебро
Combined (rss_forecasted)
Рис.3.19. Комбинированный прогноз (критерий: минимизация RSS по
прогнозным значениям)
Как и во всех предыдущих случаях, мы рассчитали коэффициенты
точности аппроксимации и прогнозов (см. табл.3.12.):
Таблица 3.12.
Показатели точности комбинированных моделей
Критерий: rss по аппроксимации
Критерий: rss по прогнозам
MAPE1 1,25%
1,31%
MAPE2 0,98%
1,01%
sMAPE 1,87%
1,47%
Как мы и ожидали, коэффициенты MAPE оказались лучше для
комбинированной модели, построенной на основе минимизации RSS,
полученного по аппроксимации, в то время как показатель sMAPE – лучше
для комбинированной модели, где RSS считался для прогнозных значений.
Прежде чем выбирать какой-то определенный метод комбинирования
стоит взглянуть на распределение остатков обоих методов. Для первого
метода комбинирования распределение остатков выглядит следующим
образом (см. табл.3.13):
61
Таблица 3.13.
Тесты на нормальное распределение остатков первого метода
комбинирования
Method
Value
Adj. Value
Probability
Lilliefors (D)
0.087685
NA
> 0.1
Cramer-von Mises (W2) 0.161878
0.162830
0.0162
Watson (U2)
0.125283
0.126020
0.0362
Anderson-Darling (A2)
1.082681
1.092572
0.0073
Как видно из табл. 3.13., по одному из 4 тестов на нормальность
распределения, нулевая гипотеза принимается на % 5 уровне значимости (по
Lilliefors), однако остальные тесты отклоняют гипотезу о нормальности
распределения на данном уровне значимости.
Что касается распределения остатков второго метода комбинирования,
то оно получилось следующим (см. табл. 3.14.):
Таблица 3.14.
Тесты на нормальное распределение остатков второго метода
Method
Value
Adj. Value
Probability
Lilliefors (D)
0.087685
NA
0.0891
Cramer-von Mises (W2) 0.161878
0.162830
0.0244
Watson (U2)
0.125283
0.126020
0.0549
Anderson-Darling (A2)
1.082681
1.092572
0.0160
В данном случае гипотеза о нормальности распределения остатков
принимается на 5 % уровне значимости по двум тестам (Lilliefors и Watson), в
то время как по другим тестам она отклоняется.
Теперь для того, чтобы выбрать, какой из двух моделей отдать
предпочтение нужно определиться с целями дальнейшего прогнозирования.
Если мы больше заинтересованы в способности комбинированного метода
аппроксимировать исходный ряд данных, то стоит выбрать первый способ
62
комбинирования. Однако, если нас интересуют в первую очередь прогнозные
значения на средний горизонт прогнозирования, то предпочтение следует
отдать комбинированному методу, основанному на ретропрогнозе.
Поскольку нас скорее интересует второе, то мы в качестве весов в
модели возьмем следующие:  = 0,  = 0,76403, ℎ− =
0,  = 0,23597.
Поэтому для получения комбинированного прогноза на будущее мы
построим всего два метода: SARIMA и ANN.
В полученную ранее нейронную сеть NAR необходимо добавить новые
данные (то есть, начиная с марта и заканчивая серединой апреля),
перетренировать сеть и сделать прогноз на следующие 24 шага. В результате
перетренировка сети заняла 9 итераций (результат перетренировки изображен
на рис. 3.20.):
Рис. 3.20. Результат перетренировки сети
Таким образом, после перетренировки сети из-за добавления новых
данных, получились прогнозные значения, изображенные на рис. 3.21.
63
35
30
silver_real
25
forecast
20
tdown
03-Sep-12
12-Sep-12
21-Sep-12
02-Oct-12
11-Oct-12
22-Oct-12
31-Oct-12
09-Nov-12
20-Nov-12
29-Nov-12
10-Dec-12
19-Dec-12
02-Jan-13
11-Jan-13
22-Jan-13
31-Jan-13
11-Feb-13
20-Feb-13
01-Mar-13
12-Mar-13
21-Mar-13
01-Apr-13
10-Apr-13
19-Apr-13
29-Apr-13
08-May-13
цены на серебро
ANN (new)
tup
Рис.3.21. Прогноз по ANN (обновленный)
Мы не можем судить о точности прогноза, поскольку на данный
момент не обладаем данными, с которыми его можно сравнить. Однако,
можно заметить, что аппроксимация у данного метода очень хорошая,
посчитанные коэффициенты MAPE1 и MAPE2 соответственно равны 1,82% и
1,43%, что указывает на не сильную процентную ошибку.
Из рис. 3.21. видно, что изначально прогнозируется дальнейшее
снижение цен на серебро, но начиная с 23.04.13 цены на серебро начнут
согласно нашему прогнозу расти.
Теперь необходимо построить прогнозные значения по второму методу:
по SARIMA(1,1,0)(1,0,0)22. После добавления новых данных и переоценки
получились следующие прогнозные значения (см. рис. 3.22.):
37.00
35.00
33.00
31.00
29.00
27.00
25.00
USD
SARIMA
tdown
03-Sep-12
12-Sep-12
21-Sep-12
02-Oct-12
11-Oct-12
22-Oct-12
31-Oct-12
09-Nov-12
20-Nov-12
29-Nov-12
10-Dec-12
19-Dec-12
02-Jan-13
11-Jan-13
22-Jan-13
31-Jan-13
11-Feb-13
20-Feb-13
01-Mar-13
12-Mar-13
21-Mar-13
01-Apr-13
10-Apr-13
19-Apr-13
29-Apr-13
цены на серебро
SARIMA_new
tup
Рис.3.22. Прогноз по SARIMA (обновленный)
64
Как видно из данного рисунка, модель обладает более высокой
аппроксимацией, чем метод ANN, о чем также свидетельствуют следующие
коэффициенты:
sMAPE 0,57%
mape1
1,49%
mape2
1,14%
Однако если взглянуть на прогнозные значения, то они остаются
достаточно стабильными на протяжении всего прогнозируемого периода,
указывая лишь на незначительные изменения цен на серебро в будущем.
Перед тем, как переходить к финальному построению прогноза, стоит
взглянуть на распределение остатков по обоим методам. По методу SARIMA
остатки оказались распределены следующим образом (см. табл. 3.15.):
Таблица 3.15.
Тесты на нормальное распределение остатков обновленной SARIMA
Method
Value
Adj. Value
Probability
Lilliefors (D)
0.075258
NA
0.0360
Cramer-von Mises (W2) 0.125476
0.125891
0.0500
Watson (U2)
0.117213
0.117601
0.0486
Anderson-Darling (A2)
0.735274
0.738999
0.0542
Исходя из данных, отображенных в таблице 3.15. два теста (AndersonDarling и Cramer-von Mises) не отклоняют нулевую гипотезу о нормальности
распределения остатков на 5 % уровне значимости, поэтому мы можем
сделать вывод о близости распределения остатков к нормальному.
Что
касается
остатков
по
ANN,
то
получились
следующие
результаты(см. табл.3.16.):
65
Таблица 3.16.
Тесты на нормальное распределение остатков по ANN(обновленной)
Method
Value
Adj. Value
Probability
Lilliefors (D)
0.068146
NA
> 0.1
Cramer-von Mises (W2) 0.090345
0.090695
0.1507
Watson (U2)
0.075251
0.075543
0.2046
Anderson-Darling (A2)
0.546370
0.549621
0.1571
И опять, результаты тестов на нормальное распределение и вид
гистограммы распределения ошибок указывает на принятие гипотезы о
нормальности распределения на 5% уровне значимости и на правильность
выбора и построения модели.
После получения прогнозов по вышеперечисленным двум методам и с
использованием заранее заданных весов, мы построили комбинированную
модель, состоящую из двух методов SARIMA и ANN и получили следующие
результаты (см. рис. 3.23.):
Combined_final
36.00
32.00
30.00
28.00
USD
26.00
Combined
24.00
tdown
22.00
tup
20.00
03-Sep-12
12-Sep-12
21-Sep-12
02-Oct-12
11-Oct-12
22-Oct-12
31-Oct-12
09-Nov-12
20-Nov-12
29-Nov-12
10-Dec-12
19-Dec-12
02-Jan-13
11-Jan-13
22-Jan-13
31-Jan-13
11-Feb-13
20-Feb-13
01-Mar-13
12-Mar-13
21-Mar-13
01-Apr-13
10-Apr-13
19-Apr-13
29-Apr-13
цены на серебро
34.00
Рис.3.23. Комбинированный прогноз на 24 шага вперед
66
Аппроксимация подобного метода очень хорошая: коэффициенты
точности sMAPE, MAPE1 и MAPE2 соответственно равны 0,53%; 1,39% и
1,06%, что превышает аналогичные показатели, рассчитанные для каждого
метода в отдельности. Что касается прогнозных значений, то поскольку
прогнозам, полученным с помощью
SARIMA, при комбинировании
придавались большие веса, то и итоговый прогноз похож на прогноз по
данному методу. Однако в то же время он учитывает и предсказанные
значения по ANN, поэтому не является настолько же стабильным и не
меняющимся относительно последнего реального значения, как прогноз по
SARIMA. Исходя из проведенного нами ранее анализа, улучшенных
коэффициентов точности аппроксимации модели и прогноза, учитывающего
в себе два хорошо зарекомендовавших себя метода, мы делаем вывод о том,
что полученные предсказанные значения будут несколько более точными,
чем если бы мы рассматривали каждый прогноз по отдельности.
Таким образом, в результате комбинированного прогноза, получилось,
что на следующие 24
рабочих дня цены на серебро изначально будут
немного колебаться относительно последнего полученного значения, а затем
будет наблюдаться снова небольшой рост. Данный прогноз будет возможен
при условии сохранения предыдущих тенденций и отсутствия каких-то
сильных внешних шоков. Исходя из проанализированной нами сезонности
серебра, можно предположить, что цены если и будут увеличиваться, то
незначительно (как и показал наш прогноз), а понижающийся тренд с
небольшими колебаниями, скорее всего, сохранится до сентября. Также
можно предположить, что в ценах на серебро произойдет большее общее
снижение, чем получившийся у нас прогноз, который по большей части
является относительно стабильным первые несколько значений.
67
ЗАКЛЮЧЕНИЕ
В данной работе рассматривался алгоритм комбинирования прогнозов,
полученных с помощью разных моделей. В ходе проведенного анализа
выяснилось, что для получения лучшего прогноза стоит комбинировать
методы, основанные на различных предпосылках, и поэтому помимо
нелинейных методов прогнозирования, таких как ARCH и ANN, в своей
работе
мы
также
рассмотрели
и
методы,
предназначенные
для
прогнозирования линейных рядов данных, как то CEWMA, метод ХольтаУинтерса и SARIMA. Подобный анализ был проведен из-за того, что
изначально мы предположили, что если при комбинировании учесть эти
методы, то они могут перекрыть возможные недостатки нелинейных методов
прогнозирования, и наоборот.
При анализе цен на серебро, являющихся достаточно волатильными,
было замечено, что одни методы вели себя ожидаемо лучше других. Так,
например, лучшая аппроксимация ряда данных была замечена при
использовании искусственных нейронных сетей, распространенного метода
прогнозирования волатильных данных. Для того, чтобы определить, какой из
методов покажет наилучшую способность к прогнозированию, была
применена процедура ретропрогноза, то есть ряд данных делился на 2 части,
по первой строилась модель и аппроксимировался ряд, а по второй
рассчитывалась процентная ошибка прогнозных и реальных значений. В ходе
подобной процедуры мы пришли к достаточно неожиданным результатам,
поскольку лучшую способность прогнозирования показал метод SARIMA, не
предназначенный для прогнозирования волатильных данных. Однако стоит
отметить, что нейронные сети также показали небольшую процентную
ошибку, что было ожидаемо. Что касается прочих методов прогнозирования,
то CEWMA и метод Хольта-Уинтерса продемонстрировали не очень хорошие
68
результаты относительно прогнозирования из-за изменения типа сезонности
(здесь стоит отметить, что при сохранении того типа тенденции, который
наблюдался изначально, модель CEWMA дала бы очень хороший прогнозный
результат).
При комбинировании использовалась идея минимизации квадрата
суммы отклонений (RSS) для назначения весов прогнозам, полученным с
помощью CEWMA, Хольта-Уинтерса, SARIMA и ANN. Также сравнивалось
два способа минимизации RSS по ряду данных и по ретропрогнозу. В ходе
подбора параметров с помощью «Поиска решений» в MS Excel,
получилось
два
набора
весов,
отвечающих
различным
у нас
способам
минимизации RSS. В первом случае, веса назначались следующим образом:
 = 0,07047,  = 0,41779, ℎ− = 0,04487,  =
0,46687.
Во
втором
случае
веса
равнялись:
 = 0,  = 0,76403, ℎ− = 0,  = 0,2359.
В
обоих
случаях наибольшие веса получали методы ANN и SARIMA, поскольку
обладали лучшей аппроксимаций и лучшей предсказательной способностью,
чем другие рассматриваемые методы.
Поскольку
нас
интересовала
больше
способность
моделей
предсказывать будущие значения, а не аппроксимировать ряд данных, то для
комбинирования был выбран второй набор весов. В итоге мы получили
прогноз цен на серебро, начиная с 09.04.13 по 10.05.13. Данный прогноз
показывал, что первые несколько значений цен на серебро будут колебаться
вокруг последнего наблюдаемого значения, а затем произойдет небольшое
увеличение цены серебра. Данный прогноз может выполниться при условии
сохранения характера сезонности, типа тенденций и отсутствия значительных
внешних шоков, не поддающихся прогнозированию. В общем и целом,
прогноз,
полученный
с
помощью
комбинирования,
показал
лучшие
69
коэффициенты
аппроксимации,
чем
при
оценке
каждого
метода
прогнозирования по отдельности (относительно точности прогнозов судить
мы не можем из-за отсутствия сравниваемых данных). Таким образом,
подтвердилась изначально выдвинутая нами гипотеза об улучшении
прогнозных и аппроксимационных свойств моделей при их объединении.
В данной работе были рассмотрены не все проблемы, которые
возникают при прогнозировании подобным методом, поэтому было бы
целесообразно в дальнейшем продолжить рассмотрение использования
техники комбинирования в прогнозировании. Одним из направлений для
дальнейших исследований может быть применение большего числа моделей
разного вида для получения различных прогнозов ряда. Кроме того, в данной
работе был рассмотрен метод комбинирования точечных прогнозов, а,
например, задача комбинирования прогнозных интервалов выходит за рамки
работы и требует самостоятельного серьёзного исследования.
70
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ
1.
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Модели Бокса-Дженкинса
(ARIMA)// Эконометрика. Начальный курс: учебник. – 7-е изд., испр. –
М.:Дело, 2005. – C.253-275.
2.
Светуньков
И.С.
Самообучающаяся
модель
краткосрочного
прогнозирования социально-экономической динамики// Модели оценки,
анализа и прогнозирования социально-экономических систем. Харьков:
Харьков ИД «ИНЖЕК». – 2010. – С. 11-32.
3.
Ханк Д.Э., Уичерн Д.У., Райтс А. Дж. Метод Бокса-Дженкинса
(ARIMA)// Бизнес-прогнозирование, 7-е издание.: Пер. с англ. – М.:
Издательский дом «Вильямс». – 2003. – C.453-544.
4.
Armstrong J.S. Combining forecasts// Principles of Forecasting: a handbook
for researchers and practitioners, Kluwer Academic Publishing. – 2001. – P.417439.
5.
Engle R. GARCH 101: The use of ARCH/GARCH models in Applied
Econometrics//Journal of Economic Perspectives. – 2001. – Vol.15. – P. 157-186.
6.
Gardner S.E, Jr Exponential Smoothing: The state of the Art// Journal of
Forecasting. – 1985. – Vol.4. – P.1-28.
7.
Gooijer J., Hyndman R. 25 years of time series forecasting// International
Journal of Forecasting. – 2006. – Vol. 22. – P. 443-473.
8.
Hill T., Marquez L., O’Connor M., Remus W. Artificial neural network
models for forecasting and decision making// International Journal of Forecasting.
– 1994. – Vol.10. – P.5-15.
9.
Makridakis S., Hogarth R., Gaba A. Forecasting and uncertainty in the
economic and business world//International Journal of forecasting. – 2009. – Vol.
25. – P. 794-812.
71
10.
Parzen
E.
ARARMA
Models
for
Time
Series
Analysis
and
Forecasting//Journal of Forecasting. – 1982. – Vol.1. – P.67-82.
11.
Yang Y. Combining Forecasting Procedures: Some Theoretical Results//
Department of Statistics and Statistical Laboratory Iowa State University. – 2000. –
P.1-20.
12.
Zou H., Yang Y. Combining time series models for forecasting//
International Journal of Forecasting. – 2004. – Vol.20. –P.69-84.
13.
Дворкин В.И., Болдырев И.В. Понятие неопределенности и его
использование
в
лабораторной
Неопределенность:
практике
[сайт].
[Электронный
ресурс]//
URL
:
qcontrol.ru/documents/uncertainty_dv_bold_.doc (дата обращения: 17.05.2012)
14.
Хамильтон А. Сезонные колебания цены на серебро [Электронный
ресурс]//
Goldenfront.ru:
[сайт].
http://goldenfront.ru/articles/view/sezonnye-kolebaniya-ceny-na-serebro
URL:
(дата
обращения 17.05.2012)
15.
Шапкин А.С. Система неопределенностей [Электронный ресурc]//
Экономические и финансовые риски: оценка, управление, портфель
инвестиций:
[сайт].
URL:
http://yourforexschool.com/book/304-
yekonomicheskie-i-finansovye-riski-ocenka-upravlenie-portfel-investicij/7-113sistema-neopredelennostej.html (дата обращения: 17.05.2012)
16.
Aladag C., Egrioglu E., Kadilar C. Improvement in Forecasting Accuracy
Using the Hybrid Model of ARFIMA and Feed Forward Neural Network
[Electronic resource] // Scientific and Academic Publishing: [website]. URL:
http://article.sapub.org/10.5923.j.ajis.20120202.02.html#Sec2
(дата
обращения17.05.2012)
17.
Andersson M. On Testing and Forecasting in Fractionally Integrated Time
Series Models [Electronic resource]// Academic Archive On-line: [website]. URL:
72
http://www.diva-portal.org/smash/record.jsf?searchId=1&pid=diva2:221764 (дата
обращения17.05.2012)
18.
Hansen B. Multi-step Forecast Model Selection [Electronic resource]//
University
of
Wisconsin:
[website].
URL:
http://www.ssc.wisc.edu/~bhansen/papers/hstep.pdf (дата обращения 17.05.2012)
19.
Kalekar P.S. Time series forecasting using Holt-Winters exponential
smoothing. [Electronic resource]// Kanwal Rekhi School of Information
Technology:
[website].
URL:
http://www.it.iitb.ac.in/~praj/acads/seminar/04329008_ExponentialSmoothing.pdf
(дата обращения17.05.2012)
20.
Klapwijk P. World Silver Survey 2012. [Electronic resource]// Thomson
Reuters
GFMS:
[website].
URL:
http://www.gfms.co.uk/media_advisories/TR%20GFMS%20World%20Silver%20
Survey%202012%20Presentation.pdf (дата посещения 12.04.2012)
21.
Lildholdt P. Long memory and ARFIMA modeling [Electronic resource]//
Aarhus
University:
[website].
URL:
http://mit.econ.au.dk/vip_htm/plildholdt/Master%20thesis.pdf
(дата
обращения17.05.2012)
22.
Perrelli R. Introduction to ARCH&GARCH models [Electronic resource]//
Univeristy
of
Illinois:
[website].
URL:
http://www.econ.uiuc.edu/~econ472/ARCH.pdf (дата обращения17.05.2012)
23.
Poom H. Long memory volatility models [Electronic resource]// Manchester
Business
School:
[website].
URL:
https://phps.portals.mbs.ac.uk/Portals/49/docs/spoon/LM.pdf
(дата
обращения17.05.2012)
24.
Reider R. Volatility Forecasting I: GARCH Models [Electronic resource]//
New York University Courant Institute of Mathematical Sciences: [website]. URL:
73
http://cims.nyu.edu/~almgren/timeseries/Vol_Forecast1.pdf
(дата
обращения17.05.2012)
25.
Ruppert D. GARCH Models// Statistics and Data Analysis for Financial
Engeneering [Electronic resource]// University of Washington: [website]. URL:
http://faculty.washington.edu/ezivot/econ589/ch18-garch.pdf
(дата
обращения17.05.2012)
26.
Stergiou C., Siganos D. Neural Networks [Electronic resource]// Neural
Networks:
[website].
URL:
http://www.doc.ic.ac.uk/~nd/surprise_96/journal/vol4/cs11/report.html
(дата
обращения17.05.2012)
27.
A
Thomson Reuters GFMS for The Silver Institute/ World Silver Survey 2012
Summary
[Electronic
resource]//
SilverWheaton:
[website].
URL:
http://www.silverwheaton.com/files/docs_quick%20links/World%20Silver%20Sur
vey%202012%20Summary.pdf (дата обращения17.05.2012)
74
ПРИЛОЖЕНИЯ
Приложение 1. Данные цен за унцию серебра в USD
DATE
03-Jan-12
04-Jan-12
05-Jan-12
06-Jan-12
09-Jan-12
10-Jan-12
11-Jan-12
12-Jan-12
13-Jan-12
16-Jan-12
17-Jan-12
18-Jan-12
19-Jan-12
20-Jan-12
23-Jan-12
24-Jan-12
25-Jan-12
26-Jan-12
27-Jan-12
30-Jan-12
31-Jan-12
01-Feb-12
02-Feb-12
03-Feb-12
06-Feb-12
07-Feb-12
08-Feb-12
09-Feb-12
10-Feb-12
13-Feb-12
14-Feb-12
15-Feb-12
16-Feb-12
17-Feb-12
20-Feb-12
21-Feb-12
22-Feb-12
23-Feb-12
24-Feb-12
27-Feb-12
28-Feb-12
29-Feb-12
01-Mar-12
Price
28,78
29,18
28,92
29,4
28,85
29,69
29,81
30,58
29,64
29,9
30,41
30,15
30,79
30,36
32,45
31,95
31,67
33,35
33,48
33,18
33,6
33,8
33,67
33,93
33,52
33,28
34,37
33,8
33,55
33,84
33,51
33,69
33,18
33,48
33,56
33,65
34,08
34,55
35,57
35,09
35,6
37,23
34,56
DATE
02-Mar-12
05-Mar-12
06-Mar-12
07-Mar-12
08-Mar-12
09-Mar-12
12-Mar-12
13-Mar-12
14-Mar-12
15-Mar-12
16-Mar-12
19-Mar-12
20-Mar-12
21-Mar-12
22-Mar-12
23-Mar-12
26-Mar-12
27-Mar-12
28-Mar-12
29-Mar-12
30-Mar-12
02-Apr-12
03-Apr-12
04-Apr-12
05-Apr-12
10-Apr-12
11-Apr-12
12-Apr-12
13-Apr-12
16-Apr-12
17-Apr-12
18-Apr-12
19-Apr-12
20-Apr-12
23-Apr-12
24-Apr-12
25-Apr-12
26-Apr-12
27-Apr-12
30-Apr-12
01-May-12
02-May-12
03-May-12
Price
35,21
34,18
33,22
33,17
34,09
33,87
33,77
33,58
32,84
32,36
32,27
32,44
32,22
31,97
31,79
31,54
32,23
33,01
32,43
31,79
32,43
32,42
32,97
31,98
31,27
31,55
31,7
31,47
32,365
31,32
31,64
31,61
31,47
31,79
31,16
30,86
30,88
30,7
31,14
31,2
30,78
30,52
30,36
DATE
04-May-12
08-May-12
09-May-12
10-May-12
11-May-12
14-May-12
15-May-12
16-May-12
17-May-12
18-May-12
21-May-12
22-May-12
23-May-12
24-May-12
25-May-12
28-May-12
29-May-12
30-May-12
31-May-12
01-Jun-12
06-Jun-12
07-Jun-12
08-Jun-12
11-Jun-12
12-Jun-12
13-Jun-12
14-Jun-12
15-Jun-12
18-Jun-12
19-Jun-12
20-Jun-12
21-Jun-12
22-Jun-12
25-Jun-12
26-Jun-12
27-Jun-12
28-Jun-12
29-Jun-12
02-Jul-12
03-Jul-12
04-Jul-12
05-Jul-12
06-Jul-12
Price
29,9
29,58
28,77
29,25
28,58
28,33
28,28
27,25
27,48
28,48
28,39
28,07
27,76
28,08
28,24
28,52
28,25
27,68
28,1
27,38
29,36
29,28
28,17
28,63
28,54
28,87
28,88
28,66
28,43
28,81
28,31
27,88
26,81
26,72
27,44
26,835
26,81
27,08
27,36
27,92
28,11
28,33
27,32
DATE
09-Jul-12
10-Jul-12
11-Jul-12
12-Jul-12
13-Jul-12
16-Jul-12
17-Jul-12
18-Jul-12
19-Jul-12
20-Jul-12
23-Jul-12
24-Jul-12
25-Jul-12
26-Jul-12
27-Jul-12
30-Jul-12
31-Jul-12
01-Aug-12
02-Aug-12
03-Aug-12
06-Aug-12
07-Aug-12
08-Aug-12
09-Aug-12
10-Aug-12
13-Aug-12
14-Aug-12
15-Aug-12
16-Aug-12
17-Aug-12
20-Aug-12
21-Aug-12
22-Aug-12
23-Aug-12
24-Aug-12
28-Aug-12
29-Aug-12
30-Aug-12
31-Aug-12
03-Sep-12
04-Sep-12
05-Sep-12
06-Sep-12
Price
27,24
27,57
27,11
26,67
27,48
27,05
27,42
27,03
27,45
27,07
26,95
26,93
27,11
27,81
27,73
27,64
28,2
27,87
27,42
27,25
27,72
28
27,84
28,02
27,88
28,05
27,84
27,64
27,84
28,2
28,1
28,92
29,33
30,32
30,37
30,81
30,73
30,66
30,52
31,74
32,08
32,1
32,87
DATE
07-Sep-12
10-Sep-12
11-Sep-12
12-Sep-12
13-Sep-12
14-Sep-12
17-Sep-12
18-Sep-12
19-Sep-12
20-Sep-12
21-Sep-12
24-Sep-12
25-Sep-12
26-Sep-12
27-Sep-12
28-Sep-12
01-Oct-12
02-Oct-12
03-Oct-12
04-Oct-12
05-Oct-12
08-Oct-12
09-Oct-12
10-Oct-12
11-Oct-12
12-Oct-12
15-Oct-12
16-Oct-12
17-Oct-12
18-Oct-12
19-Oct-12
22-Oct-12
23-Oct-12
24-Oct-12
25-Oct-12
26-Oct-12
29-Oct-12
30-Oct-12
31-Oct-12
01-Nov-12
02-Nov-12
05-Nov-12
06-Nov-12
Price
32,22
33,6
33,52
33,93
33
34,71
34,53
34,06
34,65
34,25
34,69
33,73
34,01
33,88
33,95
34,65
34,35
34,85
34,72
34,96
34,85
33,85
33,87
33,79
34,25
33,79
33,22
32,8
33,03
32,99
32,33
32,17
31,71
31,95
32,08
31,67
31,82
31,98
32,28
32,66
31,92
30,91
31,4
75
Приложение 1(продолжение). Данные цен за унцию серебра в USD
DATE
07-Nov-12
08-Nov-12
09-Nov-12
12-Nov-12
13-Nov-12
14-Nov-12
15-Nov-12
16-Nov-12
19-Nov-12
20-Nov-12
21-Nov-12
22-Nov-12
23-Nov-12
26-Nov-12
27-Nov-12
28-Nov-12
29-Nov-12
30-Nov-12
03-Dec-12
04-Dec-12
Price
32,14
31,7
32,16
32,63
32,58
32,48
32,57
32,27
32,67
33,19
33,01
33,29
33,41
34,08
34,05
33,85
33,76
34,28
33,42
33,3
DATE
05-Dec-12
06-Dec-12
07-Dec-12
10-Dec-12
11-Dec-12
12-Dec-12
13-Dec-12
14-Dec-12
17-Dec-12
18-Dec-12
19-Dec-12
20-Dec-12
21-Dec-12
24-Dec-12
27-Dec-12
28-Dec-12
31-Dec-12
02-Jan-13
03-Jan-13
04-Jan-13
Price
33,07
32,83
32,85
33,34
33,17
33,1
32,69
32,52
32,21
32,38
31,37
31,12
29,89
30,19
29,75
30,15
29,95
30,87
30,91
29,32
DATE
07-Jan-13
08-Jan-13
09-Jan-13
10-Jan-13
11-Jan-13
14-Jan-13
15-Jan-13
16-Jan-13
17-Jan-13
18-Jan-13
21-Jan-13
22-Jan-13
23-Jan-13
24-Jan-13
28-Jan-13
29-Jan-13
30-Jan-13
31-Jan-13
01-Feb-13
04-Feb-13
Price
30,14
30,39
30,39
30,49
30,67
30,76
31,19
31,23
31,5
31,82
31,9
31,94
32,23
31,85
30,87
31,06
31,35
32,03
31,43
31,51
DATE
05-Feb-13
06-Feb-13
07-Feb-13
08-Feb-13
11-Feb-13
12-Feb-13
13-Feb-13
14-Feb-13
15-Feb-13
18-Feb-13
19-Feb-13
20-Feb-13
21-Feb-13
22-Feb-13
25-Feb-13
26-Feb-13
27-Feb-13
28-Feb-13
01-Mar-13
04-Mar-13
Price
32,01
31,7
31,75
31,52
31,16
30,84
31,035
30,88
30,18
30
30
29,11
28,72
28,79
29,17
28,75
29,07
28,95
28,01
28,69
DATE
05-Mar-13
06-Mar-13
07-Mar-13
08-Mar-13
11-Mar-13
12-Mar-13
13-Mar-13
14-Mar-13
15-Mar-13
18-Mar-13
19-Mar-13
20-Mar-13
21-Mar-13
22-Mar-13
25-Mar-13
26-Mar-13
27-Mar-13
28-Mar-13
Price
28,93
28,74
29,01
28,78
28,9
29,25
29,12
28,64
28,91
28,8
28,85
28,9
28,91
29,06
28,67
28,83
28,33
28,64
76
Приложение 2. Коррелограмма 1-ой разницы цен на серебро в USD (с
03.09.12)
Date: 03/29/13 Time: 19:36
Sample: 9/03/2012 3/28/2013
Included observations: 145
Autocorrelation
**|.
.|.
.|.
.|*
.|.
.|.
.|.
*|.
.|*
.|.
.|.
.|.
*|.
.|*
*|.
*|.
*|.
.|.
.|.
.|.
.|.
**|.
.|*
*|.
*|.
*|.
.|.
.|.
.|.
*|.
.|.
.|.
.|.
.|*
.|.
*|.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Partial Correlation
**|.
.|.
.|.
.|*
.|.
.|.
.|.
*|.
.|*
.|.
.|.
.|.
*|.
.|*
.|.
*|.
.|.
*|.
*|.
.|.
.|.
*|.
.|.
.|.
*|.
*|.
*|.
*|.
.|.
*|.
.|.
*|.
.|.
.|*
.|.
*|.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
AC
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
-0.235
0.048
-0.003
0.127
-0.003
-0.014
0.071
-0.131
0.182
-0.013
-0.038
0.003
-0.090
0.148
-0.094
-0.070
-0.068
-0.029
-0.054
-0.041
0.027
-0.225
0.138
-0.068
-0.081
-0.119
-0.037
-0.026
0.020
-0.100
-0.055
-0.003
0.058
0.084
0.024
-0.113
PAC
-0.235
-0.008
0.007
0.136
0.061
-0.007
0.063
-0.128
0.125
0.066
-0.047
0.007
-0.142
0.096
-0.011
-0.137
-0.058
-0.122
-0.091
-0.010
0.004
-0.157
0.041
-0.040
-0.072
-0.117
-0.114
-0.069
0.047
-0.124
-0.036
-0.076
-0.001
0.168
0.061
-0.074
Q-Stat
8.1580
8.4954
8.4964
10.923
10.924
10.956
11.739
14.405
19.576
19.602
19.836
19.838
21.140
24.711
26.150
26.960
27.740
27.884
28.372
28.665
28.790
37.537
40.854
41.661
42.838
45.367
45.614
45.737
45.813
47.660
48.223
48.225
48.875
50.227
50.335
52.813
Prob
0.004
0.014
0.037
0.027
0.053
0.090
0.109
0.072
0.021
0.033
0.048
0.070
0.070
0.038
0.036
0.042
0.048
0.064
0.077
0.095
0.119
0.021
0.012
0.014
0.015
0.011
0.014
0.019
0.024
0.021
0.025
0.033
0.037
0.036
0.045
0.035
77
Приложение 3. Коррелограмма уровня цен на серебро
Date: 04/10/13 Time: 16:03
Sample: 9/03/2012 2/28/2013
Included observations: 126
Autocorrelation
.|*******
.|******|
.|******|
.|******|
.|***** |
.|***** |
.|**** |
.|**** |
.|*** |
.|*** |
.|*** |
.|** |
.|** |
.|** |
.|* |
.|* |
.|* |
.|* |
.|. |
.|. |
Partial Correlation
.|*******
.|* |
*|. |
.|. |
*|. |
*|. |
.|. |
.|. |
.|. |
*|. |
.|. |
.|. |
*|. |
.|* |
*|. |
.|. |
.|* |
.|. |
.|. |
.|. |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
AC
PAC
0.931
0.886
0.830
0.783
0.713
0.645
0.586
0.528
0.480
0.420
0.367
0.318
0.267
0.228
0.176
0.136
0.104
0.080
0.054
0.035
0.931
0.146
-0.076
0.012
-0.179
-0.082
0.036
-0.012
0.068
-0.103
-0.034
0.007
-0.080
0.086
-0.103
-0.012
0.082
0.004
0.011
0.022
Q-Stat
111.78
213.85
304.21
385.22
452.98
508.95
555.45
593.54
625.36
649.84
668.74
683.06
693.22
700.73
705.25
707.96
709.54
710.49
710.93
711.12
Prob
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
78
Приложение 4. Коррелограмма цен на золото
Date: 04/14/13 Time: 18:28
Included observations: 126
Autocorrelation
.|*******
.|******|
.|******|
.|******|
.|******|
.|***** |
.|***** |
.|**** |
.|**** |
.|**** |
.|**** |
.|*** |
.|*** |
.|*** |
.|*** |
.|*** |
.|** |
.|** |
.|** |
.|** |
.|** |
.|** |
.|** |
.|** |
.|* |
.|* |
.|* |
.|* |
.|** |
Partial Correlation
.|*******
.|. |
.|. |
.|. |
*|. |
*|. |
.|. |
.|* |
.|. |
*|. |
.|. |
.|. |
.|. |
.|. |
.|. |
*|. |
.|. |
.|* |
.|. |
.|. |
.|. |
.|. |
.|. |
.|. |
.|. |
.|. |
.|* |
.|. |
.|. |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
AC
PAC
0.943
0.897
0.852
0.813
0.765
0.706
0.656
0.623
0.592
0.547
0.512
0.479
0.451
0.425
0.397
0.363
0.337
0.319
0.301
0.284
0.262
0.251
0.240
0.228
0.213
0.200
0.205
0.208
0.214
0.943
0.059
0.001
0.033
-0.087
-0.143
0.024
0.131
0.028
-0.129
0.071
-0.031
-0.018
0.047
0.003
-0.096
0.010
0.079
0.009
-0.003
-0.016
0.048
-0.041
-0.006
0.017
-0.008
0.135
0.024
0.040
Q-Stat
114.84
219.38
314.47
401.75
479.80
546.85
605.14
658.13
706.43
747.98
784.80
817.25
846.26
872.31
895.18
914.54
931.36
946.51
960.12
972.35
982.90
992.70
1001.7
1009.9
1017.2
1023.6
1030.5
1037.6
1045.1
Prob
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
79
Приложение 5. Данные цен за унцию золота в USD
DATE
03-Sep-12
04-Sep-12
05-Sep-12
06-Sep-12
07-Sep-12
10-Sep-12
11-Sep-12
12-Sep-12
13-Sep-12
14-Sep-12
17-Sep-12
18-Sep-12
19-Sep-12
20-Sep-12
21-Sep-12
24-Sep-12
25-Sep-12
26-Sep-12
27-Sep-12
28-Sep-12
01-Oct-12
02-Oct-12
Price
1691,5
1697,0
1690,0
1701,0
1728,0
1732,0
1736,8
1737,0
1733,3
1775,5
1770,0
1769,5
1766,8
1758,5
1784,5
1762,5
1771,5
1744,8
1763,0
1776,0
1787,0
1775,5
DATE
16-Oct-12
17-Oct-12
18-Oct-12
19-Oct-12
22-Oct-12
23-Oct-12
24-Oct-12
25-Oct-12
26-Oct-12
29-Oct-12
30-Oct-12
31-Oct-12
01-Nov-12
02-Nov-12
05-Nov-12
06-Nov-12
07-Nov-12
08-Nov-12
09-Nov-12
12-Nov-12
13-Nov-12
14-Nov-12
Price
1746,5
1749,0
1743,0
1737,0
1726,8
1711,0
1706,5
1715,5
1716,0
1707,0
1710,0
1719,0
1716,3
1685,0
1683,5
1691,0
1715,3
1717,0
1738,3
1735,3
1726,3
1725,8
DATE
28-Nov-12
29-Nov-12
30-Nov-12
03-Dec-12
04-Dec-12
05-Dec-12
06-Dec-12
07-Dec-12
10-Dec-12
11-Dec-12
12-Dec-12
13-Dec-12
14-Dec-12
17-Dec-12
18-Dec-12
19-Dec-12
20-Dec-12
21-Dec-12
24-Dec-12
27-Dec-12
28-Dec-12
31-Dec-12
Price
1708,0
1725,0
1726,0
1720,0
1697,8
1694,0
1694,3
1701,5
1712,5
1710,0
1716,3
1692,8
1696,3
1695,8
1694,0
1665,0
1650,5
1651,5
1662,5
1655,5
1657,5
1664,0
DATE
15-Jan-13
16-Jan-13
17-Jan-13
18-Jan-13
21-Jan-13
22-Jan-13
23-Jan-13
24-Jan-13
25-Jan-13
28-Jan-13
29-Jan-13
30-Jan-13
31-Jan-13
01-Feb-13
04-Feb-13
05-Feb-13
06-Feb-13
07-Feb-13
08-Feb-13
11-Feb-13
12-Feb-13
13-Feb-13
Price
1680,5
1676,3
1675,0
1688,5
1687,5
1690,5
1690,3
1671,0
1660,0
1656,5
1663,5
1677,5
1664,8
1669,0
1666,0
1673,5
1674,3
1668,0
1668,3
1652,0
1647,5
1645,0
03-Oct-12
04-Oct-12
05-Oct-12
08-Oct-12
09-Oct-12
10-Oct-12
11-Oct-12
12-Oct-12
15-Oct-12
1775,3
1791,8
1784,0
1773,5
1774,0
1761,3
1769,0
1766,8
1736,0
15-Nov-12
16-Nov-12
19-Nov-12
20-Nov-12
21-Nov-12
22-Nov-12
23-Nov-12
26-Nov-12
27-Nov-12
1710,0
1713,5
1730,5
1732,3
1724,0
1731,0
1734,5
1750,5
1746,3
02-Jan-13
03-Jan-13
04-Jan-13
07-Jan-13
08-Jan-13
09-Jan-13
10-Jan-13
11-Jan-13
14-Jan-13
1693,8
1679,5
1648,0
1645,3
1656,0
1657,8
1675,0
1657,5
1666,5
14-Feb-13
15-Feb-13
18-Feb-13
19-Feb-13
20-Feb-13
21-Feb-13
22-Feb-13
25-Feb-13
26-Feb-13
1646,0
1612,3
1610,8
1607,8
1588,5
1577,0
1576,5
1586,3
1590,5
DATE
27-Feb-13
28-Feb-13
Price
1604,3
1588,5
80
Приложение 6. Код к созданию регрессионной нейронной сети в программе
matlab
% Solve an Autoregression Problem with External Input with a NARX Neural
Network
% Script generated by NTSTOOL
% Created Sun Apr 14 16:32:26 MSD 2013
% This script assumes these variables are defined:
% data - input time series.
% data_out - feedback time series.
inputSeries = tonndata(data,false,false);
targetSeries = tonndata(data_out,false,false);
% Create a Nonlinear Autoregressive Network with External Input
inputDelays = 1:9;
feedbackDelays = 1:9;
hiddenLayerSize = 10;
net = narxnet(inputDelays,feedbackDelays,hiddenLayerSize);
% Prepare the Data for Training and Simulation
% The function PREPARETS prepares timeseries data for a particular network,
% shifting time by the minimum amount to fill input states and layer states.
% Using PREPARETS allows you to keep your original time series data
unchanged, while
% easily customizing it for networks with differing numbers of delays, with
% open loop or closed loop feedback modes.
[inputs,inputStates,layerStates,targets] = preparets(net,inputSeries,{},targetSeries);
% Train the Network
[net,tr] = train(net,inputs,targets,inputStates,layerStates);
% Test the Network
outputs = net(inputs,inputStates,layerStates);
errors = gsubtract(targets,outputs);
performance = perform(net,targets,outputs)
% Recalculate Training, Validation and Test Performance
trainTargets = gmultiply(targets,tr.trainMask);
valTargets = gmultiply(targets,tr.valMask);
testTargets = gmultiply(targets,tr.testMask);
trainPerformance = perform(net,trainTargets,outputs)
valPerformance = perform(net,valTargets,outputs)
testPerformance = perform(net,testTargets,outputs)
% View the Network
view(net)
81
Приложение 6 (продолжение). Код к созданию регрессионной нейронной сети
в программе matlab
% Closed Loop Network
% Use this network to do multi-step prediction.
% The function CLOSELOOP replaces the feedback input with a direct
% connection from the outout layer.
netc = closeloop(net);
netc.name = [net.name ' - Closed Loop'];
view(netc)
[xc,xic,aic,tc] = preparets(netc,inputSeries,{},targetSeries);
yc = netc(xc,xic,aic);
closedLoopPerformance = perform(netc,tc,yc)
% Early Prediction Network
% For some applications it helps to get the prediction a timestep early.
% The original network returns predicted y(t+1) at the same time it is given y(t+1).
% For some applications such as decision making, it would help to have predicted
% y(t+1) once y(t) is available, but before the actual y(t+1) occurs.
% The network can be made to return its output a timestep early by removing one
delay
% so that its minimal tap delay is now 0 instead of 1. The new network returns the
% same outputs as the original network, but outputs are shifted left one timestep.
nets = removedelay(net);
nets.name = [net.name ' - Predict One Step Ahead'];
view(nets)
[xs,xis,ais,ts] = preparets(nets,inputSeries,{},targetSeries);
ys = nets(xs,xis,ais);
earlyPredictPerformance = perform(nets,ts,
% Получение прогноза на несколько шагов вперед
M=load('new_input');
input_pred=con2seq(M.input_new);
target_pred=con2seq(M.target_new);
[Xs1,Xi1,Ai1,Ts1]=preparets(netc,input_pred,{},target_pred);
yPred=netc(Xs1,Xi1,Ai1)
82
Приложение 7. Код к созданию авторегрессионной нейронной сети в
программе matlab
% Solve an Autoregression Time-Series Problem with a NAR Neural Network
% Script generated by NTSTOOL
% Created Tue Apr 16 21:57:24 MSD 2013
%
% This script assumes this variable is defined:
%
% data - feedback time series.
targetSeries = tonndata(data,true,false);
% Create a Nonlinear Autoregressive Network
feedbackDelays = 1:22;
hiddenLayerSize = 10;
net = narnet(feedbackDelays,hiddenLayerSize);
% Prepare the Data for Training and Simulation
% The function PREPARETS prepares timeseries data for a particular network,
% shifting time by the minimum amount to fill input states and layer states.
% Using PREPARETS allows you to keep your original time series data
unchanged, while
% easily customizing it for networks with differing numbers of delays, with
% open loop or closed loop feedback modes.
[inputs,inputStates,layerStates,targets] = preparets(net,{},{},targetSeries);
% Setup Division of Data for Training, Validation, Testing
% For a list of all data division functions type: help nndivide
net.divideFcn = 'divideblock'; % Divide data randomly
net.divideMode = 'time'; % Divide up every value
net.divideParam.trainRatio = 70/100;
net.divideParam.valRatio = 15/100;
net.divideParam.testRatio = 15/100;
% Choose a Training Function
% For a list of all training functions type: help nntrain
net.trainFcn = 'trainlm'; % Levenberg-Marquardt
% Choose a Performance Function
% For a list of all performance functions type: help nnperformance
net.performFcn = 'mse'; % Mean squared error
% Choose Plot Functions
% For a list of all plot functions type: help nnplot
net.plotFcns = {'plotperform','plottrainstate','plotresponse', ...
'ploterrcorr', 'plotinerrcorr'};
83
Приложение 7(продолжение). Код к созданию авторегрессионной нейронной
сети в программе matlab
% Train the Network
[net,tr] = train(net,inputs,targets,inputStates,layerStates);
% Test the Network
outputs = net(inputs,inputStates,layerStates);
errors = gsubtract(targets,outputs);
performance = perform(net,targets,outputs)
% Recalculate Training, Validation and Test Performance
trainTargets = gmultiply(targets,tr.trainMask);
valTargets = gmultiply(targets,tr.valMask);
testTargets = gmultiply(targets,tr.testMask);
trainPerformance = perform(net,trainTargets,outputs)
valPerformance = perform(net,valTargets,outputs)
testPerformance = perform(net,testTargets,outputs)
% View the Network
view(net)
% Closed Loop Network
% Use this network to do multi-step prediction.
% The function CLOSELOOP replaces the feedback input with a direct
% connection from the outout layer.
netc = closeloop(net);
[xc,xic,aic,tc] = preparets(netc,{},{},targetSeries);
yc = netc(xc,xic,aic);
perfc = perform(net,tc,yc)
T={0.896739130434783 0.916189931350114 0.899027459954233
0.901315789473684 0.915617848970252 0.888729977116705
0.908180778032037 0.901601830663616 0.891304347826087
0.882151029748284 0.887728832951945 0.883295194508009
0.863272311212815 0.858123569794050 0.858123569794050
0.832665903890160 0.821510297482837 0.823512585812357
0.834382151029748 0.822368421052632 0.831521739130435
0.828089244851259 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN};
[xc1,xic1,aic1,tc1] = preparets(netc,{},{},T);
yc1 = netc(xc1,xic1,aic1)
84
Скачать