Правительство Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования

advertisement
Правительство Российской Федерации
Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
«Национальный исследовательский университет
"Высшая школа экономики"»
Санкт-Петербургский филиал федерального государственного
автономного образовательного учреждения высшего профессионального
образования
«Национальный исследовательский университет "Высшая школа экономики"»
Факультет ____экономики_________
Кафедра ____экономической теории_______
БАКАЛАВРСКАЯ РАБОТА
На тему: «Разработка динамического фильтра отсеивания ошибок в методе
стохастической аппроксимации»
Направление/специальность ________экономика___________
Студент группы № 143
Зайнулин Денис Айратович
Научный руководитель:
доцент, каф. эк-ой теории
Светуньков Иван Сергеевич
Санкт-Петербург
2013
Оглавление
Введение............................................................................................................. 3
Глава 1. Метод стохастической аппроксимации (МСА) .............................. 5
1.1. Основные алгоритмы МСА................................................................. 5
1.2. МСА реализация на практике ........................................................... 14
Глава 2. МСА с динамическим фильтром отсеивания ошибок ................. 19
2.1. Методика построения МСА с динамическим фильтром ............... 19
2.2. Построение динамического фильтра отсеивания ошибок............. 24
2.3. Прогнозирование с помощью МСА с динамическим фильтром .. 33
Заключение ...................................................................................................... 39
Список использованной литературы ............................................................ 41
Приложение ..................................................................................................... 44
2
Введение
В современном, динамично развивающемся мире использование
различных моделей для предсказания будущего стало обычным делом.
Существует огромное количество моделей, которые используются в той или
иной ситуации, в зависимости от ряда данных или ожидаемого результата.
Однако ни одна из существующих моделей не является совершенной, у
каждой есть свои недостатки и достоинства и каждая из них является лишь
приближённым отражением реальности.
Практически одновременно с появлением первых описательных
моделей, весьма остро встал вопрос о способности модели точно описывать
ряд данных, или аппроксимировать его. Ведь фактически каждый ряд
эволюционирует и модель должна двигаться вместе с этой эволюцией, а не
стоять на месте. В связи с этим был разработан метод стохастической
аппроксимации,
который
позволял
адаптировать
коэффициенты
первоначальной модели в зависимости от изменений, которые происходили в
ряде данных.
От точности прогноза зависят прибыли компаний, успешность
выполнения бизнес планов, государственное регулирование социальноэкономической жизни населения, в связи с чем, в современном мире вопрос
аппроксимирования стал ещё острее, ведь точность прогноза идёт уже не на
целые числа, а на десятые и не редко на сотые доли. Метод стохастической
аппроксимации, упомянутый выше, хоть и показывает весьма хорошие
результаты при адаптации коэффициентов модели и уже зарекомендовал
себя, однако некоторые его части при реализации на практике слабо
формализованы.
Исходя из всего вышесказанного, считаю, что тема моей выпускной
квалификационной работы является актуальной, так как основной её целью
является
модернизация
метода
стохастической
аппроксимации.
Для
3
достижения поставленной в ВКР цели мне необходимо будет решить ряд
следующих задач:
1. Изучить зарубежную и отечественную литературу по МСА
2. Применить на практике МСА и выявить возможные недостатки
3. Исходя из полученных во время обучения знаний, попытаться
устранить
возможные
недостатки,
а
также
формализовать
слабоунифицированные части МСА
4. Применить на практике на достаточном количестве временных
рядов модернизированный метод стохастической аппроксимации и
сравнить полученные результаты с применением обычного МСА
5. Сделать выводы о корректности и возможности применения
модернизации на практике.
Объектом исследования моей выпускной квалификационной работы
являются временные ряды, а предметом - это модели, описывающие их, и
способы адаптации моделей к эволюционным процессам во временных
рядах.
При написании ВКР я использую следующие методы исследования:
1. Изучение литературы соответствующей тематике ВКР литературы.
2. Индуктивные методы – перебор возможных способов модернизации
МСА и выбор наиболее эффективного из них.
3. Наблюдение за изменениями в МСА после различных дополнений,
отброс ненужных или неэффективных.
4. Математические и статистические методы при применении как
самого МСА на практике, так и его модернизированной формы.
4
Глава 1. Метод стохастической аппроксимации (МСА)
1.1. Основные алгоритмы МСА
Основные
алгоритмы
стохастической
аппроксимации
были
разработаны в начале 1950-х годов Робинсоном, Монро, Кифером и
Вольфовицем, которые, впоследствии, получили названия в честь своих
разработчиков.
дальнейшем
Также
МСА,
алгоритмы
стали
стохастической
предметом
множества
аппроксимации,
в
теоретических
и
практических работ. Основной парадигмой МСА является следующее
стохастическое разностное уравнение:
𝜃𝑛+1 = 𝜃𝑛 + 𝜀𝑛 𝑌𝑛 1
(1.1)
где величина 𝜃𝑛 это какое-нибудь значение из Евклидового пространства.
Произвольное линейное пространство называется Евклидовым, если: 1)
известно правило, посредством которого любым двум элементам этого
множества
ставится
в
соответствие
число,
называемое
скалярным
произведением этих элементов; 2) указанное правило таково, что для
скалярного
произведения
переместительное,
справедливы
сочетательное
относительно
следующие
свойства:
числового
множителя,
распределительное относительно суммы и произведение элемента на себя
больше нуля, если он является ненулевым вектором и равно нулю, если
является нулевым вектором2. 𝑌𝑛 случайная величина, а 𝜀𝑛 > 0 - «размер
шага», который является бесконечно малой величиной, стремящейся к нулю
при увеличении количества итераций - n, то есть lim 𝜀𝑛 = 0. В простейшем
𝑛→∞
1
Harold J. Kushner G. George Yin Stochastic Approximation and Recursive Algorithms and Applications
– Springer, 2003 – 3p.
2
Ильин В.А., Позняк Э.Г. Аналитическая геометрия: Учебник для вузов – 5-е изд. – М.: Физматлит,
1999 – 61 с.
5
случае θ – параметр системы, а Y – функция наблюдений, подверженных
шуму и используемых в системе, когда параметр принимает значение 𝜃𝑛 .
Одними из первых разработали свой алгоритм метода стохастической
аппроксимации в 1951 году Робинсон и Монро. Рекуррентное соотношение
Робинсона-Монро, формула 1.1, которую фактически повторяет модель
Брауна применительно к нестационарным рядам. Однако, различие в том,
что параметр гамма, демпфирования колебаний, в соотношении РобинсонаМонро является положительным и убывающим, а это значит, что с
увеличением количества итераций, то есть количества повторений, значения
функции невязки, той же ошибки, убывают, и значения x(n) стремится к
значению x(n-1).
𝑥[𝑛] = 𝑥[𝑛 − 1] + 𝛾[𝑛](𝑈 − 𝑌(𝑥[𝑛 − 1])
(1.2)
Интересными являются способы задания параметра демпфирования
колебаний. Наиболее применимыми на практике являются функциональные
зависимости
данного
параметра
от
количества
наблюдений
или
управляющего воздействия x, формула 1.2, или способы задания данного
параметра с нелинейным шагом, например, алгоритм Качмажа для линейной
многофакторной модели, формула 1.3, либо с переменным шагом, формулы
1.4 и 1.5.
Практически все алгоритмы предполагают в конечном итоге
схождение к оптимальному значению и уменьшение значимости функции
невязки.
𝛾[𝑛] = 𝐹(𝑌, 𝑥, 𝑛)
𝛾[𝑛] =
𝑌[𝑛]−∑𝑖 𝑎𝑖 𝑥𝑖 [𝑛]
∑𝑖 𝑥𝑖2 [𝑛]
𝛾[𝑛] = 1⁄𝑛 𝛾[𝑛] = 1⁄ 2
𝑛
(1.3)
(1.4)
(1.5)
6
В методе стохастической аппроксимации целью является максимальная
адаптация модели к эволюционирующему процессу.
Хотя использование МСА для адаптации моделей является достаточно
трудоёмким процессом особенно для нелинейных моделей, однако его
применение в большинстве случаев оправдывает затраты, ретроспективные
прогнозы с применением МСА получаются точнее.
Теперь рассмотрим МСА на некоторых примерах. В Методах
социально-экономического прогнозирования авторов Светунькова С.Г. и
Светунькова
И.С.
рассматриваются
различные
модели,
которые
адаптируются с помощью МСА. Однофакторная эконометрическая модель
следующего вида:
𝑌̂𝑡 = 𝑓(𝑥𝑡 , 𝑎̂𝑖 )
(1.6)
где 𝑎̂𝑖 коэффициенты модели, которые найдены с помощью МНК и
i=0,1,2,…,m-1
m число коэффициентов модели
𝑥𝑡 фактор, который влияет на показатель 𝑌𝑡
Процесс адаптации модели проходит следующим образом. Во-первых,
из формулы 1.6 выражается коэффициент 𝑎̂𝑖
через экономический
показатель, фактор и остальные коэффициенты и получаем следующее
выражение:
𝑎̂𝑖 = 𝐹(𝑌̂𝑡 , 𝑥𝑡 )
(1.7)
Если в формулу 1.7, вместо расчётного значения 𝑌̂𝑡 , фактическое
значение 𝑌𝑡 , то новый полученный коэффициент 𝑎𝑖𝑡 , отличный от расчётного
7
𝑎̂𝑖 , позволяет модели описывать фактическое наблюдение. В формуле 1.8
представлены фактические коэффициенты.
𝑎𝑖𝑡 = 𝐹(𝑌𝑡 , 𝑥𝑡 )
(1.8)
Соответственно чем хуже модель описывает реальное значение, тем
сильнее будут отличаться коэффициенты полученные в формулах 1.7 и 1.8.
Следовательно,
когда
разница
между
фактическим
и
расчётным
коэффициентами увеличивается, коэффициенты модели нуждаются в
коррекции. Введение второго индекса t, необходимо потому что, в процессе
адаптации расчётные значении коэффициентов меняются во времени. По
следующей
модификации
формулы
Роббинсона-Монро
будет
осуществляться адаптации модели в момент времени t3.
𝑎̂𝑖𝑡 = 𝑎̂𝑖𝑡 [𝑛 − 1] + 𝛾[𝑛](𝑎𝑖𝑡 − 𝑎̂𝑖𝑡 [𝑛 − 1])
(1.9)
𝑎̂𝑖𝑡 [0] = 𝑎̂𝑖𝑡−1 [𝑁]
(1.10)
Где N - последний шаг адаптации коэффициента на предыдущем
наблюдении.
В
случае
аддитивных
моделей,
исследования
показали,
что
наилучшими в плане адаптации будут являться алгоритмы с постоянным
шагом, при этом параметр демпфирования колебаний будет рассчитываться
по формуле:
𝛾𝑖𝑡 = 𝑘𝑖𝑡 |
|𝜀𝑖𝑡 |−𝜂
𝜀𝑖𝑡
|
(1.11)
3
Светуньков С.Г., Светуньков И.С. Методы социально-экономического прогнозирования: Учебник
для вузов. Том II. – СПб.: Изд-во СПбГУЭФ, 2010. – 105 с
8
Коэффициент k является весовым и характеризует степень адаптации iго коэффициента по сравнению с остальными, при этом сумма весовых
коэффициентов должна быть равно единице. Исследования показали, что
значения параметров демпфирования, которые рассчитываются с помощью
формулы 1.11 являются оптимальными, то есть адаптация модели
происходит за один шаг4. Однако является странным момент того, что во
всех наблюдениях коэффициенты модели будут иметь одинаковый вес, так
как весьма логично предположить, что влияние свежих данных на будущие
значения намного больше, нежели данных оставленных далеко в прошлом.
Если весовой коэффициент одинаков для всех коэффициентов, тогда
параметр демпфирования колебаний рассчитывается следующим образом:
𝛾𝑖𝑡 = 𝛾𝑡 =
1 |𝜀𝑡 |−𝜂
|
|
𝑚
𝜀𝑡
(1.12)
Адаптация прогнозных моделей происходит в том случае, если во
время некоторого наблюдения t реальные значения, вычисленные по
предыдущим расчётным значениям коэффициентов, выходят за допустимые
границы, то есть выполняется следующее соотношение5:
|𝜀𝑡 | > 𝜂
(1.13)
где:
𝜀𝑡 = 𝑌𝑡 − (𝑎̂0𝑡−1 + 𝑎̂1𝑡−1 𝑥𝑡 )
(1.14)
Дальше действуем по алгоритму представленному выше, то есть
выражаем каждый коэффициент линейной однофакторной модели.
Светуньков С.Г., Параметры демпфирования колебаний при адаптивном подходе к задаче
идентификации динамических систем // Моделирование и разработка технических средств для АСУ ТП. –
Ташкент; ТашПИ, 1987.
5
Светуньков С.Г., Светуньков И.С. Методы социально-экономического прогнозирования: Учебник
для вузов. Том II. – СПб.: Изд-во СПбГУЭФ, 2010. – 105 с
4
9
𝑎0𝑡 = 𝑌𝑡 − 𝑎̂1𝑡 𝑥𝑡
𝑎1𝑡 =
(1.15)
𝑌𝑡 −𝑎̂0𝑡
(1.16)
𝑥𝑡
Подставим полученные значения в формулу 1.9 выражения для
коэффициентов из формул 1.15 и 1.16.
𝑎̂0𝑡 = 𝑎̂0𝑡 [𝑛 − 1] + 𝛾𝑡 (𝑌𝑡 − 𝑎̂1𝑡−1 𝑥𝑡 − 𝑎̂0𝑡 [𝑛 − 1])
𝑌𝑡 −𝑎̂0𝑡−1
𝑎̂1𝑡 = 𝑎̂1𝑡 [𝑛 − 1] + 𝛾𝑡 (
𝑥𝑡
− 𝑎̂1𝑡 [𝑛 − 1])
(1.17)
(1.18)
В данном случае, используя коэффициенты 𝑎̂0𝑡−1 и 𝑎̂1𝑡−1 , как значения
коэффициентов на начальном шаге, в соответствии с уравнением 1.9,
получим:
𝑎̂0𝑡 [𝑛] = 𝑎̂0𝑡 [𝑛 − 1] + 𝛾𝑡 (𝑌𝑡 − 𝑎̂1𝑡−1 𝑥𝑡 − 𝑎̂0𝑡 )
𝑎̂1𝑡 [𝑛] = 𝑎̂1𝑡 [𝑛 − 1] + 𝛾𝑡
(𝑌𝑡 −𝑎̂0𝑡−1−𝑎̂1𝑡−1 𝑥𝑡 )
𝑥𝑡
(1.19)
(1.20)
Выражения в скобках соответствуют уравнению 1.14, получаем
упрощённую запись для вычисления адаптированных коэффициентов:
𝑎̂0𝑡 = 𝑎̂0𝑡−1 + 𝛾𝑡 𝜀𝑡
𝑎̂1𝑡 = 𝑎̂1𝑡−1 + 𝛾𝑡
𝜀𝑡
𝑥𝑡
(1.21)
(1.22)
10
Адаптация нелинейных и многофакторных моделей происходит
аналогичным, адаптации линейной однофакторной модели, образом. Однако
такие модели делятся на 2 вида – это линейные по параметрам и нелинейные
по параметрам. В первом случае достаточно линеаризовать модель
доступными способами, например логарифмированием. Сложнее обстоит
ситуация с моделями нелинейными по параметрам, для адаптации таких
моделей, необходимо знать значения параметров демпфирования колебаний,
однако получить простую формулу для вычисления данного параметра не
получится. Исследования показали, что для такого типа моделей параметры
демпфирования колебаний должны быть различны для всех коэффициентов
модели.6
Алгоритм Роббинсона-Монро с различными его модификациями
является основным алгоритмом МСА, однако существуют и другие
алгоритмы, которые указывались ранее, такие как, алгоритм КифераВольфовица, который применяется для минимизации среднего значения
случайной величины, позволяющий минимизировать функцию регрессии.
Такой алгоритм можно применить при построении регрессии, описывающей
зависимость затрат фирмы от различных факторов. Суть данного метода в
следующем.
Пусть есть случайная величина:
𝑦𝑘 = 𝑓(𝛼𝑘 ) + 𝜀𝑘
(1.23)
задача которая стоит перед нами, найти такое значение параметра α,
которое минимизирует среднее значение случайной величины:
𝑓(𝛼) = min 𝑓(𝑎)
𝛼
(1.24)
Светуньков С.Г., Параметры демпфирования колебаний при адаптивном подходе к задаче
идентификации динамических систем // Моделирование и разработка технических средств для АСУ ТП. –
Ташкент; ТашПИ, 1987
6
11
Если функция f(α) известна и дважды дифференциуема, то можно
применить известный метод Ньютона:
𝛼𝑘+1 = 𝛼𝑘 − [𝑓𝛼 (𝛼𝑘 )]−1 𝑓𝛼 (𝛼𝑘 )
(1.25)
Если функция f(α) неизвестна или есть только предположения о её
типе, то предположим, что можно провести эксперимент, в которое
наблюдается её случайные значения. Тогда применяется МСА. Пусть {𝑐𝑘 } это
последовательность
удовлетворяют
положительных
следующему
условию
конечных
интервалов,
lim 𝑐𝑘 = 0,
𝑘→∞
𝑒𝑖
-
которые
единичный
координатный вектор. Пусть 𝛼𝑘 - k-я оценка векторного параметра и 𝑦𝑘 - k-е
наблюдение функции. Если 𝛼 ∈ 𝑅𝑟 , то для конечно-разностной оценки
производной 𝑓𝛼 (𝛼𝑘 ) требуется 2r наблюдений: 𝛼𝑘 ± 𝑐𝑘 𝑒1 , … , 𝛼𝑘 ± 𝑐𝑘 𝑒𝑖 . Для
вектора 𝐷𝑓(𝛼𝑘 , 𝑐𝑘 ), 𝐷𝑓(𝛼𝑘 , 𝑐𝑘 ) и ошибки наблюдения 𝜀𝑘 следующим образом:
𝐷𝑓 𝑖 (𝛼𝑘 , 𝑐𝑘 ) = [𝑓(𝛼𝑘 + 𝑐𝑘 𝑒𝑖 ) − 𝑓(𝛼𝑘 − 𝑐𝑘 𝑒𝑖 )]
(1.26)
Где i-ая компонента вектора 𝐷𝑓(𝛼𝑘 , 𝑐𝑘 ) следующая 𝐷𝑦 𝑖 (𝛼𝑘 , 𝑐𝑘 ) =
(𝑦2𝑟𝑘+2𝑖−1 − 𝑦2𝑟𝑘+2𝑖 )/2𝑟
i-ая компонента вектора 𝐷𝑓(𝛼𝑘 , 𝑐𝑘 ) - 𝜀𝑘 = 𝐷𝑦(𝛼𝑘 , 𝑐𝑘 ) − 𝐷𝑓(𝛼𝑘 , 𝑐𝑘 )
Тогда алгоритм Кифера-Вольфовица имеет следующий вид:
𝛼𝑘+1 = 𝛼𝑘 − 𝛾𝑘 𝐷𝑦(𝛼𝑘 , 𝑐𝑘 ) = 𝛼𝑘 − 𝛾𝑘 [𝐷𝑓(𝛼𝑘 , 𝑐𝑘 ) + 𝜀𝑘 ]
После
преобразования
алгоритма
Кифера-Вольфовица
(1.27)
можно
использовать его для максимизации среднего значения случайной величины.
Тогда есть возможность строить несколько видов прогнозов для проектов:
12
оптимистический,
пессимистический,
наиболее
вероятный.
Также
существует и широко применяется релаксационный алгоритм КифераВольфовица, который состоит в том, что итерационный процесс движется в
одном координатном направлении в течение одного шага7.
Метод
стохастической
аппроксимации
обладает
следующими
преимуществами:
1. Модель позволяет описать любую тенденцию
- для этого
достаточно выбрать первоначальную функцию и вывести формулы
для пересчёта коэффициентов
2. Модель позволяет описывать многофакторные зависимости (а не
только зависимости от времени, как модификации модели Брауна)
3. Модель даёт хорошие прогнозы в среднесрочном аспекте, так как
отсеивает шумы, ошибки, и адаптируется только к существенным
изменениям тенденций.
Однако,
как
и
любая
модель,
МСА
обладает
следующими
недостатками:
1. Нет никакого алгоритма задания величины η – его значение
выбирается полностью экспертно на основе оценок
2. Модель достаточно громоздка, особенно в случае нелинейной по
параметрам многофакторной модели.
3. Нет
никакого
обоснования
того,
каким
образом
должны
рассчитываться первоначальные значения коэффициентов.
Разработка динамического интервала отсеивания ошибок, позволит в
некотором роде формализовать способ задания величины η, таким образом,
есть возможность избавиться от одного недостатка МСА. Так как МСА
широко
применяется
в
различных
сферах,
то
данное
направление
модернизации МСА является актуальным и перспективным.
7
Е. М. Левицкий Адаптивные эконометрические модели - Акад. Наук СССР. Сиб. отд-ние. Ин-т
экономики и орг. пром. пр-ва. – Новосибирск: Наука. Сиб. отд-ние, 1981 – 184 с
13
1.2. МСА реализация на практике
Построение простой регрессионной модели по всему ряду некорректно,
так как связи между факторами постоянно меняются. Причиной этих
изменений является эволюция, однако простая адаптация коэффициентов не
приводит к желаемому результату, так как нужно адаптироваться к
систематическим изменениям. Для таких целей в МСА строится интервал
отсеивания ошибок, в котором могут происходить случайные отклонения.
В стандартном МСА предполагается, что исследователь задаёт
величину ɳ>0, для получения фильтрующего интервала:
𝑌̂𝑡 − ɳ < 𝑌𝑡 < 𝑌̂𝑡 + 𝜂
(1.28)
Если фактические значения попадают в заданный интервал, то
коэффициенты остаются прежними, то есть структурных изменений в ряде
данных не произошло. Условие, записанное в неравенстве 1.28, иными
словами означает, что модуль разности между фактическими значениями и
предсказанными не превосходит величину ɳ. В случае же, если фактические
значения
оказываются
за
пределами
фильтрующего
интервала,
то
необходимо определённым образом адаптировать коэффициенты модели.
Рассмотрим адаптацию коэффициентов на примере простой парной
регрессии.
Пусть дана парная регрессия:
𝑌̂𝑡 = 𝑏̂0 + 𝑏̂1 𝑥𝑡
(1.29)
Из уравнения 1.29 мы можем выразить расчётное значение константы:
𝑏̂0 = 𝑌̂𝑡 − 𝑏̂1 𝑥𝑡
(1.30)
14
Если в уравнение 1.30 вместо расчётного значения подставить
фактическое значение, то мы получим формулу для расчёта фактического
значение константы:
𝑏0 = 𝑌𝑡 − 𝑏̂1 𝑥𝑡
(1.31)
Фактическое значение константы будет отличаться от расчётного на
следующую величину:
𝑏0 − 𝑏̂0 = (𝑌𝑡 − 𝑏̂1 𝑥𝑡 ) − (𝑌̂𝑡 − 𝑏̂1 𝑥𝑡 ) = 𝑌𝑡 − 𝑌̂𝑡 = 𝜀𝑡
(1.32)
Проведя аналогичные рассуждения для угла наклона, получаем
следующее соотношение между фактическим и расчётным углами наклона:
𝑏1 − 𝑏̂1 =
𝜀𝑡
(1.33)
𝑥𝑡
Теперь необходимо адаптировать старые коэффициенты с учётом
изменений.
𝑏0,𝑡+1 = 𝑏0,𝑡 + 𝜈0 𝛾𝑡 𝜀𝑡
𝑏1,𝑡+1 = 𝑏1,𝑡 + 𝜈1 𝛾𝑡
𝜀𝑡
𝑥𝑡
(1.34)
(1.35)
В формуле 1.34 записана адаптация для константы, в формуле 1.35 – для угла
наклона, где 𝜈𝑖 – это вес i-го коэффициента регрессии, а 𝛾𝑡 - коэффициент
демпфирования колебаний.
Стандартный метод задания весов – это когда все коэффициенты
адаптируются с одинаковой скоростью, однако возможны и другие способы,
15
когда коэффициенты регрессии адаптируются с различной скоростью.
Основным условием для весов является следующее:
∑𝑘𝑖=1 𝜈𝑖 = 1
(1.36)
Возможны следующие ситуации:
1. 𝜈0 = 𝜈1 = 0,5 - веса делятся поровну
2. 𝜈0 = 1 𝜈1 = 0 - адаптируется только константа
3. 𝜈0 = 0 𝜈1 = 1 - адаптируется только угол наклона
4. 𝜈0 = −0,5 𝜈1 = 1,5
-
адаптация
коэффициентов
происходит
противоположные стороны.
Параметр 𝛾𝑡 определяет скорость адаптации, в качестве примера взята
курсовая стоимость акций Норильского Никеля за период с 01.04.2009 по
01.04.2013 по месячным данным по ценам закрытия. Всего 49 наблюдений.
При построении МНК модели будет использована зависимость курсовой
стоимости акций Норильского Никеля от стоимости никеля за аналогичный
период:
1. 𝛾𝑡 = 𝛼 - модель всегда адаптируется с одинаковой скоростью
2. 𝛾𝑡 = |
|𝜀𝑡 |−ɳ
𝜀𝑡
| –модель будет всегда подтягиваться к крайней границе
интервала. Такой способ задания параметра 𝛾𝑡 подходит для рядов с
незначительными изменениями.
3. 𝛾𝑡 = 𝛼 + |
|𝜀𝑡 |−ɳ
𝜀𝑡
|
- модель будет подтягиваться так, что бы
фактические значения оказались внутри интервала
4. 𝛾𝑡 = |
|𝜀𝑡 |+ɳ
𝜀𝑡
| – модель подтягивается к точке противоположной
границы
5. 𝛾𝑡 = |
6. 𝛾𝑡 = |
𝜀𝑡 −ɳ
𝜀𝑡
𝜀𝑡 +ɳ
𝜀𝑡
| - модель подтягивается к точке верхней границы
| – модель подтягивается к точке нижней границы
16
После применения МСА к выбранному ряду данных получили
следующую картину (рисунок 1):
10000
9000
8000
7000
6000
S
5000
S^
4000
S^-ɳ
3000
S^+ɳ
2000
1000
0
1
3
5
7
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 1 МСА для ряда данных
При оценке качества модели использовался параметр sMAPE, (чем он
меньше, тем лучше), который рассчитывается по следующей формуле:
𝑠𝑀𝐴𝑃𝐸 =
100%
𝑇
∑𝑇𝑡=1
|𝑌𝑡 −𝑌̂𝑡 |
𝑌𝑡 +𝑌̂𝑡
(1.37)
sMAPE в данному случае оказался равным 5,54%. При этом по графику
можно увидеть, что модель оказалась достаточно чувствительной к шумам,
что является проблемой, так как шумы как раз должны отсеиваться, а не
усиливаться. Но в целом фактические значения находятся в пределах
интервалов, и МСА оказался лучше, чем обычный МНК, для которого
sMAPE=7,29%. При этом параметр ɳ никак не регулировал ширину
интервала, так как был равен постоянной величине, средней абсолютной
ошибке, которая считается по формуле:
17
1
𝑀𝐴𝐸 = ∑𝑇𝑡=1|𝜀𝑡 |
𝑇
(1.38)
Таким образом, в МСА адаптация происходит в 2 этапа, во-первых,
отсев шумов за счёт параметра ɳ, во-вторых, адаптация модели за счёт
параметра демпфирования колебаний 𝛾𝑡 .
Однако в методе стохастической аппроксимации есть 2 существенные
проблемы:
1. Задание параметра ɳ
2. Задание стартовых значений
В качестве стартовых значений коэффициентов, можно взять значения
коэффициентов, которые получены при построении обычной МНК модели и
уже исходя из них, рассчитывать параметр ɳ, к примеру, следующим
способом:
1. Из построенной МНК модели, рассчитать ошибки
2. Взять наибольшую по модулю ошибку
3. На основе её рассчитать параметр ɳ = 𝜀𝑚𝑎𝑥 (1 − 𝛽)
При этом регулируя величину β можно задавать ширину границ.
18
Глава 2. МСА с динамическим фильтром отсеивания ошибок
2.1. Методика построения МСА с динамическим фильтром
Как мы видели в прошлой главе, реализация МСА на практике
затруднена, так как метод обладает рядом минусов. В данной главе мы
займёмся устранением некоторых из этих минусов и, как следствие, получим
более
формализованный
и
преобразованный
метод
стохастической
аппроксимации.
Первым и достаточно серьёзным минусом, на мой взгляд, является то,
что всем наблюдениям придаётся одинаковый вес на всем временном
интервале. Так как мы имеем дело в основном с временными рядами, то
наиболее ценными для нас являются наблюдения, которые максимально
приближены к настоящему моменту, конечно в зависимости от того, данные
с какой периодичностью мы используем час, день, месяц, год. В таком случае
логичнее было бы придавать наибольший вес данным, которые находятся в
непосредственной близости от настоящего момента, так как, например, при
прогнозировании инфляции на 2014 и 2015 года, мы вряд ли будем
использовать данные об инфляции в период до 2000 года, а наиболее
ценными для нас окажутся показатели инфляции за 3-4 предыдущих года.
Задача сводится к формализованному правилу выбора весов для наблюдений.
В целях экономии времени при построении МСА и целесообразности
проведения громоздких вычислений, веса будут распределяться между
группами наблюдений, которые входят в один интересующий нас интервал.
Временной интервал разбивается на 4 группы наблюдений, почему именно
на 4 группы поговорим чуть позже. При этом наиболее отстоящий от
настоящего момента времени интервал корректируется на оставшееся
количество групп. Оставшееся количество наблюдений разбивается на 3
части и так же корректируется на оставшееся количество групп.
Аналогичным
способом
формируется
3-я
группа
наблюдений
или
19
подвыборка. Самая приближенная к настоящему моменту подвыборка равно
общему количеству наблюдений за вычетом количества наблюдений во всех
остальных группах.
Формализуем вышеизложенные рассуждения. Количество наблюдений
в первой подвыборке определяется из следующей формулы:
𝑛
𝑘1 = − 3
4
(2.1)
где 𝑘1 - количество наблюдений в первой подвыборке, n – общее количество
наблюдений, 3 – оставшееся количество групп наблюдений. При этом
округление количества наблюдений идёт вниз, то есть даже получив 12,9
наблюдений для группы по какой либо из формул, количество наблюдений в
данной группе будет равно 12.
𝑘2 =
𝑘3 =
𝑛−𝑘1
3
−2
𝑛−𝑘2 −𝑘1
2
−1
𝑘4 = 𝑛 − 𝑘1 − 𝑘2 − 𝑘3
(2.2)
(2.3)
(2.4)
Таким образом, количество наблюдений входящих в подвыборки будет
варьироваться от меньшего к большему, причём в группе наблюдений
наиболее приближенных к настоящему моменту, то есть в 𝑘4 - будет
наибольшее количество наблюдений.
Пример 1.
Пусть в выборке есть 50 наблюдений и нам необходимо разбить
данные наблюдения по 4 группам. Тогда в соответствии с формулами 39-40,
получаем следующее количество наблюдений в каждой группе:
20
𝑘1 =
50
4
− 3 = 9,5; округляя вниз, получим 9 наблюдений для первой
подвыборки.
𝑘2 =
50−9
3
− 2 = 11,67; соответственно во второй подвыборке будет 11
наблюдений.
𝑘3 =
50−9−11
2
− 1 = 14; в третьей подвыборке 14 наблюдений.
𝑘4 = 50 − 9 − 11 − 14 = 16;
в
подвыборке,
которая
наиболее
приближена к настоящему моменту времени будет содержаться 16
наблюдений.
После того, как мы определили количество наблюдений в каждой
подвыборке, мы можем присвоить им вес в зависимости от количества
наблюдений. Веса для каждой подвыборки будут формироваться по
следующему правилу:
𝜈𝑖 =
𝑘𝑖
𝑛
(2.5)
Где 𝑘𝑖 – количество наблюдений в каждой подвыборке и n – общее
количество наблюдений, а 𝜈𝑖 - вес каждого наблюдения в соответствующей
подвыборке.
Пример 2.
Исходя из разделения группы наблюдений на подвыборки (смотри
пример 1) и, используя формулу 43 получим веса для коэффициентов в
каждой подвыборке.
𝜈1 =
𝜈2 =
𝜈3 =
𝜈4 =
𝑘1
𝑛
𝑘2
𝑛
𝑘3
𝑛
𝑘4
𝑛
=
=
=
=
9
50
11
50
14
50
16
50
= 0,18 - вес коэффициентов модели в первой подвыборке.
=0,22 – вес коэффициентов во второй подвыборке.
= 0,28 - вес коэффициентов третьей подвыборке.
= 0,32 - вес коэффициентов в чётвёртой подвыборке.
21
Фактически условие того, что сумма весов равна 1 сохраняется и для такой
модификации
МСА,
только
если
в
обычном
МСА
сумма
весов
коэффициентов по горизонтали была равна 1, то в данном случае она равна 1
по вертикали за счёт чего и достигается динамика фильтрующего ошибки
интервала.
Таким образом, в отличие от первоначального способа задания весов в
МСА, когда вес присваивался каждому коэффициенту в отдельности и
оставался неизменным на всём интервале как фактическом, так и
прогнозируемом,
в
описанном
выше
способе,
вес
наблюдения,
соответственно и коэффициентов модели является величиной динамической
и увеличивается с приближением к настоящему моменту времени. Однако
вес остаётся неизменным для самих коэффициентов, то есть каждый
коэффициент адаптируется с одинаковой скоростью для каждого наблюдения
внутри группы, и с разной – для наблюдений в разных группах.
Последний параметр, способ задания которого в обычном МСА был
условно формализован, это параметр ɳ, который задаёт ширину интервала. В
обычном МСА условная формализация заключалась в том, что способ
задания параметра β не был точно задан, а значение подбиралось с помощью
МНК. Теперь же параметр β можно привязать к значению веса группы
наблюдений обратным соотношением, то есть:
𝛽𝑖 =
1
𝜈𝑖
(2.6)
Где 𝛽𝑖 параметр регулирующий ширину фильтрующего интервала для
каждой группы наблюдений из выборки.
Теперь можно записать формулу для параметра, задающего ширину
интервала, то есть ɳ:
𝛽𝑖 −1
ɳ𝑖 = (
𝑖
) ∗ 𝑀𝐴𝐸
(2.7)
22
Где MAE - средняя абсолютная ошибка, которая является постоянной
величиной. Именно за счёт параметра β фильтрующий интервал становится
динамическим, а за счёт того, что он привязывается к количеству
наблюдений, мы получаем формализацию метода.
Вместо средней абсолютной ошибки, формула для вычисления которой
приводилась в предыдущей главе, можно использовать максимальную по
модулю ошибку, так же можно рассчитывать среднюю абсолютную ошибку,
высчитанную для каждой подвыборки отдельно, однако процесс расчёта
параметра ширины интервала в данном случае затягивается и усложняется,
наша же цель а данному случае формализовать весь процесс при
минимальном или равносильном усложнении МСА.
Пример 3.
Пусть средняя абсолютная ошибка равна 60, тогда на основе примеров
1, 2 и формул 2.6 и 2.7 можно вычислить значения параметра фильтрующего
интервала для каждой подвыборки.
𝛽1 −1
1
−1
0,18
𝑖
4
ɳ1 = (
) ∗ 𝑀𝐴𝐸 = (
𝛽2 −1
ɳ2 = (
𝑖
𝛽3 −1
ɳ3 = (
𝑖
𝛽4 −1
ɳ4 = (
Выше
𝑖
) ∗ 60 = 68,33
1
−1
0,22
) ∗ 𝑀𝐴𝐸 = (
4
) ∗ 60 = 53,18
1
−1
0,28
) ∗ 𝑀𝐴𝐸 = (
4
) ∗ 60 = 38,57
1
−1
0,32
) ∗ 𝑀𝐴𝐸 = (
представлены
4
) ∗ 60 = 31,875
значения
ширины
интервалов
для
соответствующих подвыборок, как видно ширина интервала меняется в
зависимости от подвыборки, чем ближе к настоящему моменту времени, тем
уже становится интервал отсеивания ошибок.
23
При построении динамического фильтрующего интервала отсеивания
ошибок можно использовать следующий алгоритм:
1. Определить количество наблюдений в каждой подвыборке по
следующей общей формуле:
𝑘𝑖 =
𝑛−∑𝑚
𝑖=1 𝑘𝑖−𝑗
𝑚
− (𝑚 − 1)
(2.8)
где 𝑘𝑖 - количество наблюдений в i-ой подвыборке, n – количество
наблюдений, m – количество оставшихся подвыборок (или номера
подвыборок
в
обратном
порядке),
∑𝑚
𝑖=1 𝑘𝑖−𝑗
-
количество
наблюдений в предыдущих подвыборках.
2. Взвесить коэффициенты в соответствии с формулой 2.5.
3. Рассчитать значения параметра β для каждой подвыборки по
формуле 2.6.
4. Рассчитать значения параметра ɳ по формуле 2.7.
Реализацию модифицированного МСА мы рассмотрим в следующем
параграфе.
2.2. Построение динамического фильтра отсеивания ошибок
Рассмотрим реализацию модифицированного МСА на различных
данных с помощью алгоритма описанного в предыдущем параграфе. О том,
как прогнозировать с помощью данного метода поговорим после примеров с
применением МСА с динамическим интервалом.
Первый ряд данных, по которому будет построен динамический
фильтрующий интервал – это курсовая стоимость акций Норильского Никеля
в период с 01.04.2009 по 01.04.2013 с интервалом в месяц и всего 49
наблюдений.
Норильский
Никель
является
крупнейшим
в
мире
производителем никеля и палладия и одним из крупнейших в мире
24
производителем меди и платины. Основными видами деятельности компании
являются поиск, разведка, добыча, обогащение и переработка полезных
ископаемых, а также производство и реализация цветных металлов.
Стартовые значения будут задаваться с помощью построения МНК
регрессии, которая отражает зависимость между курсовой стоимость акций
и стоимостью никеля за аналогичный период. Мы можем применять парную
регрессию для задания стартовых значений, так как на начальном этапе нам
необходимо максимально упростить метод, главное чтобы регрессия
оказалась в целом значима, что будет говорить и о значимости
коэффициента, а объясняющая способность модели высокая.
Таким образом, стартовые значения будут следующими:
Таблица 1
Стартовые значения для Норильскго Никеля
Константа
Коэффициент
F-статистика
742,93
0,23
49,25
Теперь в соответствии с алгоритмом, изложенным в предыдущем
параграфе, рассчитаем значения основных параметров.
1. Выборку, как и в примерах предыдущего параграфа мы будем
разбивать на 4 части, соответственно опираясь на формулу 46 и на
то, что количество наблюдений равно 49, получи следующее
𝑘1 =
49
4
− 3 = 9,5 - следовательно, количество наблюдений в первой
подвыборке равно 9
𝑘2 =
49−9
3
− 2 = 11,33
количество
-
наблюдений
во
второй
в
третьей
подвыборке 11
𝑘3 =
49−9−11
2
− 1 = 13,5
-
количество
наблюдений
подвыборке 13
25
𝑘4 = 49 − 9 − 11 − 13 = 16 – количество наблюдений в четвёртой
подвыборке
2. Веса коэффициентов распределяются следующим образом:
𝜈1 =
𝜈2 =
𝜈3 =
𝜈4 =
9
49
11
49
13
49
16
49
= 0,184
= 0,225
= 0,265
= 0,326
3. Значения параметра β будут следующими
𝛽1 =
𝛽2 =
𝛽3 =
𝛽4 =
1
𝜈1
1
𝜈2
1
𝜈3
1
𝜈4
=
1
0,184
1
=
0,225
1
=
=
0,265
1
0,326
4. Параметр,
= 5,44
= 4,44
= 3,77
= 3,07
задающий
ширину
интервала,
равен
следующим
значениям, которые рассчитаны в соответствии с формулой 45, при
этом MAE=548,47
Способ же задания фактического значения и критерии адаптации
коэффициентов остались прежними.
Рассмотрим на графиках разницу между МСА и МСА с динамическим
фильтром отсеивания ошибок:
26
10000
9000
8000
7000
6000
S
5000
S^
4000
S^-ɳ
3000
S^+ɳ
2000
1000
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 2 МСА
sMAPE=10.76%
9000
8000
7000
6000
5000
S
4000
S^
3000
S^-ɳ
2000
S^+ɳ
1000
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 3 МСА с динамическим фильтром
sMAPE=7,79%
Вертикальными линиями на графике, изображённом на рисунке 3
обозначена граница подвыборок.. Показатели качества оценивания sMAPE и
величину RSS сведём в таблицу:
27
Таблица 2
Сравнение МСА и МСА с динамическим фильтром для Норильского Никеля
Показатель/Модель
МСА
МСА с динамическим
фильтром (ДФ)
sMAPE
10.76%
7,79%
RSS
24466233,6
13049555,5
Как видно для МСА c динамическим фильтром аппроксимация лучше,
чем для обычного МСА, а также значение RSS меньше. Из анализа графиков
можно сказать, что шумоподавление у МСА с динамическим фильтром
лучше.
Теперь рассмотрим МСА и МСА с ДФ при разбиении на 3 подвыборки,
при этом будем использовать регрессию описывающую зависимость
курсовой стоимости акций ЛУКОЙЛа от стоимости бензина. Данные с
1.04.2009 до 1.04.2013 с интервалом месяц, всего 49 наблюдений. Стартовые
значения следующие:
Таблица 3
Стартовые значения для Лукойла
Константа
Коэффициент
F-статистика
1165,1
236,8
69,36
Используемый показатель MAE для обоих случаев равен 84,92.
28
2500
2000
S
1500
S^
S^-ɳ
1000
S^+ɳ
500
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 4 МСА для ЛУКОЙЛа
sMAPE=4,85%
При разбиении на 3 подвыборки получим следующие результаты:
𝑘1 =
𝑘2 =
49
3
− 2 = 14
49−14
2
− 1 = 16
𝑘3 = 49 − 16 − 14 = 19
𝜈1 =
𝜈2 =
𝜈3 =
𝛽1 =
𝛽2 =
𝛽3 =
14
49
16
49
19
49
1
𝜈1
1
𝜈2
1
𝜈3
= 0,286
= 0,327
= 0,387
=
=
=
1
0,286
1
0,327
1
0,387
= 3,5
= 3,06
= 2,58
29
2500
2000
1500
S
S^
S^-ɳ
1000
S^+ɳ
500
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 5 МСА с динамическим фильтром для ЛУКОЙЛа
sMAPE=3,39%
Таблица 4
Сравнение МСА и МСА с ДФ для Лукойла
Показатель/Модель
МСА
МСА с динамическим
фильтром (ДФ)
sMAPE
4,85%
3,39%
RSS
542876,6801
332210,5
Как видно из таблицы 4 МСА с динамическим интервалом вновь
показывает лучшую аппроксимацию с меньшей RSS.
Теперь рассмотрим МСА с динамическим фильтром отсеивания
ошибок при разбиении выборки на 5 подвыборок. Рассматривать будем на
примере МНК регрессии описывающей зависимость курсовой стоимости
акций ОАО «НОВАТЭК», компания которая занимается геологоразведкой
месторождений углеводородов, добычей, переработкой и реализацией газа и
30
жидких углеводородов от стоимости мазута за период и интервалы
аналогичные предыдущим рассматриваемым рядам.
Стартовые значения следующие:
Таблица 5
Стартовые значения для НОВАТЭКа
Константа
Коэффициент
F-статистика
-156,057
170,326
455,59
При разбиении выборки на 5 подвыборок, получим следующие
значения основных параметров, необходимых для задания динамического
фильтра отсеивания ошибок:
𝑘1 =
𝑘2 =
𝑘3 =
𝑘4 =
49
5
−4=5
49−5
4
−3=8
49−5−8
3
− 2 = 10
49−5−8−10
2
− 1 = 12
𝑘5 = 49 − 5 − 8 − 10 − 12 = 14
𝜈1 =
𝜈2 =
𝜈3 =
𝜈4 =
𝜈5 =
𝛽1 =
𝛽2 =
5
49
16
49
10
49
12
49
14
49
1
𝜈1
1
𝜈2
= 0,102
= 0,163
= 0,204
= 0,245
= 0,286
=
=
1
0,102
1
0,163
= 9,8
= 6,13
31
𝛽3 =
𝛽4 =
𝛽5 =
1
𝜈3
1
𝜈4
1
𝜈5
=
=
=
1
0,204
1
0,245
1
0,286
= 4,9
= 4,08
= 3,5
500
450
400
350
300
NVTK
250
NVTK^
200
NVTK^-ɳ
150
NVTK^+ɳ
100
50
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 6 МСА для НОВАТЭК
sMAPE=10,25%
500
450
400
350
300
NVTK
250
NVTK^
200
NVTK^-ɳ
NVTK^+ɳ
150
100
50
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 7 МСА с динамическим фильтром для НОВАТЭК
32
sMAPE=7,51%
Таблица 6
Сравнение МСА и МСА с ДФ для НОВАТЭК
Показатель/Модель
МСА
МСА с динамическим
фильтром (ДФ)
sMAPE
10,25%
7,51%
RSS
62739,21
31316,46
Как и в предыдущих случаях МСА с динамическим фильтром
показывает результаты лучше, чем обычный МСА по основным критериям
сравнения sMAPE и RSS.
2.3. Прогнозирование с помощью МСА с динамическим фильтром
При прогнозировании с помощью МСА с динамическим фильтром
главным условием является то, что нужно точно определить на какой период
времени мы хотим построить прогноз. Данное условие является основным,
так как нам необходимо заранее задать веса и интервалы. То есть если мы
хотим построить прогноз на 6 периодов вперёд, а имеем фактические
значения за 43 наблюдения, то в МСА с динамическим фильтром необходимо
задавать параметры на все 49 наблюдений. Конечно, такой способ
построения прогноза является достаточно громоздким, однако разница в
результатах адаптации коэффициентов модели с помощью МСА и МСА с
динамическим фильтром наглядно покажет, что данная громоздкость себя
оправдывает. В целях оптимизации данного процесса, для построения
прогноза будем использовать временные ряды, по которым строились МСА и
МСА с динамическим интервалом в предыдущем параграфе. Соответственно
33
стартовые значения, разбиение на подвыборки, а также основные параметры
останутся
прежними.
Прогноз
в
каждом
временной
ряде
будет
осуществляться на 3 периода вперёд, то есть при взятых интервалах, прогноз
осуществляется на 3 месяца, так как МСА производит адаптацию
коэффициентов, то смысла делать долгосрочные прогнозы, нет. Значения
коэффициентов для модели, описывающей стоимость акций Норильского
никеля следующие:
Таблица 7
Стартовые значения для ретроспективного прогноза по Норильскому Никелю
Модель
МСА
МСА с ДФ
Константа
2220,241
1292,948
Коэффициент
0,2297621
0,243188
При построении ретроспективного прогноза получаем следующую
картину, рисунок 8 до получения фактических значений, рисунок 9 – после.
10000
9000
8000
7000
6000
S
5000
S^
4000
S^-ɳ
3000
S^+ɳ
2000
1000
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 8 Ретроспективный прогноз по МСА для Норильского Никеля
34
10000
9000
8000
7000
6000
S
5000
S^
4000
S^-ɳ
3000
S^+ɳ
2000
1000
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 9 Ретроспективный прогноз с фактом для Норильского Никеля
Таблица 8
МСА для Норильского Никеля
МСА
sMAPE
RSS
До получения факта
11,43%
23416722
После получения факта
10,78%
24679832
Как видно из графиков представленных на рисунках 8 и 9 практически
все фактические значения прошли по нижней границе интервала, при этом
аппроксимация
стала
лучше.
Теперь
рассмотрим,
каким
будет
ретроспективный прогноз для аналогичной зависимости, но уже
с
использованием МСА с динамическим фильтром. Стартовые значении
коэффициентов указаны в таблице 7.
35
9000
8000
7000
6000
S^
S
S^-ɳ
S^+ɳ
5000
4000
3000
2000
1000
0
1
3
5
7
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 10 Ретроспективный прогноз для Норильского Никеля по МСА с ДФ
9000
8000
7000
6000
S
5000
S^
4000
S^-ɳ
3000
S^+ɳ
2000
1000
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рисунок 11 Ретроспективный прогноз с фактом по МСА с ДФ для
Норильского Никеля
Таблица 9
МСА с ДФ для Норильского Никеля
МСА
sMAPE
RSS
До получения факта
8,65%
12974244
После получения факта
7,79%
13049555
По полученным в таблице
9 результатом, можно сказать, что для
данного временного ряда, адаптация коэффициентов с помощью МСА с
36
динамическим фильтром оказалась лучше, чем при обычном МСА, так как
аппроксимация как до получения фактических значений так и после для
МСА с ДФ оказалась лучше.
Для наглядности рассмотрим на графике ретроспективные прогнозы по
обоим методам до получения фактических значений и после. Как видно по
графикам, представленным на рисунках 12 и 13 МСА с динамическим
фильтром даёт ретроспективный прогноз лучше, чем обычный МСА.
7000
6000
5000
4000
МСА
3000
МСАсДФ
ФАКТ
2000
1000
0
1
2
3
4
5
6
7
8
9
10
11
12
Рисунок 12 Ретроспективный прогноз по МСА и МСА с ДФ до получения
факта
7000
6000
5000
4000
МСА
ФАКТ
3000
МСАсДФ
2000
1000
0
1
2
3
4
5
6
7
8
9
10
11
12
Рисунок 13 Ретроспективный прогноз по МСА и МСА с ДФ после получения
фактических значений
37
Аналогичные прогнозы были построены ещё по 50 моделям, с
результатами адаптации можно ознакомиться в приложении 1. Если
закрашена только первая ячейка по модели, то сказать определённо, какой из
методов адаптации лучше – нельзя, если закрашены 2 ячейки, то МСА с
динамическим фильтром оказался лучше, таким образом, доля моделей, в
которых МСА с динамическим фильтром оказался лучше составляет 69%.
38
Заключение
Современные социально-экономические реалии показывают, что без
построения точных прогнозов не обходится практически ни один процесс
принятия
сложных,
определяющих
решений.
Метод
стохастической
аппроксимации направлен то, чтобы путём адаптации коэффициентов
моделей, описывающих различные явления и процессы, принятые решения
были эффективными. Однако при всех преимуществах МСА, он обладает
рядом минусов, в частности слабой формализацией при задании ряда
параметров. Одним из наиболее важных параметров в МСА, является ширина
фильтрующего ошибки интервала, который и позволяет нам определённее
сказать, куда попадёт исследуемая величина. Именно формализации способа
задания фильтра ошибок и посвящена моя выпускная квалификационная
работа.
Основное задачей, было выявление, с помощью каких дополнительных
параметров формализация будет успешной и приведёт к ожидаемому
результату – модернизация МСА и повышение точности прогноза.
Дополнительными параметрами стали следующие:
1. Подвыборки и изменяющееся количество наблюдений в них
2. Динамический вес для каждой подвыборки, который был привязан к
количеству наблюдений
Благодаря привязке ширины фильтра к количеству наблюдений во всём
ряде данных, а также в каждой подвыборке, количеству подвыборок и весу,
удалось формализовать способ задания фильтра ошибок, а также сделать его
динамическим. Преимущество динамического фильтра заключается в
сужении интервалов отсеивания ошибок при приближении к настоящему
моменту или же при построении прогноза, что в свою очередь в большинстве
случаев, в 69%, увеличивает точность прогнозов.
Таким образом, основная цель моей выпускной квалификационной
работы – модернизация и улучшение МСА достигнута, а поставленные
39
задачи решены. В связи с чем считаю, что динамический фильтр в МСА
полностью
применим
на
практике.
Также
возможно
продолжить
исследования по данному вопросу в следующих направлениях:
1. Динамика аппроксимации при изменении количества подвыборок.
Основным предположением такого развития тематики ВКР является то,
что при увеличении количества подвыборок увеличивается степень
аппроксимакции, а также точность прогноза. Однако, хоть и разбиение на
большое количество подвыборок, то есть практически равное количеству
наблюдений, в гипотезе может дать большую точность прогноза, предельная
полезность от добавления каждой последующей подвыборки может
уменьшиться при значительном увеличении трудоёмкости.
2. Обоснование методики выбора количества подвыброк.
Количество подвыборок на данный момент является величиной
задающейся произвольно, поэтому необходимо провести исследования, с
помощью которых можно будет установить зависимость между количеством
подвыброк и точностью прогноза, а также на какое количество подвыборок
оптимальнее всего разбивать ряд данных, состоящий из определённого
количества наблюдений
3. Горизонтальный и вертикальный динамические фильтры.
Как было сказано в ВКР, для построения прогноза нам необходимо
заранее определиться с периодом прогнозирования, что позволяло нам
получить вертикальный динамический фильтр, но в целом весь он был
статичен в пределах выбранного количества наблюдений и периода прогноза.
В целях адаптации МСА с динамическим фильтром отсеивания ошибок к
учёту поступающей информации, возможна автоматизация процесса расчёта
ширины динамического фильтра при его горизонтальном движении.
40
Список использованной литературы
1. Вазян М. Стохастическая аппроксимация – М.: Изд-во МИР, 1972. –
292 с.
2. Граничин О.Н. Введение в методы стохастической оптимизации и
оценивания: Учеб. пособие – СПб.: Изд-во СПбГУ, 2003. – 131 с.
3. Ермольев Ю.М. методы стохастического программирования – М.:
Наука, 1976. – 239 с.
4. Ильин В.А., Позняк Э.Г. Аналитическая геометрия: Учебник для
вузов – 5-е изд. – М.: Физматлит, 1999 –223 с
5. Катковник В.Я. Линейные оценки и стохастические задачи
оптимизации – М.: Наука, 1976. – 487 с.
6. Левицкий Е. М. Адаптивные эконометрические модели - Акад.
Наук СССР. Сиб. отд-ние. Ин-т экономики и орг. пром. пр-ва. –
Новосибирск: Наука. Сиб. отд-ние, 1981. – 184 с.
7. Левицкий Е. М. Адаптация в моделировании экономических систем
Акад. Наук СССР. Сиб. отд-ние Ин-т экономики и орг. пром. пр-ва.
– Новосибириск: Наука. Сиб. отд-ние, 1977. – 208 с.
8. Лукашин
Ю.П.
Адаптивные
методы
краткосрочного
прогнозирования временных рядов: Учеб. пособие – М.: Финансы и
Статистика, 2003.
9. Льюис К.Д. Методы прогнозирования экономических показателей –
М.: Финансы и статистика, 1986
10. Назин
А.В.,
Позняк
А.С.
Адаптивный
выбор
вариантов:
реккуретные алгоритмы – М.: Наука, 1986. – 287 с.
11. Невельсон М.Б., Хасьминский Р.З. Стохастическая аппроксимация
и реккуретное оценивание – М.: Наука, 1972. – 304 с
12. Поляк Б.Т. Введение в оптимизацию – М.: Наука, 1983. – 384 с.
13. Растригин Л. А. Адаптация сложных систем – Рига: Зинатие, 1981 –
386 с.
41
14. Светуньков
С.Г.,
Светуньков
И.С.
Методы
социально-
экономического прогнозирования: Учебник для вузов. Том II. –
СПб.: Изд-во СПбГУЭФ, 2010. – 105 с.
15. Светуньков
С.Г.
эволюционных
Количественные
составляющих
методы
экономической
прогнозирования
динамики
–
Ульяновск: Изд-во УлГУ, 1999.
16. Светуньков С.Г., Параметры демпфирования колебаний при
адаптивном подходе к задаче идентификации динамических систем
// Моделирование и разработка технических средств для АСУ ТП. –
Ташкент; ТашПИ, 1987.
17. Срагович В.Г. Адаптивное управление – М.: Наука, 1981 – 384 с.
18. Урясьев С.П. Адаптивные алгоритмы стохастической оптимизации
и теории игр – М.: Наука, 1990. – 182 с.
19. Фомин В.Н. Реккуретное оценивание и адаптивная фильтрация –
М.: Наука, 1984. – 288 с.
20. Цыпкин Я.З. Адаптация и обучения в автоматических системах –
М.: Наука, 1968. – 400 с.
21. Цыпкин Я.З. Основы теории обучающих систем – М.: Наука, 1970.
– 252 с.
22. Шильман С.В. адаптивная фильтрация временных рядов – Н.
Новгород: Изд-ва Н.-Новг, 1995. – 180 с.
23. M. Benaim. Dynamics of stochastic approximation algorithms.
Sprtinger-Verlag, Berlin and New York, 1-69p., 1999.
24. R. Buche and H.J. Kushner. Rate of convergence for constrained
stochastic approximation algorithms. SIAM. J. Control Optim., 1041,
2001.
25. H.-F. Chen. Stochastic Approximation and Its Applications. Kluwer
Academic, Boston, 2002
26. B. Delyon and A. Juditsky. Stochastic optimization with averaging of
trajectories. Stochastics Stochastic Rep., 118, 1992
42
27. P. Dupuis and H.J. Kushner. Stochastic approximation via large
deviations: Asymptotic properties. SIAM J. Control Optim., 696, 1985
28. E.G. Gladyshev. On stochastic approximation. Theory Probab. Appl.,
278, 1965
29. Harold J. Kushner, G. George Yin. Stochastic Approximation and
Recursive Algorithms and Application. Springer. 497, 2003
30. A. Juditsky. A stochastic estimation algorithm with observation
averaging. IEEE Trans. Automatic Control, 798, 1993
31. Финам
URL:
http://www.finam.ru/analysis/quotes/default.asp?0=&t=1686626
43
Приложение
Модель/Критерий
МСА
МСА с
Модель1 ДФ
МСА
МСА с
Модель2 ДФ
МСА
МСА с
Модель3 ДФ
МСА
МСА с
Модель4 ДФ
МСА
МСА с
Модель5 ДФ
МСА
МСА с
Модель6 ДФ
МСА
МСА с
Модель7 ДФ
МСА
МСА с
Модель8 ДФ
МСА
МСА с
Модель9 ДФ
МСА
МСА с
Модель10 ДФ
МСА
МСА с
Модель11 ДФ
МСА
МСА с
Модель12 ДФ
МСА
МСА с
Модель13 ДФ
МСА
МСА с
Модель14 ДФ
Модель15 МСА
sMAPE
RSS до
RSS после
sMAPE до после
11219,13416 12161,66021
6,06%
5,75%
9199,192584 10876,36278
1447671,996 1449823,541
5,45%
9,65%
5,40%
8,76%
2682767,337 2756706,698
23416722
24679832
15,15%
11,43%
14,34%
10,78%
12974244
13049555
6702,584692 7001,704186
8,65%
13,33%
7,79%
12,66%
4890,559876 4958,241498
6070102,968 9097985,47
9,96%
10,23%
9,31%
10,22%
4258179,058 9089791,14
24,69579075 25,39892798
8,52%
20,12%
9,36%
19,10%
15,99455751 16,05187772
25526,38402 25663,15876
15,82%
10,59%
14,56%
9,42%
21929,89304 22356,77729
14658,19169 15234,47043
9,53%
6,52%
8,62%
6,02%
7845,890007 10497,84413
2,087183164 2,096213464
5,27%
17,11%
5,40%
16,04%
1,792885954 1,843391156
3,563912729 3,641628623
15,89%
11,68%
15,46%
10,88%
3,208276407 3,254074568
1332,393363 1364,616417
10,13%
10,91%
9,41%
10,55%
1878,494224 1930,872227
15164,4745 15314,69584
12,74%
10,48%
12,38%
9,91%
17071,81119 17443,1721
73459,49491 74630,01857
13,62%
15,54%
13,02%
14,59%
35078,63339 35294,76376
0,530597012 0,573542072
13,09%
7,41%
11,95%
7,31%
0,865983623 0,872212286
5959,214845 6389,207035
9,22%
11,11%
8,59%
10,54%
44
Модель16
Модель17
Модель18
Модель19
Модель20
Модель21
Модель22
Модель23
Модель24
Модель25
Модель26
Модель27
Модель28
Модель29
Модель30
Модель31
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
2780,011701 2924,933552
1447328125 1830217928
8,22%
12,71%
7,59%
12,27%
1438772843 1503033910
402,2694057 432,5735451
11,74%
13,41%
10,65%
13,03%
372,9364392 398,2797009
985761,6715 1096280,107
11,77%
11,11%
11,48%
10,59%
575440,9985 590648,8655
58084,90481 60896,18684
8,79%
25,56%
8,04%
25,06%
76874,16832 82235,74859
14,42518701 14,52839871
30,00%
16,57%
29,73%
15,64%
8,554142654 9,731662243
108,5264176 109,3895482
13,87%
11,79%
14,18%
10,96%
116,7810989 117,0282995
1740,143177 2001,71899
13,90%
8,66%
12,77%
8,75%
1929,197983 2441,564007
387965,581 396776,3914
10,23%
8,74%
10,58%
8,03%
280659,4114 287471,7816
7326,244918 7956,059298
7,62%
5,90%
7,01%
5,78%
6027,598393 6065,571406
0,07249037 0,074749682
5,55%
20,63%
5,07%
19,94%
0,045758044 0,053468857
6612,34257 7667,477662
18,79%
10,08%
19,00%
10,03%
4160,449404 5509,495482
6666,008198 7359,144984
7,42%
15,74%
7,77%
15,83%
5693,836889 5747,119097
26,34238814 26,45252357
14,76%
15,28%
13,80%
13,68%
15,70660621 16,68594975
52910109,65 60812241,95
12,07%
11,51%
11,40%
11,74%
72150770,99 72605659,66
182,805882 196,092793
14,63%
9,53%
13,57%
8,68%
156,5375522 224,133536
60084,11821 71602,07675
50530,81325 52164,82176
8,84%
7,63%
6,96%
8,96%
7,77%
6,52%
45
Модель32
Модель33
Модель34
Модель35
Модель36
Модель37
Модель38
Модель39
Модель40
Модель41
Модель42
Модель43
Модель44
Модель45
Модель46
Модель47
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
МСА
МСА с
ДФ
613442,0405
635714,747
15,68%
14,75%
366603,807 368561,9721
227220,1898 241028,1799
12,64%
12,42%
11,44%
11,38%
161511,7481 177672,1099
4328,223559 4392,045929
10,53%
15,12%
9,78%
13,71%
3542,912797 3694,777151
906403,2745 920784,7475
12,72%
13,20%
11,79%
12,56%
1211545,865 1322494,635
989764,7872 1008633,918
14,77%
15,90%
14,71%
14,97%
916899,0387 983170,7402
7738,80943 8482,234294
15,63%
12,39%
15,35%
12,28%
11299,18535 11414,89978
4284156477 5390490971
14,94%
15,62%
13,98%
15,68%
2266742882 2554093114
250,2628689 287,5262142
11,38%
9,76%
11,02%
9,27%
233,3849636 254,7128638
827941,6081 851327,7477
9,45%
13,30%
8,83%
12,50%
1118735,526 1137017,795
0,013975565 0,014898417
12,36%
8,44%
11,65%
7,95%
0,017921306 0,017983848
0,136653314 0,144743549
10,01%
11,60%
9,02%
10,91%
0,09589594 0,113743497
2,220430832 3,253225482
8,61%
18,46%
8,60%
20,37%
2,622360447 4,017492154
91,21726953 94,61609986
18,32%
11,31%
20,75%
10,66%
72,92302852 78,62504247
19393,4892 19667,06982
9,53%
14,64%
9,11%
13,79%
31238,36965 32682,07874
1218412,376 1249512,836
18,43%
16,04%
17,72%
15,00%
734618,0944 735576,4582
494409,7746 504811,2807
12,79%
16,27%
11,49%
15,68%
396455,6808
16,67%
15,54%
397473,313
46
МСА
МСА с
Модель48 ДФ
МСА
МСА с
Модель49 ДФ
МСА
МСА с
Модель50 ДФ
15376,7782 15395,55474
21,40%
19,60%
10489,56031 10522,79266
434040,7878 434977,7527
21,20%
24,16%
19,50%
22,47%
315278,9334 328766,3003
12397010,38 14305248,58
23,19%
13,15%
22,71%
12,33%
14066974,61 15072107,91
15,78%
14,17%
47
Download