еменычевЕÐ&#39

advertisement
Семёнычев Е.В., Кожухова В.Н.
МЕТОДИКИ ИССЛЕДОВАНИЯ ТОЧНОСТИ ИДЕНТИФИКАЦИИ
ВРЕМЕННЫХ РЯДОВ НА ПРИМЕРЕ МОДЕЛЕЙ С ЛОГИСТИЧЕСКИМ ТРЕНДОМ
И АДДИТИВНОЙ СТОХАСТИЧЕСКОЙ КОМПОНЕНТОЙ
На тестовых и реальных выборках в широких динамических диапазонах сочетаний
параметров моделей и мощности помехи исследуются методики оценки точности
идентификации временных рядов для моделей логистического тренда Ферхюльста и
Гомпертца.
Ключевые слова: моделирование, прогнозирование, методика оценки точности,
коэффициент шум-сигнал, коэффициент детерминации, коэффициент Тейла, логистические
тренды Ферхюльста и Гомпертца.
E.V.Semenychev, V.N.Kozhukhova
ACCURACY EXAMINATION TECHNIQUES FOR TIME-SERIES
IDENTIFICATION BY THE EXAMPLE OF LOGISTIC TREND MODELS WITH
ADDITIVE STOCHASTIC COMPONENT
The authors research different accuracy examination techniques for time-series
identification by using test and real samples of Ferhulst and Gompertz logistic trends with different
volumes, wide range of the model parameters values and stochastic component variances.
Keywords: modeling, forecasting, accuracy examination techniques, noise-to-signal ratio,
coefficient of determination, Theil's forecast accuracy coefficient, Ferhulst and Gompertz logistic
trends.
УДК 519.673
Семёнычев Евгений Валериевич,
заведующий кафедрой Менеджмента АМОУ ВПО «Самарская академия государственного и
муниципального управления»,
тел.: 8-960-822-29-57; e-mail: semen05@inbox.ru.
Кожухова Варвара Николаевна,
аспирант кафедры Математических методов и информационных технологий
АМОУ ВПО «Самарская академия государственного и муниципального управления»
тел.: 8-963-916-78-46; e-mail: kvn505@yandex.ru
МЕТОДИКИ ИССЛЕДОВАНИЯ ТОЧНОСТИ ИДЕНТИФИКАЦИИ
ВРЕМЕННЫХ РЯДОВ НА ПРИМЕРЕ МОДЕЛЕЙ С ЛОГИСТИЧЕСКИМ ТРЕНДОМ
И АДДИТИВНОЙ СТОХАСТИЧЕСКОЙ КОМПОНЕНТОЙ
В эконометрической практике перед исследователем часто возникает задача доказать,
что предложенные им методы идентификации моделей временных рядов дают лучшие
результаты по точности по сравнению с существующими.
Обычно методы проверяются на реальных выборках и сравнивают показатели точности
их моделирования и прогнозирования. Известна и попытка сравнения точности нескольких
методов идентификации на одной тестовой детерминированной выборке Dk логистического
тренда Ферхюльста при мощности аддитивной помехи (шума)  k в 5% от мощности этой
выборки ( k -номер наблюдения) [1].
Развитием этого подхода можно считать предложенную в [2] методику исследования
точности в диапазонах значений параметров моделей со стохастической компонентой,
мощность которой меняется в диапазоне значений коэффициента шум-сигнал (1),
определяемого отношением мощностей стохастической компоненты и мощности тестовой
выборки (модельной детерминированной):
Kn/s
 2  
 2
.
  D
При этом анализу будет подвергаться выборка наблюдений ряда динамики
Yk  Dk      k ,
где  k 
 k  M  
, M   - оператор математического ожидания.
 2  
(1)
Обычно метод идентификации считают помехозащищенным, если он обеспечивает
удовлетворительную точность при отношении мощностей шума и полезного сигнала в
диапазоне 0,1 – 0,2 [2].
В качестве критериев оценки точности моделирования и прогнозирования, как правило,
используют
коэффициент
детерминации
R2
и
второй
коэффициент
Тейла
kT 2
соответственно. Однако к их расчету можно подходить по-разному.
В первой методике осуществляется сравнение рассчитываемых модельных значений
ряда Yko с зашумленными наблюдениями Yk . Тогда критерии точности определятся
следующим образом:
n 1
R2 
 Yko  M Yk 
k 0
n 1
 Y
k
k 0
 M Yk 
l 1
2
2
, kT 2 
 Y
 Yko 
k
k 0
l 1
l 1
2
 Y   Y 
k 0
2
k
k 0
o 2
k
 100% ,
где l – глубина (горизонт) прогноза.
Тем самым рассчитаем, какими будут показатели точности, если указанный метод
будет применяться на реальных выборках с таким же соотношением шум-сигнал.
Можно сравнивать модельные значения ряда Yko и с исходными (детерминированными,
генерированными) и с уровнями Dk :
n 1
R2 
 Y
 M  Dk  
D
 M  Dk 
k 0
n 1
k 0
o
k
k
l 1
2
2
, kT 2 
D
k
k 0
l 1
 Yko 
l 1
2
 D   Y 
k 0
2
k
k 0
o 2
k
 100%.
Тем самым определяется, насколько точно была найдена предложенная модель по
зашумленной выборке.
Сравним
методики
на
примере
временного
ряда,
включающего
растущую
симметричную относительно точки перегиба логистическую функцию Ферхюльста:
Yk 
A0
 k .
1  A1e  k
В [3] показано, что данную модель точнее других идентифицирует метод ЛевенбергаМарквардта, который и будет использован. Данный алгоритм сводит задачу минимизации
нелинейной функции МНК к итерационной минимизации линейных функций.
Будем генерировать тестовые выборки логистического тренда Ферхюльста объемом в
24 наблюдения, а горизонт прогноза назначим в 8 наблюдений. Значения параметров
генерации тренда представлены в таблице 1.
Таблица 1
Значения параметров модели Ферхюльста, использованные
при генерации тестовых выборок
Параметр Минимальное значение Максимальное значение
A0
50
100
A1
50
0,2

200
0,8
Каждая модельная выборка тренда суммировалась с генерируемой помехой, при этом
коэффициент шум/сигнал Kn / s варьировался от 0 до 0,3.
Зависимость R2 от Kn/s и kT2 от Kn/s для сравниваемых методик расчета оценок точности
представлена на рис. 1. Для каждого значения коэффициента Kn/s (каждая точка на графике)
генерировалось 1800 выборок, и результаты усреднялись.
1
16%
0.95
12%
0.9
8%
0.85
0.8
4%
0.75
0
0.05
0.1
0.15
1 методика
0.2
0.25
0%
0.3
0
2 методика
0.05
0.1
0.15
1 методика
0.2
0.25
2 методика
0.3
а)
б)
Рис. 1. Зависимость R2 от Kn/s (а) и kT2 от Kn/s (б) при использовании различных методик
расчета критериев точности
Проанализированный
метод
идентификации
по
второй
методике
позволяет
восстановить заданную исходную модель с точностью 98% при мощности шума в 30%
полезного сигнала. В случае реальной зашумленной выборки (по первой методике) этот
показатель равняется 78%. Качество прогноза по первой методике не превышает 16%, по
второй – не более 5%.
Видим, что оценки точности, рассчитанные по первой методике, будут всегда хуже
полученных по второй, поскольку разброс значений зашумленного ряда больше.
Усложним теперь задачу, рассматривая логистическую кривую другого типа:
асимметричную относительно точки перегиба логистическую модель Гомпертца
Yk  C  A0e  e
   k  k0 
на этапах роста (   0 ) и убывания (   0 ).
 k .
(2)
Данная модель так же, как и модель Ферхюльста, имеет наибольшее распространение в
эконометрической практике.
При этом сравним для модели (2) применение трех методов идентификации для
моделирования и прогнозирования:
–
метода Левенберга-Марквардта [3];
–
алгоритма RPROP, который основан на методе градиентного спуска, но в
отличие от него, использует не значения частных производных функции по
параметрам, а их знаки [4];
–
генетического алгоритма, который решает задачу моделирования путём
случайного подбора, комбинирования и вариации искомых параметров с
использованием механизмов, напоминающих биологическую эволюцию [5].
Исследование точности также проводилось на тестовых выборках объемом в 24
наблюдения, а горизонт прогноза был принят в 8 наблюдений. Значения параметров
детерминированных выборок приведены в таблице 2.
В
скобках
указаны
соответствующие
значения
параметров
для
падающей
логистической кривой.
Таблица 2
Значения параметров модели Гомпертца, использованные
при генерации тестовых выборок
Параметр Минимальное значение Максимальное значение
10
10
С
A0
50
50
0,2 (–0,8)
0,8 (–0,2)

k0
5
15
Коэффициент шум-сигнал назначался от 0 до 0,3. Для каждого значения Kn / s
результаты усреднялись по 1800 выборкам как для растущей, так и для падающей
логистических кривых.
Результаты оценки точности моделирования и прогнозирования по двум различным
методикам для растущей логистической функции представлены на рисунках 2 и 3. Заметим,
что метод Левенберга-Марквардта значительно уступил по точности модели и прогноза двум
другим методам, что демонстрируют результаты расчета. Тем не менее, точность прогноза,
достигаемая всеми методами идентификации, остается высокой (в пределах 20%) даже при
мощности шума в 30% от мощности полезного (модельного) сигнала.
Интерес
может
представить
и
оценка
точности
идентификации
падающей
логистической кривой при   0 , когда логистическая кривая будет стремиться не к уровню
насыщения, а к уровню спада – нижней горизонтальной асимптоте. Из приведенных
результатов для падающей логистической кривой (рис. 4 и 5) видно, что точность
идентификации рядов с падающим логистическим трендом Гомпертца хуже, чем для рядов с
растущим.
1
0.2
0.15
0.9
0.1
0.8
0.05
0
0.7
0
0.05
0.1
0.15
0.2
0.25
Генетический алгоритм
Метод RPROP
Метод Левенберга-Марквардта
0
0.3
0.05
0.1
0.15
0.2
0.25
Генетический алгоритм
Метод RPROP
Метод Левенберга-Марквардта
0.3
а)
б)
Рис. 2. Зависимость R2 от Kn/s (а) и kT2 от Kn/s (б) для растущей логистической кривой
при использовании первой методики расчета критериев точности
Различия в точности между тремя методами идентификации практически отсутствуют
в обеих методиках. Интересен тот факт, что при использовании первой методики
получаемый прогноз является недостоверным – уже при шуме в 5% значения критерия
точности прогнозирования намного превышают рекомендованный обычно уровень в 20%.
Вместе с тем, прогноз, соотнесенный с истинными (заданными) выборками, для всех трех
методов является достоверным в пределах 20% соотношения шум-сигнал.
1
12%
10%
0.95
8%
6%
0.9
4%
2%
0.85
0%
0
0.05
0.1
0.15
0.2
0.25
Генетический алгоритм
Метод RPROP
Метод Левенберга-Марквардта
0.3
0
0.05
0.1
0.15
0.2
0.25
0.3
Генетический алгоритм
Метод RPROP
Метод Левенберга-Марквардта
а)
б)
Рис. 3. Зависимость R2 от Kn/s (а) и kT2 от Kn/s (б) для растущей логистической кривой при
использовании второй методики расчета критериев точности
1
80%
60%
0.9
40%
0.8
20%
0%
0.7
0
0.05
0.1
0.15
0.2
0.25
0
0.3
Генетический алгоритм
Метод RPROP
Метод Левенберга-Марквардта
0.05
0.1
0.15
0.2
0.25
Генетический алгоритм
Метод RPROP
Метод Левенберга-Марквардта
0.3
а)
б)
Рис. 4. Зависимость R2 от Kn/s (а) и kT2 от Kn/s (б) для падающей логистической кривой при
использовании первой методики расчета критериев точности
1
25%
20%
0.95
15%
10%
0.9
5%
0%
0.85
0
0.05
0.1
0.15
0.2
0.25
0.3
0
Генетический алгоритм
Метод RPROP
Метод Левенберга-Марквардта
0.05
0.1
0.15
0.2
0.25
Генетический алгоритм
Метод RPROP
Метод Левенберга-Марквардта
0.3
а)
б)
2
Рис. 5. Зависимость R от Kn/s (а) и kT2 от Kn/s (б) для падающей логистической кривой при
использовании второй методики расчета критериев точности
Очевидно, что представленные результаты показывают некоторые средние значения
показателей точности в указанных динамических диапазонах значений параметров моделей.
Тем не менее, использование генераций модельных выборок и шума позволяет получить
точечные оценки точности оценок параметров моделей (математические ожидания,
дисперсии) как для всего динамического диапазона параметров моделей, так и для
отдельных назначаемых значений из набора параметров.
Методику оценки достигаемой методами идентификации точности с использованием
генерации стохастической компоненты можно распространить и на конкретные реальные
выборки временных рядов. Рассмотрим в качестве примера реальной социальноэкономической
логистической
динамики
ожидаемую
продолжительность
жизни
в
Нидерландах с 1860 по 2010гг. (данные учитываются каждые 5 лет, всего 31 наблюдение).
Данная выборка была разделена на рабочую и прогнозную части. В рабочую часть были
включены 23 наблюдения, а в прогнозную – 8 наблюдений.
По рабочей части выборки с помощью алгоритма RPROP была построена модель
Гомпертца:
Yk  36, 27  44,73e  e
0,148 k 11,05
 k ,
(3)
при этом получены следующие критерии точности моделирования и прогнозирования:
R 2  0,986, kT 2  0, 418% ( kT 2 рассчитан по прогнозной части выборки).
Согласно формуле (1) был рассчитан коэффициент шум-сигнал, который составил
1,45%. Заметим, что в большинстве приводимых в известной литературе и в наших
исследованиях примерах мощность стохастической компоненты не превысила 10%.
С параметрами модели (3) и рассчитанным коэффициентом шум-сигнал было
сгенерировано 1000 выборок по описанной методике, которые были идентифицированы с
помощью алгоритма RPROP. Результаты расчетов представлены в таблице 3. В скобках
указана методика, по которой рассчитывались критерии качества.
Таблица 3
Результаты оценки параметров модели Гомпертца
по тестовым выборкам
Параметр
C
A0
α
k0
R2 (1) R2 (2) kT2 (1)
Истинное значение 
36,266 44,734 0,148 11,048 0,986
0,418%
Мат. ожидание M 
35,999 45,608 0,149 11,084 0,931 0,998 2,037%
kT2 (2)
СКО S
0,937%
1,639
5,348
0,024
0,625
0,229
0,001
0,796%
1,265%
Можно перейти от точечных оценок точности к интервальным: рассчитаем
доверительные интервалы для оценок параметров модели с доверительной вероятностью
  0,95 (таблица 4).
M   t ,n 1
S
S
   M   t ,n 1  ,
n
n
где t ,n 1 – квантиль распределения Стьюдента, n – объем выборки.
Таблица 4
Расчет доверительного интервала для математического ожидания оценок
параметров модели Гомпертца
Параметр
C
A0
α
k0
Нижняя граница интервала 35,290 43,296 0,139 10,814
Истинное значение 
36,266 44,734 0,148 11,048
Мат. ожидание M 
35,999 45,608 0,149 11,084
Верхняя граница интервала 36,708 47,920 0,159 11,354
На рис. 6 представлен результат моделирования и расчет доверительного интервала
прогноза:
Ykol  t ,nm SY  Yk l  Ykol  t ,nm SY ,
где m – число параметров модели (в нашем случае 4), SY 
Yk  Yko
– средняя
nm
квадратическая ошибка тренда.
90
80
70
60
50
40
2010
2000
1990
1980
1970
1960
1950
1940
1930
1920
1910
1900
1890
1880
1870
1860
30
Рис. 6. Моделирование ожидаемой продолжительности жизни в Нидерландах, лет
Видим, что прогнозные значения продолжительности жизни в Нидерландах оказались
внутри доверительного интервала, что говорит о высокой точности моделирования и
прогнозирования.
Стоит отметить, что первая методика дает приближенные к реальным данным
результаты – такие, как если бы идентифицировался ряд динамики социальноэкономического показателя (подверженный влиянию множества случайных факторов,
ошибок наблюдений и т.д.).
Вторая методика отражает точность самого примененного метода идентификации,
поскольку показывает, была ли найдена (и насколько точно) истинная, предложенная
исследователем модель.
Границы доверительного интервала могут быть использованы для «оптимистической»
и «пессимистической» оценок развития динамики рядов.
Литература
1. Четыркин, Е.М. Статистические методы прогнозирования. [Текст]
Статистика, 1977. – 198 с.
– М.,
2. Семёнычев, В.К. Параметрическая идентификация рядов динамики: структуры,
модели, эволюция [Текст]: монография/В.К. Семёнычев, Е.В. Семёнычев. – Самара: Изд-во
«СамНЦ РАН». 2011. – 364 с.
3. Семёнычев, В.К., Кожухова, В.Н., Семёнычев, Е.В. Методы идентификации
логистической динамики и жизненного цикла продукта моделью Верхулста [Текст] / В.К.
Семенычев, В.Н. Кожухова, Е.В. Семенычев // Экономика и математические методы. –
№2(48). – 2012. – С.108-115.
4. Осовский, С. Нейронные сети для обработки информации [Текст]/ С. Осовский. //
Пер. с польского И.Д. Рудинского. – М.: Финансы и статистика, 2002. – 344 с.
5. Wikipedia, the free encyclopedia: Genetic algorithm. [Электронный ресурс]. Режим
доступа: http://en.wikipedia.org/wiki/Genetic_algorithm.
Download