Разработка и исследование свойств системы прогнозирования

advertisement
Разработка и исследование свойств
системы прогнозирования объемов
грузовых железнодорожных перевозок
М. М. Стенина, М. П. Кузнецов, А. П. Мотренко,
Д. О. Каширин, А. Д. Корчагин,
К. В. Рудаков, В. В. Стрижов
Вычислительный центр
ФИЦ ИУ Российской академии наук
24 сентября 2015 г.
Проект выполнен при поддержке МО РФ, 14.604.21.0041
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
1 / 38
Прогноз грузоперевозок в заданном периоде
Решается проблема повышения эффективности транспортировки
грузов. Для решения задачи выполняется прогноз потребностей у
заказчиков РЖД в узлах погрузки/разгрузки с учетом временных
интервалов доставки.
Цель проекта: повышение качества прогнозирования загруженности
железнодорожных узлов за счет учета экзогенных факторов.
Требуется построить прогноз отправления/погрузки грузов
в заданном периоде:
1) на месяц посуточно,
4) на год помесячно,
2) на месяц подекадно,
5) на год поквартально,
3) на квартал помесячно, 6) на период больше года,
с разложением
1) по группам грузов,
2) по парам станций/регионов,
3) по комбинированному разложению, учитывающему перечисленные варианты.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
2 / 38
Формат записи базы данных истории грузоперевозок
В. В. Стрижов
1
1
2
1
19
3
216
040
070
Вес груза, т.
Род вагона
Ст. назначения
932902
840109
843408
Код груза
020108
032105
035508
Число вагонов
2007-01-01
2007-01-01
2007-01-01
Ст. отправления
Дата погрузки
Запись о перемещении блока вагонов между парой станций
включает
1 коды станций отправления и назначения (78 регионов,
∼ 4000 станций, ∼ 100 сортировочных),
2 код груза (нефть и нефтепродукты, сахар, продукты
перемола и т.д., учтены 43 наименования),
3 род вагонов (полувагоны, крытые вагоны, цистерны,
платформы, прочие).
56
63
120
Прогнозирование грузоперевозок РЖД
3 / 38
Топология основных железнодорожных путей
018709 омсомольск-мурмнскй
014605 - Бле ре (эксп.) (Мурмнскя облсь)
Лоста
031808 Санкт-Петербург-товарный-Московский
Москва
831504ткя (с кя лс ть)
832808 Калачинская (Омская область)
790408 Войновка (Тюменская область)
831400 Омск-северный
850100 Обь (Новосибирская область)
781108 Сысерь (Свердловская область)
871107 Топки (Кемеровская область)
831203 мск-восочный
830709 мск-пссжрскй
Ванино
967600 ( Хабаровский край
883809 Ачинск-2 (Красноярский край)
Хабаровск
830304 рбышево (мскя облсь)
Курган
687705
Тайнча
(Казахстан)
8 0 Карасук (Новосибирская область)
987905 Блюхер
694906 Екбсуз 3 (зхсн)
( Приморский край
717008 Кант (Бишкек, Киргизия)
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
4 / 38
Загруженность узла различными типами грузов
Число вагонов, прибытие на станцию в течение года
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
5 / 38
Прибытие вагонов с нефтью и нефтепродуктами
80
350
Number of samples
Number of wagons
70
300
250
200
150
100
60
50
40
30
20
50
10
0
2007
Time
2008
0
9 28 47 66 85 104 123 142 161 180 198 217 236 255 274 293 312 331 350 369
Number of wagons
(a) Временной ряд
В. В. Стрижов
(b) Гистограмма
Прогнозирование грузоперевозок РЖД
6 / 38
Основные требования к системе
Требуется построить прогнозы значений семейства временных
рядов, связанных в иерархическую многоуровневую структуру и
описывающих объемы погрузки ряда грузов в заданных узлах
или на парах узлов с разным уровнем детализации.
Прогностическая модель должна удовлетворять следующим
требованиям.
• Прогнозы должны быть точны — обеспечивать минимум
возможное значение заданной функции потерь.
• Должны быть учтены внешние факторы, влияющие на
объемы грузоперевозок.
• Прогнозы должны удовлетворять условию
согласованности — структуре иерархии.
• Прогнозы должны удовлетворять физическим
ограничениям — лежать в заданном интервале для
каждого временного ряда.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
7 / 38
Прогнозирования стационарного ряда x
Пусть значения ряда x = [x1 , . . . , xT ]mathsfT принадлежат
одному распределению с плотностью p(u).
Требуется спрогнозировать x̂ следующего значения xT +1
временного ряда, минимизирующий ожидание заданной
функции потерь l (x̂, xT +1 )
u
Zmax
l (c, u) p(u) du = argmin L(c).
x̂ = argmin
c
umin
c
Для некоторых функций потерь при известной p(u) прогноз
вычислим аналитически
l (x̂, xT +1 ) = (x̂ − xT +1 )2 : x̂ = c ∗ = E(x),
l (x̂, xT +1 ) = |x̂ − xT +1 |: x̂ = c ∗ = median p(u).
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
8 / 38
Гистограммное прогнозирование, иллюстрация
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
9 / 38
Гистограммное прогнозирование, алгоритм
Для оценки плотности p(u) построим гистограмму p̂(u)
с n интервалами (ui ui +1 ), где
u0 = umin ≤ u1 ≤ . . . ≤ un−1 ≤ un = umax — концы отрезков постоянства
функции, ui +1 − ui = b
Тогда L(c) ≈u Lhist (c), где
Zi
n
X
l (c, u) du.
hi
l (c, u) p̂(u) du =
h1 , . . . , hn — значения гистограммы.
Lhist =
u
Zmax
umin
i =1
ui −1
Упростим интегрирование l (c, u), перейдем к свертке
Zui
ui + ui −1
ui + ui −1
l (c, u) du ≈ l c,
(ui − ui −1 = b l c,
.
2
2
ui −1
Приближенное решение выбирается из множества точек
u1 + u0
un + un−1
∗
,...,
c ∈
.
2
2
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
10 / 38
Зависимость точности алгоритма от распределения p(u)
Сверху: квадратичная функция потерь, cнизу: абсолютная
функция потерь. Слева: N (0, 1), χ2 (3).
0.3
Hist
Sample mean
0.25
Hist
Sample mean
1.5
1
0.2
x̂ − Ex
x̂ − Ex
0.15
0.1
0.05
0.5
0
0
−0.05
−0.5
−0.1
−0.15
−1
50
100 150 200 250 300 350 400 450 500
50
Number of segments
0.3
Hist
Sample median
0.25
100 150 200 250 300 350 400 450 500
Number of segments
Hist
Sample median
0.6
0.4
x̂ − med(x)
x̂ − med(x)
0.2
0.15
0.1
0.05
0
0.2
0
−0.2
−0.4
−0.05
−0.6
−0.1
−0.8
−1
−0.15
100
200
300
Number of segments
400
В. В. Стрижов
500
100
200
300
Number of segments
400
500
Прогнозирование грузоперевозок РЖД
11 / 38
Модель ARIMA для нестационарного временного ряда
Временной ряд описывается моделью ARIMA(p, d, q), если ряд
его разностей
∇d xt = (1 − L)d xt , где Lτ xt = xt−τ , τ = 1, . . . , d
описывается моделью ARMA(p, q):
xt = α + ϕ1 xt−1 + . . . + ϕp xt−p + εt + θ1 εt−1 + . . . + θq εt−q ,
где α = µ(1 − ϕ1 − . . . − ϕp ), ϕ1 , . . . , ϕp , θ1 , . . . , θq — константы, εt гауссов белый шум с нулевым средним и постоянной дисперсией.
Модель ARIMA с мультипликативной сезонностью.
Временной ряд описывается моделью
SARIMA(p, d, q) × (P, D, Q)s , если
d
s
ΦP (Ls )ϕ(L)∇D
s ∇ xt = α + ΘQ (L )θ(L)εt ,
ΦP (Ls ) = 1 − Φ1 Ls − Φ2 L2s − . . . − ΦP LPs ,
ΘQ (Ls ) = 1 + Θ1 Ls + Θ2 L2s + . . . + ΘQ LQs .
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
12 / 38
Комбинированная модель
1
Модель ARIMA(p, d, q) применима для прогнозирования
нестационарных временных рядов, но только в случае
симметричной функции потерь.
2
Модель Hist применима в случае несимметричных
функций потерь, но только для прогнозирвания
стационарных временных рядов.
Комбинированный прогноз найдем в виде декомпозиции
x̂ = x̂ ns + x̂ s ,
где прогноз нестационарной части x̂ ns определяется моделью
SARIMA(p, d, q) × (P, D, Q)s ,
стационарной части x̂ s — моделью Hist.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
13 / 38
Алгоритм ARIMA + Hist
Вход: временной ряд x = {x1 , . . . , xT }, функция потерь
l (x̂, xT +1 );
Выход: прогноз x̂;
1:
2:
3:
4:
5:
6:
подобрать подходящую для временного ряда модель
ARIMA по методологии Бокса-Дженкинса;
вычислить прогноз нестационарной компоненты x̂ ns с
помощью выбранной модели ARIMA;
вычислить регрессионные остатки r = {r1 , . . . , rT } для
выбранной модели ARIMA;
задать число столбцов в гистограмме для алгоритма Hist;
вычислить прогноз стационарной компоненты x̂ s с
помощью алгоритма Hist;
x̂ = x̂ ns + x̂ s ;
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
14 / 38
Качество комбинированной модели
В таблице приведены средние потери прогнозирования
временного ряда цен на сахар.
Алгоритм
ARIMA
ARIMA + Hist(20)
ARIMA + Hist(50)
ARIMA + Hist(300)
ARIMA + Hist(500)
Квадратичная
функция
потерь
0.127
0.128
0.127
0.127
0.127
В. В. Стрижов
Абсолютная
функция
потерь
0.265
0.267
0.266
0.265
0.265
Асимметричная
функция
потерь
0.340
0.260
0.267
0.266
0.266
Прогнозирование грузоперевозок РЖД
15 / 38
Проблема согласования прогнозов
xt (:, :) =
x(:, :)
xt (:, :) =
x(:, m)
j=1
m
P
xt (i, :);
xt (:, j);
xt (i, j),
i = 1, . . . n;
n
P
xt (i, j),
xt (:, j) =
x(:, 1)
x(n, :)
...
i =1
m
P
j=1
...
x(1, :)
xt (i, :) =
n
P
i =1
j = 1, . . . m;
t = 1, . . . , T .
m
Грузы
x(i, j)
1
1
Прогнозы, полученные
дого временного ряда
симо, могут не удовл
структуре иерархии, т. е
согласованными.
n
Ветки
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
16 / 38
Обозначения: структура иерархии
Срез иерархии, вектор независимых и вектор
согласованных прогнозов:



χt = 


xt (:, :)
...
xt (n, 1)
...
xt (n, m)






 , χ̂ = 





x̂(:, :)
...
x̂(n, 1)
...
x̂(n, m)
Условие согласованности





 , ϕ̂ = 




ŷ (:, :)
...
ŷ (n, 1)
...
ŷ (n, m)



.


Sχt = 0, t = 1, . . . , T ,
где S — матрица связей, имеет размер
(2 + n + m) × (1 + n + m + nm) и записывается в виде
 −1
 −1

 0

 ...
S=
 0

 0

...
0
1
0
−1
0
0
0
...
...
...
...
...
...
...
...
1
0
0
0
1
0
−1
0
0
−1
0
0
...
...
...
...
...
...
...
...
В. В. Стрижов
0
1
0
0
0
1
0
0
1
0
0
0
1
0
0
−1
0
0
...
...
...
...
...
...
...
...
0
0
1
...
...
...
0
0
0
0
0
0
0
0
...
...
1
1
1
0
1
...
0
0
...
...
...
...
...
...
...
...
Прогнозирование грузоперевозок РЖД
0
0
0






.
1 

0 

1
17 / 38
Постановка задачи согласования прогнозов
Дано Матрица связей S, множества A, B и вектор
независимых прогнозов χ̂
χ̂ 6∈ A,
χ̂ ∈ B.
Требуется построить вектор согласованных прогнозов ϕ̂,
который удовлетворяет следующим требованиям:
• ϕ̂ ∈ A, A = {χ ∈ Rd | Sχ = 0} — согласованность;
• ϕ̂ ∈ B — физические ограничения;
• lh (χT +1 , ϕ̂) ≤ lh (χT +1 , χ̂) для любого среза
действительных значений χT +1 ∈ A ∩ B — качество.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
18 / 38
Согласование как антагонистическая игра
Игрок, выбирающий вектор согласованных прогнозов ϕ̂, играет с
природой, выбирающей срез иерархии в момент времени (T + 1). Цель
игрока — минимизировать свои потери при любом ходе природы.
Игрок
Природа
Стратегия
ϕ̂ ∈ A ∩ B
χT +1 ∈ A ∩ B
Потери
L(ϕ̂, χT +1 ) = lh (χT +1 , ϕ̂) − lh (χT +1 , χ̂)
−L(ϕ̂, χT +1 )
Равновесие Нэша в антагонистической игре — это
пара стратегий (ϕ̂, χT +1 ), таких что для любых стратегий ϕ̂′ , χ′T +1
выполнено неравенство
L(ϕ̂, χ′T +1 ) ≤ L(ϕ̂, χT +1 ) ≤ L(ϕ̂′ , χT +1 ).
Цена игры (Дж. Нэш)
V = min max L(ϕ̂, χT +1 ) = max min L(ϕ̂, χT +1 )
ϕ̂
χT +1
χT +1
ϕ̂
определена тогда и только тогда, когда в игре существует равновесие
Нэша.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
19 / 38
Существование равновесия Нэша и выбор согласованных
прогнозов
Теорема 1 (Стенина, 2014)
Пусть A ∩ B =
6 ∅ и для функции потерь lh выполнено
1
lh (χT +1 , χ̂) ≥ 0 для произвольных векторов χT +1 , χ̂,
причем lh (χT +1 , χ̂) = 0 ⇔ χT +1 = χ̂;
2
существует проекция χproj = argmin lh (χ, χ̂);
χ∈A∩B
3
для всех χ ∈ B и для всех ψ ∈ A ∩ B выполняется
неравенство lh (ψ, χ) ≥ lh (ψ, χproj ) + lh (χproj , χ).
Тогда
• пара стратегий (χproj , χproj ) является равновесием Нэша в
антагонистической игре, описывающей задачу
согласования прогнозов;
• пара (χproj , χproj ) является седловой точкой функции
L(ϕ̂, χT +1 ) = lh (χT +1 , ϕ̂) − lh (χT +1 , χ̂).
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
20 / 38
Оптимизационная задача
Теорема 2: цена игры (Стенина, 2014)
При выполнении требований теоремы 1 цена игры определена и
равна
V = min max L(ϕ̂, χT +1 ) = max min L(ϕ̂, χT +1 ) = −lh (χproj , χ̂) ≤ 0.
χT +1 ϕ̂
ϕ̂ χT +1
Теорема 3: согласованные прогнозы (Стенина, 2014)
При выполнении требований теоремы 1 использование в качестве
вектора согласованных прогнозов ϕ̂ вектора
ϕ̂ = χproj = argmin lh (χ, χ̂)
χ∈A∩B
гарантирует, что вектор согласованных прогнозов будет
удовлетворять требованиям согласованности и качества и
физическим ограничениям.
Задача согласования прогнозов сводится к решению
оптимизационной задачи.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
21 / 38
Алгоритм теоретико-игрового оптимального согласования
Вход: вектор независимых прогнозов χ̂, матрица связей S,
множества A и B, функция потерь lh (·, ·);
Выход: вектор согласованных прогнозов ϕ̂;
1: ϕ̂ = argmin lh (χ, χ̂);
χ∈A∩B
Свойства алгоритма, согласно теоремам 1, 2, 3 [Стенина, 2015].
• Позволяет согласовывать прогнозы, одновременно обеспечивая
выполнение физических ограничений и неухудшение качества
прогнозирования.
• Не требует оценки погрешности независимых прогнозов и их
несмещенности.
• На независимые прогнозы накладываются только физические
ограничения.
• Работает с иерархическими структурами любой сложности.
• Для решения оптимизационной задачи можно использовать
стандартные методы.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
22 / 38
Сравнение качества согласованных и независимых прогнозов
Для согласования прогнозов H = 100 последних точек истории
решалась оптимизационная задача ϕ̂ = argmin kχ − χ̂k22 .
χ∈A∩B
Изображена величина
Lt = kχt − ϕ̂k22 − kχt − χ̂k22 , t = (T − H + 1), . . . , T .
Во всех контрольных точках потери уменьшились.
6
0
x 10
−1
Lt
−2
−3
−4
−5
−6
0
20
40
60
Control point
В. В. Стрижов
80
100
Прогнозирование грузоперевозок РЖД
23 / 38
Сравнение качества согласованных и независимых прогнозов
Функция потерь lh (χt , χ̂) = kχt − χ̂k22 .
Средние потери прогнозирования отгрузки в узлах РЖД, ×108
Уровень иерархии
Независимые
прогнозы
Вся иерархия
Верхний уровень
Средний уровень, ветки
Средний уровень, грузы
Нижний уровень
10.038
2.858
2.549
2.338
2.294
Восходящее
согласование1
9.999
2.868
2.486
2.351
2.294
Оптимальная
регрессия2
Модиф. теор.-игр.
согл. (веса 700)
10.035
2.856
2.545
2.340
2.294
9.969
2.840
2.487
2.348
2.294
1
Albert B. Schwarzkopf, Richard J. Tersine, John S. Morris Top-down versus bottom-up forecasting
strategies. The International Journal Of Production Research, 26(11):1833—1843, 1988.
2
Rob J. Hyndman, Roman A. Ahmed, George Athanasopoulos, Han Lin Shang. Optimal
combination forecasts for hierarchical time series. Computational Statistics and Data Analysis,
55(9):2579–2589, 2011.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
24 / 38
Повышение точности прогноза
Задача повышения точности прогноза решается путем
введения в прогностическую модель следующих факторов:
• сезонности и данных о погоде (для учета перевозок
сельскохозяйственной продукции),
• биржевых цен на перевозимые грузы на российских и
зарубежных биржах.
На графике синей линией
показано суммарное количество
вагонов на фиксированной станции,
красной линией –– цена за баррель
нефти. Цена за баррель является
фактором, используемым для
прогнозирования объема поставок.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
25 / 38
Использование экспертных высказываний о влиянии внешних
событий на объем погрузок
Задан набор экспертных утверждений о влиянии внешних
факторов на грузоперевозки в порядковых шкалах (например,
степень влияния низкая, высокая, либо фактор не оказывает
влияния).
Вид фактора, влияющего на
объем грузоперевозок
Группы грузов и отрасли, на которые оказывается влияние
Степень и характер влияния
Мировые и внутренние цены на соответствующие активы
Нефть и нефтепродукты, черные металлы, цветные металлы,
удобрения, уголь и др.
На экспортные перевозки влияние сильное
Курс рубля к доллару
Грузы, отправляемые на экспорт (нефть и нефтепродукты,
металлы, уголь)
Степень
портных
высокая
Сезонность
производства
природногоклиматического характера
Зерно, овощи, бахчевые культуры
Степень влияния высокая. Динамика перевозки связана со
сбором урожая
В. В. Стрижов
влияния для эксперевозок зачастую
Прогнозирование грузоперевозок РЖД
26 / 38
Математические методы анализа экспертных оценок
При построении прогностической модели используются экспертные
высказывания о влиянии внешних факторов S = {s1 , . . . , sM } на
прогнозируемые ряды x.
В связи с возможной несогласованностью экспертных высказываний
и исторических данных решается задача определения их
достоверности µ = µ(x, si ).
Тест Грэнжера:
µ(x, s) ∼
ESSx − ESSx,s T − kx,s
,
ESSx,s
kx,s − kx
kx,s , kx — порядок расширенной x̂ = x̂(x, s) и базовой x̂ = x̂(x)
моделей прогнозирования, ESSx,s , ESSx — суммы квадратов
регрессионных остатков расширенной и базовой моделей:
ESS =
T
X
(x̂t − xt )2 .
t=1
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
27 / 38
Метод сходящегося перекрестного отображения
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
28 / 38
Метод сходящегося перекрестного отображения
Определим множества
T
Mx = {~x | ~x (t) = [x(t−D) , . . . , xt ] }
T
Ms = {~s | ~s (t) = [s(t−D) , . . . , st ] }
Пусть i1 , i2 , . . . , iD+1 — индексы ближайших соседей точки
~s (T + 1) множества Ms . Тогда прогноз x̂|Ms сходящегося
перекрестного отображения есть
x̂|Ms =
D+1
X
d=1
ud
wd xid , wd = P
,
d ud
||~x (T + 1), ~x (id )||
ud = exp −
.
||~x (T + 1), ~x (i1 )||
Решение о наличии связи принимаем при больших значениях
µ(x, s) ∼ ρ(x̂, xT +1 ) =
1
E(x̂ − Ex̂)(xT +1 − ExT +1 )
σx σx̂
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
29 / 38
Математические методы анализа экспертных оценок
Решение о достоверности экспертного высказывания о
зависимости объемов погрузок от внешних факторов
принимается на основе теста Грэнжера и анализа перекрестных
отображений исследуемых временных рядов.
Исследуемые ряды
«Нефть и нефтепродукты» —«Цены на нефть»
«Сахар» —«Цены на сахар»
«Продукты перемола» —
«Цены на пшеницу»
Высказывание экс-
Оценка
перта
стоверности
связи
силь-
0.99
Положительное
силь-
0.97
Положительное
силь-
0.46
Отрицательное
Связь
ная
Связь
ная
Связь
ная
В. В. Стрижов
до-
Решение о наличии
Прогнозирование грузоперевозок РЖД
30 / 38
Учет экзогенных временных рядов
Для повышения качества прогнозирования моделью Hist путем
учета экзогенных временных рядов sj , j = 1, . . . , n уточним
0 ] прогнозируемого временного
гистограмму p 0 (T ) = [h10 , . . . , hK
T
ряда x = [x1 , . . . , xT ] линейной комбинацией
p̂(T ) = w0 p0 (T ) +
n
X
wj pj (T ),
j=1
j
где p̂ j (T ) = [h1j , . . . , hK
] — гистограммы прогнозируемого
временного ряда
x, условные по экзогенным временным рядам
sj = [s1j , . . . , sTj −τ ].
j
P
...
Sgj
...
SN
...
...
p1N
...
p2N
g
h 01
h 02
...
...
...
X2
p21
...
j
p1g = h 1 · pg
j
p2g = h 2 · pg
...
...
...
...
XK
P
pK 1
...
pK 2 = h k · pg
...
pKN
h 0K
j
...
pgj
...
pN
j
1
X1
k
p11
p1
j
В. В. Стрижов
0.4
Probabilities h0k , hjk
j
S1
0.3
H0 (t)
Hj , cj (t) ∈ C1j
Hj , cj (t) ∈ C2j
hjk
0
0.2 hk+1
0.1
0
−0.45
−0.25
Xk Xk+1
0.24
Bin centers Xk , k = 1, . . . , K
Прогнозирование грузоперевозок РЖД
0.43
31 / 38
Отбор информативных временных рядов
Включение экзогенных временных рядов sj в модель контролируется
T
вектором параметров w = [w0 , . . . , wn ] , макимизирующим правдоподобие
модели
!
T
X
1 X
w = argmax
log
wj hkj (t) , где J = {j : wj 6= 0}.
|J | t=1
w∈[0,1]|J |
j∈J
P
j ∈J wj =1
В таблице приведены результаты выбора sj , увеличивающих качество
прогнозирования с достоверностью не меньше 95% и относительное
уменьшение потерь ∆L/L0 .
Группа грузов
Нефть и нефтепродукты
Черные металлы
Металлические конструкции
Метизы
Хмикаты и сода
Строительные грузы
Шлаки гранулированные
Огнеупоры
Цемент
В. В. Стрижов
cj
C̊ винец, 2τ
Свинец, τ
Свинец, τ
Свинец, τ
C̊ винец, 2τ
Свинец, τ
Свинец, τ
C̊ винец, 2τ
Свинец, τ
∆L/L0
0.27873
0.29659
0.1044
0.43858
0.41155
0.34462
0.17258
0.086756
0.31271
Прогнозирование грузоперевозок РЖД
32 / 38
Вычислительный эксперимент
• Эксперимент проводился на реальных данных о
посуточной загруженности железнодорожных узлов.
• Было проведено сравнение следующих алгоритмов:
1
2
3
4
Базовый алгоритм прогнозирования средним.
Модель авторегрессии-скользящего среднего.
Алгоритм гистограммного прогнозирования.
Алгоритм, учитывающий экзогенные факторы.
• Прогноз выполнялся в разрезе:
1 временном (на день, неделю и месяц вперед)
2 пространственном (по парам станций и парам регионов).
• В качестве функций ошибок рассматривались функции
n
P
|yi − ŷi |,
1 абсолютной стандартной ошибки MAE= n1
i =1
2
нормированной абсолютной ошибки MAPE=
В. В. Стрижов
1
n
n
P
i =1
|yi −ŷi |
.
yi
Прогнозирование грузоперевозок РЖД
33 / 38
Пример прогноза временного ряда
Временной ряд — суммарное значение перевозок каменного
угля по всем парам станций.
Прогноз строился на 60 последних дней.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
34 / 38
Результаты прогнозирования по заданию
D
MAE
VAR
Regularized Arma
Mean by 5 days
Hist
MAPE
VAR
Regularized Arma
Mean by 5 days
Hist
Stations
W
M
D
Regions
W
M
917.104
913.336 ∗
959.840
984.188
3114.073 ∗
3381.220
4195.548
4623.588
6986.463 ∗
9366.639
13987.420
16761.591
1946.955 ∗
1853.329
2892.025
3168.165
5855.633
5168.458 ∗
18165.117
20385.037
17053.388
14056.409 ∗
76272.813
84069.813
0.100
0.100∗
0.105
0.107
0.057∗
0.062
0.076
0.083
0.025 ∗
0.034
0.051
0.060
0.042
0.040∗
0.063
0.068
0.021
0.019 ∗
0.065
0.073
0.012
0.010 ∗
0.055
0.060
• В разрезе по парам регионов лучшие результаты
продемонстрировал алгоритм, учитывающий экзогенные
факторы.
• В разрезе по парам станций — модель авторегрессии.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
35 / 38
Результаты прогнозирования с агрегированием во времени
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
36 / 38
Рост функции ошибки относительно горизонта прогноза
По оси абсцисс отложен временной отсчет ретроспективного
прогнозирования (на 60 дней, 9 недель или 2 месяца вперед).
Для модели авторегрессии и метода, учитывающего экзогенные
факторы, ошибка ретроспективного прогноза возрастает
медленнее.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
37 / 38
Результаты проекта, промежуточная версия
Разработана система прогнозирования объемов
железнодорожных грузоперевозок.
1
Прогнозы выполняются по одному узлу или по парам
узлов (шахматка).
2
Выполняется агрегирование прогноза по времени: дни,
недели, месяцы.
3
Выполняется агрегирование по типам грузов, регионам.
4
Прогноз согласуется по иерархическому агрегированию.
5
Учет внешних факторов может повысить качество
прогноза.
В. В. Стрижов
Прогнозирование грузоперевозок РЖД
38 / 38
Download