Разработка и исследование свойств системы прогнозирования объемов грузовых железнодорожных перевозок М. М. Стенина, М. П. Кузнецов, А. П. Мотренко, Д. О. Каширин, А. Д. Корчагин, К. В. Рудаков, В. В. Стрижов Вычислительный центр ФИЦ ИУ Российской академии наук 24 сентября 2015 г. Проект выполнен при поддержке МО РФ, 14.604.21.0041 В. В. Стрижов Прогнозирование грузоперевозок РЖД 1 / 38 Прогноз грузоперевозок в заданном периоде Решается проблема повышения эффективности транспортировки грузов. Для решения задачи выполняется прогноз потребностей у заказчиков РЖД в узлах погрузки/разгрузки с учетом временных интервалов доставки. Цель проекта: повышение качества прогнозирования загруженности железнодорожных узлов за счет учета экзогенных факторов. Требуется построить прогноз отправления/погрузки грузов в заданном периоде: 1) на месяц посуточно, 4) на год помесячно, 2) на месяц подекадно, 5) на год поквартально, 3) на квартал помесячно, 6) на период больше года, с разложением 1) по группам грузов, 2) по парам станций/регионов, 3) по комбинированному разложению, учитывающему перечисленные варианты. В. В. Стрижов Прогнозирование грузоперевозок РЖД 2 / 38 Формат записи базы данных истории грузоперевозок В. В. Стрижов 1 1 2 1 19 3 216 040 070 Вес груза, т. Род вагона Ст. назначения 932902 840109 843408 Код груза 020108 032105 035508 Число вагонов 2007-01-01 2007-01-01 2007-01-01 Ст. отправления Дата погрузки Запись о перемещении блока вагонов между парой станций включает 1 коды станций отправления и назначения (78 регионов, ∼ 4000 станций, ∼ 100 сортировочных), 2 код груза (нефть и нефтепродукты, сахар, продукты перемола и т.д., учтены 43 наименования), 3 род вагонов (полувагоны, крытые вагоны, цистерны, платформы, прочие). 56 63 120 Прогнозирование грузоперевозок РЖД 3 / 38 Топология основных железнодорожных путей 018709 омсомольск-мурмнскй 014605 - Бле ре (эксп.) (Мурмнскя облсь) Лоста 031808 Санкт-Петербург-товарный-Московский Москва 831504ткя (с кя лс ть) 832808 Калачинская (Омская область) 790408 Войновка (Тюменская область) 831400 Омск-северный 850100 Обь (Новосибирская область) 781108 Сысерь (Свердловская область) 871107 Топки (Кемеровская область) 831203 мск-восочный 830709 мск-пссжрскй Ванино 967600 ( Хабаровский край 883809 Ачинск-2 (Красноярский край) Хабаровск 830304 рбышево (мскя облсь) Курган 687705 Тайнча (Казахстан) 8 0 Карасук (Новосибирская область) 987905 Блюхер 694906 Екбсуз 3 (зхсн) ( Приморский край 717008 Кант (Бишкек, Киргизия) В. В. Стрижов Прогнозирование грузоперевозок РЖД 4 / 38 Загруженность узла различными типами грузов Число вагонов, прибытие на станцию в течение года В. В. Стрижов Прогнозирование грузоперевозок РЖД 5 / 38 Прибытие вагонов с нефтью и нефтепродуктами 80 350 Number of samples Number of wagons 70 300 250 200 150 100 60 50 40 30 20 50 10 0 2007 Time 2008 0 9 28 47 66 85 104 123 142 161 180 198 217 236 255 274 293 312 331 350 369 Number of wagons (a) Временной ряд В. В. Стрижов (b) Гистограмма Прогнозирование грузоперевозок РЖД 6 / 38 Основные требования к системе Требуется построить прогнозы значений семейства временных рядов, связанных в иерархическую многоуровневую структуру и описывающих объемы погрузки ряда грузов в заданных узлах или на парах узлов с разным уровнем детализации. Прогностическая модель должна удовлетворять следующим требованиям. • Прогнозы должны быть точны — обеспечивать минимум возможное значение заданной функции потерь. • Должны быть учтены внешние факторы, влияющие на объемы грузоперевозок. • Прогнозы должны удовлетворять условию согласованности — структуре иерархии. • Прогнозы должны удовлетворять физическим ограничениям — лежать в заданном интервале для каждого временного ряда. В. В. Стрижов Прогнозирование грузоперевозок РЖД 7 / 38 Прогнозирования стационарного ряда x Пусть значения ряда x = [x1 , . . . , xT ]mathsfT принадлежат одному распределению с плотностью p(u). Требуется спрогнозировать x̂ следующего значения xT +1 временного ряда, минимизирующий ожидание заданной функции потерь l (x̂, xT +1 ) u Zmax l (c, u) p(u) du = argmin L(c). x̂ = argmin c umin c Для некоторых функций потерь при известной p(u) прогноз вычислим аналитически l (x̂, xT +1 ) = (x̂ − xT +1 )2 : x̂ = c ∗ = E(x), l (x̂, xT +1 ) = |x̂ − xT +1 |: x̂ = c ∗ = median p(u). В. В. Стрижов Прогнозирование грузоперевозок РЖД 8 / 38 Гистограммное прогнозирование, иллюстрация В. В. Стрижов Прогнозирование грузоперевозок РЖД 9 / 38 Гистограммное прогнозирование, алгоритм Для оценки плотности p(u) построим гистограмму p̂(u) с n интервалами (ui ui +1 ), где u0 = umin ≤ u1 ≤ . . . ≤ un−1 ≤ un = umax — концы отрезков постоянства функции, ui +1 − ui = b Тогда L(c) ≈u Lhist (c), где Zi n X l (c, u) du. hi l (c, u) p̂(u) du = h1 , . . . , hn — значения гистограммы. Lhist = u Zmax umin i =1 ui −1 Упростим интегрирование l (c, u), перейдем к свертке Zui ui + ui −1 ui + ui −1 l (c, u) du ≈ l c, (ui − ui −1 = b l c, . 2 2 ui −1 Приближенное решение выбирается из множества точек u1 + u0 un + un−1 ∗ ,..., c ∈ . 2 2 В. В. Стрижов Прогнозирование грузоперевозок РЖД 10 / 38 Зависимость точности алгоритма от распределения p(u) Сверху: квадратичная функция потерь, cнизу: абсолютная функция потерь. Слева: N (0, 1), χ2 (3). 0.3 Hist Sample mean 0.25 Hist Sample mean 1.5 1 0.2 x̂ − Ex x̂ − Ex 0.15 0.1 0.05 0.5 0 0 −0.05 −0.5 −0.1 −0.15 −1 50 100 150 200 250 300 350 400 450 500 50 Number of segments 0.3 Hist Sample median 0.25 100 150 200 250 300 350 400 450 500 Number of segments Hist Sample median 0.6 0.4 x̂ − med(x) x̂ − med(x) 0.2 0.15 0.1 0.05 0 0.2 0 −0.2 −0.4 −0.05 −0.6 −0.1 −0.8 −1 −0.15 100 200 300 Number of segments 400 В. В. Стрижов 500 100 200 300 Number of segments 400 500 Прогнозирование грузоперевозок РЖД 11 / 38 Модель ARIMA для нестационарного временного ряда Временной ряд описывается моделью ARIMA(p, d, q), если ряд его разностей ∇d xt = (1 − L)d xt , где Lτ xt = xt−τ , τ = 1, . . . , d описывается моделью ARMA(p, q): xt = α + ϕ1 xt−1 + . . . + ϕp xt−p + εt + θ1 εt−1 + . . . + θq εt−q , где α = µ(1 − ϕ1 − . . . − ϕp ), ϕ1 , . . . , ϕp , θ1 , . . . , θq — константы, εt гауссов белый шум с нулевым средним и постоянной дисперсией. Модель ARIMA с мультипликативной сезонностью. Временной ряд описывается моделью SARIMA(p, d, q) × (P, D, Q)s , если d s ΦP (Ls )ϕ(L)∇D s ∇ xt = α + ΘQ (L )θ(L)εt , ΦP (Ls ) = 1 − Φ1 Ls − Φ2 L2s − . . . − ΦP LPs , ΘQ (Ls ) = 1 + Θ1 Ls + Θ2 L2s + . . . + ΘQ LQs . В. В. Стрижов Прогнозирование грузоперевозок РЖД 12 / 38 Комбинированная модель 1 Модель ARIMA(p, d, q) применима для прогнозирования нестационарных временных рядов, но только в случае симметричной функции потерь. 2 Модель Hist применима в случае несимметричных функций потерь, но только для прогнозирвания стационарных временных рядов. Комбинированный прогноз найдем в виде декомпозиции x̂ = x̂ ns + x̂ s , где прогноз нестационарной части x̂ ns определяется моделью SARIMA(p, d, q) × (P, D, Q)s , стационарной части x̂ s — моделью Hist. В. В. Стрижов Прогнозирование грузоперевозок РЖД 13 / 38 Алгоритм ARIMA + Hist Вход: временной ряд x = {x1 , . . . , xT }, функция потерь l (x̂, xT +1 ); Выход: прогноз x̂; 1: 2: 3: 4: 5: 6: подобрать подходящую для временного ряда модель ARIMA по методологии Бокса-Дженкинса; вычислить прогноз нестационарной компоненты x̂ ns с помощью выбранной модели ARIMA; вычислить регрессионные остатки r = {r1 , . . . , rT } для выбранной модели ARIMA; задать число столбцов в гистограмме для алгоритма Hist; вычислить прогноз стационарной компоненты x̂ s с помощью алгоритма Hist; x̂ = x̂ ns + x̂ s ; В. В. Стрижов Прогнозирование грузоперевозок РЖД 14 / 38 Качество комбинированной модели В таблице приведены средние потери прогнозирования временного ряда цен на сахар. Алгоритм ARIMA ARIMA + Hist(20) ARIMA + Hist(50) ARIMA + Hist(300) ARIMA + Hist(500) Квадратичная функция потерь 0.127 0.128 0.127 0.127 0.127 В. В. Стрижов Абсолютная функция потерь 0.265 0.267 0.266 0.265 0.265 Асимметричная функция потерь 0.340 0.260 0.267 0.266 0.266 Прогнозирование грузоперевозок РЖД 15 / 38 Проблема согласования прогнозов xt (:, :) = x(:, :) xt (:, :) = x(:, m) j=1 m P xt (i, :); xt (:, j); xt (i, j), i = 1, . . . n; n P xt (i, j), xt (:, j) = x(:, 1) x(n, :) ... i =1 m P j=1 ... x(1, :) xt (i, :) = n P i =1 j = 1, . . . m; t = 1, . . . , T . m Грузы x(i, j) 1 1 Прогнозы, полученные дого временного ряда симо, могут не удовл структуре иерархии, т. е согласованными. n Ветки В. В. Стрижов Прогнозирование грузоперевозок РЖД 16 / 38 Обозначения: структура иерархии Срез иерархии, вектор независимых и вектор согласованных прогнозов: χt = xt (:, :) ... xt (n, 1) ... xt (n, m) , χ̂ = x̂(:, :) ... x̂(n, 1) ... x̂(n, m) Условие согласованности , ϕ̂ = ŷ (:, :) ... ŷ (n, 1) ... ŷ (n, m) . Sχt = 0, t = 1, . . . , T , где S — матрица связей, имеет размер (2 + n + m) × (1 + n + m + nm) и записывается в виде −1 −1 0 ... S= 0 0 ... 0 1 0 −1 0 0 0 ... ... ... ... ... ... ... ... 1 0 0 0 1 0 −1 0 0 −1 0 0 ... ... ... ... ... ... ... ... В. В. Стрижов 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 −1 0 0 ... ... ... ... ... ... ... ... 0 0 1 ... ... ... 0 0 0 0 0 0 0 0 ... ... 1 1 1 0 1 ... 0 0 ... ... ... ... ... ... ... ... Прогнозирование грузоперевозок РЖД 0 0 0 . 1 0 1 17 / 38 Постановка задачи согласования прогнозов Дано Матрица связей S, множества A, B и вектор независимых прогнозов χ̂ χ̂ 6∈ A, χ̂ ∈ B. Требуется построить вектор согласованных прогнозов ϕ̂, который удовлетворяет следующим требованиям: • ϕ̂ ∈ A, A = {χ ∈ Rd | Sχ = 0} — согласованность; • ϕ̂ ∈ B — физические ограничения; • lh (χT +1 , ϕ̂) ≤ lh (χT +1 , χ̂) для любого среза действительных значений χT +1 ∈ A ∩ B — качество. В. В. Стрижов Прогнозирование грузоперевозок РЖД 18 / 38 Согласование как антагонистическая игра Игрок, выбирающий вектор согласованных прогнозов ϕ̂, играет с природой, выбирающей срез иерархии в момент времени (T + 1). Цель игрока — минимизировать свои потери при любом ходе природы. Игрок Природа Стратегия ϕ̂ ∈ A ∩ B χT +1 ∈ A ∩ B Потери L(ϕ̂, χT +1 ) = lh (χT +1 , ϕ̂) − lh (χT +1 , χ̂) −L(ϕ̂, χT +1 ) Равновесие Нэша в антагонистической игре — это пара стратегий (ϕ̂, χT +1 ), таких что для любых стратегий ϕ̂′ , χ′T +1 выполнено неравенство L(ϕ̂, χ′T +1 ) ≤ L(ϕ̂, χT +1 ) ≤ L(ϕ̂′ , χT +1 ). Цена игры (Дж. Нэш) V = min max L(ϕ̂, χT +1 ) = max min L(ϕ̂, χT +1 ) ϕ̂ χT +1 χT +1 ϕ̂ определена тогда и только тогда, когда в игре существует равновесие Нэша. В. В. Стрижов Прогнозирование грузоперевозок РЖД 19 / 38 Существование равновесия Нэша и выбор согласованных прогнозов Теорема 1 (Стенина, 2014) Пусть A ∩ B = 6 ∅ и для функции потерь lh выполнено 1 lh (χT +1 , χ̂) ≥ 0 для произвольных векторов χT +1 , χ̂, причем lh (χT +1 , χ̂) = 0 ⇔ χT +1 = χ̂; 2 существует проекция χproj = argmin lh (χ, χ̂); χ∈A∩B 3 для всех χ ∈ B и для всех ψ ∈ A ∩ B выполняется неравенство lh (ψ, χ) ≥ lh (ψ, χproj ) + lh (χproj , χ). Тогда • пара стратегий (χproj , χproj ) является равновесием Нэша в антагонистической игре, описывающей задачу согласования прогнозов; • пара (χproj , χproj ) является седловой точкой функции L(ϕ̂, χT +1 ) = lh (χT +1 , ϕ̂) − lh (χT +1 , χ̂). В. В. Стрижов Прогнозирование грузоперевозок РЖД 20 / 38 Оптимизационная задача Теорема 2: цена игры (Стенина, 2014) При выполнении требований теоремы 1 цена игры определена и равна V = min max L(ϕ̂, χT +1 ) = max min L(ϕ̂, χT +1 ) = −lh (χproj , χ̂) ≤ 0. χT +1 ϕ̂ ϕ̂ χT +1 Теорема 3: согласованные прогнозы (Стенина, 2014) При выполнении требований теоремы 1 использование в качестве вектора согласованных прогнозов ϕ̂ вектора ϕ̂ = χproj = argmin lh (χ, χ̂) χ∈A∩B гарантирует, что вектор согласованных прогнозов будет удовлетворять требованиям согласованности и качества и физическим ограничениям. Задача согласования прогнозов сводится к решению оптимизационной задачи. В. В. Стрижов Прогнозирование грузоперевозок РЖД 21 / 38 Алгоритм теоретико-игрового оптимального согласования Вход: вектор независимых прогнозов χ̂, матрица связей S, множества A и B, функция потерь lh (·, ·); Выход: вектор согласованных прогнозов ϕ̂; 1: ϕ̂ = argmin lh (χ, χ̂); χ∈A∩B Свойства алгоритма, согласно теоремам 1, 2, 3 [Стенина, 2015]. • Позволяет согласовывать прогнозы, одновременно обеспечивая выполнение физических ограничений и неухудшение качества прогнозирования. • Не требует оценки погрешности независимых прогнозов и их несмещенности. • На независимые прогнозы накладываются только физические ограничения. • Работает с иерархическими структурами любой сложности. • Для решения оптимизационной задачи можно использовать стандартные методы. В. В. Стрижов Прогнозирование грузоперевозок РЖД 22 / 38 Сравнение качества согласованных и независимых прогнозов Для согласования прогнозов H = 100 последних точек истории решалась оптимизационная задача ϕ̂ = argmin kχ − χ̂k22 . χ∈A∩B Изображена величина Lt = kχt − ϕ̂k22 − kχt − χ̂k22 , t = (T − H + 1), . . . , T . Во всех контрольных точках потери уменьшились. 6 0 x 10 −1 Lt −2 −3 −4 −5 −6 0 20 40 60 Control point В. В. Стрижов 80 100 Прогнозирование грузоперевозок РЖД 23 / 38 Сравнение качества согласованных и независимых прогнозов Функция потерь lh (χt , χ̂) = kχt − χ̂k22 . Средние потери прогнозирования отгрузки в узлах РЖД, ×108 Уровень иерархии Независимые прогнозы Вся иерархия Верхний уровень Средний уровень, ветки Средний уровень, грузы Нижний уровень 10.038 2.858 2.549 2.338 2.294 Восходящее согласование1 9.999 2.868 2.486 2.351 2.294 Оптимальная регрессия2 Модиф. теор.-игр. согл. (веса 700) 10.035 2.856 2.545 2.340 2.294 9.969 2.840 2.487 2.348 2.294 1 Albert B. Schwarzkopf, Richard J. Tersine, John S. Morris Top-down versus bottom-up forecasting strategies. The International Journal Of Production Research, 26(11):1833—1843, 1988. 2 Rob J. Hyndman, Roman A. Ahmed, George Athanasopoulos, Han Lin Shang. Optimal combination forecasts for hierarchical time series. Computational Statistics and Data Analysis, 55(9):2579–2589, 2011. В. В. Стрижов Прогнозирование грузоперевозок РЖД 24 / 38 Повышение точности прогноза Задача повышения точности прогноза решается путем введения в прогностическую модель следующих факторов: • сезонности и данных о погоде (для учета перевозок сельскохозяйственной продукции), • биржевых цен на перевозимые грузы на российских и зарубежных биржах. На графике синей линией показано суммарное количество вагонов на фиксированной станции, красной линией –– цена за баррель нефти. Цена за баррель является фактором, используемым для прогнозирования объема поставок. В. В. Стрижов Прогнозирование грузоперевозок РЖД 25 / 38 Использование экспертных высказываний о влиянии внешних событий на объем погрузок Задан набор экспертных утверждений о влиянии внешних факторов на грузоперевозки в порядковых шкалах (например, степень влияния низкая, высокая, либо фактор не оказывает влияния). Вид фактора, влияющего на объем грузоперевозок Группы грузов и отрасли, на которые оказывается влияние Степень и характер влияния Мировые и внутренние цены на соответствующие активы Нефть и нефтепродукты, черные металлы, цветные металлы, удобрения, уголь и др. На экспортные перевозки влияние сильное Курс рубля к доллару Грузы, отправляемые на экспорт (нефть и нефтепродукты, металлы, уголь) Степень портных высокая Сезонность производства природногоклиматического характера Зерно, овощи, бахчевые культуры Степень влияния высокая. Динамика перевозки связана со сбором урожая В. В. Стрижов влияния для эксперевозок зачастую Прогнозирование грузоперевозок РЖД 26 / 38 Математические методы анализа экспертных оценок При построении прогностической модели используются экспертные высказывания о влиянии внешних факторов S = {s1 , . . . , sM } на прогнозируемые ряды x. В связи с возможной несогласованностью экспертных высказываний и исторических данных решается задача определения их достоверности µ = µ(x, si ). Тест Грэнжера: µ(x, s) ∼ ESSx − ESSx,s T − kx,s , ESSx,s kx,s − kx kx,s , kx — порядок расширенной x̂ = x̂(x, s) и базовой x̂ = x̂(x) моделей прогнозирования, ESSx,s , ESSx — суммы квадратов регрессионных остатков расширенной и базовой моделей: ESS = T X (x̂t − xt )2 . t=1 В. В. Стрижов Прогнозирование грузоперевозок РЖД 27 / 38 Метод сходящегося перекрестного отображения В. В. Стрижов Прогнозирование грузоперевозок РЖД 28 / 38 Метод сходящегося перекрестного отображения Определим множества T Mx = {~x | ~x (t) = [x(t−D) , . . . , xt ] } T Ms = {~s | ~s (t) = [s(t−D) , . . . , st ] } Пусть i1 , i2 , . . . , iD+1 — индексы ближайших соседей точки ~s (T + 1) множества Ms . Тогда прогноз x̂|Ms сходящегося перекрестного отображения есть x̂|Ms = D+1 X d=1 ud wd xid , wd = P , d ud ||~x (T + 1), ~x (id )|| ud = exp − . ||~x (T + 1), ~x (i1 )|| Решение о наличии связи принимаем при больших значениях µ(x, s) ∼ ρ(x̂, xT +1 ) = 1 E(x̂ − Ex̂)(xT +1 − ExT +1 ) σx σx̂ В. В. Стрижов Прогнозирование грузоперевозок РЖД 29 / 38 Математические методы анализа экспертных оценок Решение о достоверности экспертного высказывания о зависимости объемов погрузок от внешних факторов принимается на основе теста Грэнжера и анализа перекрестных отображений исследуемых временных рядов. Исследуемые ряды «Нефть и нефтепродукты» —«Цены на нефть» «Сахар» —«Цены на сахар» «Продукты перемола» — «Цены на пшеницу» Высказывание экс- Оценка перта стоверности связи силь- 0.99 Положительное силь- 0.97 Положительное силь- 0.46 Отрицательное Связь ная Связь ная Связь ная В. В. Стрижов до- Решение о наличии Прогнозирование грузоперевозок РЖД 30 / 38 Учет экзогенных временных рядов Для повышения качества прогнозирования моделью Hist путем учета экзогенных временных рядов sj , j = 1, . . . , n уточним 0 ] прогнозируемого временного гистограмму p 0 (T ) = [h10 , . . . , hK T ряда x = [x1 , . . . , xT ] линейной комбинацией p̂(T ) = w0 p0 (T ) + n X wj pj (T ), j=1 j где p̂ j (T ) = [h1j , . . . , hK ] — гистограммы прогнозируемого временного ряда x, условные по экзогенным временным рядам sj = [s1j , . . . , sTj −τ ]. j P ... Sgj ... SN ... ... p1N ... p2N g h 01 h 02 ... ... ... X2 p21 ... j p1g = h 1 · pg j p2g = h 2 · pg ... ... ... ... XK P pK 1 ... pK 2 = h k · pg ... pKN h 0K j ... pgj ... pN j 1 X1 k p11 p1 j В. В. Стрижов 0.4 Probabilities h0k , hjk j S1 0.3 H0 (t) Hj , cj (t) ∈ C1j Hj , cj (t) ∈ C2j hjk 0 0.2 hk+1 0.1 0 −0.45 −0.25 Xk Xk+1 0.24 Bin centers Xk , k = 1, . . . , K Прогнозирование грузоперевозок РЖД 0.43 31 / 38 Отбор информативных временных рядов Включение экзогенных временных рядов sj в модель контролируется T вектором параметров w = [w0 , . . . , wn ] , макимизирующим правдоподобие модели ! T X 1 X w = argmax log wj hkj (t) , где J = {j : wj 6= 0}. |J | t=1 w∈[0,1]|J | j∈J P j ∈J wj =1 В таблице приведены результаты выбора sj , увеличивающих качество прогнозирования с достоверностью не меньше 95% и относительное уменьшение потерь ∆L/L0 . Группа грузов Нефть и нефтепродукты Черные металлы Металлические конструкции Метизы Хмикаты и сода Строительные грузы Шлаки гранулированные Огнеупоры Цемент В. В. Стрижов cj C̊ винец, 2τ Свинец, τ Свинец, τ Свинец, τ C̊ винец, 2τ Свинец, τ Свинец, τ C̊ винец, 2τ Свинец, τ ∆L/L0 0.27873 0.29659 0.1044 0.43858 0.41155 0.34462 0.17258 0.086756 0.31271 Прогнозирование грузоперевозок РЖД 32 / 38 Вычислительный эксперимент • Эксперимент проводился на реальных данных о посуточной загруженности железнодорожных узлов. • Было проведено сравнение следующих алгоритмов: 1 2 3 4 Базовый алгоритм прогнозирования средним. Модель авторегрессии-скользящего среднего. Алгоритм гистограммного прогнозирования. Алгоритм, учитывающий экзогенные факторы. • Прогноз выполнялся в разрезе: 1 временном (на день, неделю и месяц вперед) 2 пространственном (по парам станций и парам регионов). • В качестве функций ошибок рассматривались функции n P |yi − ŷi |, 1 абсолютной стандартной ошибки MAE= n1 i =1 2 нормированной абсолютной ошибки MAPE= В. В. Стрижов 1 n n P i =1 |yi −ŷi | . yi Прогнозирование грузоперевозок РЖД 33 / 38 Пример прогноза временного ряда Временной ряд — суммарное значение перевозок каменного угля по всем парам станций. Прогноз строился на 60 последних дней. В. В. Стрижов Прогнозирование грузоперевозок РЖД 34 / 38 Результаты прогнозирования по заданию D MAE VAR Regularized Arma Mean by 5 days Hist MAPE VAR Regularized Arma Mean by 5 days Hist Stations W M D Regions W M 917.104 913.336 ∗ 959.840 984.188 3114.073 ∗ 3381.220 4195.548 4623.588 6986.463 ∗ 9366.639 13987.420 16761.591 1946.955 ∗ 1853.329 2892.025 3168.165 5855.633 5168.458 ∗ 18165.117 20385.037 17053.388 14056.409 ∗ 76272.813 84069.813 0.100 0.100∗ 0.105 0.107 0.057∗ 0.062 0.076 0.083 0.025 ∗ 0.034 0.051 0.060 0.042 0.040∗ 0.063 0.068 0.021 0.019 ∗ 0.065 0.073 0.012 0.010 ∗ 0.055 0.060 • В разрезе по парам регионов лучшие результаты продемонстрировал алгоритм, учитывающий экзогенные факторы. • В разрезе по парам станций — модель авторегрессии. В. В. Стрижов Прогнозирование грузоперевозок РЖД 35 / 38 Результаты прогнозирования с агрегированием во времени В. В. Стрижов Прогнозирование грузоперевозок РЖД 36 / 38 Рост функции ошибки относительно горизонта прогноза По оси абсцисс отложен временной отсчет ретроспективного прогнозирования (на 60 дней, 9 недель или 2 месяца вперед). Для модели авторегрессии и метода, учитывающего экзогенные факторы, ошибка ретроспективного прогноза возрастает медленнее. В. В. Стрижов Прогнозирование грузоперевозок РЖД 37 / 38 Результаты проекта, промежуточная версия Разработана система прогнозирования объемов железнодорожных грузоперевозок. 1 Прогнозы выполняются по одному узлу или по парам узлов (шахматка). 2 Выполняется агрегирование прогноза по времени: дни, недели, месяцы. 3 Выполняется агрегирование по типам грузов, регионам. 4 Прогноз согласуется по иерархическому агрегированию. 5 Учет внешних факторов может повысить качество прогноза. В. В. Стрижов Прогнозирование грузоперевозок РЖД 38 / 38