c 2014 г. ⃝ А.В. НАЗИН, д-р физ.-мат. наук; nazine@ipu.ru, С.В. АНУЛОВА, канд. физ.-мат. наук; anulovas@ipu.ru, А.А. ТРЕМБА, канд. физ.-мат. наук; atremba@ipu.ru (Институт проблем управления им. В.А. Трапезникова РАН, Москва) АЛГОРИТМ ЗЕРКАЛЬНОГО СПУСКА ДЛЯ МИНИМИЗАЦИИ СРЕДНИХ ПОТЕРЬ, ПОСТУПАЮЩИХ ПУАССОНОВСКИМ ПОТОКОМ 1 Для стохастической системы, функционирующей в непрерывном времени, рассматривается задача минимизации ожидания интегральных потерь на заданном горизонте. Потери происходят в моменты скачков пуассоновского процесса и являются непрерывной выпуклой функцией управляющего параметра, значения которого образуют выпуклый компакт в конечномерном пространстве. В моменты скачков оракул выдает стохастически зашумленные субградиенты функции потерь, ограниченные в среднеквадратическом; шум аддитивный, несмещенный. Предлагается стратегия управления, порожденная алгоритмом зеркального спуска. Для нее доказана явная верхняя граница превышения ожидания интегральных потерь над минимумом. Рассмотрен пример, в котором эта стратегия применена к модели массового обслуживания. 1. Введение Алгоритм зеркального спуска (ЗС) представляет собой нетривиальное обобщение стандартного метода градиента для задач выпуклой оптимизации в условиях априорной неопределенности [1]. В ряде случаев он имеет преимущество перед другими алгоритмами поиска экстремума при высокой размерности: его гарантируемая скорость сходимости значительно выше. Это ярко выражается и в прикладных задачах, таких, например, как томография [2], классификация [3] и ранжирование [4]. Первоначальная идея метода ЗС описана в [1] в непрерывном времени, но сами алгоритмы как в [1], так и в последующих работах по ЗС пред1 Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 12-08-01245). Первый автор также частично поддержан лабораторией ПреМоЛаб при МФТИ (ГУ), грант Правительства РФ № 11.G34.31.0073. 1 ставлены в дискретном времени. Мотивация данной статьи — расширить область применения алгоритмов зеркального спуска к стохастическим системам со случайным дискретным временем, связанным с наблюдаемым пуссоновским потоком интенсивности λ. Основным результатом является явная неасимптотическая верхняя оценка для превышения минимизируемой функции в текущей оценке над минимумом; при этом оказывается, что заданный горизонт времени T умножается на интенсивность λ. В частности, в задаче выпуклой минимизации на стандартном симплексе в RN при априорном условии, что ∞-норма стохастического градиента ограничена параметром L, верхняя оценка полиномиально зависит от ln N , а не от степени N (что обычно возникает в стандартном методе градиента). 2. Постановка задачи Пусть некоторая управляемая система (например, маршрутизатор) обрабатывает сообщения, поступающие в случайные моменты 0 < τ1 < τ2 < τ3 . . . В каждый момент τi система несет потери, и задача оптимального управления содержательно состоит в минимизации математического ожидания суммарных потерь на заданном временно́м интервале [0, T ]. Потери зависят от управляемого параметра, эта зависимость описывается выпуклой функцией Q, заданной на выпуклом компакте в конечномерном евклидовом пространстве. Сам процесс потерь не наблюдается, но имеется текущая информация, которая соответствует «градиентному» оракулу: в каждый момент времени τi выходом оракула является стохастически зашумленный субградиент функции Q — стохастический субградиент. 2 2.1. Базовые определения Перейдем к точным формулировкам. Обозначим через IA индикатор множества A, т.е. функцию, равную единице на A и нулю вне A. Евклидово пространство RN будет рассматриваться с некоторой нормой √ ∥·∥ (не обязательно ∥x∥ = x21 + · · · + x2N ), а двойственное пространство RN — с нормой ∥ · ∥∗ = sup∥x∥61 ⟨·, x⟩, где ⟨·, ·⟩ обозначает скалярное произведение. Пусть дано вероятностное пространство (Ω, G, P), на котором определены два независимых объекта: пуассоновский процесс Xt , t ∈ [0, ∞), и последовательность независимых одинаково распределенных центрированных квадратично интегрируемых случайных величин ξ(1), ξ(2), . . . с значениями в RN . Обозначим через τ1 , τ2 , τ3 . . . последовательные моменты скачков процесса X и добавим τ0 = 0. Определим процесс ∑ ξt = ∞ i=1 ξ(i)I[τi ,τi+1 ) (t), t ∈ [0, ∞). 2.2. Функция потерь Пусть дан выпуклый компакт Θ ⊂ RN — множество параметров управления. На Θ заданы непрерывная выпуклая функция потерь Q : Θ → R+ и ее субградиент — ограниченная борелевская вектор-функция ∂Q : Θ → RN , удовлетворяющая условию (∂Q(θ), θ′ − θ) 6 Q(θ′ ) − Q(θ) ∀ θ, θ′ ∈ Θ . Из непрерывности Q следует, что она ограничена снизу и существуют (1) Q∗ = min Q и θ∗ = argmin Q. θ∈Θ θ∈Θ 3 2.3. Задача управления Множество стратегий управления U состоит из всевозможных кусочно-постоянных случайных процессов ut с значениями в Θ вида ∑ ut = ∞ i=0 θ(i)I[τi ,τi+1 ) (t), определяемых следующим образом. Неслучайное θ(0) ∈ Θ может быть выбрано произвольно; положим g(i) = ∂Q(θ(i − 1)) + ξ(i) , (2) где θ(i) — произвольная измеримая функция от случайных величин g(1), . . . , g(i) с значениями в Θ, i = 1, 2, . . . Соответствующий процесс в непрерывном времени записывается следующим образом2 : (3) gt = ∂Q(ut− ) + ξt , t ∈ [0, T ]. Далее задается горизонт времени T > 0 и определяется функционал (критерий управления) ∫ (4) RT ({ut }) , E T Q(ut− )dXt = E 0 i=X ∑T Q(uτi − ) = E i=1 i=X ∑T Q(θ(i − 1)) . i=1 Идеальная задача управления — минимизировать этот функционал по множеству стратегий U. Очевидно, для любой u ∈ U выполнено: RT (u) > Q∗ EXT . С другой стороны, для стационарной стратегии управления u = {ut = θ, t ∈ [0, ∞)} с фиксированным θ ∈ Θ выполнено RT (u) = Q(θ)EXT , а значит, inf RT (u) по стационарным стратегиям u равен Q∗ EXT . Следовательно, inf RT (u) = Q∗ EXT . Поскольку для пуассоновского процесса u∈U 2 Под ut− имеется в виду левосторонний предел. 4 EXT = λT, то имеем inf RT (u) = Q∗ λT = Q(θ∗ )λT. u∈U 2.4. Дополнительные предположения Полагаем, что априори известны интенсивность пуассоновского потока λ > 0 и константа L ∈ (0, ∞), ограничивающая стохастические градиенты в среднеквадратическом: E∥g(i)∥2∗ 6 L2 ∀ i = 1, 2, . . . (5) 3. Алгоритм зеркального спуска (ЗС) Напомним, что алгоритм зеркального спуска представляет собой прямо-двойственный метод [1–6]. Исходным пространством является E = RN с нормой ∥ · ∥, а двойственным — E ∗ = RN с соответствующей нормой ∥ · ∥∗ . Алгоритм ЗС содержит функциональный параметр Wβ : E ∗ → R — выпуклую непрерывно дифференцируемую функцию со скалярным параметром β > 0 и удовлетворяющую следующему условию Липшица: (6) ∥∇Wβ (z) − ∇Wβ ( z̃ )∥ 6 1 ∥z − z̃∥∗ αβ ∀ z, z̃ ∈ E ∗ , β > 0 , причем α > 0 — не зависящая от β постоянная. Отметим, что в алгоритме используется потенциальное поле ∇Wβ : E ∗ → Θ, отображающее E ∗ в множество Θ (см. далее предложение 1, п. 2, (ii)). Для рассматриваемой здесь задачи алгоритм ЗС запишем в следующем виде с учетом непрерывности времени и специфики пуассоновского процесса. 5 1. Фиксируем начальные значения пары сопряженных переменных: . . ζ0 = ζ(0) = 0 ∈ E ∗ и θ0 = θ(0) = −∇Wβ (ζ(0)). 2. Для каждого момента времени t ∈ [0, T ] получаем выход оракула ∑∞ gt = (2) и формируем траекторию i=1 g(i)I[τi ,τi+1 ) (t) с учетом стохастического дифференциального уравнения в E ∗ в паре с алгебраическим уравнением: (7) (8) dζt = dgt , ut = −∇Wβ (ζt ) . 3. В момент времени T получаем реализованную траекторию {ut } и если функция потерь Q задана, то соответствующие интегральные потери b T ({ut }) = R ∑ Q(θ(i − 1)) , i>1,τi 6T где τi — моменты скачков процесса Xt . З а м е ч а н и е 1. Очевидно, что определяемая таким образом стратегия u принадлежит U. Фактически, уравнения (7)–(8) означают, что в моменты времени τi , i = 1, 2, . . . , происходит пересчет величин ζ(i) = ζ(i − 1) + g(i) , θ(i) = −∇Wβ (ζ(i)) . Для полноты приведем ряд определений и предложений из [3], разъясняющих и дополняющих суть построений алгоритма ЗС (подробнее см. [3, § 3] и приведенную библиографию). О п р е д е л е н и е 1. Пусть α > 0. Выпуклая функция V : Θ → R называется α-сильно выпуклой относительно исходной нормы ∥ · ∥ , 6 если (9) V (sx + (1 − s)y) 6 sV (x) + (1 − s)V (y) − α s(1 − s)∥x − y∥2 2 при любых x, y ∈ Θ и s ∈ [0, 1]. П р е д л о ж е н и е 1. Пусть функция V : Θ → R выпукла, а параметр β > 0. Тогда β-сопряженная к V функция { } Wβ (z) = sup −z ⊤ θ − βV (θ) (10) ∀ z ∈ E∗ θ∈Θ обладает следующими свойствами: 1. Функция Wβ : E ∗ → R выпукла и имеет сопряженную βV , т.e. { } ∀ θ ∈ Θ βV (θ) = sup −z ⊤ θ − Wβ (z) ; (11) z∈E ∗ 2. Если функция V является α-сильно выпуклой относительно исходной нормы ∥ · ∥, то: (i) выполнено условие (6), { } (ii) argmax −z ⊤ θ − βV (θ) = −∇Wβ (z) ∈ Θ . θ∈Θ З а м е ч а н и е 2. В соответствии с предложением 1, п. 2, (ii) уравнение (8) можно записать в виде { } ut = argmin ζt⊤ θ + βV (θ) . θ∈Θ О п р е д е л е н и е 2. Назовем функцию V : Θ → R+ прокси-функцией, если она выпукла и (i) существует такая точка θ∗ ∈ Θ, что min V (θ) = V (θ∗ ), θ∈Θ (ii) для β-сопряженной к V функции Wβ выполнено условие (6). В [5, с. 1586] даны примеры прокси-функций в случае минимизации на симплексе: квадратичная и энтропийная. 7 4. Основной результат Т е о р е м а 1. Пусть алгоритм ЗС с прокси-функцией V : Θ → R+ реализует стратегию ut на горизонте T > 0 при описанных выше условиях. Тогда справедливо неравенство √ b T ({ut }) − inf RT (u) 6 ER (12) u∈U 2T λ V L. α Параметр алгоритма α описан в (9), a β и V задаются √ Tλ (13) β= L , V > max V (θ) . θ∈Θ 2αV Д о к а з а т е л ь с т в о т е о р е м ы 1. Имеем [ = E I{XT >1} =E n=∞ ∑ n=1 XT ∑ i=1 I{XT =n} {[∑n i=1 b T ({ut }) − inf RT (u) = ER u∈U ] Q(θ(i − 1)) − XT Q(θ∗ ) = ]} Q(θ(i − 1)) − nQ(θ ) 6 ∗ ( ) n 2 6E I{XT =n} βV + L 6 2αβ ) ( n=1 XT 2 λT 2 L = βV + L. 6 E βV + 2αβ 2αβ n=∞ ∑ Поясним неравенство в этой цепочке. При условии события {XT = n} случайные величины ξτ1 , ξτ2 , . . . , ξτn распределены так же, как ξ(1), ξ(2), . . . , ξ(n), и алгоритм работает так же, как в модели [3] с дискретным временем и n шагами. Это позволяет применить предложения 2 и 3 из [3, § 4], c γi ≡ 1 и получить рассматриваемое неравенство — явную верхнюю оценку превышения средних интегральных потерь над минимумом. В правой части остается провести минимизацию по β > 0. Приходим к (13) и желаемому неравенству (12). Теорема доказана. 8 5. Пример Пусть горизонт времени T зафиксирован и сервер получает запросы в моменты времени, сформированные пуассоновским процессом. Каждый запрос содержит N типов задач, и каждый j-й тип задачи требует ηj затрат (некоторого ресурса, например времени). Эти неотрицательные величины — случайные, таким образом, полученную в момент i заявку можно характеризовать вектором случайных величин3 η(i) = (η1 (i), . . . , ηN (i)). Для фиксированного j-го типа задачи случайные величины ηj (i) с течением времени (i = 1, 2, . . .) образуют последовательность одинаково распределенных случайных величин, независимых между собой и между затратами других типов задач. В момент получения каждой заявки сервер может выбрать одну из задач и перенаправить её на другой сервер, тем самым не производя затрат на ее обработку. Реализации количества затрат в полученном запросе становятся известными после решения о перенаправлении задачи и только для принятых задач. Цель состоит в том, чтобы минимизировать суммарные затраты (с начального момента времени до T ) при ограничении, что в каждом запросе в среднем может быть перенаправлена только малая доля4 задач δ. Будем использовать следующий сценарий работы сервера. Введем вектор управляющих переменных θ = (θ1 , . . . , θN )⊤ , где θj ∈ ∑N ∈ [0, 1], j=1 θj = 1. В момент прихода i-го запроса случайно выбирается тип задачи — кандидата на перенаправление согласно дискретному распределению между N типами с вероятностями θ1 (i − 1), . . . , θN (i − 1). 3 4 Так же будет обозначаться реализация этих случайных величин, отличие ясно из контекста. Таким образом, в каждом запросе в среднем отбрасывается δN < 1 задач. 9 После этого данная задача перенаправляется с вероятностью δN . Очевидно, что оптимальным решением будет определение типа задачи — кандидата на перенаправление с максимальным математическим ожиданием. Формально требуется минимизировать функцию N ∑ ∑ RT = E (14) η j (i), i:τi 6T j=1 где η j (i) = ηj (i), если задача j-го типа в i-м запросе обслуживалась на сервере, 0, если задача была перенаправлена, на симплексе Θ = {θ : N ∑ θj 6 1, 0 6 θj 6 1, j = 1, . . . , N }. j=1 Функция (14) обладает той же структурой, что (4), c N ∑ Q(θ) = (1 − δN θj )Eηj . j=1 Градиент этой функции равен (−δN Eη1 , . . . , −δN EηN )⊤ , но он наблюдается на сервере только через величины η j (i), таким образом, g(i) = ( )⊤ η 1 (i−1) η N (i−1) − 1−δN θ1 (i−1) , . . . , − 1−δN θN (i−1) . В качестве прокси-функции используется энтропийная функция ∑ V (θ) = ln N + N j=1 θj ln θj с параметром сильной выпуклости α = 1 (по отношению к норме ∥ · ∥1 см., например, [3]) и максимальным значением на симплексе V = ln N . Неравенство (12) принимает вид b T ({ut }) − inf RT (u) 6 ER u∈U 10 √ 2T λ ln N L . 5.1. Численное моделирование Данные формировались следующим образом. Для каждого типа задач потери обладали равномерным распределением на интервале (непрерывном или дискретном), причем тип распределения и границы интервала были однократно случайно выбраны (для каждого типа — свои). Взято T = 2000, λ = 2, N = 100, δ = 0,006. Было проведено 500 симуляций для данного набора параметров, и в конце временно́го интервала получены bT . реализации интегральных потерь в конечный момент времени R . Гистограмма разности этих величин и оптимального значения R∗T = inf u∈U RT (u) вместе с границей (12) (кружок справа) и эмпирическим средним данных разностей (вертикальная штриховая линия) изображены на рисунке. Видно, что эмпирическое среднее действительно лежит в указанных границах. 6. Заключение В статье представлен алгоритм зеркального спуска, направленный на минимизацию средних потерь стохастической системы, функционирующей в непрерывном времени, c потерями, возникающими в случайные моменты скачков пуассоновского процесса с известной интенсивностью. С возникновением потерь становятся известными стохастически зашумленные градиенты функции потерь; шум аддитивный, несмещенный, ограниченный в L2 с известной границей. Цель состоит в минимизации среднего значения интегральных потерь на заданном выпуклом компакте в RN и ограниченном временно́м интервале с горизонтом T . Для алгоритма доказана явная верхняя граница превышения средних √ интегральных потерь над минимумом. Граница имеет вид C T с кон11 кретной константой C, см. (12). Теоретический результат подтвержден содержательным примером. СПИСОК ЛИТЕРАТУРЫ 1. Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.: Наука, 1979. 2. Ben-Tal A., Margalit T., Nemirovski A. The Ordered Subsets Mirror Descent Optimization Method with Applications to Tomography // SIAM J. Optim. 2001. V. 12. No. 1. P. 79–108. 3. Юдицкий А.Б., Назин А.В., Цыбаков А.Б. и др. Рекуррентное агрегирование оценок методом зеркального спуска с усреднением // Проблемы передачи информации. 2005. Т. 41. № 4. С. 78–96. 4. Назин А.В., Поляк Б.Т. Рандомизированный алгоритм нахождения собственного вектора стохастической матрицы с применением к задаче PageRank // АиТ. 2011. № 2. С. 131–141. Nazin A.V., Polyak B.T. Randomized algorithm to determine the eigenvector of a stochastic matrix with application to the PageRank problem // Autom. Remote Control. 2011. V. 72. No. 2. P. 342–352. 5. Nemirovski A., Juditsky A., Lan G., et al. Robust Stochastic Approximation Approach to Stochastic Programming // SIAM J. Optim. 2009. V. 19. P. 1574–1609. 6. Nesterov Yu. Primal-dual subgradient methods for convex problems. Core discussion paper 2005/67. Louvain-la-Neuve, Belgium: Center for Operation Research and Econometrics, 2005. 12 60 50 40 30 20 10 0 −1000 0 1000 2000 bT − R 13 R∗T 3000 4000 5000 Подрисуночная подпись: bT ) и Гистограмма реализаций разности между полученной с помощью алгоритма ЗС (R оптимальной (R∗T ) интегральными потерями. Подпись на оси ординат: Число попаданий в соответствующий интервал 14