Алгоритм зеркального спуска (ЗС) представляет

c 2014 г. ⃝ А.В. НАЗИН, д-р физ.-мат. наук; nazine@ipu.ru, С.В. АНУЛОВА, канд. физ.-мат. наук; anulovas@ipu.ru, А.А. ТРЕМБА, канд. физ.-мат. наук; atremba@ipu.ru (Институт проблем управления им. В.А. Трапезникова РАН, Москва) АЛГОРИТМ ЗЕРКАЛЬНОГО СПУСКА ДЛЯ МИНИМИЗАЦИИ СРЕДНИХ ПОТЕРЬ, ПОСТУПАЮЩИХ ПУАССОНОВСКИМ ПОТОКОМ 1 Для стохастической системы, функционирующей в непрерывном времени, рассматривается задача минимизации ожидания интегральных потерь на заданном горизонте. Потери происходят в моменты скачков пуассоновского процесса и являются непрерывной выпуклой функцией управляющего параметра, значения которого образуют выпуклый компакт в конечномерном пространстве. В моменты скачков оракул выдает стохастически зашумленные субградиенты функции потерь, ограниченные в среднеквадратическом; шум аддитивный, несмещенный. Предлагается стратегия управления, порожденная алгоритмом зеркального спуска. Для нее доказана явная верхняя граница превышения ожидания интегральных потерь над минимумом. Рассмотрен пример, в котором эта стратегия применена к модели массового обслуживания. 1. Введение Алгоритм зеркального спуска (ЗС) представляет собой нетривиальное обобщение стандартного метода градиента для задач выпуклой оптимизации в условиях априорной неопределенности [1]. В ряде случаев он имеет преимущество перед другими алгоритмами поиска экстремума при высокой размерности: его гарантируемая скорость сходимости значительно выше. Это ярко выражается и в прикладных задачах, таких, например, как томография [2], классификация [3] и ранжирование [4]. Первоначальная идея метода ЗС описана в [1] в непрерывном времени, но сами алгоритмы как в [1], так и в последующих работах по ЗС пред1 Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 12-08-01245). Первый автор также частично поддержан лабораторией ПреМоЛаб при МФТИ (ГУ), грант Правительства РФ № 11.G34.31.0073. 1 ставлены в дискретном времени. Мотивация данной статьи — расширить область применения алгоритмов зеркального спуска к стохастическим системам со случайным дискретным временем, связанным с наблюдаемым пуссоновским потоком интенсивности λ. Основным результатом является явная неасимптотическая верхняя оценка для превышения минимизируемой функции в текущей оценке над минимумом; при этом оказывается, что заданный горизонт времени T умножается на интенсивность λ. В частности, в задаче выпуклой минимизации на стандартном симплексе в RN при априорном условии, что ∞-норма стохастического градиента ограничена параметром L, верхняя оценка полиномиально зависит от ln N , а не от степени N (что обычно возникает в стандартном методе градиента). 2. Постановка задачи Пусть некоторая управляемая система (например, маршрутизатор) обрабатывает сообщения, поступающие в случайные моменты 0 < τ1 < τ2 < τ3 . . . В каждый момент τi система несет потери, и задача оптимального управления содержательно состоит в минимизации математического ожидания суммарных потерь на заданном временно́м интервале [0, T ]. Потери зависят от управляемого параметра, эта зависимость описывается выпуклой функцией Q, заданной на выпуклом компакте в конечномерном евклидовом пространстве. Сам процесс потерь не наблюдается, но имеется текущая информация, которая соответствует «градиентному» оракулу: в каждый момент времени τi выходом оракула является стохастически зашумленный субградиент функции Q — стохастический субградиент. 2 2.1. Базовые определения Перейдем к точным формулировкам. Обозначим через IA индикатор множества A, т.е. функцию, равную единице на A и нулю вне A. Евклидово пространство RN будет рассматриваться с некоторой нормой √ ∥·∥ (не обязательно ∥x∥ = x21 + · · · + x2N ), а двойственное пространство RN — с нормой ∥ · ∥∗ = sup∥x∥61 ⟨·, x⟩, где ⟨·, ·⟩ обозначает скалярное произведение. Пусть дано вероятностное пространство (Ω, G, P), на котором определены два независимых объекта: пуассоновский процесс Xt , t ∈ [0, ∞), и последовательность независимых одинаково распределенных центрированных квадратично интегрируемых случайных величин ξ(1), ξ(2), . . . с значениями в RN . Обозначим через τ1 , τ2 , τ3 . . . последовательные моменты скачков процесса X и добавим τ0 = 0. Определим процесс ∑ ξt = ∞ i=1 ξ(i)I[τi ,τi+1 ) (t), t ∈ [0, ∞). 2.2. Функция потерь Пусть дан выпуклый компакт Θ ⊂ RN — множество параметров управления. На Θ заданы непрерывная выпуклая функция потерь Q : Θ → R+ и ее субградиент — ограниченная борелевская вектор-функция ∂Q : Θ → RN , удовлетворяющая условию (∂Q(θ), θ′ − θ) 6 Q(θ′ ) − Q(θ) ∀ θ, θ′ ∈ Θ . Из непрерывности Q следует, что она ограничена снизу и существуют (1) Q∗ = min Q и θ∗ = argmin Q. θ∈Θ θ∈Θ 3 2.3. Задача управления Множество стратегий управления U состоит из всевозможных кусочно-постоянных случайных процессов ut с значениями в Θ вида ∑ ut = ∞ i=0 θ(i)I[τi ,τi+1 ) (t), определяемых следующим образом. Неслучайное θ(0) ∈ Θ может быть выбрано произвольно; положим g(i) = ∂Q(θ(i − 1)) + ξ(i) , (2) где θ(i) — произвольная измеримая функция от случайных величин g(1), . . . , g(i) с значениями в Θ, i = 1, 2, . . . Соответствующий процесс в непрерывном времени записывается следующим образом2 : (3) gt = ∂Q(ut− ) + ξt , t ∈ [0, T ]. Далее задается горизонт времени T > 0 и определяется функционал (критерий управления) ∫ (4) RT ({ut }) , E T Q(ut− )dXt = E 0 i=X ∑T Q(uτi − ) = E i=1 i=X ∑T Q(θ(i − 1)) . i=1 Идеальная задача управления — минимизировать этот функционал по множеству стратегий U. Очевидно, для любой u ∈ U выполнено: RT (u) > Q∗ EXT . С другой стороны, для стационарной стратегии управления u = {ut = θ, t ∈ [0, ∞)} с фиксированным θ ∈ Θ выполнено RT (u) = Q(θ)EXT , а значит, inf RT (u) по стационарным стратегиям u равен Q∗ EXT . Следовательно, inf RT (u) = Q∗ EXT . Поскольку для пуассоновского процесса u∈U 2 Под ut− имеется в виду левосторонний предел. 4 EXT = λT, то имеем inf RT (u) = Q∗ λT = Q(θ∗ )λT. u∈U 2.4. Дополнительные предположения Полагаем, что априори известны интенсивность пуассоновского потока λ > 0 и константа L ∈ (0, ∞), ограничивающая стохастические градиенты в среднеквадратическом: E∥g(i)∥2∗ 6 L2 ∀ i = 1, 2, . . . (5) 3. Алгоритм зеркального спуска (ЗС) Напомним, что алгоритм зеркального спуска представляет собой прямо-двойственный метод [1–6]. Исходным пространством является E = RN с нормой ∥ · ∥, а двойственным — E ∗ = RN с соответствующей нормой ∥ · ∥∗ . Алгоритм ЗС содержит функциональный параметр Wβ : E ∗ → R — выпуклую непрерывно дифференцируемую функцию со скалярным параметром β > 0 и удовлетворяющую следующему условию Липшица: (6) ∥∇Wβ (z) − ∇Wβ ( z̃ )∥ 6 1 ∥z − z̃∥∗ αβ ∀ z, z̃ ∈ E ∗ , β > 0 , причем α > 0 — не зависящая от β постоянная. Отметим, что в алгоритме используется потенциальное поле ∇Wβ : E ∗ → Θ, отображающее E ∗ в множество Θ (см. далее предложение 1, п. 2, (ii)). Для рассматриваемой здесь задачи алгоритм ЗС запишем в следующем виде с учетом непрерывности времени и специфики пуассоновского процесса. 5 1. Фиксируем начальные значения пары сопряженных переменных: . . ζ0 = ζ(0) = 0 ∈ E ∗ и θ0 = θ(0) = −∇Wβ (ζ(0)). 2. Для каждого момента времени t ∈ [0, T ] получаем выход оракула ∑∞ gt = (2) и формируем траекторию i=1 g(i)I[τi ,τi+1 ) (t) с учетом стохастического дифференциального уравнения в E ∗ в паре с алгебраическим уравнением: (7) (8) dζt = dgt , ut = −∇Wβ (ζt ) . 3. В момент времени T получаем реализованную траекторию {ut } и если функция потерь Q задана, то соответствующие интегральные потери b T ({ut }) = R ∑ Q(θ(i − 1)) , i>1,τi 6T где τi — моменты скачков процесса Xt . З а м е ч а н и е 1. Очевидно, что определяемая таким образом стратегия u принадлежит U. Фактически, уравнения (7)–(8) означают, что в моменты времени τi , i = 1, 2, . . . , происходит пересчет величин ζ(i) = ζ(i − 1) + g(i) , θ(i) = −∇Wβ (ζ(i)) . Для полноты приведем ряд определений и предложений из [3], разъясняющих и дополняющих суть построений алгоритма ЗС (подробнее см. [3, § 3] и приведенную библиографию). О п р е д е л е н и е 1. Пусть α > 0. Выпуклая функция V : Θ → R называется α-сильно выпуклой относительно исходной нормы ∥ · ∥ , 6 если (9) V (sx + (1 − s)y) 6 sV (x) + (1 − s)V (y) − α s(1 − s)∥x − y∥2 2 при любых x, y ∈ Θ и s ∈ [0, 1]. П р е д л о ж е н и е 1. Пусть функция V : Θ → R выпукла, а параметр β > 0. Тогда β-сопряженная к V функция { } Wβ (z) = sup −z ⊤ θ − βV (θ) (10) ∀ z ∈ E∗ θ∈Θ обладает следующими свойствами: 1. Функция Wβ : E ∗ → R выпукла и имеет сопряженную βV , т.e. { } ∀ θ ∈ Θ βV (θ) = sup −z ⊤ θ − Wβ (z) ; (11) z∈E ∗ 2. Если функция V является α-сильно выпуклой относительно исходной нормы ∥ · ∥, то: (i) выполнено условие (6), { } (ii) argmax −z ⊤ θ − βV (θ) = −∇Wβ (z) ∈ Θ . θ∈Θ З а м е ч а н и е 2. В соответствии с предложением 1, п. 2, (ii) уравнение (8) можно записать в виде { } ut = argmin ζt⊤ θ + βV (θ) . θ∈Θ О п р е д е л е н и е 2. Назовем функцию V : Θ → R+ прокси-функцией, если она выпукла и (i) существует такая точка θ∗ ∈ Θ, что min V (θ) = V (θ∗ ), θ∈Θ (ii) для β-сопряженной к V функции Wβ выполнено условие (6). В [5, с. 1586] даны примеры прокси-функций в случае минимизации на симплексе: квадратичная и энтропийная. 7 4. Основной результат Т е о р е м а 1. Пусть алгоритм ЗС с прокси-функцией V : Θ → R+ реализует стратегию ut на горизонте T > 0 при описанных выше условиях. Тогда справедливо неравенство √ b T ({ut }) − inf RT (u) 6 ER (12) u∈U 2T λ V L. α Параметр алгоритма α описан в (9), a β и V задаются √ Tλ (13) β= L , V > max V (θ) . θ∈Θ 2αV Д о к а з а т е л ь с т в о т е о р е м ы 1. Имеем [ = E I{XT >1} =E n=∞ ∑ n=1 XT ∑ i=1 I{XT =n} {[∑n i=1 b T ({ut }) − inf RT (u) = ER u∈U ] Q(θ(i − 1)) − XT Q(θ∗ ) = ]} Q(θ(i − 1)) − nQ(θ ) 6 ∗ ( ) n 2 6E I{XT =n} βV + L 6 2αβ ) ( n=1 XT 2 λT 2 L = βV + L. 6 E βV + 2αβ 2αβ n=∞ ∑ Поясним неравенство в этой цепочке. При условии события {XT = n} случайные величины ξτ1 , ξτ2 , . . . , ξτn распределены так же, как ξ(1), ξ(2), . . . , ξ(n), и алгоритм работает так же, как в модели [3] с дискретным временем и n шагами. Это позволяет применить предложения 2 и 3 из [3, § 4], c γi ≡ 1 и получить рассматриваемое неравенство — явную верхнюю оценку превышения средних интегральных потерь над минимумом. В правой части остается провести минимизацию по β > 0. Приходим к (13) и желаемому неравенству (12). Теорема доказана. 8 5. Пример Пусть горизонт времени T зафиксирован и сервер получает запросы в моменты времени, сформированные пуассоновским процессом. Каждый запрос содержит N типов задач, и каждый j-й тип задачи требует ηj затрат (некоторого ресурса, например времени). Эти неотрицательные величины — случайные, таким образом, полученную в момент i заявку можно характеризовать вектором случайных величин3 η(i) = (η1 (i), . . . , ηN (i)). Для фиксированного j-го типа задачи случайные величины ηj (i) с течением времени (i = 1, 2, . . .) образуют последовательность одинаково распределенных случайных величин, независимых между собой и между затратами других типов задач. В момент получения каждой заявки сервер может выбрать одну из задач и перенаправить её на другой сервер, тем самым не производя затрат на ее обработку. Реализации количества затрат в полученном запросе становятся известными после решения о перенаправлении задачи и только для принятых задач. Цель состоит в том, чтобы минимизировать суммарные затраты (с начального момента времени до T ) при ограничении, что в каждом запросе в среднем может быть перенаправлена только малая доля4 задач δ. Будем использовать следующий сценарий работы сервера. Введем вектор управляющих переменных θ = (θ1 , . . . , θN )⊤ , где θj ∈ ∑N ∈ [0, 1], j=1 θj = 1. В момент прихода i-го запроса случайно выбирается тип задачи — кандидата на перенаправление согласно дискретному распределению между N типами с вероятностями θ1 (i − 1), . . . , θN (i − 1). 3 4 Так же будет обозначаться реализация этих случайных величин, отличие ясно из контекста. Таким образом, в каждом запросе в среднем отбрасывается δN < 1 задач. 9 После этого данная задача перенаправляется с вероятностью δN . Очевидно, что оптимальным решением будет определение типа задачи — кандидата на перенаправление с максимальным математическим ожиданием. Формально требуется минимизировать функцию N ∑ ∑ RT = E (14) η j (i), i:τi 6T j=1 где η j (i) =      ηj (i), если задача j-го типа в i-м запросе обслуживалась на сервере,     0, если задача была перенаправлена, на симплексе Θ = {θ : N ∑ θj 6 1, 0 6 θj 6 1, j = 1, . . . , N }. j=1 Функция (14) обладает той же структурой, что (4), c N ∑ Q(θ) = (1 − δN θj )Eηj . j=1 Градиент этой функции равен (−δN Eη1 , . . . , −δN EηN )⊤ , но он наблюдается на сервере только через величины η j (i), таким образом, g(i) = ( )⊤ η 1 (i−1) η N (i−1) − 1−δN θ1 (i−1) , . . . , − 1−δN θN (i−1) . В качестве прокси-функции используется энтропийная функция ∑ V (θ) = ln N + N j=1 θj ln θj с параметром сильной выпуклости α = 1 (по отношению к норме ∥ · ∥1 см., например, [3]) и максимальным значением на симплексе V = ln N . Неравенство (12) принимает вид b T ({ut }) − inf RT (u) 6 ER u∈U 10 √ 2T λ ln N L . 5.1. Численное моделирование Данные формировались следующим образом. Для каждого типа задач потери обладали равномерным распределением на интервале (непрерывном или дискретном), причем тип распределения и границы интервала были однократно случайно выбраны (для каждого типа — свои). Взято T = 2000, λ = 2, N = 100, δ = 0,006. Было проведено 500 симуляций для данного набора параметров, и в конце временно́го интервала получены bT . реализации интегральных потерь в конечный момент времени R . Гистограмма разности этих величин и оптимального значения R∗T = inf u∈U RT (u) вместе с границей (12) (кружок справа) и эмпирическим средним данных разностей (вертикальная штриховая линия) изображены на рисунке. Видно, что эмпирическое среднее действительно лежит в указанных границах. 6. Заключение В статье представлен алгоритм зеркального спуска, направленный на минимизацию средних потерь стохастической системы, функционирующей в непрерывном времени, c потерями, возникающими в случайные моменты скачков пуассоновского процесса с известной интенсивностью. С возникновением потерь становятся известными стохастически зашумленные градиенты функции потерь; шум аддитивный, несмещенный, ограниченный в L2 с известной границей. Цель состоит в минимизации среднего значения интегральных потерь на заданном выпуклом компакте в RN и ограниченном временно́м интервале с горизонтом T . Для алгоритма доказана явная верхняя граница превышения средних √ интегральных потерь над минимумом. Граница имеет вид C T с кон11 кретной константой C, см. (12). Теоретический результат подтвержден содержательным примером. СПИСОК ЛИТЕРАТУРЫ 1. Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.: Наука, 1979. 2. Ben-Tal A., Margalit T., Nemirovski A. The Ordered Subsets Mirror Descent Optimization Method with Applications to Tomography // SIAM J. Optim. 2001. V. 12. No. 1. P. 79–108. 3. Юдицкий А.Б., Назин А.В., Цыбаков А.Б. и др. Рекуррентное агрегирование оценок методом зеркального спуска с усреднением // Проблемы передачи информации. 2005. Т. 41. № 4. С. 78–96. 4. Назин А.В., Поляк Б.Т. Рандомизированный алгоритм нахождения собственного вектора стохастической матрицы с применением к задаче PageRank // АиТ. 2011. № 2. С. 131–141. Nazin A.V., Polyak B.T. Randomized algorithm to determine the eigenvector of a stochastic matrix with application to the PageRank problem // Autom. Remote Control. 2011. V. 72. No. 2. P. 342–352. 5. Nemirovski A., Juditsky A., Lan G., et al. Robust Stochastic Approximation Approach to Stochastic Programming // SIAM J. Optim. 2009. V. 19. P. 1574–1609. 6. Nesterov Yu. Primal-dual subgradient methods for convex problems. Core discussion paper 2005/67. Louvain-la-Neuve, Belgium: Center for Operation Research and Econometrics, 2005. 12 60 50 40 30 20 10 0 −1000 0 1000 2000 bT − R 13 R∗T 3000 4000 5000 Подрисуночная подпись: bT ) и Гистограмма реализаций разности между полученной с помощью алгоритма ЗС (R оптимальной (R∗T ) интегральными потерями. Подпись на оси ординат: Число попаданий в соответствующий интервал 14

Алгоритм зеркального спуска (ЗС) представляет

Related documents

Products

Support

Алгоритм зеркального спуска (ЗС) представляет

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib