Стохастическая оптимизация и Huge

advertisement
Программа курса
"Стохастическая оптимизация и Huge-scale оптимизация"
Гасников Александр Владимирович
С 20 февраля по субботам с 11.00 до 15.00 на территории МЦНМО и ВШЭ.
Курс поддержан грантами РФФИ 14-01-00722-а и 15-31-20571-мол_а_вед.
Общая информация (для студентов НМУ, ВШЭ, МФТИ): занятия 20 февраля (первое занятие), 5
марта, 19 марта, 16 апреля будут на территории ВШЭ (Мясницкой, 20, ауд. 101, для прохода
необходимо один раз заранее (до 12 февраля) написать письмо (тема письма “курс Гасникова”)
Инне Юрьевной Корольковой ikorolkova@hse.ru); занятия 27 февраля, 26 марта, 2 апреля, 9
апреля, 23 апреля, 30 апреля на территории МЦНМО (Большой Власьевский пер., 11, ауд. 401,
проход свободный). 12 марта лекции не будет.
Информация для студентов факультета Компьютерных наук ВШЭ: Данный курс имеет
определенные пересечения с курсами оптимизации магистерской программы ММОС, которые
читают С.В. Шпирко, А. Тремба, Е. Грязина, Ю. Дорн. Наиболее близким к данному курсу является
курс Ю.Е. Нестерова, который будет прочитан в апреле 2016 в рамках программы ММОС. Тем не
менее, несмотря на некоторое внешнее сходство, акценты в этих курсах будут сделаны на разное.
Экзамен по курсу для студентов ВШЭ будет (ориентировочно) в середине июня. Для студентов
НМУ и МФТИ (ориентировочно) в середине мая. Оценка на экзамене будет по 10 бальной системе
(отлично (8-10), хорошо (5-7), удовлетворительно (3-4)). В начале апреля (когда уже базисные
вещи будут рассказаны) студентам будет предложено одно (большое) домашнее задание.
Уровень сложности задач будет разным. Решение этого задания (особенно число решенных
сложных задач) будет сильно учитываться при выставлении итоговой оценки. Решение части задач
(если получится), позволит подготовить публикацию, скажем, в ВАКовский журнал. По таким
задачам (они будут выделены *) можно периодически писать (задавая вопросы и корректируя
направление исследований) на почтовый ящик gasnikov@list.ru. К курсу ожидается некоторый
практикум (вероятно, где-то на github’е будет создан проект, отвечающий курсу). Детали можно
будет со временем узнать у Ю.В. Максимова ymaximov@hse.ru.
В качестве основного источника литературы ко всему курсу можно рекомендовать
Bubeck S. Convex optimization: algorithms and complexity // In Foundations and Trends in Machine
Learning. 2015. V. 8. no. 3-4. P. 231–357. arXiv:1405.4980
Однако в курсе также планируется затронуть много того, что не вошло в данный обзор.
Цель курса: познакомить с основными “базисными” методами решения задач выпуклой
оптимизации в пространствах огромных размеров и описать некоторую “алгебру” над этими
базисными методами, которая позволяет настраивать их оптимальное сочетание на любую
задачу. В курсе рассматривается много конкретных примеров, пришедших из анализа данных,
моделирования компьютерных и транспортных сетей. Курс довольно сильно математизирован и
рекомендуется к прослушиванию студентам не младше третьего курса.
Лекции 20 февраля “Введение в выпуклый анализ”
1. Вариационные принципы вокруг нас или когда Природа говорит на языке оптимизации?
Примеры задач поиска равновесий макросистем (задачи энтропийно-линейного
программирования (ЭЛП) и их обобщений). В частности, поиск равновесий в
популяционных играх загрузок (например, в транспортных сетях).
2. Оптимизация и анализ данных. Принцип максимума правдоподобия. Начальные понятии
стохастической оптимизации.
3. Выпуклость в оптимизации и ее роль. Выпуклые функции и их свойства. Коническое
представление. “Неожиданная” выпуклость и как ее устанавливать. Примеры (А.С.
Немировский, S. Boyd).
4. Принцип множителей Лагранжа (в векторном пространстве, но не обязательно
наделенном какой-то топологией), как следствие теоремы об отделимости (выпуклый
случай). Принцип множителей Лагранжа, как следствие теоремы о неявной функции.
5. Два “кита” в теории поиска оптимума в выпуклых задачах: принцип Ферма и принцип
Лагранжа. Примеры (теорема Каруша–Куна–Таккера, лемма Неймана–Пирсона).
6. Двойственность в задачах выпуклой оптимизации. Примеры (транспортные задачи).
7. Теорема о дифференцировании максимума (Демьянова–Данскина–Рубинова).
Интерпретация множителей Лагранжа. Метод штрафных функций (на примере задачи
поиска равновесия в транспортных сетях).
8. Теоремы об альтернативах (коническая двойственность). Примеры приложений:
арбитражная теорема финансовой математики, робастная оптимизация.
Литература
Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.
https://www.dropbox.com/s/uuqvot62pg9ql7i/polyak-optimizationintro.djvu?dl=0
Ross S. An elementary introduction to mathematical finance. Cambridge University Press, 2002.
http://catdir.loc.gov/catdir/samples/cam033/2002073603.pdf
Boyd S., Vandenberghe L. Convex optimization. Cambridge University Press, 2004.
http://stanford.edu/~boyd/cvxbook/;
http://www.mathnet.ru/php/presentation.phtml?option_lang=rus&presentid=11819
Босс В. Лекции по математике. Оптимизация. Том 7. М.: КомКнига, 2007. Главы 2 – 4.
Магарил-Ильяев Г.Г., Тихомиров В.М. Выпуклый анализ и его приложения. М.: УРСС, 2011.
https://www.dropbox.com/s/5g8v26u6r860k90/magariltikhomirov.djvu?dl=0
Магарил-Ильяев Г.Г. Вариационное исчисление и оптимальное управление (курс лекций
на мехмате МГУ)
http://new.math.msu.su/department/opu/old_cite/INTERN/mag_il_lect_09.pdf
Немировский А.С. Введение в современную робастную оптимизацию. Математический
кружок МФТИ, 2011.
http://www.mathnet.ru/php/seminars.phtml?option_lang=rus&presentid=6630
http://www2.isye.gatech.edu/~nemirovs/Lect_EMCO.pdf
Spokoiny V. Parametric estimation. Finite sample theory // The Annals of Statistics. 2012. V. 40.
№ 6. P. 2877–2909. arXiv:1111.3029v5
Гасников А.В. статьи на транспортные и равновесно-макросистемные темы
http://arxiv.org/find/all/1/all:+gasnikov/0/1/0/all/0/1
Лекции 27 февраля “Нижние оценки для численных методов решения задач (стохастической)
выпуклой оптимизации”
1. Концепция сопротивляющегося оракула (цель – минимизировать число обращений к
оракулу за градиентом/стохастическим градиентом/производной по
направлению/значением функции и т.п.). Сложность общих задач оптимизации.
2. Сложность задач выпуклой оптимизации по Немировскому–Юдину (гладкие/негладкие;
выпуклые/сильно выпуклые).
3. Концепция неточного оракула Нестерова–Деволдера–Глинёра. Сложность задач выпуклой
оптимизации с неточным оракулом.
4. Сложность задач выпуклой оптимизации с оракулом, выдающим меньшую информацию о
функции по сравнению с градиентом (например, только значение функции).
5. Сложность задач стохастической оптимизации.
6. Сложность задач онлайн оптимизации. Взвешивание экспертов. Многорукие бандиты.
7. Задача ЛП. Сложность симплекс метода. Пример Кли–Минти. Сложность в среднем (С.
Смейл, Вершик–Спорышев).
8. Метод центра тяжести (и использование Hit and Run для его поиска), метод эллипсоидов.
Битовая сложность. Полиномиальность задачи ЛП в битовой сложности (Л.Г. Хачиян).
Сложность по Блюму–Шубу–Смейлу (проблема № 9 С. Смейла).
Литература
Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.:
Наука, 1979. http://www2.isye.gatech.edu/~nemirovs/Lect_EMCO.pdf
Смейл С. О проблемах вычислительной сложности. Математическое просвещение. Серия
3. Вып. 4. 1999. http://www.mccme.ru/free-books/matpros5.html
Schrijver A. Theory of Linear and Integer Programming. John Wiley & sons, 1998.
https://promathmedia.files.wordpress.com/2013/10/alexander_schrijver_theory_of_linear_and_i
ntegerbookfi-org.pdf
Lugosi G., Cesa-Bianchi N. Prediction, learning and games. New York: Cambridge University
Press, 2006.
http://www.ii.uni.wroc.pl/~lukstafi/pmwiki/uploads/AGT/Prediction_Learning_and_Games.pdf
Хачиян Л.Г. Избранные труды / сост. С. П. Тарасов. М.: МЦНМО, 2009.
https://www.dropbox.com/s/b63etw82dxkowwf/khach.pdf?dl=0
Нестеров Ю.Е. Введение в выпуклую оптимизацию. М.: МЦНМО, 2010.
http://premolab.ru/pub_files/pub5/MnexoB89z7.pdf
Agarwal A., Bartlett P.L., Ravikumar P., Wainwright M.J. Information-theoretic lower bounds on
the oracle complexity of stochastic convex optimization // e-print, 2011. arXiv:1009.0571
Bubeck S., Cesa-Bianchi N. Regret analysis of stochastic and nonstochastic multi-armed bandit
problems // Foundation and Trends in Machine Learning. 2012. V. 5. № 1. P. 1–122.
http://www.princeton.edu/~sbubeck/SurveyBCB12.pdf
Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale
convex optimization. CORE UCL, PhD thesis, March 2013.
http://www.ucllouvain.be/cps/ucl/doc/core/documents/coredp2011_70web.pdf
Bubeck S. Convex optimization: algorithms and complexity // In Foundations and Trends in
Machine Learning. 2015. V. 8. no. 3-4. P. 231–357. arXiv:1405.4980
Лекции 5 марта “Базисные численные методы на множествах простой структуры”
1. Прямой градиентный метод Канторовича–Поляка (ПГМ). Прямой-прокс градиентный
метод. Прямой-прокс градиентный метод с неточным оракулом и метод зеркального
спуска. Равномерная ограниченность последовательностей, генерируемых методами
(особенности ПГМ в случае выбора не евклидовой нормы).
2. Метод зеркального спуска Немировского–Юдина (МЗС) и метод двойственных усреднений
Ю.Е. Нестерова (МДУ) (второй метод Ляпунова).
3. Игра на выборе прокс-структуры, исходя из множества (простой структуры). Примеры
(шары, симплекс, прямое произведение симплексов).
4. Метод сопряженных градиентов и метод тяжелого шарика (первый метод Ляпунова).
5. Быстрый градиентный метод (БГМ) Ю.Е. Нестерова (в форме Allen-Zhu–Oreсchia: выпуклая
комбинация ПГМ и МЗС, в геометрической форме S. Bubeck’a). Равномерная
ограниченность последовательности, генерируемой методом.
6. Метод регуляризации А.Н. Тихонова (приведение выпуклой задачи к сильно выпуклой).
Выбор параметра регуляризации. Техника рестарта по параметру. Оптимальный выбор
параметра рестарта. Получение оценок в сильно выпуклом случае с помощью рестарт
техники по расстоянию от текущего положения до решения из методов, не настроенных на
сильную выпуклость. Непрерывность ПГМ по параметру сильной выпуклости.
7. Непрерывные аналоги численных методов. Интерпретация методов.
8. Структурная оптимизация. Концепция заглядывания в “черный ящик”. Композитная
оптимизация. Пример LASSO. Метод двойственного сглаживания Ю.Е. Нестерова для задач
с простым лежандровым представлением.
Литература
Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.:
Наука, 1979. http://www2.isye.gatech.edu/~nemirovs/Lect_EMCO.pdf
Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.
https://www.dropbox.com/s/uuqvot62pg9ql7i/polyak-optimizationintro.djvu?dl=0
Boyd S., Vandenberghe L. Convex optimization. Cambridge University Press, 2004.
http://stanford.edu/~boyd/cvxbook/
Nesterov Y. Smooth minimization of non-smooth function // Math. Program. Ser. A. 2005.
V. 103. № 1. P. 127–152.
http://luthuli.cs.uiuc.edu/~daf/courses/Optimization/MRFpapers/nesterov05.pdf
Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering
applications. Philadelphia: SIAM, 2013.
http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf
Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale
convex optimization. CORE UCL, PhD thesis, March 2013.
http://www.ucllouvain.be/cps/ucl/doc/core/documents/coredp2011_70web.pdf
Allen-Zhu Z., Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent
// e-print, 2014. arXiv:1407.1537
Bubeck S. Convex optimization: algorithms and complexity // In Foundations and Trends in
Machine Learning. 2015. V. 8. no. 3-4. P. 231–357. arXiv:1405.4980
Гасников А.В., Лагуновская А.А., Морозова Л.Э. О связи имитационной логит динамики в
популяционной теории игр и метода зеркального спуска в онлайн оптимизации на
примере задачи выбора кратчайшего маршрута // Труды МФТИ. 2015. Т. 7. № 4. С. 104–
113. arXiv:1511.02398
Wibisono A., Wilson A.C. On accelerated methods in optimization // e-print, 2015. arXiv:1509.03616
Гасников А.В., Двуреченский П.Е., Нестеров Ю.Е. Стохастические градиентные методы с
неточным оракулом // Труды МФТИ. 2016. Т. 8. arxiv:1411.4218
Лекции 12 марта “Методы внутренней точки по Ю.Е. Нестерову и А.С. Немировскому”
Лекции не будет. Материалы для самостоятельного изучения
Литература
Нестеров Ю.Е. Введение в выпуклую оптимизацию. М.: МЦНМО, 2010.
http://premolab.ru/pub_files/pub5/MnexoB89z7.pdf
Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering
applications. Philadelphia: SIAM, 2013.
http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf
http://cvxr.com/cvx/
Лекции 19 марта “Стохастическая оптимизация и ее приложения”
1. Стохастическая оптимизация (СО). SAA vs SA. Примеры задач. Рандомизация в
стохастической оптимизации (бутстреп).
2. МЗС со стохастическим оракулом. Равномерная ограниченность (в вероятностных
категориях) последовательности, генерируемой методом.
3. Мартингальное неравенство Азума–Хефдинга и вероятности больших уклонений.
4. Связь Математической статистики и СО.
5. Связь Статистической теории обучения и СО.
6. Сложность итерации (игра на небольшом увеличении числа итераций и существенном
удешевлении стоимости каждой итерации). Рандомизированные методы. Неравенство
Маркова, процедура амплификации и их роль в получении оценок вероятностей больших
отклонений рандомизированных методов. Примеры приложения к задачам Huge-scale
оптимизации (метод рандомизации суммы, рандомизация при умножении матрицы на
вектор из единичного симплекса, рандомизация согласно вектору градиента).
7. Седловые задачи (седловое/лежандрово представление задач) и рандомизированные
методы. Нижняя оценка для числа операций в задаче поиска равновесия в
антагонистической матричной игре (нужно сосчитать не менее половины элементов
матрицы) и рандомизированный (рандомизация при KL-проектировании на симплекс)
сублинейный алгоритм Григориадиса–Хачияна. Состоятельность по Ханнану этого
алгоритма и его онлайн интерпретация. Рандомизированный МЗС для той же задачи.
Приложение описанных методов к задаче PageRank. MCMC для задачи PageRank и его
интерпретация.
8. Рандомизация и разреженность в задачах huge-scale оптимизации. Привнесение
рандомизации в детерминированную конструкцию Ю.Е. Нестерова решения разреженных
huge-scale задач.
Литература
Sridharan K. Learning from an optimization viewpoint. PhD Thesis, Toyota Technological
Institute at Chicago, 2011. http://ttic.uchicago.edu/~karthik/thesis.pdf
Nesterov Y.E. Subgradient methods for huge-scale optimization problems // CORE Discussion
Paper 2012/2. 2012. https://mipt.ru/dcam/upload/ae5/SGMHugeScale-arph2hev1tz.PDF
Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering
applications. Philadelphia: SIAM, 2013.
http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf
Shapiro A., Dentcheva D., Ruszczynski A. Lecture on stochastic programming. Modeling and
theory. MPS-SIAM series on Optimization, 2014.
http://www.mathnet.ru/php/seminars.phtml?option_lang=rus&presentid=7740
http://www.mathnet.ru/php/seminars.phtml?option_lang=rus&presentid=7741
Rakhlin A., Sridharan K. Statistical Learning Theory and Sequential Prediction // e-print, 2015.
http://stat.wharton.upenn.edu/~rakhlin/book_draft.pdf
Spokoiny V. http://arxiv.org/pdf/1410.0347v5.pdf; http://arxiv.org/pdf/1507.05034.pdf
Hazan E. Introduction to online convex optimization // e-print, 2015.
http://ocobook.cs.princeton.edu/OCObook.pdf
Гасников А.В., Дмитриев Д.Ю. Об эффективных рандомизированных алгоритмах поиска
вектора PageRank // ЖВМ и МФ. Т. 55. № 3. 2015. С.355–371. arXiv:1410.3120
Аникин А.С., Гасников А.В., Горнов А.Ю., Камзолов Д.И., Максимов Ю.В., Нестеров Ю.Е.
Эффективные численные методы решения задачи PageRank для дважды разреженных
матриц // Труды МФТИ. 2015. Т. 7. № 4. С. 74–94. arXiv:1508.07607
Гасников А.В., Двуреченский П.Е., Дорн Ю.В., Максимов Ю.В. Численные методы поиска
равновесного распределения потоков в модели Бэкмана и модели стабильной динамики
// Математическое моделирование. 2016. Т. 28. arXiv:1506.00293
Аникин А.С., Гасников А.В., Горнов А.Ю., Максимов Ю.В. О рандомизированном методе
зеркального спуска для решения разреженных задач выпуклой оптимизации огромных
размеров // Труды МФТИ. 2016. Т. 8. arXiv:1602.00594
Лекции 26 марта “Алгебра над численными методами (стохастической) выпуклой оптимизации”
1. Оптимальный промежуточный (стохастический) градиентный метод (с неточным
оракулом) SIGMA, как выпуклая комбинация БГМ и двойственного градиентного метода.
2. Операции с алгоритмами. Рассмотрение рестарт техники в сильно выпуклом случае для
SIGMA. Процедура mini-batching’а для уменьшения дисперсии стохастического градиента.
Процедура регуляризации (напоминание). Применение SIGMA к композитным
постановкам. Композитный подход – как способ перенесения части (аддитивной)
сложности в постановке задачи в итерацию (без увеличения числа итераций из-за
потенциально плохих свойств композита). Пример применения композитного подхода (в
сильно выпуклом и в не сильно выпуклом случаях) к задаче восстановления матрицы
корреспонденций по замерам потоков на линках (ребрах) в большой компьютерной сети
(Minimal Mutual Information Model). О сложности итерации и переходе в сильно выпуклом
случае к решению на каждой итерации соответствующей двойственной задачи.
3. Нетривиальность ускоренных рандомизированных методов или зачем нужно заглядывать
в структуру доказательства получения оценок скоростей сходимости методов? Получение
в сильно выпуклом гладком случае из оценок для SIGMA оценок для неускоренных
покомпонентных методов и неускоренных методов рандомизации суммы.
4. Прямо-двойственность методов по Ю.Е. Нестерову и по А.С. Немировскому.
Восстановление приближенного решения прямой задачи по накопленной методом
последовательности при решении двойственной задачи прямо-двойственным методом. О
контроле зазора двойственности в качестве критерия останова метода. Сочетание с
техникой рестартов в случае неизвестных параметров, необходимых методу для работы.
Примеры (поиск равновесий в различных транспортных моделях).
5. Техника регуляризации двойственной задачи (с рестартом по параметру регуляризации)
для возможности восстановления решения прямой задачи, как альтернатива прямодвойственному подходу. Пример задачи ЭЛП.
6. Суперпозиция методов 1 (min max вариант). Пример ускоренного алгоритма для задачи с
лежандровым сильно выпуклым представлением, построенного на базе суперпозиции
БГМ для внутренней задачи (приближенного вычисления функции и ее градиента из
лежандрова представления) и БГМ в концепции неточного оракула для внешней задачи.
Пример задачи ЭЛП и ее обобщения. В частности рассмотрение задач минимизации
сепарабельных функционалов (вида суммы, где k-е слагаемое зависит только от k-й
компоненты вектора x) при аффинных ограничениях (такие задачи приводятся с помощью
принципа множителей Лагранжа к лежандрову представлению).
7. Суперпозиция методов 2 (min min вариант). Универсальный градиентный метод Ю.Е.
Нестерова с неточным оракулом. Примеры приложения (поиск равновесия в
многостадийной модели транспортных потоков, поиск барицентра Вассерштейна).
Обсуждение тезиса: если задачу можно эффективно решить (пусть даже приближенно) по
части переменных, заморозив остальные, то исходя из этого, надо строить численный
метод. Сопоставление с композитным подходом.
8. О критериях останова методов и подборе неизвестных параметров. Соображения
размерности и П-теорема. Адаптивность методов (априорно неизвестна желаемая
точность по функции, с которой хотим решить задачу) и плата за адаптивность.
Литература
Nesterov Y. Primal-dual subgradient methods for convex problems // Math. Program. Ser. B.
2009. V. 120(1). P. 261–283.
http://webdoc.sub.gwdg.de/ebook/serien/e/CORE/dp2005_67.pdf
Nemirovski A., Onn S., Rothblum U.G. Accuracy certificates for computational problems with
convex structure // Mathematics of Operation Research. 2010. V. 35. № 1. P. 52–78.
http://www2.isye.gatech.edu/~nemirovs/MOR_AccuracyCertificates.pdf
Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale
convex optimization. CORE UCL, PhD thesis, March 2013.
http://www.ucllouvain.be/cps/ucl/doc/core/documents/coredp2011_70web.pdf
Anikin A., Dvurechensky P., Gasnikov A., Golov A., Gornov A., Maximov Yu., Mendel M., Spokoiny
V. Modern efficient numerical approaches to regularized regression problems in application to
traffic demands matrix calculation from link loads // Proceedings of International conference
ITAS-2015. Russia, Sochi, September, 2015. arXiv:1508.00858
Гасников А.В., Гасникова Е.В., Двуреченский П.Е., Ершов Е.И., Лагуновская А.А. Поиск
стохастических равновесий в транспортных моделях равновесного распределения потоков
// Труды МФТИ. 2015. Т. 7. № 4. С. 114–128. arXiv:1505.07492
Гасников А.В., Двуреченский П.Е., Камзолов Д.И., Нестеров Ю.Е., Спокойный В.Г., Стецюк
П.И., Суворикова А.Л., Чернов А.В. Поиск равновесий в многостадийных транспортных
моделях // Труды МФТИ. 2015. Т. 7. № 4. С. 143–155. arXiv:1506.00292
https://mipt.ru/upload/medialibrary/ffe/143-155.pdf
Гасников А.В., Двуреченский П.Е., Нестеров Ю.Е. Стохастические градиентные методы с
неточным оракулом // Труды МФТИ. 2016. Т. 8. arxiv:1411.4218
Гасников А.В., Гасникова Е.В., Нестеров Ю.Е., Чернов А.В. Об эффективных численных
методах решения задач энтропийно-линейного программирования // ЖВМ и МФ. 2016. Т.
56. № 4. arXiv:1410.7719
Гасников А.В., Двуреченский П.Е., Дорн Ю.В., Максимов Ю.В. Численные методы поиска
равновесного распределения потоков в модели Бэкмана и модели стабильной динамики
// Математическое моделирование. 2016. Т. 28. arXiv:1506.00293
Гасников А.В., Двуреченский П.Е., Усманова И.Н. О нетривиальности быстрых (ускоренных)
рандомизированных методов // Труды МФТИ. 2016. Т. 8. arXiv:1508.02182
Dvurechensky P., Gasnikov A. Stochastic Intermediate Gradient Method for Convex Problems
with Inexact Stochastic Oracle // Journal Optimization Theory and Applications. 2016.
(submitted) arXiv:1411.2876
Лекции 2 апреля “Покомпонентные методы и спуски по направлению”
1. Быстрый покомпонентный метод (обобщение конструкции Allen-Zhu–Oreсchia: выпуклая
комбинация покомпонентных вариантов ПГМ и МЗС). Наследование основных свойств.
Например, равномерная ограниченность (в вероятностных терминах) генерируемой
методом последовательности. Перенесение результатов на сильно выпуклый случай с
помощью рестарт техники.
2. Получение оценок скорости сходимости. Обсуждение тезиса: покомпонентные методы
улучшают (в смысле общего числа арифметических операций) свои полноградиентные
аналоги, заменяя (в оценках) константу Липшица градиента по худшему направлению на
некоторую среднюю константу Липшица. Чуть более точно, заменяют максимальное
собственное значения матрицы Гессе функционала задачи на среднее арифметическое
всех собственных значений (сумма всех собственных значений = следу матрицы Гессе). Все
это может уменьшить значение константы Липшица (используемой в оценке) в число раз,
пропорциональное размерности пространства, в котором происходит оптимизация.
Пример минимизации квадратичной неотрицательно определенной функции с
равномерно заполненной числами от 1 до 2 матрицей.
3. В каких случаях покомпонентные методы сохраняют свое основное свойство (см. п. 2) на
разреженных задачах? Сепарабельные функционалы со скрытой аффинно-разреженной
структурой (назовем этот класс задач S), возникающие в задачах машинного обучения
(например, SVM) и в задачах моделирования компьютерных / транспортных сетей
(например, в задаче восстановления матрицы корреспонденций по потокам на линках или
задачи поиска равновесий в транспортных сетях). Адаптивная настройка покомпонентных
методов на константы Липшица частных производных функции (по разным
направлениям). Композитные покомпонентные методы. Блочно-покомпонентные методы.
Пример приложения (поиск равновесия в модели стабильной динамики, переписанной в
форме Нестерова–Дорна). Обсуждение на какие множества не сепарабельной структуры
возможно перенесение покомпонентных методов. Контрпример с минимизацией
параболоида на внутренности симплекса в R^2.
4. Прямо-двойственность покомпонентных методов. Как это сочетается с разреженностью
задачи? Обсуждение тезиса: двойственные покомпонентные методы для задач S класса
порождают почти все известные (учитывающие гладкость постановки) методы
рандомизации суммы. Когда лучше использовать прямой, а когда двойственный
покомпонентный метод для композитных задач S класса? Пример PageRank.
5. Параллельные и распределенные вычисления. Использование покомпонентных методов.
6. Концентрация меры на шарах в различных нормах. Приложение к получению методов (и
оценок скоростей их сходимости) спуска по (случайному) направлению исходя из
рандомизированного МЗС.
7. Спуски по направлению для задач стохастической оптимизации на различных множествах
простой структуры. Геометрическая интерпретация. Исследование оптимальности
рандомизации (при выборе случайного направления) на евклидовом шаре (сфере) в
независимости от выбора прокс-структуры в МЗС.
8. Перенесение оценок метода SIGMA (в условиях шума случайной и неслучайно природы) на
покомпонентные методы и спуски по (случайному) направлению.
Литература
Bertsekas D.P., Tsitsiklis J.N. Parallel and distributed computation: Numerical methods. Prentice
Hall, 1989. http://www.mit.edu/~jnt/parallel.html
Ledoux M. Concentration of measure phenomenon. Providence, RI, Amer. Math. Soc., 2001
(Math. Surveys Monogr. V. 89).
Nedic A., Ozdaglar A. Cooperative distributed multi-agent optimization. In Convex optimization
in signal processing and communications (D.P. Palomar and Y.C. Eldar, eds.). Cambridge
University Press, 2010.
https://asu.mit.edu/sites/default/files/documents/publications/Dist-chapter.pdf
Nesterov Y.E. Efficiency of coordinate descent methods on large scale optimization problem //
SIAM Journal on Optimization. 2012. V. 22. № 2. P. 341–362.
http://www1.se.cuhk.edu.hk/~sqma/SEEM5121_Spring2015/Nesterov-CD-2012.pdf
Boyd S., Parikh N., Chu E., Peleato B., Eckstein J. Distributed optimization and statistical learning
via the alternating direction method of multipliers // Foundations and Trends in Machine
Learning. 2011. V. 3(1). P. 1–122. http://stanford.edu/~boyd/papers.html
Fercoq O., Richtárik P. Accelerated, parallel and proximal coordinate descent // e-print, 2013.
arXiv:1312.5799
Qu Z., Richtarik P. Coordinate Descent with Arbitrary Sampling I: Algorithms and Complexity //
e-print, 2014. arXiv:1412.8060
Гасников А.В., Двуреченский П.Е., Камзолов Д.И. Градиентные и прямые методы с
неточным оракулом для задач стохастической оптимизации // Динамика систем и
процессы управления. Труды Международной конференции, посвящено 90-летию со дня
рождения академика Н.Н. Красовского. Екатеринбург, 15 – 20 сентября 2014. Издательство:
Институт математики и механики УрО РАН им. Н.Н. Красовского (Екатеринбург), 2015. С.
111–117. arXiv:1502.06259
Anikin A., Dvurechensky P., Gasnikov A., Golov A., Gornov A., Maximov Yu., Mendel M., Spokoiny
V. Modern efficient numerical approaches to regularized regression problems in application to
traffic demands matrix calculation from link loads // Proceedings of International conference
ITAS-2015. Russia, Sochi, September, 2015. arXiv:1508.00858
Wright S.J. Coordinate descent algorithms // e-print, 20015. arXiv:1502.04759
Гасников А.В., Лагуновская А.А., Усманова И.Н., Федоренко Ф.А. Безградиентные проксметоды с неточным оракулом для негладких задач выпуклой стохастической оптимизации
на симплексе // Автоматика и телемеханика. 2016. arXiv:1412.3890
Гасников А.В., Двуреченский П.Е., Нестеров Ю.Е. Стохастические градиентные методы с
неточным оракулом // Труды МФТИ. 2016. Т. 8. arxiv:1411.4218
Гасников А.В., Двуреченский П.Е., Усманова И.Н. О нетривиальности быстрых (ускоренных)
рандомизированных методов // Труды МФТИ. 2016. Т. 8. arXiv:1508.02182
Гасников А.В., Двуреченский П.Е., Дорн Ю.В., Максимов Ю.В. Численные методы поиска
равновесного распределения потоков в модели Бэкмана и модели стабильной динамики
// Математическое моделирование. 2016. Т. 28. arXiv:1506.00293
Richtárik P. http://www.maths.ed.ac.uk/~richtarik/
Лекции 9 апреля “Безградиентные методы и их приложения”
1. Стохастические и детерминированные постановки. Русский метод для
детерминированных постановок (в пространствах небольших размерностей). В
стохастических постановках важно число обращений к оракулу за реализацией (одной и
той же) функции в нескольких точках. Обсуждение принципиальной разности между
одной и двумя точками. Пример Ю.Е. Нестерова, когда в “жизни" возникают такие задачи.
2. Конструкция сглаживания функции по шару (А.С. Немировский, Flaxman–Kalai–McCahan).
3. Получение с помощью конструкции сглаживания для задач стохастической оптимизации
оценки скоростей сходимости для безградиентных методов на базе МЗС / МДУ в гладком
случае. Обсуждение выбора нормы, в которой задается шар.
4. Перенесение результатов на случай неточного оракула (в том числе перенесение оценок
метода SIGMA на безградиентные методы). Отдельно рассмотрение гладкого случая и
негладкого. В отличие от спусков по случайному направлению для негладких задач с
шумом рандомизация на евклидовым шаре в безградиентном методе уже может быть не
оптимальной при решении задач выпуклой оптимизации на симплексе.
5. Метод двойственного сглаживания Б.Т. Поляка в форме Duchi–Jordan–Wainwright–
Wibisono. Неустойчивость метода к ошибкам оракула.
6. Приложение прямого быстрого градиентного метода с неточным оракулом к web-поиску.
7. Глобальная оптимизация и монотонный симметричный марковский поиск (Некруткин–
Тихомиров). Markov Chain Monte Carlo Revolution и состоятельность оценок максимального
правдоподобия. Пример P. Diaconis’а. Глобальная оптимизация и simulated annealing.
Генетические алгоритмы.
8. Задача об обнаружении сигнала на фоне не случайных помех (Фишер–Граничин–Поляк).
Обобщения конструкции Фишера.
Литература
Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.:
Наука, 1979. http://www2.isye.gatech.edu/~nemirovs/Lect_EMCO.pdf
Cerf R. Asymptotic convergence of genetic algorithms // Adv. Appl. Prob. 1998. V. 30. no. 2. P.
521–550. http://www.math.u-psud.fr/~cerf/papers/gae.pdf
Spall J.C. Introduction to stochastic search and optimization: estimation, simulation and control.
Wiley, 2003.
https://www.dropbox.com/s/92v60oj2o85otf2/%28WileyInterscience%20series%20in%20discrete%20mathematics%20and%20optimization%29%20James%20C.%20SpallIntroduction%20to%20stochastic%20search%20and%20optimization_%20estimation%2C%20simulation%2C%20and%20controlWiley-Interscience%20%282003%29.djvu?dl=0
Граничин О.Н., Поляк Б.Т. Рандомизированные алгоритмы оценивания и оптимизации при
почти произвольных помехах. М.: Наука, 2003.
https://www.dropbox.com/s/un9eh6k02a2qkwx/%D0%93%D1%80%D0%B0%D0%BD%D0%B8%D1%87%D0%B8%D0%BD%20%D0%9
E.%D0%9D.%2C%20%D0%9F%D0%BE%D0%BB%D1%8F%D0%BA%20%D0%91.%D0%A2.%D0%A0%D0%B0%D0%BD%D0%B4%D0%BE%D0%BC%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B
D%D1%8B%D0%B5%20%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC%D1%8B%20%D0%BE%D0%BF%D1%8
2%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B8%20%D0%B8%20%D0%BE%D1%86%D0%B5%D0%BD%D0%B
8%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%20%D0%BF%D1%80%D0%B8%20%D0%BF%D0%BE%D1%87%D1%82%D0%B8%20%D
0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%BB%D1%8C%D0%BD%D1%8B%D1%85%20%D0%BF%D0%BE%D0%B
C%D0%B5%D1%85%D0%B0%D1%85-%D0%9D%D0%B0%D1%83%D0%BA%D0%B0%20%282003%29.pdf?dl=0
Diaconis P. The Markov chain Monte Carlo revolution // Bulletin (New Series) of the AMS. 2009. V.
49. № 2. P. 179–205. http://math.uchicago.edu/~shmuel/Network-course-readings/MCMCRev.pdf
Flaxman A.D., Kalai A.T., McCahan H.B. Online convex optimization in the bandit setting:
gradient descent without a gradient // Proceedings of the 16th annual ACM-SIAM symposium
on Discrete Algorithms. 2005. P. 385–394.
http://research.microsoft.com/en-us/um/people/adum/publications/2005Online_Convex_Optimization_in_the_Bandit_Setting.pdf
Zhigljavsky A., Zilinskas A. Stochastic global optimization. Springer Optimization and Its
Applications, 2008.
https://www.dropbox.com/s/50z7d9b8xqgc9yw/%28Springer%20Optimization%20and%20Its%
20Applications%29%20Anatoly%20Zhigljavsky%2C%20Antanasz%20ZilinskasStochastic%20Global%20Optimization-Springer%20%282007%29%20%281%29.pdf?dl=0
Agarwal A., Dekel O., Xiao L. Optimal algorithms for online convex optimization with multi-point
bandit feedback // Proceedings of 23-d Annual Conference on Learning Theory. 2010. P. 28–40.
Nesterov Yu. Random gradient-free minimization of convex functions // CORE Discussion Paper
2011/1. 2011. http://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2011_1web.pdf
Bubeck S., Cesa-Bianchi N. Regret analysis of stochastic and nonstochastic multi-armed bandit
problems // Foundation and Trends in Machine Learning. 2012. V. 5. № 1. P. 1–122.
http://arxiv.org/pdf/1204.5721.pdf
Протасов В.Ю. Как найти минимум выпуклой функции по ее значениям. ТМШ, 2013.
http://www.mathnet.ru/php/presentation.phtml?option_lang=rus&presentid=7251
Duchi J.C., Jordan M.I., Wainwright M.J., Wibisono A. Optimal rates for zero-order convex
optimization: the power of two function evaluations // e-print, 2013. arXiv:1312.2139
Belloni A., Liang T., Narayanan H., Rakhlin A. Escaping the Local Minima via Simulated Annealing:
Optimization of Approximately Convex Functions // e-print, 2015. arXiv:1501.07242
Гасников А.В., Лагуновская А.А., Усманова И.Н., Федоренко Ф.А. Безградиентные проксметоды с неточным оракулом для негладких задач выпуклой стохастической оптимизации
на симплексе // Автоматика и телемеханика. 2016. arXiv:1412.3890
Гасников А.В., Двуреченский П.Е., Нестеров Ю.Е. Стохастические градиентные методы с
неточным оракулом // Труды МФТИ. 2016. Т. 8. arxiv:1411.4218
Bogolubsky L., Dvurechensky P., Gasnikov A., Gusev G., Nesterov Yu., Raigorodskii A., Tikhonov
A., Zhukovskii M. Learning supervised PageRank with gradient-free optimization methods //
ICML-2016. (submitted) arXiv:1411.4282
Лекции 16 апреля “Стохастическая онлайн оптимизация”
1. МЗС / метод двойственных усреднений и (стохастическая) онлайн оптимизация.
2. Сильно выпуклый случай. Оценки вероятностей больших уклонений.
3. Взвешивание экспертов. Экспоненциальное взвешивание. Следование за возмущенным
лидером. Бустинг. Предсказание последовательностей. Предсказания и игры. Теоретикоигровая интерпретация теории вероятностей.
4. Агрегирующие алгоритмы. Онлайн регрессия.
5. Многорукие бандиты. Стохастические. Враждебные. Стохастическо-враждебные.
6. Нелинейные (стохастические) одноточечные и двуточечные (многоточечные) бандиты.
7. Контекстуальные бандиты. Предсказание на основе частичной информации.
8. Самообучающиеся системы. Обучение нейронных сетей. Алгоритмы кластеризации. EMалгоритм. Обучение с подкреплением и динамическое программирование. Алгоритм Qобучения. Алгоритм Dyna. Пример задачи из области составления расписания
обслуживания для многоканальной системы массового обслуживания.
Литература
Lugosi G., Cesa-Bianchi N. Prediction, learning and games. New York: Cambridge University
Press, 2006.
http://www.ii.uni.wroc.pl/~lukstafi/pmwiki/uploads/AGT/Prediction_Learning_and_Games.pdf
Николенко С.И., Тулупьев А.Л. Самообучающиеся системы. М.: МЦНМО, 2009.
https://www.dropbox.com/s/ous002j2h7vs7ev/%D0%9D%D0%B8%D0%BA%D0%BE%D0%BB%D0%B5%D0%BD%D0%BA%D0%BE%20%D0%A1.%D0%98.%2C%20%D0%A2%D1%83%D0%BB%D1%83%D0%BF%D1%8C%D0%B5%D0%B2%20%D0%9 0.%D0%9B.%D0%A1%D0%B0%D0%BC%D0%BE%D0%BE%D0%B1%D1%83%D1%87%D0%B0%D1%8E%D1%89%D0%B8%D0%B5%D1%81%D1%8F%20%D1%81%D0%B8%D1%81%D1%82%D0% B5%D0%BC%D1%8B%D0%9C%D0%A6%D0%9D%D0%9C%D0%9E%20%282009%29.djvu?dl=0
Shalev-Shwartz S. Online learning and online convex optimization // Foundation and Trends in
Machine Learning. 2011. V. 4. № 2. P. 107–194.
http://www.cs.huji.ac.il/~shais/papers/OLsurvey.pdf
Sridharan K. Learning from an optimization viewpoint. PhD Thesis, Toyota Technological
Institute at Chicago, 2011. http://ttic.uchicago.edu/~karthik/thesis.pdf
Bubeck S., Cesa-Bianchi N. Regret analysis of stochastic and nonstochastic multi-armed bandit
problems // Foundation and Trends in Machine Learning. 2012. V. 5. № 1. P. 1–122.
http://arxiv.org/pdf/1204.5721.pdf
Hopcroft J., Kannan R. Computer Science Theory for the Information Age. E-print, 2012.
https://www.cs.cmu.edu/~venkatg/teaching/CStheory-infoage/book-toc.pdf
Вьюгин В.В. Математические основы теории машинного обучения и прогнозирования. М.:
МЦНМО, 2013.
http://www.mathnet.ru/php/seminars.phtml?option_lang=rus&presentid=6238
Rakhlin A., Sridharan K. Statistical Learning Theory and Sequential Prediction // e-print, 2015.
http://stat.wharton.upenn.edu/~rakhlin/book_draft.pdf
Hazan E. Introduction to online convex optimization // e-print, 2015.
http://ocobook.cs.princeton.edu/OCObook.pdf
Andersen A., Spokoiny V. Two convergence result for an alternation maximization procedure //
e-print, 2015. arXiv:1501.01525
Гасников А.В., Нестеров Ю.Е., Спокойный В.Г. Об эффективности одного метода
рандомизации зеркального спуска в задачах онлайн оптимизации // ЖВМ и МФ. Т. 55. №
4. 2015. С. 55–71. arXiv:1410.7719
Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering
applications. Philadelphia: SIAM, 2015.
http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf
Гасников А.В., Крымова Е.А., Лагуновская А.А., Усманова И.Н., Федоренко Ф.А.
Стохастическая онлайн оптимизация. Одноточечные и двухточечные нелинейные
многорукие бандиты. Выпуклый и сильно выпуклый случаи // Автоматика и Телемеханика.
2016. arXiv:1509.01679
1.
2.
3.
4.
5.
6.
7.
8.
Лекции 23 апреля “Разреженные задачи Huge-scale оптимизации”
Метод условного градиента и линейный минимизационный оракул (Франк–Вульф (ФВ)). В
каких случаях (на каких множествах) метод оптимальный (оценки Немировского–Гузмана).
Разреженность метода ФВ, возникающая в случае оптимизации на симплексе. Пример G.
Lugosi для LASSO.
Сочетание разреженности метода ФВ с разреженностью матрицы при минимизации
квадратичного функционала на симплексе. Приложение к задаче PageRank.
Об эффективности линейного минимизационного оракула и динамическом
программировании. Приложение к седловым задачам. Приложения метода ФВ к
различным задачам композитной оптимизации.
О связи наличия эффективного линейного минимизационного оракула и возможности
сжатия задачи путем перехода к двойственной. Пример поиск равновесного
распределения потоков в транспортных сетях.
Truss Topology Design.
ПГМ с l1-нормой (альтернативное понимание (при сепарабельных ограничениях):
неускоренный покомпонентный метод с выбором максимальной компоненты) при
оптимизации на симплексе, на неотрицательном ортанте. Пример квадратичный
функционал, функционал S-класса. Приложение к задаче PageRank.
Разреженность и рандомизация в задачах huge-scale оптимизации (продолжение).
Литература
Nesterov Yu., Shpirko S. http://www.optimization-online.org/DB_FILE/2012/08/3590.pdf
Jaggi M. Revisiting Frank–Wolfe: Projection-free sparse convex optimization // Proceedings of
the 30th International Conference on Machine Learning, Atlanta, Georgia, USA, 2013.
https://sites.google.com/site/frankwolfegreedytutorial/
Bubeck S. Convex optimization: algorithms and complexity // In Foundations and Trends in
Machine Learning. 2015. V. 8. no. 3-4. P. 231–357. arXiv:1405.4980
Guzman C., Nemirovski A. On lower complexity bounds for large-scale smooth convex
optimization // Journal of Complexity. 2015. arXiv:1307.5001
Harchaoui Z., Juditsky A., Nemirovski A. Conditional gradient algorithms for norm-regularized
smooth convex optimization // Math. Program. Ser. B. 2015.
http://www2.isye.gatech.edu/~nemirovs/ccg_revised_apr02.pdf
Cox B., Juditsky A., Nemirovski A. Decomposition techniques for bilinear saddle point problems
and variational inequalities with affine monotone operators on domains given by linear
minimization oracles // e-print, 2015. arXiv:1506.02444
http://www.mathnet.ru/php/presentation.phtml?option_lang=rus&presentid=11955
Аникин А.С., Гасников А.В., Горнов А.Ю., Камзолов Д.И., Максимов Ю.В., Нестеров Ю.Е.
Эффективные численные методы решения задачи PageRank для дважды разреженных
матриц // Труды МФТИ. 2015. Т. 7. № 4. С. 74–94. arXiv:1508.07607
Гасников А.В., Двуреченский П.Е., Дорн Ю.В., Максимов Ю.В. Численные методы поиска
равновесного распределения потоков в модели Бэкмана и модели стабильной динамики
// Математическое моделирование. 2016. Т. 28. arXiv:1506.00293
Аникин А.С., Гасников А.В., Горнов А.Ю., Максимов Ю.В. О рандомизированном методе
зеркального спуска для решения разреженных задач выпуклой оптимизации огромных
размеров // Труды МФТИ. 2016. Т. 8. arXiv:1602.00594
1.
2.
3.
4.
5.
6.
7.
8.
Лекции 30 апреля “Численные методы в бесконечномерных пространствах”
Какие градиентные методы переносятся на бесконечномерные гильбертовы
(рефлексивные банаховы) пространства?
Задачи стохастической оптимизации в бесконечномерных пространствах и их связь с
задачами статистической теории обучения (продолжение).
Model selection с помощью оптимальных (стохастических) градиентных методов с
неточным оракулом.
Теорема Ляпунова о векторных мерах. Линеаризация.
Схема Милютина–Дубовицкого. Принцип максимума.
Дискретный принцип максимума.
Локальность. Выбор нормы. Обсуждение фиксации правого конца в задаче оптимального
управления. Градиентный спуск с неточным оракулом для задач глобальной оптимизации
в гильбертовых пространствах.
Быстрое автоматическое дифференцирование и оптимальное управление.
Литература
Halkin H. Liapounov’s theorem of the range of a vector measure and Pontryagin’s maximum
principle // Arch. Rat. Mech. Anal. 1962. V. 10. P. 296–304.
https://www.dropbox.com/s/5dnd0u7qsxlz7cg/halkin1962.pdf?dl=0
Левитин Е.С., Поляк Б.Т. Методы минимизации при наличии ограничений // ЖВМ и МФ.
1966. Т. 6. № 5. С. 787–823.
http://www.mathnet.ru/links/a3984d1f32d9fe4151737d0c0cebb26b/zvmmf7415.pdf
Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.:
Наука, 1979. http://www2.isye.gatech.edu/~nemirovs/Lect_EMCO.pdf
http://www.mathnet.ru/links/824ee32e9f3f72fa54101ad970ca23ba/zvmmf7415.pdf
Алексеев В.М., Тихомиров В.М., Фомин С.В. Оптимальное управление. М.: Физматлит, 2005.
https://www.dropbox.com/s/w5l1ytp0k547ocl/%D0%B0%D0%BB%D0%B5%D0%BA%D1%81%D0%B5%D0%B5%D0%B2%20%D0%B2.%D0%BC.%2C%20%D1%82%D0%B8%D1%85%D0%BE%D0%BC%D0%B8%D1%8
0%D0%BE%D0%B2%20%D0%B2.%D0%BC.%2C%20%D1%84%D0%BE%D0%BC%D0%B8%D0%BD%20%D1%81.%D0%B2.%D0%BE%D0%BF%D1%82%D0%B8%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5%20%D1%83%D0%BF%D1%80%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D1%84%D0%B8%D0%B7%D0%BC%D0%B0%D1%82%D0%BB%D0%B8%D1%82%20%282005%29%20%281%29.pdf?dl=0
Васильев Ф.П. Методы оптимизации. М.: МЦНМО, 2011.
https://www.dropbox.com/s/9fa9a22dintb8k0/%D0%92%D0%B0%D1%81%D0%B8%D0%BB%D1%8C%D0%B5%D0%B2%20%D0%A4.%D0%9F.%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B%20%D0%BE%D0%BF%D1%82%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B8%20%282002%29.djvu?dl=0
Sridharan K. Learning from an optimization viewpoint. PhD Thesis, Toyota Technological
Institute at Chicago, 2011. http://ttic.uchicago.edu/~karthik/thesis.pdf
Дмитрук А.В. Об условиях оптимальности в задачах на экстремум с ограничениями.
Математический кружок МФТИ, 2013.
http://www.mathnet.ru/php/seminars.phtml?option_lang=rus&presentid=6752
Евтушенко Ю.Г. Оптимизация и быстрое автоматическое дифференцирование. М.: ВЦ
РАН, 2013. http://www.ccas.ru/personal/evtush/p/198.pdf
Гасников А.В., Двуреченский П.Е., Камзолов Д.И. Градиентные и прямые методы с
неточным оракулом для задач стохастической оптимизации // Динамика систем и
процессы управления. Труды Международной конференции, посвящено 90-летию со дня
рождения академика Н.Н. Красовского. Екатеринбург, 15 – 20 сентября 2014. Издательство:
Институт математики и механики УрО РАН им. Н.Н. Красовского (Екатеринбург), 2015. С.
111–117. arXiv:1502.06259
Spokoiny V., Willrich N. Bootstrap tuning in ordered model selection // e-print, 2015.
arXiv:1507.05034
Download