Свойства апостериорного распределения

advertisement
c 2013 г.
А.А. ЗАЙЦЕВ
(Датадванс, Институт проблем передачи информации имени А.А.
Харкевича РАН, Москва),
Е.В. БУРНАЕВ, канд. физ.-мат. наук
(Датадванс, Институт проблем передачи информации имени А.А.
Харкевича РАН, Москва; Лаборатория структурных методов анализа
данных в предсказательном моделировании, Московский
физико-технический институт, Долгопрудный),
В.Г. СПОКОЙНЫЙ, д-р физ.-мат. наук
(Институт Вейерштрасса, Берлин, Германия; Лаборатория структурных
методов анализа данных в предсказательном моделировании,
Московский физико-технический институт, Долгопрудный)
СВОЙСТВА АПОСТЕРИОРНОГО РАСПРЕДЕЛЕНИЯ
МОДЕЛИ ЗАВИСИМОСТИ НА ОСНОВЕ ГАУССОВСКИХ
СЛУЧАЙНЫХ ПОЛЕЙ1
Рассматривается задача построения регрессии на основе гауссовских процессов. Предполагается, что априорное распределение вектора параметров соответствующей модели ковариационной функции является неинформативным. При таком предположении доказана теорема Бернштейна—фон Мизеса о близости апостериорного распределения
вектора параметров к соответствующему нормальному распределению.
Приведены результаты вычислительных экспериментов, подтверждающие применимость полученных результатов для практически важных
случаев.
1
Работа выполнена при поддержке лаборатории структурных методов анализа данных в предска-
зательном моделировании МФТИ, грант правительства РФ договор 11.G34.31.0073 и Российского
Фонда Фундаментальных Исследований (проект 13-01-00521).
1
1. Введение
Гауссовские процессы широко применяются для решения задачи восстановления
регрессии [1, 2, 3]. Предполагается, что наблюдаемая выборка значений функции
в фиксированных точках пространства дизайна является реализацией гауссовского
процесса, распределение которого полностью определяется априорно задаваемыми
функцией математического ожидания и функцией ковариации. Считается, что ковариационная функция между значениями реализации зависит только от точек, в
которых сделаны наблюдения. В таком случае прогноз значения функции в новой
точке обычно делается с помощью апостериорного (относительно известной выборки
значений функции) математического ожидания процесса, которое равно взвешенной
сумме известных значений функции, причем веса́ в сумме определяются взаимными
ковариациями значений функции в новой точке и в точках выборки [1].
Обычно предполагают, что ковариационная функция гауссовского процесса принадлежит некоторому параметрическому семейству [1], параметры которого характеризуются априорным распределением [4, 5, 6]. Соответственно апостериорное распределение параметров (относительно известной выборки значений процесса) будет
пропорционально произведению правдоподобия данных, также зависящего от параметров ковариационной функции, и заданного априорного распределения параметров.
Согласно широко известной теореме Бернштейна—фон Мизеса (БфМ) апостериорное распределение является асимптотически нормальным со средним, близким к
оценке максимума правдоподобия (ОМП), и матрицей ковариаций, близкой к матрице ковариаций ОМП. Именно по этой причине данная теорема часто рассматривается в качестве байесовского дополнения к теореме Фишера об асимптотической
нормальности ОМП. Теорема БфМ обеспечивает теоретическое основание для различных байесовских процедур, например, для использования байесовского вывода
для оценки ОМП и ее матрицы ковариаций, построения эллиптических доверительных множеств на основе первых двух моментов апостериорного распределения и т.д.
Классическая версия теоремы БфМ формулируется для случая, когда параметрическое предположение о модели данных верно, а размер выборки стремится к
бесконечности. Именно в такой постановке до сих пор изучаются свойства апосте2
риорного распределения вектора параметров ковариационной функции (см., например, [7, 8, 9]). Однако для практически важных случаев необходимо рассматривать
ситуации, в которых размер выборки ограничен, а исходное параметрическое предположение о ковариационной функции гауссовского процесса может не выполняться
(на практике невозможно установить истинную природу функции, модель которой
строится).
В [10, 11] разработаны методы, позволяющие доказать теорему БфМ при достаточно общих предположениях в случае ограниченной выборки и возможной ошибочности исходного параметрического предположения о модели. В данной работе эти методы адаптированы для рассматриваемой модели гауссовского процесса и применены
для исследования свойств апостериорного распределения вектора параметров ковариационной функции, а именно: доказана теорема БфМ о близости апостериорного
распределения вектора параметров ковариационной функции к соответствующему
нормальному распределению в случае неинформативного априорного распределения
вектора параметров. В том числе показано, что среднее значение апостериорного распределения вектора параметров близко к оценке максимума правдоподобия (ОМП),
а матрица ковариаций близка к матрице ковариаций ОМП.
Структура статьи следующая. В разделе 2 описана процедура восстановления
регрессии на основе гауссовских процессов. В разделе 3 приведены полученные теоретические результаты. В разделе 4 описаны проведенные вычислительные эксперименты. В Приложении представлен план доказательства полученных теоретических
результатов.
2. Регрессия на основе гауссовских процессов
Решается следующая задача. Предполагается, что задана выборка значений неизвестной функции D = (X, y) = {xi , y(xi ) = yi }ni=1 , x ∈ X ⊆ Rd . Необходимо построить
по выборке D размера n аппроксимацию yb(x) функции y(x).
Будем считать, что функция y(x) является реализацией гауссовского процесса.
Без ограничения общности положим среднее значение этого гауссовского процесса
равным нулю. В таком случае совместное распределение вектора значений y имеет
вид y ∝ N (0, K), где K — некоторая положительно определенная ковариационная
3
матрица, вообще говоря, зависящая от выборки D.
Предположим, что ковариация между произвольными значениями гауссовского
процесса задается некоторой ковариационной функцией cov(y(x), y(x0 )) = k(x, x0 ).
Тогда ковариационная матрица значений выборки D имеет вид K = {k(xi , xj )}ni,j=1 .
Для гауссовского случайного процесса апостериорное распределение значения реализации y(x) в новой точке x ∈ Rd будет нормальным при фиксированной ковариационной функции
p(y(x)|D) = N (µ(x), σ 2 (x)).
Выражения для математического ожидания µ(x) и дисперсии σ 2 (x) апостериорного
распределения p(y(x)|D) выписываются в явном виде:
µ(x) = k> (x)K −1 y,
σ 2 (x) = k(x, x) − k> (x)K −1 k(x).
Здесь k(x) = (k(x, x1 ), . . . , k(x, xn ))> — вектор-столбец из ковариаций между значением y(x) случайного процесса в точке x и значениями y(x1 ), . . . , y(xn ) случайного
процесса в точках выборки x1 , . . . , xn . Апостериорное математическое ожидание µ(x)
используется в качестве прогноза yb(x) значения процесса y(x), а апостериорная дисперсия σ 2 (x) служит оценкой неопределенности прогноза.
На практике для моделирования ковариационной функции обычно используют
некоторое параметрическое семейство ковариационных функций kθ (x, x0 ), θ ∈ Θ ⊆
Rp , где Θ — некоторое компактное множество. В таком случае для построения регрессии на основе гауссовских процессов необходимо оценить вектор параметров θ
ковариационной функции kθ (x, x0 ). Естественно, нет никаких оснований полагать,
что параметрическое предположение о ковариационной функции гауссовского процесса выполняется, т.е., вообще говоря, k(x, x0 ) 6∈ {kθ (x, x0 ), θ ∈ Θ ⊆ Rp }.
Совместное распределение вектора известных значений y будет нормальным. Тогда логарифм (квази-) правдоподобия данных имеет вид
(1)
L(θ) = −
1
n log 2π + ln |Kθ | + y> Kθ−1 y ,
2
где Kθ = {kθ (xi , xj )}ni,j=1 .
4
В качестве оценки вектора параметров θ часто используют оценку максимального
(квази-) правдоподобия
e = argmax L(θ).
θ
θ∈Θ
Пусть задано и некоторое априорное распределение Π(dθ) для вектора параметров θ . Тогда апостериорное распределение при заданной выборке D будет описывать условное распределение случайного вектора ϑ . Обычно это соотношение записывают в виде
ϑ D ∝ exp L(θ) Π(dθ).
(2)
Цель данной работы — изучить свойства апостериорного распределения ϑ D. Отметим, что максимум апостериорного распределения может использоваться в качестве
характерного значения (оценки) вектора параметров θ .
3. Свойства апостериорного распределения вектора параметров
ковариационной функции
В дальнейшем будем изучать вероятностные свойства апостериорного распределения вектора параметров θ для случая неинформативного априорного распределения Π(dθ) .
3.1. Предположения о ковариационной функции
Введем обозначение для центральной точки θ ∗
def
θ ∗ = argmax EL(θ).
θ∈Θ
Чтобы описать свойства полученного апостериорного распределения, необходимо
наложить ряд ограничений на множество X ∈ X , ковариационную функцию kθ (x, x0 )
и соответствующие ковариационные матрицы Kθ и K.
Положим
D02 = −∇2 EL(θ ∗ ), V02 = Var {∇L(θ ∗ )} .
Здесь D02 играет роль матрицы информации Фишера. Перечислим используемые в
работе предположения:
5
— Ковариационная функция kθ (x, x0 ) трижды непрерывно дифференцируема по
θ ∈ Θ для x, x0 ∈ X;
— Минимальные собственные числа матриц K и Kθ больше некоторого λ0 > 0, а
их максимальные собственные числа не превосходят некоторое λ0 < ∞;
θ
— ∂K
< λ1 < ∞ для всех θ ∈ Θ, i = 1, p;
∂θ2 i 2
∂ Kθ — ∂θ
< λ2 < ∞ для всех θ ∈ Θ, i, j = 1, p;
j 2
i ∂θ
∂ 2 Kθ — ∂θi ∂θj ∂θk < λ3 < ∞ для всех θ ∈ Θ, i, j, k = 1, p;
2
— Минимальное собственное число матрицы n1 D02 больше, чем некоторое d0 > 0;
— Вектор θ ∗ = argmaxθ∈Θ EL(θ) существует;
— Найдется r > 0, такое что для θ ∈
/ Θ0 (r) = {θ : kV0 (θ − θ ∗ )k 6 r} выполнено
|Kθ∗ |
∗
−1
EL(θ) − EL(θ ) = log
+ tr (Kθ−1
6= 0.
∗ − Kθ )K
|Kθ |
Отметим, что в данной работе не предполагается выполнимость параметрического
предположения, т.е., может оказаться, что k(x, x0 ) 6∈ {kθ (x, x0 ), θ ∈ Θ ⊆ Rp }.
3.2. Квадратичная экспоненциальная ковариационная функция
Рассмотрим пример параметрического класса ковариационных функций, а именно квадратичную экспоненциальную ковариационную функцию [1]
!
n
X
1
(3)
kθ (x, x0 ) = exp −
θi (xi − x0i )2 + σ 2 δ(x − x0 ),
2 i=1
где δ(·) обозначает функцию Кронекера. Первое слагаемое в (3) задает ковариацию
между значениями реализации гауссовского процесса в точках пространства, а второе слагаемое определяет уровень дисперсии нормально распределенного шума в
данных.
Для квадратичной экспоненциальной ковариационной функции выполнение условий, перечисленных в подразделе 3.1, обеспечивается выбором достаточно хорошего
дизайна X и величины уровня шума σ 2 > σ02 > 0, играющего роль параметра регуляризации в соответствующей ковариационной матрице Kθ .
В случае использования этого класса ковариационных функций необходимо оцеQ
нить вектор параметров θ = {θ1 , . . . , θp } ∈ Θ = pi=1 (θmin,i , θmax,i ) (при этом d = p).
Отметим, что часто используются различные параметризации вектора параметров
6
θ [12, 13], позволяющие улучшить аппроксимацию апостериорного распределения
соответствующим нормальным распределением.
3.3. Свойства апостериорного распределения вектора параметров θ
Обозначим через C универсальную абсолютную константу, которая в разных
формулах может принимать разные значения. Также пусть зафиксирована достаточно большая константа x = xn , растущая при увеличении n.
Обозначим через Ωn случайное событие с доминирующей вероятностью, такое
что
IP Ωn > 1 − Ce−xn .
Определим величины
def
ϑ = E ϑD ,
def
def
S2 = Cov(ϑ) = E
n
ϑ−ϑ
> o
ϑ − ϑ D ,
играющие роль апостериорного среднего значения и апостериорной ковариационной
матрицы случайного вектора ϑ.
Верно следующее обобщение теоремы БфМ.
Т е о р е м а . Пусть выполнены условия из подраздела 3.1. Тогда найдутся величина τ и случайное событие Ωn с доминирующей вероятностью такие, что на Ωn
выполнены неравенства:
(4)
(5)
2
e
D0 ϑ − θ 6 Cτ (p + x) ,
Ip − D0 S2 D0 6 Cτ (p + x) ,
∞
при этом величина τ (p + x) мала и уменьшается при увеличении n.
Кроме того, для произвольного λ ∈ Rp с kλk2 6 (p + x) выполнено неравенство
(6)
log E exp λ> S−1 ϑ − ϑ D − kλk2 /2 6 Cτ (p + x).
Выражения (4) и (5) показывают, что среднее значение ϑ и матрица ковариаций
e и матрице D−2 соответственно,
S2 апостериорного распределения близки к ОМП θ
0
а уравнение (6) описывает близость апостериорного распределения к соответствующему нормальному распределению.
7
4. Вычислительный эксперимент
4.1. Генерация данных
Для простоты будем считать, что истинная ковариационная функция k(x, x0 )
принадлежит семейству квадратичных экспоненциальных ковариационных функций
kθ (x, x0 ) (3). Дисперсию шума будем считать известной и равной σ 2 = 0,01, а априорное распределение вектора параметров — равномерным на заданном гиперкубе
Q
Θ = pi=1 (θmin,i , θmax,i ) . Такое неинформативное априорное распределение не искажает форму исходного правдоподобия в окрестности точки θ ∗ ∈ Θ .
Пусть выбрано значение вектора параметров θ ∗ , и точки из набора X принадлежат гиперкубу X = [0, 1]d . Тогда совместное распределение вектора значений y будет
многомерным нормальным с нулевым математическим ожиданием и ковариационной
матрицей Kθ∗ = {kθ∗ (xi , xj )}ni,j=1 .
Генерация отдельной выборки для произвольного θ ∈ Θ проводится следующим
образом:
— Пусть зафиксированы ковариационная функция kθ (x, x0 ) и ее параметры θ;
— Сгенерируем набор точек X = {xi }ni=1 фиксированного размера n, например,
используя равномерное распределение на гиперкубе X = [0, 1]d ;
— Сгенерируем распределенный нормально вектор y с нулевым математическим
ожиданием и ковариационной матрицей Kθ = {kθ (xi , xj )}ni,j=1 в точках X;
— Вектор y будет реализацией гауссовского процесса с фиксированной ковариационной функцией kθ (x, x0 ).
4.2. Вид апостериорного распределения данных
В [12] показано, что существуют такие ковариационные функции и расположение точек пространства дизайна, что часто апостериорное распределение выборки,
порождаемой соответствующим гауссовским процессом, имеет максимум в нуле или
в бесконечности. Кроме того, в [12] приведены аналитические примеры, в которых
у функции правдоподобия данных есть локальный максимум, который не является
глобальным.
Зависимость плотности апостериорного распределения от значения параметра θ
8
приведена на рис. 1. Показаны два случая:
— у апостериорной плотности один максимум, который находится не в нуле (стандартный случай);
— апостериорная плотность имеет локальный максимум, который находится в
нуле или бесконечности. Отметим, что в этом случае нарушается условие невырожденности соответствующей ковариационной матрицы.
Рис. 1
Видно, что в первом случае апостериорная плотность достаточно близка к нор- (а и б)
мальной.
На рис. 2 в двумерном случае приведен пример апостериорного распределения
вектора параметров θ, полученный аналогичным образом.
Рис. 2
4.3. Проверка утверждений теоремы
Проведем исследование того, насколько значительны хвосты полученного апостериорного распределения. Для простоты рассмотрим случай d = 1. Будем оценивать
вероятность для ϑ не попасть в область
Θϑ,2S = {θ : |θ − ϑ| 6 2S},
где ϑ — математическое ожидание, а S — стандартное отклонение апостериорного
распределения.
Зависимость вероятности хвостов апостериорного распределения от размера выборки приведена на рис. 3. Видно, что с ростом размера выборки вероятность сходится к достаточно малой величине. Доверительные интервалы оценены с помощью
бутстрепа по двумстам случайно сгенерированным выборкам.
Определим для двух распределений P и Q с плотностями p(θ) и q(θ) соответственно, такими что их математические ожидания µ и дисперсии σ 2 совпадают,
ограниченное расстояние Хеллингера согласно формуле
Z
p
2
p
1
2
H (P, Q) =
p(θ) − q(θ) dθ.
2 Θµ,2σ
Проверим близость апостериорного распределения параметров θ к соответствуюe апостериорного
щему нормальному распределению в окрестности точки максимума θ
распределения. Для этого подсчитаем между этими распределениями ограниченное
расстояние Хеллингера.
9
Рис. 3
На рис. 4 видно, что с ростом размера выборки n ограниченное расстояние Хеллингера между апостериорным распределением и соответствующим ему нормальным
распределением уменьшается. Доверительные интервалы были оценены с помощью
бутстрепа по двумстам случайно сгенерированным выборкам.
Рис. 4
Таким образом, действительно, с увеличением размера выборки n выполняется и
сходимость вероятности попадания в хвосты апостериорного распределения, и сходимость апостериорного распределения к соответствующему нормальному распределению.
5. Выводы
В работе получено описание вероятностных свойств апостериорного распределения вектора параметров модели ковариационной функции в задаче построения регрессии на основе гауссовских процессов. Доказана теорема Бернштейна—фон Мизеса, а именно: показано, что апостериорное распределение вектора параметров в
случае неинформативного априорного распределения близко́ к соответствующему
нормальному распределению. Проведенные вычислительные эксперименты показывают применимость полученных результатов в практически важных случаях.
ПРИЛОЖЕНИЕ
Изложим план доказательства теоремы. Напомним, что ζ(θ) = L(θ) − EL(θ)
и L(θ, θ ∗ ) = L(θ) − L(θ ∗ ) . Приведем выражения для нескольких необходимых в
дальнейшем величин:
• Правдоподобие как функция вектора параметров θ
L(θ) = −
1
n log 2π + ln |Kθ | + y> Kθ−1 y ;
2
• Математическое ожидание правдоподобия
EL(θ) = −
1
n log 2π + ln |Kθ | + tr Kθ−1 K ;
2
• Производная правдоподобия
1
−1 ∂Kθ
−1 > ∂Kθ
−1
>
Oi L(θ) = − tr Kθ
− y (Kθ )
K y ;
2
∂θi
∂θi θ
10
• Производная математического ожидания правдоподобия
1
−1 ∂Kθ
−1 > ∂Kθ
−1
− tr (Kθ )
K K
;
Oi EL(θ) = − tr Kθ
2
∂θi
∂θi θ
∗
−1 > ∂Kθ
−1 • Положим Ui = Ui (θ ) = Kθ
Kθ ∗ . Матрица V02 = Var {∇L(θ ∗ )}
∂θi
θ=θ
имеет вид
V02
=
1
tr(Ui KUj K)
2
p
;
i,j=1
• Элементы матрицы D02 = −∇2 EL(θ ∗ ) = {di,j }pi,j=1 имеют вид
i
2
1 h
−1 > ∂ Kθ
−1
.
di,j = tr Ui Kθ Uj K + Uj Kθ Ui K − Ui Kθ Uj Kθ + Kθ
K (Kθ − K) 2
∂θi ∂θj θ
θ=θ ∗
Покажем, что для введённых в подразделе 3.1 предположений выполнены утверждения:
У т в е р ж д е н и е 1 (ED0 ). Существуют константы g > 0 , ν0 > 1 такие, что
для всех |λ| 6 g выполнено неравенство
>
γ ∇ζ(θ ∗ )
(П.1)
sup log E exp λ
6 ν02 λ2 /2.
p
kV0 γk
γ∈R
Обозначим
p
1 X
Z=
γi Ui .
kV0 γk i=1
Тогда математическое ожидание в левой части неравенства (П.1) существует, если
матрица K −1 −λZ положительно определена или, что то же самое, матрица I −λKZ
положительно определена (здесь и далее I — единичная матрица размера n × n). В
силу сделанных предположений норма kKZk ограничена для произвольных X и θ ∗ ,
следовательно, существует такое g , что для любого |λ| 6 g матрица I − λKZ > 0 .
Итак, при |λ| 6 g неравенство (П.1) можно переписать в виде
λ
1
ν 2 λ2
sup − tr(ZK) − log |I − λZK| 6 0 .
2
2
2
γ∈Rp
Так как матрица I − λZK положительно определена, то выражение под знаком
sup в левой части неравенства можно разложить по Тейлору. В итоге получаем,
что для доказательства неравенства (П.1) достаточно доказать существование ν02 и
достаточно малого g , таких что при любом |λ| 6 g выполнено неравенство
!
∞
1
X
1
i (П.2)
(λZK) 6 ν02 λ2 2.
tr
2
i
i=2
11
Так как в силу сделанных предположений величину tr [(ZK)p ] можно ограничить
сверху некоторой константой c, то неравенство (П.2) выполнено для некоторых g
и ν02 .
Таким образом, можно выбрать параметр g так, чтобы для любого |λ| 6 g были
выполнены условия:
а) матрица I − λZK положительно определена;
б) степенной ряд (П.2), коэффициенты которого зависят от θ ∗ , ограничен вели
чиной ν02 λ2 2 .
Для так выбранного g утверждение (ED0 ) выполнено.
Пусть r20 > C(p + x).
У т в е р ж д е н и е 2 (ED1 ). Для каждого r 6 r0 существует константа ω(r) 6
1/2 такая, что для всех θ ∈ Θ0 (r) выполнено
>
γ {∇ζ(θ) − ∇ζ(θ ∗ )}
(П.3)
sup log E exp λ
6 ν02 λ2 /2,
p
ω(r)kV0 γk
γ∈R
|λ| 6 g.
Здесь константа g такая же, как и в (ED0 ) .
Определим Z(θ) как
p
X
1
γi (Ui (θ ∗ ) − Ui (θ)),
Z(θ) =
ω(r)kV0 γk i=1
где Ui (θ) = Kθ−1
>
∂Kθ
Kθ−1
∂θi
. Доказательство будем проводить аналогично доказа-
тельству утверждения (ED0 ) , но теперь нужно будет дополнительно искать такое
g , что для любого |λ| 6 g выполнены условия:
а) матрица I − λZ(θ)K положительно определена для всех θ ∈ Θ0 (r) ;
б) степенной ряд вида (П.2), коэффициенты которого зависят от θ ∈ Θ0 (r) , огра
ничен величиной ν02 λ2 2 для всех θ ∈ Θ0 (r) .
Такое g существует в силу введённых предположений о ковариационной функции.
У т в е р ж д е н и е 3 (L0 ). Для каждого r 6 r0 найдется такая константа
δ(r) 6 1/2 , что на множестве Θ0 (r) выполнено неравенство
(П.4)
−2EL(θ, θ ∗ )
6 δ(r).
−
1
∗
kD0 (θ − θ )k2
12
Доказательство этого утверждения использует тот факт, что функция EL(θ, θ ∗ )
дважды непрерывно дифференцируема в окрестности θ ∗ и ее градиент ∇EL(θ ∗ )
равен нулю. Тогда разложение до второго порядка EL(θ, θ ∗ ) содержит только квадратичный член, и, значит, радиус окрестности может быть подобран таким образом,
чтобы было выполнено неравенство (П.4).
У т в е р ж д е н и е 4 (I). Существует константа a > 0 такая, что
a2 D02 > V02 .
(П.5)
В силу свойств матриц D02 и V02 и сделанных предположений о ковариационной
функции неравенство (П.5) будет выполнено.
У т в е р ж д е н и е 5 (Er). Для произвольного r существует такая величина
g(r) > 0 , что для всех λ 6 g(r) выполнено неравенство
>
γ ∇ζ(θ)
(П.6)
sup sup log E exp λ
6 ν02 λ2 /2.
kV0 γk
θ∈Θ0 (r) γ∈Rp
Используя ограниченность ковариационных матриц и их производных по θ, аналогично доказательству неравенства (ED0 ) можно показать, что (П.6) выполнено.
У т в е р ж д е н и е 6 (L r). Найдется такое b , что для каждого r > r0
(П.7)
Функция f (θ) =
inf ∗
EL(θ, θ ∗ ) > br2 .
θ: kV0 (θ−θ )k=r
|EL(θ,θ ∗ )|
kV0 (θ−θ ∗ )k2
непрерывная и f (θ) 6= 0 при θ ∈ Θ0c (r0 ) = Θ \ Θ0 (r0 )
в силу введенных в подразделе 3.1 предположений. Так как Θ0c (r0 ) — компактное
множество, то найдется такое b > 0, что f (θ) > b при θ ∈ Θ0c (r0 ), откуда получаем
(П.7).
Таким образом, при выполнении условий из подраздела 3.1 будут выполнены
утверждения (ED0 ) , (ED1 ) , (L0 ) , (I) , (Er) , (L r) . Далее, теорема доказывается, следуя рассуждениям, приведённым в [11].
СПИСОК ЛИТЕРАТУРЫ
1. Rasmussen C.E., Williams C.K.I. Gaussian Processes for Machine Learning.
Cambridge: MIT press, 2006.
13
2. Червоненкис А.Я., Чернова С.С., Зыкова Т.В. Применение ядерной гребневой
оценки к задаче расчета аэродинамических характеристик пассажирского самолета (сравнение с результатами, полученными с использованием искусственных
нейронных сетей) // АиТ. 2011. № 5. С. 175—182.
Chervonenkis A.Y., Chernova S.S., Zykova T.V. Applications of Kernel Ridge
Estimation to the Problem of Computing the Aerodynamical Characteristics of
a Passenger Plane (in Comparison with Results Obtained with Artificial Neural
Networks) // Automation and Remote Control. 2011. V. 72. No. 5. P. 1061—1067.
3. Forrester A., Sobester A., Keane A. Engineering Design via Surrogate Modelling: a
Practical Guide. Chichester: Wiley, 2008.
4. Панов М.Е., Бурнаев Е.В., Зайцев А.А. О способах введения регуляризации в
регрессии на основе гауссовских процессов // Тр. конференции «Математические
методы распознавания образов-15». 2011. С. 142—145.
5. Kennedy M.C., Hagan A.O. Bayesian Calibration of Computer Models // J. R. Stat.
Soc.: Series B (Statistical Methodology). 2001. V. 63. No. 3. P. 425—464.
6. Qian P.Z.G., Wu C.F.G. Bayesian Hierarchical Modeling for Integrating Lowaccuracy and High-accuracy Experiments // Technometrics. 2008. V. 50. No. 2.
P. 192—204.
7. Kaufman C.G., Schervish M.J., Nychka D.W. Covariance Tapering for Likelihoodbased Estimation in Large Spatial Data Sets // J. Amer. Statistical Association. 2008.
V. 103. No. 484. P. 1545—1555.
8. Eidsvik J., Finley A.O., Banerjee S. et al. Approximate Bayesian Inference for Large
Spatial Datasets Using Predictive Process Models // Computational Statistics and
Data Analysis. 2011. V. 56. No. 6. P. 1362—1380.
9. Shaby B., Ruppert D.. Tapered Covariance: Bayesian Estimation and Asymptotics //
J. Computational and Graphical Statistics. 2012. V. 21. No. 2. P. 433—452.
10. Spokoiny V. Parametric Estimation. Finite Sample Theory // Annals of Statistics.
2012. V. 40. No. 6. P. 2877—2909.
14
11. Spokoiny V. Bernstein—von Mises Theorem for Growing Parameter Dimension //
arxive.org. 2013. arXiv:1302.3430v2.
12. Kok S. The Asymptotic Behaviour of the Maximum Likelihood Function of Kriging
Approximations Using the Gaussian Correlation Function // Rio de Janeiro, Brazil:
EngOpt 2012 — International Conference on Engineering Optimization. 2012.
13. Nagy B., Loeppky J.L., Welch W.J. Correlation Parameterization in Random Function
Models to Improve Normal Approximation of the Likelihood or Posterior. Technical
report. Vancouver: The University of British Columbia. 2007.
15
Подписи к рисункам
1. Возможные виды апостериорной плотности распределения вектора параметров θ в одномерном случае. На рисунке слева изображена обычная форма
апостериорной плотности. На правом рисунке приведен случай возникновения
глобального максимума апостериорной плотности в нуле. В первом случае использовалась выборка размера n = 500, во втором случае размер выборки n
равнялся 50.
2. Апостериорная плотность распределения вектора параметров θ в двумерном
случае. Размер обучающей выборки n = 300.
3. Зависимость вероятности попадания в хвосты апостериорного распределения
от размера выборки.
4. Зависимость ограниченного расстояния Хеллингера от размера выборки.
16
Download