Ветров Д., Кропотов Д.

advertisement
72
ГЕТЕРОСКЕДАСТИЧНАЯ РАЗРЕЖЕННАЯ БАЙЕСОВСКАЯ
РЕГРЕССИЯ И ЕЕ ПРИМЕНЕНИЕ В ЗАДАЧЕ ПРОГНОЗА
ТЕМПЕРАТУРЫ ПЛАВЛЕНИЯ ХАЛЬКОПЕРИТОВ И ЗАДАЧЕ
СИНТЕЗА НАНОРАЗМЕРНОГО ОКСИДА АЛЮМИНИЯ1
Д. Ветров2, Д. Кропотов3
2
Московский государственный университет, факультет ВМиК, 119992, Москва, ГСП-2,
Ленинские Горы, 1, vetrovd@yandex.ru
3 Вычислительный центр им. А.А. Дородницына РАН, 119333, Москва, ул. Вавилова,
д. 40, dkropotov@yandex.ru
В работе предлагаются два метода решения задачи восстановления регрессии в
рамках байесовского подхода. Эти методы позволяют получать разреженные
решающие правила, где разреженность понимается в смысле небольшого
количества задействованных признаков или объектов. В частности,
рассматриваются два варианта недиагональной регуляризации обобщенных
линейных моделей, которые приводят к алгоритмам с большой величиной
обоснованности. Основное внимание уделено гетероскедастичным регрессорам.
Предложенные алгоритмы апробированы при решении двух химических задач:
прогноз температуры плавления халькопиритов и прогноз оптимальных условий
синтеза наноразмерного оксида алюминия.
Введение
В настоящее время байесовские методы
активно используются при решении задач
классификации и восстановления регрессии
[1]. Успех данного подхода обеспечивается
практическим отсутствием параметров,
которые
необходимо
настраивать
пользователю при решении задач. Кроме
того, байесовские методы позволяют
автоматически отсеивать большую часть
объектов или признаков в решающем
правиле, что соответствует высокой
степени интерпретируемости решения, а
также
позволяет
быстро
проводить
распознавание новых объектов. Также
следует отметить, что байесовский подход
обеспечивает не только точечное значение
прогноза, но и степень уверенности
алгоритма в выдаваемом ответе. К числу
широко
используемых
байесовских
алгоритмов анализа данных следует
отнести метод релевантных векторов (RVR)
[2]
и
байесовскую
логистическую
регрессию
[3].
В
данной
работе
предложены два метода модификации
RVR. Новые методы обладают более
высокой скоростью обучения, большими
значениями
обоснованности
и
разреженности по сравнению с RVR.
Гетероскедастичная байесовская
регрессия
Предположим, что имеется выборка
данных (t , X )  {ti , xi }in1 , где xi  R d , а
целевая переменная ti  R . Необходимо для
нового объекта x предсказать значение t .
Предположим, что значение целевой
переменной
является
зашумленным
выходом функции регрессии от входных
переменных:
t  f (x)   ,
где в качестве функции регрессии
используется линейная модель
M
f ( x )   j 1 w j j ( x )  wT  ( x ) .
Здесь {w j }Mj 1 - набор числовых параметров,
а  : R d  R M - обобщенные признаки, в
качестве которых, в частности, могут
выступать исходные признаки  j ( x )  x j
или ядровые функции с центрами в
______________________________________________________________________
Работа выполнена при поддержке РФФИ (проекты №№06-01-08045, 05-01-00332, 05-07-90333, 07-01-00211,
07-01-12020)
1
73
объектах обучения  j ( x )  K ( x j , x ) . Пусть
шумовая компонента  имеет независимое
нормальное распределение с нулевым
математическим ожиданием и дисперсией
пропорциональной
значению
целевой
переменной:
 i N (0, ti 2 )
Тогда правдоподобие обучающей выборки
может быть представлено как
p ( | w)  p (t | X , w) 
n
 (ti  f ( xi , w)) 2 

2ti 2


 exp  
i 1
(1)
 (t  w)T B (t  w) 
exp  
,
2 2


1
1
где B  diag(t ,
1
n
,t ) , а
M ( x1 ) 
 1 ( x1 )


  [ ( x1 ), ,  ( xn )]  
.
 (x )
M ( xn ) 
 1 n
Заметим, что случай гомоскедастичной
регрессии
соответствует
единичной
матрице B .
Байесовский подход предполагает задание
априорных распределений на параметры
алгоритма w . Выберем в качестве
априорного распределения нормальное
распределение с центром в нуле и матрицей
ковариации A1 :
p( w | A) N (0, A1 )
Прогноз значения целевой переменной для
нового объекта x* вычисляется как
интеграл по всевозможным значениям
параметров алгоритма w :
(2)
p(t | x )  p (t | x , w) p ( w | X , T , A)dw
T
*
*

*
*
Здесь p( w | X , T , A) 
p(T | w, X ) p(w | A)
 p(T | w, X ) p(w | A)dw
N (  , ),
  ( 2T B  A)1    2T Bt
Выражение (2) представляет собой свертку
двух нормальных распределений и может
быть вычислено как
p (t* | x* ) N ( * ,  *2 )
*   T  ( x* )  *2   2   ( x* )T  ( x* )
Оптимальное
значение
матрицы
регуляризации A из некоторого семейства
A
матриц
находится с помощью
максимизации величины обоснованности:
Aopt  arg max  p (t | X , w) p ( w | A)dw 
AA
arg max N (t | 0,  2 B 1  A1T )
(3)
AA
В дальнейшем рассматриваются два
A,
семейства
матриц
обладающих
различными интересными свойствами.
Регуляризация вдоль собственных
векторов гессиана логарифма
правдоподобия
Рассмотрим функцию правдоподобия (1).
Она может быть представлена как
p (t | X , w) 
 1

p (t | X , wML ) exp   ( w  wML )T H ( w  wML ) 
 2

T
1 T
2 T
wML  ( B )  Bt H    B
Здесь H играет роль гессиана логарифма
правдоподобия. Рассмотрим собственные
значения и собственные векторы матрицы
H : H  QT Q,   diag(1 , , M ), u  Qw .
Выберем в качестве семейства матриц A
набор
матриц,
соответствующих
независимой
регуляризации
вдоль
собственных векторов u :
p (u | A* ) N (0, A* ), A*  diag (a1 , , aM )
p ( w | A) N (0, A), A  QT A*Q
Основным
достоинством
такой
регуляризации является то, что значение
обоснованности в терминах u может быть
представлено
как
произведение
одномерных интегралов, каждый из
которых может быть легко вычислен
аналитически. Оптимальные значения a
равны
j

, если  j uML , j  1

a j    j uML , j  1
uML  QwML
, иначе

Для оценки значения  2 может быть
использована итерационная процедура,
предложенная в [2]:
(t   )T B(t   )
( 2 )new 
 j  1  a j  jj
M
n   j 1  j
74
Регуляризация в семействе
симметричных неотрицательно
определенных матриц
Выберем следующее семейство матриц
регуляризации:
A  { A  R M M | AT  A, A  0}
Приравнивая производную обоснованности
(3) по матрице A к нулю, получаем
следующее выражение для оптимальной
матрицы регуляризации [4]:
1
T
Aopt
 wML wML
 H 1
1
Матрица Aopt
симметричная, но, вообще
говоря, не является неотрицательно
определенной. Преобразуем матрицу к
1
диагональному виду D  U T Aopt
U . Так как
матрица
T
wML wML
0
имеет ранг 1, а
1
 H  0 , то в диагональной матрице D
только одна компонента может быть
положительной. Обозначим ее через d1 .
Тогда можно показать, что оптимальная
неотрицательно определенная матрица
регуляризации может быть получена из
1
заменой
всех
отрицательных
Aopt
собственных значений на
D 1  diag(d11 , ,..., ) .
 ,
т.е.
Задача прогноза температуры плавления
халькопиритов
В
последнее
время
внимание
исследователей привлекли полупроводники
с
тетрагональной
кристаллической
структурой халькопирита. Интерес к
халькопиритам вызван перспективами их
применения в оптоэлектронике [5,6],
солнечной энергетике [6], нелинейной
оптике [7] и спинтронике [8]. Задача
состоит в прогнозе температуры плавления
халькопирита по данным о составляющих
его химических элементах. Обучающая
выборка состоит из 40 халькопиритов (см.
таблицу 1), а тестовая выборка – из 14
элементов (см. таблицу 3).
Для решения данной задачи использовалась
гетероскедастичная
регрессия,
т.к.
традиционно в химии точность прогноза
температуры измеряется в доле отклонения
от абсолютной величины. В экспериментах
участвовали
три
метода:
метод
релевантных
векторов
(RVR),
предложенный метод с регуляризацией
вдоль собственных векторов гессиана
логарифма правдоподобия (REVR) и
предложенный метод с регуляризацией в
семействе симметричных неотрицательных
матриц (IREVR). Каждый раз в качестве
обобщенных признаков использовались
следующие:

2

 j ( x )  exp x j  x / 2 s 2 , j  1, n, n 1 ( x )  1,
а параметр s 2 настраивался с помощью
скользящего контроля.
Таблица 1. Вещества, входящие в
обучающую выборку
AgTlTe2
AgFeSe2 CuFeS2
CuTlTe2
CuFeTe2 CuInSe2
ZnSnSb2
CdSnP2
AgGaS2
LiGaTe2
ZnSnAs2 ZnGeP2
CuTlSe2
AgInSe2
CuAlSe2
CuFeSe2
CuInTe2
CuGaSe2
CdSnAs2
CdGeP2
CuInS2
AgTlSe2
AgGaSe2 ZnSiAs2
LiInTe2
CdSiAs2 CdSiP2
CdGeAs2
CuGaTe2 CuGaS2
AgFeTe2
ZnGeAs2 ZnSiP2
AgInTe2
AgInS2
CuAlS2
AgGaTe2
CuAlTe2
AgAlTe2
ZnSnP2
В таблице 2 приведены результаты
экспериментов на обучающей выборке. Для
оценки качества использовался следующий
критерий:
1
WRMSE 
(t   )T B(t   )
n
Значение критерия оценивалось с помощью
скользящего контроля (5x2-fold cross
validation).
Результаты
экспериментов
приведены для трех наборов признаков.
Набор признаков П1 состоит из простых
химических
признаков
каждого
из
элементов,
входящего
в
состав
халькопирита. Набор П2 представляет
собой специально отобранные признаки,
полученные в результате исследования.
Набор П3 – это набор П2 с добавлением
логарифмов всех признаков. Результаты
прогноза для набора П1 лишь немногим
лучше
погрешности
в
20%,
что
соответствует точности, с которой эксперт
75
решает эту задачу вручную. Наборы П2 и
П3 позволяют добиться точности в 14%,
что уже значительно лучше, чем точность
экспертной оценки.
Таблица 2. Результаты экспериментов
Метод П1
П2
П3
RVR
0.195 ± 0.173 ± 0.155 ±
0.009
0.027
0.026
REVR
0.182 ± 0.155 ± 0.142 ±
0.009
0.004
0.024
IREVR 0.177 ± 0.151 ± 0.143 ±
0.007
0.004
0.016
В таблице 3 приведен прогноз для тестовой
выборки, полученный с помощью метода
IREVR.
Таблица 3. Прогноз температуры
плавления
Вещество Прогноз
Ст.отклонение
ZnAlS2
1432,1537
118,6126
ZnAlSe2
1265,6839
113,9763
ZnAlTe2
1077,854
112,9513
ZnGaTe2 1006,2543
113,4827
CdGaTe2 901,5154
114,5348
HgGaTe2 688,0056
117,1578
AgFeS2
1177,1537
113,7476
AgAlS2
1430,2483
116,9982
AgAlSe2
1225,4362
113,2886
ZnGeN2
1420,5192
116,9595
MgSiP2
1391,4328
118,5705
MnGeP2
1258,7763
115,1215
MgGeAs2 1201,7747
113,6561
BeCN2
929,7983
116,0099
Задача синтеза наноразмерного оксида
алюминия
Задача синтеза дешевых наноразмерных
материалов из окиси алюминия является
одной из актуальных проблем современной
химии [10]. В качестве предшествующего
материала
часто
используется
гидрокарбонат алюмаммония (AACH), для
синтеза которого проводится реакция с
участием NH4Al(SO4)2 и NH4HCO3. В
данном исследовании решалась задача
прогноза выхода AACH в процентах при
различных
условиях
этой
реакции.
Обучающая выборка состояла из 34
объектов, а тестовая – из двух. Результаты
экспериментов приведены в таблицах 4 и 5.
Эти
результаты
показывают,
что
предложенные методы работают в целом
лучше, чем метод релевантных векторов, а
качество прогноза оказалось лучше, чем у
используемого
химиками
алгоритма
решения данной задачи на основе метода
опорных векторов [9].
Таблица 4. Результаты экспериментов на
обучающей выборке
Метод
WRMSE
RVR
0.061 ± 0.030
REVR
0.046 ± 0.010
IREVR
0.036 ± 0.005
Таблица 5. Прогноз выхода AACH
Объект Правильный Прогноз Прогноз
ответ
[9]
IREVR
1
100%
96.51%
97.51%
2
100%
95.99%
96.93%
Список литературы
1. C.M. Bishop. Pattern recognition and machine
learning. Springer. - 2006.
2. M.E. Tipping. Sparse Bayesian learning and the
relevance vector machine // Journal of Mach. Learn.
Res. – 2001. – Vol.1. – P.211-244.
3. G.C. Cawley, N.Talbot, M.Girolami. Sparse
multinomial logistic regression via Bayesian l1
regularization // Advances in neural information
processing systems. – 2007. – Vol.19. - MIT press.
4. D.Kropotov, D.Vetrov. Optimal Bayesian linear
classifier with arbitrary Gaussian regularizer // Proc.
of 7th Open German-Russian Workshop “Pattern
Recognition and Image Understanding”, to appear
5. V.S. Vavilov. Physics and applications of wide
bandgap semiconductors // Physics - Uspekhi. 1994. - V.37, No.3 - P. 269-277.
6. S. Siebentritt. Wide gap chalcopyrites: material
properties and solar cells // The solid films. - 2002.
V.403-404. - P.1-8.
7. Bai L., Lin Z., Wang Z., Chen C. Mechanism of
linear and nonlinear optical effects of chalcopyrite
AgGaX2 (X = S, Se, and Te) crystals // J. Chem.
Phys. - 2004. - V.120, No.18. - P.8772-8778.
8. Pearton S.J., Abernathy C.R., Norton D.P., et al.
Advances in wide bandgap materials for
semiconductor spintronics // Mater. Sci. and Eng. 2003. - V.R40. - P.137-168.
9. Chi-Cheng Ma, Xue-Xi Zhou. Using Support vector
machine in the optimization design for the
preparation of ACCH
10. Chi-Cheng Ma, Xue-Xi Zhou, et al. Synthesis and
thermal decomposition of ammonium aluminate
carbonate hydroxide (AACH) // Materials Chemistry
and Physics. – 2001. – Vol.72. – P.374-379.
Download