Ð°Ñ Ñ Ð¸Ñ

advertisement
1
СРАВНЕНИЕ НЕКОТОРЫХ ПОДХОДОВ К РЕШЕНИЮ ЗАДАЧ
КЛАССИФИКАЦИИ
Ю.И.Журавлев, Ю.П.Лаптин, А.П.Виноградов, Н.Г.Журбенко, А.П.Лиховид
Математические модели задач построения линейных и нелинейных классификаторов и
методы построения классификаторов, основанные на этих моделях, рассматривались во многих
работах (см., например, [1-4]). Сравнению различных подходов к решению задач построения
классификаторов посвящены работы [4-6]. Наиболее широко в настоящее время используется
метод опорных векторов (SVM).
В настоящей работе развиваются модели и подходы, предложенные в [7,8]. Для случая
многих
классов
наряду
с
линейными
классификаторами,
основанными
на
выборе
максимальной дискриминантной функции, рассматриваются последовательные линейные
(бинарные) классификаторы. Формулируется уточненная модель задачи минимизации
эмпирического риска и ее непрерывная релаксация. Обсуждаются возможности и проблемы
разработки приближенных алгоритмов минимизации эмпирического риска. Проводится
сравнение непрерывной релаксации сформулированной задачи с математической моделью,
используемой в методе опорных векторов. На тестовых задачах анализируются возможности
существующих программных средств оптимизации общего назначения для решения
сформулированной задачи минимизации эмпирического риска. Сравниваются решения,
получаемые при использовании программных средств общего назначения и метода опорных
векторов.
Математические
модели,
используемые
для
рассматриваемых
задач,
удобно
представлять в форме выпуклых задач оптимизации. В работе описывается техника
применения эффективных методов негладкой оптимизации [9] для решения этих задач.
Приводятся результаты вычислительных экспериментов на специальных тестовых
задачах большой размерности [см. также 10]. Эти результаты показывают, что для
рассмотренных задач с увеличением обучающей выборки трудоемкость методов негладкой
оптимизации растет медленнее по сравнению с методом опорных векторов (LIBSVM).
1. Краткое описание задач построения классификаторов
Пусть задана совокупность линейных функций fi ( x, W i )  w i , x  w0i , где x  Rn –
вектор признаков, W i  ( wi , w0i )  R n1 – вектор параметров, i  1,..., m, m  2 . Обозначим
2
W  (W 1 ,..., W m ) , W  R L , L  m(n  1) . Линейным классификатором называется функция
a( x,W ) следующего вида:


a( x,W )  arg max fi ( x, W i ) : i  1,..., m , x  Rn , W  R L .
i
При
m2
классификаторы
приведенное
описываются
соотношение
одной
может
линейной
быть
упрощено,
(1)
линейные
f ( x, W )  w, x  w0 ,
функцией
W  ( w, w0 )  R n 1 , и представляются в виде
1, если f ( x,W )  0,
a ( x, W )  
 2, если f ( x,W )  0.
(2)
Функции fi ( x, W i ) обычно называются дискриминантными функциями.
Считается заданной совокупность конечных непересекающихся множеств (обучающая


выборка) точек из R n : i  xt : t  Ti , i  1,..., m , T 
m
i 1
Ti .
Задача построения (обучения) классификатора a ( x,W ) заключается в определении
значений параметров W на основании обучающей выборки i , i  1,..., m , после чего функция
a( x,W ) используется для отнесения произвольной точки x  R n к одному из классов 1,..., m .
Говорят, что классификатор a ( x,W ) правильно разделяет точки из i , i  1,..., m , если
a ( x, W )  i , для всех x  i , i  1,..., m . Положим i (t ) – номер множества i , которому
принадлежит точка xt , t  T . При m  2 величина


g t (W )  min fi ( xt ,W i )  f j ( xt ,W j ) : j  1,..., m \ i, i  i(t ) 


 min wi  w j , xt  w0i  w0j : j  1,..., m \ i, i  i(t )
(3)
называется зазором классификатора a ( x,W ) в точке xt , t  T .
В случае m  2 зазором классификатора в точке xt является величина
t

 f ( x ,W ), если t  T1 ,
g t (W )  
t

 f ( x ,W ), если t  T2 .
(4)
3

Величина g (W )  min g t (W ): t  T
 называется зазором классификатора a( x,W ) на
совокупности множеств i , i  1,..., m . Классификатор a ( x,W ) правильно разделяет точки из
множеств i , i  1,..., m , если g (W )  0 .
Множества
i , i  1,..., m
,
называются
разделимыми
в
классе
линейных
классификаторов, если существует линейный классификатор, правильно разделяющий точки из
этих множеств.
Классификатор a ( x,W ) инвариантен относительно умножения всех функций fi
(векторов W i ) на положительное число, зазор g (W ) линеен относительно такой операции
умножения. Величину g (W ) можно использовать как критерий качества классификатора
a ( x, W ) (чем больше значение g (W ) , тем надёжнее разделяются точки из i , i  1,..., m ),
однако, при этом должна учитываться некоторая нормировка совокупности векторов W ,
которую обозначим (W ) и будем называть нормой классификатора a ( x,W ) .
Будем рассматривать задачу построения оптимального классификатора (определения
значений параметров W ) для множеств, разделимых в классе линейных классификаторов,
имеющую вид: найти


g   max g (W ) : (W )  1, W  R L .
W
(5)
m n
 (wij )2
Для случая m  2 может использоваться норма (W ) 
, для m  2 –
i 1 j 1
(W ) 
n
 ( w j )2 .
j 1
Задача (5) может быть записана в эквивалентных формах


  min (V ) : g (V )  1, V  R L ,
V

(6)

  min (V ) : g t (V )  1, t  T , V  R L .
V
(7)
Здесь эквивалентность понимается в следующем смысле – если W  оптимальное
решение задачи (5), то для оптимального решения V  задачи (6) или (7) имеет место [11]
4
V*  W
*
g
*,
*  1
g
* . Заметим, что
g   0 для множеств, разделимых в классе линейных
классификаторов.
2. Последовательные линейные классификаторы
Для того, чтобы два конечных множества были разделимы в классе линейных
классификаторов, необходимо и достаточно, чтобы выпуклые оболочки этих множеств не
пересекались. В случае многих множеств этих условий недостаточно. На рисунке приведен
контрпример.
1, f 1
4 ,
f4
f1 <= f2 <= f3
<= f4 <= f1
2 ,
f2
3, f 3
Рисунок. Пример множеств, неразделимых в классе линейных классификаторов
В [11,12] формулируются некоторые достаточные условия разделимости в классе
линейных классификаторов для произвольного числа множеств. Более углубленный
геометрический анализ таких условий приведен в [13].
Наряду с линейным классификатором (1) рассмотрим другой подход, который будем
называть
последовательным
линейным
(бинарным)
классификатором.
Пусть
задано
упорядочение S пар (i, j ),
i, j  1,..., m, i  j, и для каждой пары множеств i ,  j
определен
aij ( x,W ij )
классификатор
вида
(2),
разделяющий
эти
множества.
Последовательный линейный алгоритм классификации (классификатор) заключается в
последовательном (в соответствии с порядком S ) применении классификаторов aij ( x,W ij )
5
для анализа точки x . Если в результате применения aij ( x,W ij ) окажется, что точка x
принадлежит полупространству, содержащему множество i , то из дальнейшего анализа
альтернативное множество  j и связанные с ним классификаторы aij ( x,W ij ) должны быть
исключено. Таким образом, для классификации точки x необходимо m  1 раз применить
классификатор вида (2) для различных пар множеств i ,  j , i, j  1,..., m, i  j .
Нетрудно видеть, что при произвольном упорядочении S для разделимости множеств
i , i  1,..., m в классе
последовательных линейных классификаторов необходимо и
достаточно, чтобы выпуклые оболочки этих множеств не пересекались. Учитывая выше
сказанное,
получаем,
что
возможности
последовательных
линейных
(бинарных)
классификаторов шире по сравнению с линейными классификаторами вида (1).
Необходимо отметить, что рассмотренные последовательные классификаторы близки
по конструкции к DAGSVM-алгоритмам, введенным в [6].
3. Минимизация эмпирического риска
В
случае
линейно
неразделимой
выборки
естественным
критерием
выбора
классификатора является минимизация эмпирического риска, т.е. числа точек обучающей
выборки, которые классификатор разделяет неправильно.
Будем считать, что задан некоторый параметр   0 надежности разделения точек
обучающей выборки i , i  1,..., m . Точки x t , t  T , для которых величина зазора
g t (W )   , разделяются классификатором a( x,W ) ненадежно. Эмпирическй риск с учетом
надежности, определяемой параметром  , равен числу точек обучающей выборки, которые
классификатор разделяет неправильно или ненадежно.
Ограничимся случаем двух классов m  2 . Рассматриваемая задача заключается в
определении минимального количества точек, которые нужно исключить из обучающей
выборки, чтобы оставшиеся точки разделялись надежно. Естественно требовать, чтобы после
исключения в каждом классе оставалась хотя бы одна точка. Это возможно, если


  max x  x s :   T1 , s  T2 .
(8)
В дальнейшем будем предполагать выполнение этого условия. Можно показать, что
существуют достаточно большие положительные числа
Bt , t  T
(в [8] предполагалось, что
6
все
Bt
одинаковы), при которых
задача минимизации эмпирического риска с учетом
надежности представима в виде: найти


Q  min  yt  ,
w, y
tT 
(9)
при ограничениях
g t (W )    Bt  yt , t  T ,
(10)
w, w  1 ,
 yt  Ti
(11)
 1, i  1, 2 ,
(12)
tTi
Переменная
yt
0  yt  1, t  T ,
(13)
yt  0  1, t  T .
(14)
определяет, учитывается ли точка
xt
при формулировке задачи. Если
t
yt  1 , то точка x исключается из обучающей выборки. Ограничения (12) определяют
условие того, что, по крайней мере, одна точка из каждого множества
i
должна быть
включена в задачу.
Задача (9)-(14) – NP -полная. В связи с этим для практического использования должны
разрабатываться приближенные алгоритмы решения такой задачи. При небольших значениях
размерности задачи могут применяться существующие программные средства оптимизации
общего назначения (возможности такого использования будут рассматриваться в разделе 6).
В качестве приближенных могут рассматриваться алгоритмы, основанные на идеях
направленного перебора (последовательного анализа вариантов, метода ветвей и границ),
локального поиска. При разработке таких алгоритмов важным является наличие эффективных
процедур вычисления оценок снизу величины Q и построения допустимых решений задачи
(9)-(14). Для реализации этих процедур будем использовать непрерывную релаксацию задачи
(9)-(14). Понятно, что все целочисленные формулировки задачи (9)-(14) при достаточно
больших значениях величин
значение оценки
Bt
снизу для
эквивалентны. Однако непрерывная релаксация этой задачи и
Q
существенно зависят от значений
Bt
. Для получения
7
наилучшей оценки для
Q
необходимо использовать наименьшие возможные значения для
Bt , которые обозначим Bt , t  T .
Пусть
t  T , s  T1 ,   T2 , s,   t . Рассмотрим задачу


ts   max   g t (W ) ,
(15)
g j (W )  , j  s,  ,
(16)
w, w  1 .
(17)
Лемма 1. Имеет место равенство


Bt  max ts : s  T1 ,   T2 , s,   t , t  T .
Доказательство.
Обозначим
y  ( yt , t  T ) ,
–
Y
(18)
множество
всех
y
,
удовлетворяющих ограничениям (12), (14), D( y ) – множество всех векторов W ,
удовлетворяющих ограничениям (10), (11) при заданном значении вектора y . Пусть вектор
y  Y такой, что yt  1 . Положим




t ( y)  min  : g t (W )    , W  D( y)  max   g t (W ) : W  D( y) .

Очевидно, что Bt  max t ( y ) : y  Y , yt  1 . Пусть
Обозначим

y s  yt , t  T , ys  0, y  0, y j  1, j  s,
.
s  T1 ,   T2
, s,  t .
Нетрудно видеть, что для
любого y  Y такого, что ys  0, y  0 , выполняется D( y)  D( y s ) , т.е. t ( y)  t ( y s ) .


Откуда Bt  max t ( y s ) : s  T1 ,   T2 , s,   t , и учитывая, что ts  t ( y s ) получаем
утверждение леммы. ■.
Пусть t  T1 . Рассмотрим более подробно задачу (15)–(17). Учитывая (4), перепишем
эту задачу в виде
ts   min
w,w0
 w, x
t

 w0   ,
w, x s  w0  , s  T1 ,
(19)
(20)
8
 w, x  w0  ,   T2 ,
(21)
w, w  1 .
(22)
Если система ограничения (20) – (22) несовместна, то ts   . Это имеет место, если
  x s  x . В силу (8) всегда существует пара s,  , такая что   x s  x .
Легко видеть, что в оптимальном решении задачи (19)–(22) ограничения (20), (22)
обязательно выполняются как равенства, а ограничение (21) может быть как активным, так и
неактивным. Рассмотрим случай, когда ограничение (21) неактивно в оптимальном решении.
Используя правило множителей Лагранжа, получаем для оптимального решения
w
x s  xt
x x
s
t
, w0    w, x s , ts  x s  xt .
При этом для полученного вектора ( w, w0 ) должно выполняться ограничение (21).
Если это ограничение не выполняется, то оптимальное решение должно строиться с учетом
того, что ограничение (21) активно.
Полученные соотношения позволяют сравнительно просто определять значения
Bt , t  T .
Рассмотрим задачу (9)-(13) – непрерывную релаксацию задачи минимизации

эмпирического риска. Положим d t (W )  max  0,




1
  g t (W )  и зафиксируем некоторые
Bt

значения переменных W . Нетрудно видеть, что если при этих значениях W существует
решение задачи (9)-(13), то yt  d t (W ) . Откуда получаем задачу минимизации по
переменным W : найти
q  min  d t (W )
(23)
W tT
при ограничениях
w, w  1 ,
 d t (W )  Ti
tTi
 1, i  1,..., m ,
(24)
(25)
9
d t (W )  1, t  T ,
(26)
Величина q есть оценка снизу для минимального значения эмпирического риска Q , а
вектор W , полученный в результате решения задачи (23)–(26), определяет приближенное
решение задачи (9)–(14). Функции d t (W ) – выпуклые кусочно-линейные. Для решения задачи
(23)-(26) целесообразно применять эффективные методы негладкой оптимизации [9].
Особенности такого применения будут рассмотрены в разделе 5.
4. Метод опорных векторов
В методе опорных векторов (SVM) для случая m  2 решается задача, которая может
быть представлена в следующем виде: найти




  min  v, v  C  t  ,
v,v0 
tT 


(27)
v, xt  v0  1  t , t  T1 ,
(28)
 v, xt  v0  1  t , t  T2 ,
(29)
t  0, t  T .
(30)
Метод опорных векторов (SVM) используется для построения оптимального
классификатора как для линейно разделимых классов, так и для линейно неразделимых
классов.
Заметим, что ограничения (28), (29) соответствуют ограничению g t (V )  1, t  T . В
случае линейно разделимых классов из теорем о негладких штрафах [см., например, 9] следует,
что при достаточно большом коэффициенте C задачи (7) и (27)–(30) имеют одинаковые
решения. В случае линейно неразделимых классов задача (27)–(30) интерпретируется [14] как
некоторая регуляризация задачи минимизации эмпирического риска.
Покажем, что между задачей (27)–(30) и непрерывной релаксацией (9)–(13) задачи
минимизации эмпирического риска существуют определенные взаимосвязи.
Ослабим ограничения (10), положив Bt  B : max B , и исключим ограничения (12).

Задача примет вид
10


q   min  yt  ,
w, y
 tT 
(31)
при ограничениях
w, xt  w0    B  yt , t  T1 ,
(32)
 w, xt  w0    B  yt , t  T2 ,
(33)
w, w  1 ,
(34)
yt  0, t  T .
(35)
Здесь ограничение (11) заменено парой эквивалентных ограничений (32), (33). Понятно,
что q   q  . Сделаем замену переменных w  v, w0  v0 , t 
Byt
, t  T1

T2 . Задача
примимает вид



 min   t 
B v,v0 , tT 
(36)
v, xt  v0  1  t , t  T1 ,
(37)
 v, xt  v0  1  t , t  T2 ,
(38)
v, v  1
,
(39)
t  0, t  T .
(40)
q 
при ограничениях
2
Пусть   0 – двойственная переменная для ограничения (39). Рассмотрим функцию
Лагранжа L(, , v) 

t    ( v, v  1 2 ) и Лагранжевую релаксацию задачи (36)–

B tT

(40): найти
()  min L(, , u)
v,v0 ,
при ограничениях (37), (38), (40).
(41)
11
Поскольку ( ) – оптимальное значение Лагранжевой релаксации задачи (36)–(40), то
()  q  при любом   0 [см., например, 9]. Пусть задан штрафной коэффициент C в
задаче (27)-(30). Выбирая  из условия

 C , получаем
B

 
,
L(, , u )    v, v  C   t  
2


tT 

т.е. задача (41), (37), (38), (40) эквивалентна задаче (27)-(30) с точностью до аддитивной
константы и фиксированного множителя в целевой функции при указанном выборе значения
двойственной переменной.
Таким образом, задача (27)-(30), которая решается в методе опорных векторов, может
быть получена в результате ослабления ограничений задачи (23)–(26), которая в свою очередь
является непрерывной релаксацией задачи минимизации эмпирического риска.
5. Решение задач оптимизации с ограничениями
Используемая схема решения оптимизационных задач с ограничениями заключается в
построении эквивалентной задачи безусловной оптимизации и в последующем ее решении
эффективными субградиентными алгоритмами (r-алгоритмом Н.З.Шора [9]). Для построения
такой задачи безусловной оптимизации будет использоваться метод точных штрафных
функций [см., например, 9]. Возможно также использование другого эффективного подхода
[16, 17].
Задача выпуклого программирования с ограничениями имеет вид: найти
f   min  f ( x) : x  C ,

(42)

где C  x  Rn : hi ( x)  0, i  1,..., m , f , hi : R n  R – выпуклые функции.
Пусть f , hi принимают конечные значения при любых x . Будем рассматривать
штрафные функции вида
S ( x, s)  f ( x)  s  h ( x) , s  R, s  0 ,
(43)
где h( x)  max hi ( x), i  1,..., m , x  max{0, x} , и задачу: найти


S  (s)  min S ( x, s) : x  R n .
(44)
12
Штрафная функция S ( x, s ) точная при заданном значении штрафного коэффициента
s , если S  (s)  f  и решения задач (42) и (44) совпадают.
Выбор значений штрафных коэффициентов связан с определенными проблемами. В
работе [15] рассматривался подход, позволяющий построить процедуру автоматического
определения значений штрафных коэффициентов по ходу работы оптимизационного
алгоритма. Приведем краткое описание этого подхода. Будем предполагать, что C
–
ограниченное замкнутое множество.
Пусть последовательность xk  Rn , k  0,1, ... , порождается при решении задачи (44)
некоторым сходящимся алгоритмом безусловной оптимизации при фиксированном значении
штрафного коэффициента s , каждой точке x k ставится в соответствие по некоторому правилу
точка y k  C . Такое правило можно задавать различным образом, например, полагать
y k  y0 , где y0 – начальная допустимая точка, такая что h( y 0 )  0 .
Обозначим:
x  lim x k – решение задачи безусловной оптимизации (44),
k 
S ' ( x, s, p) – производная функции S в точке x  R n по направлению p при
фиксированном значении s ,
p( x, y)  ( y  x) y  x , y  x ,
C ( x k , y k ) – точка пересечения отрезка  xk , y k  с границей C , если xk C ,


x k  C ( x k , y k ) .
Теорема 1 [15]. Пусть заданы числа   0 , s  0 и для каждого
xk ,
xk C , k  0,1, ... выполняется
S ' ( x k , s, p( x k , xk ))   .
(45)
тогда x является решением задачи (42), т.е. S ( x, s ) – точная штрафная функция.
Теорема 2 [15]. Пусть y k  y0 , k  1, 2, ... , где h( y 0 )  0 . Тогда существует s  
такое, что при любом s , s  s существует  ( s )  0 , для которых выполняются условия
теоремы 1.
13
Будем считать заданной начальную точку y 0  C такую, что h( y 0 )  0 . При
использовании предлагаемого подхода для подбора значения штрафного коэффициента s на
каждом шаге оптимизационного алгоритма необходимо проверять условие (45). Это требует
решения одномерной задачи поиска точки x k  C ( x k , y 0 ) пересечения отрезка  x k , y 0  с


границей множества C . Процедура такого поиска может быть реализована достаточно
эффективно.
В случае, когда неравенство (45) на некоторой итерации алгоритма нарушается, будем
увеличивать (на этой итерации) штрафной коэффициент s так, чтобы неравенство (45)
выполнилось. При этом увеличение штрафного коэффициента производится на величину не
менее B , где B  0 – заданный параметр. В силу теоремы 2 количество таких увеличений
штрафного коэффициента по ходу работы оптимизационного алгоритма будет конечно.
Если начальная точка y0 , такая что h( y 0 )  0 , неизвестна, то процесс решения задачи
распадается на два этапа – на первом необходимо найти точку y0 , на втором собственно
решается исходная задача.
6. Программная реализация и результаты вычислительных
экспериментов
Приведем особенности задач (5) и (23)-(26), полезные при использовании описанных
подходов:
1. Точка W 0  0 является внутренней точкой допустимого множества.
2. Оптимальные значения этих задач всегда больше или равны нулю.
3. Одномерный поиск точки на границе допустимого множества реализуется просто:
пусть k  (W k )2 – квадрат нормы точки W k , k  1 , тогда точка W 
Wk
k
является искомой точкой на границе допустимого множества..
4. Функции g t (W ) обладают свойством – g t (W )  g t (W ) .
Для этих задач был программно реализован метод точных штрафных функций с
описанной автоматической регулировкой штрафного коэффициента. Задачи безусловной
оптимизации, к которым сводились исходные задачи с ограничениями, решались с помощью
r -алгоритма Н.З.Шора [9].
Задача (27)-(30) приводится к виду
14


  min  v, v  C  (1  v, xt  v0 )   C  (1  v, xt  v0 )   ,
v,v0 
tT1
tT2


(46)
и для ее решения также использовался r -алгоритма Н.З.Шора.
Для проведения вычислительных экспериментов генерировались случайным образом
задачи построения линейных классификаторов для двух классов. Параметры задач изменялись
в пределах:
размерность n признакового пространства R n – от 5 до 100;
число точек в обучающей выборке – от 40 до 50 000.
Точки в обучающей выборке для каждого класса генерировались на основании
равномерного распределения внутри единичного куба. Эти кубы смещены относительно друг
друга по первой координате так, что расстояние между ними равно единице. Для каждой задачи
P0 , сгенерированной таким образом, формировалось семейство задач Pi , i  1,..., 10 за счет
уменьшения смещения между классами (кубами). Расстояние между классами задачи Pi равно
2i . Все задачи сформированных семейств являются линейно разделимыми.
Для построения линейно неразделимых задач (множеств) изменялась (переключалась)
принадлежность к классу некоторых точек обучающей выборки.
6.1. Результаты вычислительных экспериментов для линейно разделимых
множеств
При использовании метода точных штрафных функций с автоматической регулировкой
штрафного коэффициента все задачи сформированных семейств успешно решены (точность по
целевой функции ~ 106 ), число итераций r -алгоритма изменялось от ~ 100 для размерности
n  5 до ~ 1500 для размерности n  100 .
При использовании модели SVM (задача (46)) существенным является выбор
коэффициента C – в вычислительных экспериментах использовалось значение C  1000 , при
этом задачи Pi , i  5 сформированных семейств решались успешно (была найдена
разделяющая гиперплоскость), задачи Pi , i  7 решены не были (не найдена разделяющая
гиперплоскость).
Разработанные программные средства сравнивались с существующим программным
обеспечением (LIBSVM – http://www.csie.ntu.edu.tw/~cjlin/libsvm/). Время решения задач
построения линейного классификатора в пространстве размерности n  100 в зависимости от
15
числа точек в обучающей выборке приведено в таблице 1. Использовались стандартные
установки для LIBSVM.
Таблица 1.
Время решения, сек.
LIBSVM
Автоматическая
регулировка штрафного
коэффициента
5000
9.421
20.8
10000
24.234
24.3
25000
83.468
43
40000
186.484
51,1
50000
266.203
84,8
Число точек
6.2. Результаты вычислительных экспериментов для линейно разделимых
множеств
Рассматривались
задачи
небольшой
размерности
(размерность
признакового
пространства n  2 ). Проводилось сравнение качества решений (числа точек обучающей
выборки, классифицируемых неправильно), получаемых при использовании моделей (46) и (9)(14). Для решения задачи (9)-(14) использовался известный пакет программ CPLEX.
Полученные результаты приведены в таблице 2.
Т
Число
точек в
а
обучающей
б выборке
л
и
ц
а
2
.
Число
переключений
принадлежности
классам
Число точек, классифицируемых
неправильно
Модель SVM
Модель (9)-(14)
16
Литература
1. Vapnik V. Statistical Learning Theory. New York: Wiley, 1998.
2. Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. – К.:
Наукова думка, 2004. – 545 с.
3. Thorsten Joachims. Learning to Classify Text Using Support Vector Machines: Methods, Theory, and
Algorithms. Kluwer, 2002
4. Fung G. M., Mangasarian O. L. Multicategory Proximal Support Vector Machine Classifiers // Machine
Learning, 59, 2005, p. 77–97.
5. Chih-Wei Hsu, Chih-Jen Lin A comparison of methods for multiclass support vector machines // IEEE
Transactions on Neural Networks. – 2002, Volume 13, Issue: 2. – P. 415 - 425
6. Platt J.C., Cristianini N., Shawe-Taylor J. Large margin DAG’s for multiclass classification // Advances in
Neural Information Processing Systems. Cambridge, MA: MIT Press, 2000, vol. 12, pp. 547–553.
7. Zhuravlev Yu., Laptin Yu., A.Vinogradov Minimization of empirical risk in linear classifier problem // New
Trends in Classification and Data Mining, ITHEA, Sofia, Bulgaria, 2010. – Pages 9-15
8. Журавлев Ю.И., Лаптин Ю.П., Виноградов А.П. Минимизация эмпирического риска и задачи
построения линейных классификаторов // Кибернетика и системный анализ. 2011, № 4.- С. 155 – 164.
9. Shor N. Z. Nondifferentiable Optimization and Polynomial Problems. – Amsterdam / Dordrecht / London:
Kluwer Academic Publishers, 1998. – 381 p.
10. Yurii I. Zhuravlev, Yuryi Laptin, Alexander Vinogradov,
Nikolay Zhurbenko, Aleksey Likhovid.
Nonsmooth optimization methods in the problems of constructing a linear classifier // Int Journal Information
Models & Analyses (ISSN 1314-6416) 2012 Volume 1 Number 2 pp 103-111
11. Laptin Yu., Likhovid A. P., Vinogradov A.P. Approaches to Construction of Linear Classifiers in the Case
of Many Classes // Pattern Recognition and Image Analysis, Vol. 20, No. 2, 2010, p. 137-145.
12. Петунин Ю.И, Шульдешов Г.А. Проблемы распознавания образов с помощью линейных
дискриминантных функций Фишера // Кибернетика. – 1979. – № 6. – C. 134-137.
13. Рублев Б.В., Петунин Ю.И., Литвинко П.Г. Структура гомотетичных линейно разделимых множеств в
n-мерном евклидовом пространстве. – Кибернетика и системный анализ. Ч.1 – 1992. – № 1. – C. 3-15;
Ч.2 – 1992. – № 2. – C. 23-33.
14. Воронцов
К.В.
Машинное
обучение.
–
http://www.machinelearning.ru/wiki/
index.php?title=Машинное_обучение_(курс_лекций%2C_К.В.Воронцов)
15. Лаптин Ю.П. Некоторые вопросы определения коэффициентов негладких штрафов // Теорія
оптимальних рішень. 2012, № 11. – С. 73–79..
16. Лаптин Ю.П. Один подход к решению нелинейных задач оптимизации с ограничениями //
Кибернетика и системный анализ. 2009, № 3. С. 182 – 187.
17. Лаптин Ю.П., Лиховид А.П. Использование выпуклых продолжений функций для решения
нелинейных задач оптимизации // Управляющие машины и системы. 2010, № 6. – C. 25–31.
Download