МЕТОД ГЛАВНЫХ КОМПОНЕНТ

advertisement
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
КАМЫШИНСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ (ФИЛИАЛ)
ВОЛГОГРАДСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА
КАФЕДРА «АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ
ОБРАБОТКИ ИНФОРМАЦИИ И УПРАВЛЕНИЯ»
МЕТОД ГЛАВНЫХ КОМПОНЕНТ
Методические указания
к лабораторной работе
РПК «Политехник»
Волгоград
2004
3
УДК 519.2 (07)
М 54
МЕТОД ГЛАВНЫХ КОМПОНЕНТ: Методические указания к лабораторной работе / Сост. В. А. Марченко, Р. Н. Каримов; Волгоград. гос.
техн. ун-т. – Волгоград, 2004. – 23 с.
Излагается общая теория метода главных компонент, свойства метода, проверка статистических гипотез.
Рассматривается применение главных компонент для сжатия сигналов, в частности, задача сжатия стационарного случайного сигнала с дискретным временем и с коррелированными элементами, а также в задаче
классификации для выделения характерных признаков.
Предназначены для студентов, обучающихся по специальности 220200
«Автоматизированные системы обработки информации и управления»
очной и очно-заочной форм обучения по основной и сокращенной программам обучения.
Илл. 3. Библиогр.: 5 назв.
Рецензент М. И. Заставной
Печатается по решению редакционно-издательского совета
Волгоградского государственного технического университета
Составители: Вадим Александрович Марченко, Равиль Нургалиевич Каримов
МЕТОД ГЛАВНЫХ КОМПОНЕНТ
Методические указания к лабораторной работе
Под редакцией авторов. Темплан 2004 г., поз. № 204.
Подписано в печать 14. 09. 2004 г.
Формат 60×84, 1/16. Бумага потребительская. Гарнитура «Таймс»
Усл. печ. л. 1,44. Усл. авт. л. 1,31. Тираж 50 экз. Заказ
Волгоградский государственный технический университ
400131 Волгоград, просп. им. В.И. Ленина, 28.
РПК «Политехник»
Волгоградского государственного технического университета
400131 Волгоград, ул. Советская, 35.
Отпечатано в типографии «Новый ветер», ПБОЮЛ Выдолоб Л. Ф.
403875, Волгоградская обл., г. Камышин, ул. Ленина, 8/1.
 Волгоградский
государственный
технический
университет, 2004
4
ЛАБОРАТОРНАЯ РАБОТА № 5
МЕТОД ГЛАВНЫХ КОМПОНЕНТ
Цель работы: изучение основных свойств метода главных компонент
Время на выполнение лабораторной работы: 4 часа.
ВВЕДЕНИЕ
При обработке экспериментальной информации встречаются ситуации, когда данные типа «объект-признак» содержат общее число признаков до ста и более, а число объектов, как правило, в несколько раз превышает число признаков.
Классификация, создание новой структуры с меньшей размерностью
признакового пространства, хранение, передача по каналам связи, обработка и наглядное представление и интерпретация таких данных представляет трудности. Возникает проблема сокращения размерности признакового пространства. Такое сокращение возможно, так как в большинстве случаев признаки сильно взаимосвязаны (коррелированны) и, следовательно, данные избыточны с точки зрения информации и эта избыточность полностью определяется корреляционной матрицей исходных переменных X [3].
Для уменьшения избыточности, данные нужно подвергнуть сжатию.
Сжатие сводится к преобразованию исходного пространства X в другое
пространство Y, в котором можно выбрать подмножество, как правило,
ненаблюдаемых (латентных) переменных меньшей размерности L < P, не
вызывающее существенной потери информации. Выбор вида преобразования Y = f(X) и числа латентных переменных, объясняющих наблюдаемые переменные, зависит от конкретной специфики решаемой задачи и
должен опираться на критерий, который обеспечивает сохранение информации об X в сжатом образе Y. Для осуществления такого перехода к
новым переменным можно использовать статистические свойства матрицы X. Если данные имеют многомерное нормальное распределение, то
эти свойства определяются ковариационной (корреляционной матрицей)
«признак-признак».
Если переход к новым переменным осуществляется так, чтобы в преобразованном пространстве сохранялась большая часть суммарной дисперсии, то имеем дело с методом главных компонент (МГК). Если новые переменные находят из условия наилучшего воспроизведения ковариационной (корреляционной) матрицы, то имеем – факторный анализ.
ЗАДАНИЕ
1. Получить у преподавателя варианты задания исходных данных и
допустимую погрешность восстановления исходных данных по сжатому
образцу.
2. Составить программу преобразования МГК.
5
3. Выбрать число главных компонент.
4. Вычислить матрицу (вектор) сжатого образа.
5. Оформить отчет
ТЕХНИЧЕСКИЕ И ЯЗЫКОВЫЕ СРЕДСТВА
Для выполнения работы используется ПЭВМ и программы, составленные студентом.
Для проверки программ могут использоваться пакеты прикладных
программ MathCAD, STATGRAPHICS, STATISTICS, SPSS.
ТЕОРЕТИЧЕСКАЯ ЧАСТЬ
1. МЕТОД ГЛАВНЫХ КОМПОНЕНТ
Пусть задана ( p  n) -матрица наблюдений случайной векторной переменной X  [ X 1  X p ] с вектором средних μ x  [1 ,,  p ] и ковариационной матрицей Кх, определяющей структуру зависимости между переменными X j , j  1,, p . Нужно найти линейное преобразование, которое позволило бы получить сжатое представление исходных данных
меньшим числом переменных без существенной потери информации, содержащейся в исходной матрице. Преобразуем эти наблюдения (р×р) ортогональной матрицей вида
(1)
Ф  [1...  ] ,
p
где  j  [1 j ... p j ], ( j  1,, p) – система p-мерных ортонормированных векторов, т. е. для скалярного произведения (*,*) справедливо
1 при i  j,
(2)
( i ,  j )  
0 при i  j.
Тогда получаем случайную векторную переменную Y с некоррелированными компонентами
(3)
Y  [Y1...Y p ]  ФX ,
где Y j есть линейная комбинация координат признаков X j , j  1,, p
Y j  1 j x j1  ...   pj x jp , j  1,  , p.
Из (2) следует, что ФФ  ФФ  I и
Ф  Ф1 , поэтому X  ФY или
X  1 Y1  ...   p Y p .
Ковариационная матрица данных Х (по определению) равна
K x  M {( X  μ x )(X  μ x )} .
6
(4)
(5)
(6)
Определитель
ковариационной матрицы K x называют обобщенной дисперсией матрицы данных Х.
Ковариационная матрица K случайной векторной переменной Y
Kx
y
определяется выражением
K y  M {(Y  μ y )(Y  μ y )}  M {Ф(X  μ x )(X  μ x )Ф} 
(7)
 ФM {(X  μ x )(X  μ x )}Ф  ФK x Ф.
Так как K x и Ф являются квадратными матрицами, то определитель ковариационной матрицы K равен1
y
| K y || ФK xФ || ФФ || K x || K x | ,
(8)
т. е. обобщенные дисперсии матриц X и Y равны.
Наилучшее ортогональное преобразование должно обеспечить
наименьшую избыточность. Это означает, что матрица Y должна иметь некоррелированные компоненты Y j , j  1,, p . Другими словами, матрица
K y должна быть диагональной
K y  diag[ 2y ,,  2y ] ,
1
(9)
p
где  2 – дисперсия j-ой компоненты случайной векторной переменной Y.
y
j
Обозначим    2 , j  1,, p . Тогда
j
yj
| K y |  j 1 λ j .
(10)
p
Положим, что дисперсии упорядочены       0 . Если не все
1
2
p
равны
между
собой,
то
матрицу
Y
можно
сжать
отбрасыванием
комj
понент с пренебрежимо малыми дисперсиями. Пусть Y1  (n  1) -вектор
является первой главной компонентой матрицы X Y1   p i1 x1i .
i 1
Найдем дисперсию этой главной компоненты
 2y  1 K x 1   r 1  i 1 1i  r1M [( X 1  μ1 )( X 1  μ1 ) .
p
p
1
Потребуем, чтобы первая компонента Y1 имела наибольшую дисперсию при условии сохранения ортогональности векторов  i матрицы .
1
Определитель произведения квадратных матриц равен произведению определителей перемножаемых матриц.
7
Тогда задача нахождения наилучшего преобразования 1 сводится к
нахождению максимума функции 1 K x  при условии
1
(1 , 1 )  
p
2
j 1 1 j
 1.
Чтобы решить эту задачу оптимизации обычно вводят функцию Лагранжа
(11)
L   K x   λ (   1) ,
1
1
1
1 1
где 1 – множитель Лагранжа. Необходимое условие экстремума получим, приравняв нулю частные производные L / 1 :
L /  1  2K x 1  λ1 1  2(K x  λ1 I) 1  0 ,
(12)
где I – единичная матрица. Поскольку нас интересуют только решения,
при которых 1  0 , то должно удовлетворяться условие на определитель
K x  λ1 I  0 .
(13)
Отсюда следует, что 1 есть собственное число матрицы K x , а 1 – соответствующий этому числу собственный вектор. Выражение (12) может
быть переписано в виде K x   λ1 1 .
1
Умножая слева на
1
и учитывая соотношение (2), получаем
(14)
1K x 1  λ1 1 1  λ1 .
Левая часть равенства (14) есть  2 , а поскольку решалась задача
y1
максимизации  2 , следовательно, λ1 есть максимальное собственное
y1
число матрицы K x . Чтобы найти вторую главную компоненту Y2   X
2
потребуем выполнения двух условий – условия нормировки:
( 2 ,  2)   ip1  22i  1 и условия ортогональности: ( 2 ,  2) = 0. Вектор  2
определяется теперь так, чтобы  2y была максимальна при выполнении
2
двух указанных условий. Эта задача требует использования двух множителей Лагранжа λ и  . Мы должны максимизировать выражение
2
(15)
 K x 2  λ 2 (22  1)  β(1 2  1).
2
Взяв производную от выражения (15) и приравняв ее к 0, находим в
соответствии с условием (2), что β = 0. Учитывая условия нормировки,
получаем, что λ есть второе по величине собственное число матрицы
2
K x , равное дисперсии второй главной компоненты  2   2y , а  2 – соот2
ветствующий собственный вектор. Процесс повторяется до тех пор, пока
не будут найдены все собственные числа и ассоциированные с ними соб8
ственные векторы, которые являются дисперсиями и коэффициентами
линейных комбинаций главных компонент.
Таким образом мы нашли преобразование, задаваемое ортогональной матрицей , столбцы которой являются собственными векторами ковариационной матрицы K x .
С точки зрения геометрической интерпретации ортогональное преобразование есть вращение системы координат p-мерного векторного
пространства вокруг начала координат. Суммарная дисперсия компонент
векторной величины Y равна
p
 2  trM {(Y  μ )(Y  μ )}  trM {Ф( X  μ )( X  μ )Ф} .
 j 1
yj
y
y
x
x
Используя свойство следа произведения матриц2, имеем
 j 12y j
p
p
 trM {( X  μ x )( X  μ x )ФФ)}  trK x   j 1 2x j , или
 j 1 λ j  trK y  trK x ,
p
(16)
где trK y , trK x – следы матриц K y и K x .
Относительный вклад компоненты Y j в общую дисперсию случайной векторной переменной Y равен
p
p
(17)
 2y j /  j 1  2y j  λ j /  j 1 λ j  λ j / trK x .
Полученное преобразование максимизирует дисперсию первых компонент Y j , называемых главными компонентами, что обеспечивает
наилучшее сжатие. Это преобразование иногда называют преобразованием Карунева-Лоэва.
Если в преобразованном пространстве ограничиться r первыми компонентами матрицы Y, а остальные p  r положить равными нулю, то
получим сжатую матрицу случайной векторной переменной rY n с r
компонентами. Действительно, из r (r  p) собственных векторов формируется (r  p) -матрица ортогонального преобразования r Ф p  [1 r ] ,
определяемая соотношением Y  ФX . При этом обобщенная дисперсия
уменьшится на величину p λ .
 j  r 1
j
Для i-й главной компоненты имеем Yi  iX i , где  i  собственный
вектор, соответствующий собственному числу  i матрицы K x . Важность
i-й главной компоненты определяется ее вкладом в общую дисперсию
2
Если для матриц A и B определена операция AB = BA, то trAB = trBA.
9
(18)
σ 2yi /  j 1 σ 2y  λ i /  j 1 λ j.
p
p
j
Ортогональное преобразование не изменяет общей дисперсии. Если
ограничиться r первыми компонентами, то их доля в общей дисперсии
составит  r λ /  p λ . Остаточная дисперсия будет равна  p
λ j.
i 1 i
j 1
j  r 1
j
Таким образом, дисперсия остатков равна сумме дисперсий, соответствующих отброшенным компонентам вектора Y, и это справедливо для
любого ортонормированного преобразования. Приведенный критерий
сжатия называется дисперсионным. Для использования этого метода
нужно найти собственные числа матрицы K x , упорядочить их в порядке
убывания, выбрать такое количество компонент r, которое обеспечит заданную долю дисперсии остатков
p
p
p
(19)
2  
λ / trK  
λ / λ .
x
j  r 1
j
x
j  r 1
j
j 1
j
Сколько главных компонент следует выделять? Анализ главных
компонент является методом сокращения числа переменных. Возникает
естественный вопрос: сколько компонент следует выделять? Для последовательного выделения компонент можно воспользоваться дисперсионным критерием. Решение о том, когда следует остановить процедуру выделения компонент, главным образом зависит от точки зрения на то, что
считать малой долей дисперсии. Это решение достаточно произвольно,
однако имеются два критерия: критерий Кайзера (Kaiser) и критерий
каменистой осыпи Кэттелла (Cattell), которые в большинстве случаев
позволяют рационально выбрать число компонент.
При использовании критерия Кайзера отбираются только компоненты,
с собственными значениями, большими единицы. По существу, это означает, что если компонента не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается. Этот критерий
удобен при нахождении главных компонент по корреляционной матрице
исходных данных и является, вероятно, наиболее широко используемым.
Критерий каменистой осыпи является графическим методом. В этом случае рассматривается изображение собственных чисел, которые наносятся
на график в порядке их убывания. Выделение компонент заканчивается на
той компоненте, после которой исследуемая зависимость близка к горизонтальной и похожа на "каменистую осыпь" обломков горных пород,
скапливающихся в нижней части скалистого склона.
Критерий Кайзера иногда сохраняет слишком много факторов, в то
время как критерий каменистой осыпи иногда сохраняет слишком мало
факторов; однако оба критерия дают хорошие результаты, когда имеется
относительно небольшое число компонент и много переменных. На практике принимается тот критерий, для которого полученное число компонент может быть содержательно интерпретировано. Поэтому обычно исследуется несколько решений с большим или меньшим числом компонент, и затем выбирается одно наиболее "осмысленное".
10
1.1. Проверка статистических гипотез
При рассмотрении МГК мы полагали, что значения корреляционной
матрицы известны точно. На практике же главные компоненты оцениваются по выборочной ковариационной или выборочной корреляционной
матрице. Распределения оценок главных компонент очень сложны и построение теории проверки статистических гипотез представляет значительные трудности. Известны лишь асимптотические результаты, которые могут быть полезными при проверке гипотез о собственных числах.
Здесь мы рассмотрим две гипотезы.
Первая гипотеза связана с проверкой незначимости всей корреляционной матрицы по критерию Бартлетта:
(20)
 2  [n  (1 6)( 2 p  5)] ln | R | ,
который распределен по  2 с v  p( p  1) / 2 степенями свободы.
Нулевая гипотеза о том, что корреляционная матрица является незначимой отвергается, если  2   2 (v) , где  2 (v) – 100α % точка  2 распределения с v степенями свободы. Если при проверке гипотезы отвергается значимость всей корреляционной матрицы, то нахождение
главных компонент не имеет смысла.
Если корреляционная матрица значима, то можно найти главные
компоненты. После выделения r главных компонент возникает вопрос,
значимо ли различие между оставшимися главными компонентами. Проверка гипотезы осуществляется по критерию, предложенному Бартлеттом
1
2
,
(21)
 2  [n  (2 p  5)  r ] ln R
6
3
p r
который имеет приближенное  2 -распределение с v  ( p  r )( p  r  1) / 2
степенями свободы. Причем величина R p  r находится по формуле
 p  r i 
r
i 1
R p  r | R |  i 1  i 

pr


( p  r )
.
В формулах (20) и (21) самым трудоемким является вычисление
определителя корреляционной матрицы. Процедура анализа главных
компонент построена так, что в ней, как правило, находятся все собственные числа, поэтому определитель корреляционной матрицы легко
вычисляется по формуле | R |  p  i .
i 1
2. ПРИМЕНЕНИЕ ГЛАВНЫХ КОМПОНЕНТ ДЛЯ СЖАТИЯ
СИГНАЛОВ
Рассмотрим задачу сжатия стационарного случайного сигнала с дискретным временем и с коррелированными элементами. Корреляция элементов сигнала, с одной стороны обуславливает избыточность, а с другой
11
стороны, именно корреляция несет информацию о динамических свойствах источника, генерирующего этот сигнал. Поэтому мы полагаем, что
исходные данные предоставлены оптимальным шагом дискретности по
времени, позволяющим с заданной точностью восстановить корреляционные связи. Отсюда следует, что прямое сжатие сигнала путем отбрасывания части элементов вектора сигнала невозможно. При сжатии такого
сигнала возникают серьезные трудности как теоретического, так и технического плана. Многие трудности можно преодолеть с помощью ортогонального преобразования исходного вектора в вектор с некоррелированными элементами, который можно сжать методами квантования и кодирования при условии неравномерности распределения дисперсии элементов вектора.
Пусть задан сигнал в виде непрерывной последовательности с дискретным временем x (t i ) , i = 1, ..., N. Эту последовательность можно рассматривать как точку N-мерного векторного пространства E N . Тогда
каждый i-й отсчет представляет собой i-ю координату N-мерного вектора
x
(22)
x  [ x(t1 ) x(t N )]  [ x1  xn ] .
Будем считать, что вектор (22) является реализацией N-мерного ста-
X  [ X1  X N ] c совместной функцией плотности вероятностей f (x)  F ( x1 ,, x N ) , с вектором средних
μ  [1  N ] и ковариационной матрицей
ционарного случайного вектора
K x  M [( X  μ x )( X  μ x )]  [ K ij ]   2 R x ,
i, j  1,, N ,
где Rx – корреляционная матрица,  – дисперсия. Корреляция элементов
xi и x j , i, j  1,, N обуславливает избыточность вектора x, которую
2
изме-ряют по дифференциальной (относительной) энтропии H0(x) сигнала X
N
1
1
H 0  x   log 2 2  log R .
2
2
Если элементы вектора X некоррелированы, то log R 1  0 и дифференциальная энтропия максимальна. Отсюда следует, что при заданной
ковариационной матрице K x вектор X обладает избыточностью в среднем 0.5  log | R |1 бит на элемент вектора. Известно, что такой же избыточностью обладает цифровой сигнал, т. е. сигнал дискретизированный
по времени и квантованный по уровню.
12
Рассмотрим сжатие случайного сигнала, представленного в виде
вектора-столбца. Формулы, приведенные выше для случайной векторной
переменной, справедливы и в этом случае Y  [Y1 YN ]  ФX ,
где Ф – ( N  N ) -матрица ортогонального проектирования.
Элементы декоррелированного преобразованного сигнала Y являются
главными компонентами и имеют различные среднеквадратические откло2    2
yN
нения y1
. Преобразованный сигнал можно сжать с помощью
квантования. Например, значения сигнала, меньшие дисперсии квантования, можно не передавать и не хранить. При этом возможны различные
стратегии квантования и кодирования преобразованного сигнала. Наиболее
часто употребляют две стратегии сжатия – зональную и пороговую.
При зональной стратегии компоненты Y (трансформанты) разбивают на ряд областей (зон) по величине дисперсии  2 , i  1,, N .
y
i
Трансформанты каждой зоны квантуются и кодируются кодовой комбинацией с числом разрядов, пропорциональных средней дисперсии трансформант зоны. Если средняя дисперсия квантуемых трансформант зоны
меньше ошибки квантования, то эти трансформанты приравниваются нулю.
При пороговой стратегии кодирования для трансформант, превысивших некоторый заданный порог, устанавливается единый уровень
квантования и, следовательно, постоянная длина кодовой комбинации.
Значение, оказавшее ниже порога, приравнивается нулю. Рассмотрим
сжатие дискретного случайного сигнала на простейшем примере.
Пример 1. Дан гауссовский случайный вектор X  [ X 1 X 2 ] с дисперсиями  x21   2x 2  2x и с ковариационной матрицей K  M [( X  μ )( X  μ )]   2 1  ,
x
x
x
x
 1


где  – коэффициент корреляции величин Х1 и Х2. Требуемый коэффициент сжатия τ= 2. Найти относительную погрешность восстановления
исходного вектора по сжатым данным.
Найдем собственные векторы матрицы K x
1   0 
.
2
2
4
2
K x  I   2x 
   0     2 x   x (1   )  0

1

 

Отсюда получаем: 1  2x 1   , 2   2x (1  ) .
Для нахождения собственного вектора φ1, соответствующего собственному числу λ1, решаем систему уравнений
[K x  λ1 I] 1  0 или [K  λ I ]11   0

x
1 
21
13
2
при условии (1, 1)  11
  221 1 . Подставив значения Кх и λ1 получаем
 11  21  0 112  212  1 .
Отсюда 11  1 / 2 ,  21  1 / 2 ,
ственный вектор
2 
1 
1 1 . Аналогично найдем соб 
2 1
1  1 . Матрица ортогонального преобразова 
2  1
ния имеет вид: Ф  [  ]  1 1 1  . Матрица Ф переводит Х в вектор
1 2


2 1  1
Y  ФX  [Y1Y2 ] c независимыми гауссовскими компонентами Y1 и Y2 .
Y  ФX 
1 1 1  X 1 
1  X 1  X 2 .
1 1   


2    X 2
2  X 1  X 2
Нетрудно убедиться, что преобразование Ф является декоррелирующим, т. е. K y является диагональной матрицей:
1   0  и  2   2 (1  ),  2   2 (1  ) .
K y  M (Y  μ y )( Y  μ y )   2x 
y1
x
y2
x

 0 1  


Для коэффициента сжатия
τ = 2 сжатый вектор Y
Y
будет равен
1  X 1  X 2 .

0 
2
Оценка вектора Х, восстановленного по Y равна
X  ФY 
1 1 1 1  X1  X 2  1  X 1  X 2 
  


0  2 X1  X 2 
2 1 1 2 
Относительная погрешность восстановления вектора Х по Y опре2
 2x (1  )
1  .
деляется выражением (19)  2  || X ||  λ 2 

x
2
2
λ1  λ 2  x (1    1  )
2
|| X ||
2
Пусть   0,95. Тогда  x
 (1  0,95) / 2  0,025 , т. е. ошибка вос-
становления
вектора
X
по
сжатой
трансформанте
Y
равна
x  0,025  0,158 или 15,8 %.
3. ПРИМЕНЕНИЕ ГЛАВНЫХ КОМПОНЕНТ В ЗАДАЧЕ
КЛАССИФИКАЦИИ
Одной из важнейших проблем, возникающих в связи с созданием автоматизированных систем обработки этой информации, является автоматизация процессов распознавания и классификации этой информации.
Основными задачами распознавания являются:
14
1. Представление данных в виде вектора образа.
2. Выделение характерных признаков с целью снижения размерности. Это самая важная часть в теории распознавания и классификации.
3. Поиск оптимальных решающих процедур при идентификации и
классификации.
Здесь мы рассмотрим только вторую задачу – выделение признаков.
Выбор признаков можно осуществлять вне зависимости от методов классификации. Классификация, как правило, сводится к уменьшению расстояния между объектами внутри класса и максимизации расстояния
между классами. Одними из популярных методов уменьшения размерности признакового пространства являются методы, основанные на ортогональных преобразованиях. Достоинства этих методов заключаются в
том, что для их применения не нужно знать функцию распределения, и
они обладают численным дисперсионным критерием.
Среди всех ортогональных методов оптимальным является МГК.
Применим преобразование МГК для выбора размерности признакового
пространства. Рассмотрим М классов 1 , ,  M , образы которых представлены векторами X i , i  1,, M . Каждый образ описывается p признаками. Тогда наблюдения можно представить матрицей
X  {xij }, i  1,, M , j  1,, p .
Будем полагать, что известна априорная вероятность p (i ) появления i-го класса. При таких условиях порядок выделения признаков будет
следующим:
1. По образам, входящим в обучающую выборку находим ковариационную матрицу K x :
K x   i 1 p(i )M [ X i Xi ] ,
M
(23)
либо вычисляем ее оценку.
2. По K x находим собственные числа и ортонормированные собственные векторы.
3. Из r собственных векторов формируем (r  p) -матрицу ортогонального преобразования

(24)
Ф  1   r  .
4. Находим главные компоненты Yi  ФX i , i  1,, r . Поскольку
Ф – матрица размера (r  p ) и X i – p-мерный вектор, то очевидно, что
компоненты Yi при r  p представляют собой образы, имеющие размерность, меньшую p.
15
5. Производим классификацию одним из известных методов кластерного или дискриминантного анализов.
Необходимые условия применения МГК. Для того, чтобы применение
МГК приводило к получению оптимальных результатов, необходимо выполнение условия MYi  0 , что равносильно условию MX i  0 . Последнее выполняется автоматически, если отдельные классы характеризуются
нулевыми математическими ожиданиями. На первый взгляд может показаться, что проблему можно решить, центрируя образы отдельных классов относительно соответствующих математических ожиданий. Однако
при решении распознавания образов отсутствуют сведения относительно
принадлежности образа определенному классу. Естественно, затруднения
не возникают, если математические ожидания всех классов равны.
Пример 2. Этот пример заимствован из книги [5]. Пусть даны два
класса образов 1 и 2 , каждый из которых описывается тремя параметрами. Образы представлены на рис. 1 и в координатах – на странице 12.
X3
(011)
(001)
(111)
(101)
(010)
Рис. 1. Исходные образы
X2
(000)
(100)
(110)
X1
1
2
0 
,
x11  0
0
0 
,
x 21  0
1 
x12
1 
,
 0
0
x 22
0 
,
 1 
0
x13
1 
,
 0
1 
x 23
0 
,
 1 
1 
x14
1 
,
 1 
0
1
.
x 24  1
1
16
Вычислим собственные числа и соответствующие им собственные
векторы ковариационной матрицы K x
1
 0
1
  2
1   , λ3  ,   1  1  .
λ1  1 ,   1 1 , λ2  1 ,
1
1
4 3
4 2 
3
2 
6 
1
 1
 1 
A. Выберем собственные числа 1 и  2 и соответствующие им
собственные векторы. Получим матрицу преобразования
 1

Ф 3
 2

6

1
3
1
6

1 

3 .
1 
6 
Находим векторы главных компонент для обоих классов
y1 j  Фxij , y 2 j  Фx 2 j
1
y11
y 12  
y 13 
2
0 
 ,
0 
1  2 ,
 
6  2
1 2 2  ,


6  1 
y 21 
1  2 ,
 
61 
y 22 
1  2 ,
 
6 1 
y 23 
1 2 2  ,


6 2 
1 3 2 
.
y 24 


1 2 2  .
0
6
y 14 




6  1 
Соответствующие образы представлены на рис. 2. Разделимость
объектов в сжатом пространстве сохранилась.
Кластер
содержит
2 образа
6 y2
2
4
-2
6 y1
Кластер
содержит
2 образа
Рис. 2. Образы, сжатые до двумерного варианта
17
B. Рассмотрим матрицу преобразования Ф  (1 / 3 )1 1 1 , содержащую только один собственный вектор, соответствующий первому собственному числу. Это преобразование переводит образы в точки:
2
1
y11  0 ,
y12
y 21  3 ,
 3,
y 22  3 ,
y13  2 3 ,
y14
y23  2 3 ,
2 3.
y 24  3 3 .
Соответствующие образы представлены на рис. 3, из которого видно, что образы, принадлежащие к разным классам, перекрываются, поэтому такое сжатие нежелательно.
Кластеры, содержащие три
образа из разных классов.
1
 3
0
1
2
3
4
y
5
Рис. 3. Образы, сжатые до одномерного варианта
ТРЕБОВАНИЯ К ОТЧЕТУ
Отчет должен содержать следующие разделы:
1. Название и цель работы;
2. Номер варианта задания и исходные данные;
3. Корреляционную матрицу исходных данных, собственные числа
и собственные векторы;
4. Значение главных компонент;
5. Погрешность;
6. Выводы.
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Имеет ли значение, какую матрицу использовать в анализе МГК
– ковариационную или корреляционную?
2. Когда использование ковариационной матрицы предпочтительнее?
3. В какой шкале должны измеряться исходные данные?
4. Какова геометрическая интерпретация ортогонального преобразования?
5. Объясните сущность зонального и порогового сжатия?
18
ЛИТЕРАТУРА
1. Ахмед Н., Рао К. Р. Ортогональные преобразования при обработке цифрофых сигналов / Пер. с англ. – М.: Связь, 1980. – 248 с.
2. Больч Б., Хуань К.Дж. Многомерные статистические методы для экономики / Пер.
с англ.– М.: Статистика, 1979. – 317 с.
3. Большаков А. А., Каримов Р. Н. Методы сжатия информации. Сарат. политехн.
инст-т, Саратов, 1991. – 88 с.
4. Каримов Р. Н. Обработка экспериментальной информации. Ч. 3. Многомерный
анализ. Сарат. техн. ун-т, Саратов, 2000. – 104 с.
5. Ту Дж., Гонсалес Р. Принципы распознавания образов: Пер. с англ. – М.: Мир, 1978.
– 411 с.
19
Download