Министерство образования и науки Агентство по образованию Томский политехнический университет

advertisement
Министерство образования и науки
Агентство по образованию
Томский политехнический университет
Кафедра высшей математики и математической физики
«УТВЕРЖДАЮ»
Зав. каф. высшей математики и
математической физики ТПУ
профессор, д-р ф.-м.н.
____________А.Ю. Трифонов
20 июня 2007 г.
УДК 517
Многомерные
статистические
методы:
Учебно–
методическое пособие по многомерным статистическим
методам для студентов специальности 080116 «Математические методы в экономике». – Томск: Изд. ТПУ,
2007. – 50 с.
Составитель
доцент О.Л. Крицкий
Рецензент
доцент М.Л. Шинкеев
МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ
МЕТОДЫ
Учебно–методическое пособие рассмотрено и рекомендовано научно – методическим семинаром кафедры
высшей математики и математической физики
20.06.2007 г., протокол №27.
Томск 2007
Зав. каф. ВМиМФ, профессор
/Трифонов А.Ю./
ВВЕДЕНИЕ
Многомерные статистические методы (МСМ),
представленные в данном пособии, активно используются в аналитической практике. Они являются своего
рода интеллектуальным инструментарием современного
исследователя, позволяющим находить решение широкого спектра экономических задач. В первую очередь
это задачи статистического исследования динамики
структурного изменения, выявления латентных факторов, определяющих течение того или иного социально–
экономического процесса, построения интегральных индикаторов качества и эффективности функционирования
социально–экономической системы, типологизации социально–экономических объектов.
Теоретические основы МСМ базируются на обобщении классической одномерной статистики. Тем не
менее, их спецификой являются трудоемкие алгоритмы
реализации вычислительных процедур, что приводит к
активному использованию компьютерной техники. В то
же время, аналитические результаты МСМ обладают
сложной интерпретируемостью. Все это требует от исследователя или студента достаточно высокой математической подготовки.
МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ
1
СЛУЧАЙНЫЕ ВЕЛИЧИНЫ
Нормальные случайные величины играют основополагающую роль в теории МСМ.
Определение: многомерной случайной величиной
(МСВ) называется функция   1 ,  2 ,,  n  :    n ,
отображающая вероятностное пространство в n-мерное
евклидово пространство.
Определение: матрицей ковариаций А для МСВ 
называется матрица с элементами
ai j  E i  E  i  j  E  j .
Матрица ковариаций характеризует степень случайного разброса компонент  i МСВ  , поэтому ее
определитель служит для нахождения обобщенной дисперсии.
Определение: матрицей корреляций R для МСВ 
называется нормированная ковариационная матрица,
элементы которой задаются соотношением
ai j
.
ri j 
ai i  a j j
Замечание: матрицу R часто называют еще матрицей парных корреляций между одномерными случайными величинами  i и  j .
Для оценки A и R на некоторой совокупности эмпирических данных часто используют выборочные матрицы ковариаций и корреляций.
Определение: выборочной матрицей ковариаций
 назовем матрицу вида:
1
Aˆ   X   T  X    ,
k
где k–число векторов в генеральной совокупности (размер выборки), X – выборочная матрица, μ – вектор вы2
борочного математического ожидания, каждая компонента которого вычислена по соответствующему столб1 k
цу матрицы X:  j   X ij , j  1, n. При этом предполаk
i 1
гается, что исходные данные выборок записаны в столбцах X.
Определение: выборочной матрицей корреляций R
называется матрица, состоящая из элементов вида
ri j  ai j

ai i  a j j
1 .
Определение: если  i ~  a,  2  , i  1, n – независимые нормально распределенные случайные величины
2
с плотностями f xi   1/  2  exp  xi  a  / 22 , то
многомерной нормально распределенной случайной величиной   1 ,  2 ,,  n    n
называется вектор
 ~  ( M , A) , где М – вектор математических ожиданий,
А – матрица ковариаций, имеющий плотность распределения


f  x1 ,, x n   1 / 2


2 n/2


 1 n x  a 2
 exp     i
2
 2
i 1 


.


Можно показать, что при выполнении условий
данного определения функция f   x  может быть представлена в виде


 1

f  x   1 / 2n / 2  exp     X  M T  A1   X  M   .
 2

Для нормально распределенных МСВ справедливы
следующие утверждения:
1) МСВ , полученная линейным преобразованием
  C    d из нормально распределенной МСВ
1
 ~  ( M , A) , так же является распределенной нор-
мально, причем  ~ (C  M  d , C T AC ) .
2) Если  ~  ( M , A) , то любой подвектор вектора 
будет нормально распределенной случайной величиной.
3) Пусть ,  ~  ( M , A) . Тогда для независимости  и
 необходимо и достаточно, чтобы корреляция межу
ними была равна нулю.
Замечание: независимые случайные величины  и
 , имеющие произвольное распределение, не обязательно нормальное, всегда некоррелированны. Однако
обратное утверждение, вообще говоря, неверно.
Нормальное распределение МСВ применяется в
теории многомерного статистического анализа повсеместно. Наиболее естественной и простой областью его
использования является множественный регрессионный
анализ.
РЕГРЕССИОННЫЙ АНАЛИЗ
Регрессионный анализ – это статистический метод
исследования функциональной связи случайной величины y от переменных x i , i  1, n , рассматриваемых как
неслучайные (известные) МСВ с произвольной функцией распределения. При этом предполагается, что y  m
имеет нормальный закон распределения с условным математическим ожиданием y  E x1 ,, xn  и с постоянной, не зависящей от xi , i  1, n , дисперсией  2 .
Функциональную связь принято называть уравнением регрессии, переменные x i – «входными», y называют откликом или выходной переменной.
2
В большинстве случаев функциональную зависимость полагают линейной, т.е. решают следующее уравнение регрессии:
(1)
y  0  1x1   2 x2     n xn   ,
где  i – неизвестные параметры, y – оценка для МСВ y,
  1 ,,  n  – вектор ошибок, причем  i ~  0,  2  .
Вектор  характеризует неучтенные в (1) переменные (скрытые факторы), а так же случайные ошибки
измерений.
Наряду с линейными моделями вида (1) используют и нелинейные /1/, например, полиномиальную, логарифмическую, инверсионную, тригонометрическую,
степенную и другие модели. Их применяют, если в результате анализа данных получают статистически ненадежную регрессионную модель (1) .
Для
нахождения
вектора
параметров
  0 , 1,,  n  используют метод наименьших квадратов, для чего минимизируют вектор ошибок:
D 
1 n 2 1 n
  i     yi  yi 2  min
n i 1
n i 1
(2)
Так как из (1)   y  X , то решение задачи (2)
можно получить из соотношения

T  X T X
1 X T y .
Определение: пусть R – матрица корреляций переменных y  x0 , x1, x2 ,, xn  . Пусть R00 – алгебраическое
дополнение элемента r00 этой матрицы. Множественным коэффициентом корреляции называется число
1
R y2  1  det RR00
.
K d  R y2  1  D D 1  y  .
Коэффициент детерминации определяет наличие
функциональной связи вида (1) или более сложной. Если
K d  0, то D  D y , т.е. вектор ошибки сравним с
откликом и неучтенные в (1) переменные будут определяющими. Следовательно, линейная связь между
 x1 , x2 ,, xn  и y отсутствует. Если K d  1, то D  0.
Значит, переменные  x1 , x2 , , xn  однозначно определяют вектор y .
После нахождения параметров регрессионной модели для определения типа связи в модели (1) требуется
Kd
вычислить коэффициенты
или
R y2 . Если
0,01  K d  0,09, то связь между  x1 , x2 , , xn  и y слабая,
недостаточно
подтвержденная.
Если
0,10  K d  0,49, то говорят о наличии средней связи.
При K d  0,5 применение (1) теоретически обосновано
и связь сильная. В этом случае необходимо провести
дополнительное статистическое исследование. Оно состоит из статистического оценивания регрессионной
модели, статистического оценивания надежности коэффициентов регрессии  i и множественного коэффициента корреляции R y2 .
Статистическое оценивание регрессионной модели
проводится по F–критерию Фишера /2/. Вычисляют статистику FH 

m – число компонент вектора y.
По таблицам определяют FT при заданном уровне
Определение: коэффициентом детерминации называется число
7

1
m  n 1
  XT  X  y   XT  y   X , где
n 1
8
значимости  и числе степеней свободы 1  n  1 и
 2  m  n  1 . Надежность регрессионной модели подтверждается, если FH  FT .
Статистическое оценивание надежности коэффициентов регрессии  i производится с помощью t – критерия Стьюдента /2/. Вычисляют статистику:

t H i   i ,
si
где si 
 y  XT   y  X  cii
m  n 1
– средняя ошибка для


1
i , cii –диагональные элементы матрицы X T X .
Наблюденное значение t H i  сравнивают с табличным tT при заданном уровне значимости  и числе степеней свободы   m  n  1 . Значимость i подтвержда-
ется, если t H i   tT .
Статистическое оценивание множественного коэффициента корреляции или коэффициента детерминации производится с помощью F–критерия Фишера. Вычисляют статистику Снедекора:
1
mn
FH 
 R y2  1  R y2 .
n 1
Наблюденное значение FH сравнивают с табличным FT при заданном уровне значимости  и числе сте-


пеней свободы 1  n  1 и  2  m  n . Значимость Ry2
или K d подтверждается, если FH  FT .
МЕТОД КАНОНИЧЕСКИХ КОРРЕЛЯЦИЙ
9
Метод канонических корреляций является обобщением регрессионного анализа на случай нескольких
откликов. Он предназначен для статистического анализа
связей между массовыми явлениями и процессами. Цель
применения метода заключается в нахождении максимальных корреляционных связей между группами исходных переменных: факторами x1 ,, xn и качественными показателями y1 ,  , ym , m  n . В случае линейной
зависимости между какими–либо элементами двух
групп корреляция достигает максимального значения,
равного единице. Поэтому канонический анализ позволяет оценить степень тесноты различных внутригрупповых функциональных связей, а так же определить количество малозначительных факторов и откликов, имеющих между собой наименьшую корреляцию. В связи с
малой информативностью последние можно исключить
из дальнейшего анализа и тем самым сократить объем
данных.
Пусть имеются нецентрированные исходные переменные X и Y . Пусть выполнены соотношения вида:
u  1 x1   2 x2     n xn ,
(3)
v  b1 y1  b2 y2    bm ym ,
(4)
причем u  u1 ,, uk , v  v1 ,, vk  ,  i и b j – неизвестные параметры, i  1, n , j  1, m .
Задача метода заключается в нахождении таких
пар векторов u i , v j , что корреляция между ними будет
наибольшей и u i будет наилучшим образом предсказываться значениями v j . Вектора u, v принято называть
каноническими переменными.
10
Для нахождения канонических переменных составляется блочная выборочная матрица ковариаций вида:
A12 
A
 ,
A   11
T
A
A
22 
 12
где A11 – матрица ковариаций МСВ x1 ,, xn , A22 – матрица ковариаций МСВ y1 ,, y m , A12 – матрица ковариаций МСВ x1 ,, xn , y1 ,, y m .
На практике достаточно объединить данные в одно
множество  x1 ,, xn , y1 ,, y m  и построить матрицу А.
Затем, учитывая размерности A11 и A22 , вырезать готовые блоки.
Пусть Eu   Ev  0, Du   Dv  1 . Используя
эти соотношения можно показать, что
(5)
corr u, v   T A12b  covu, v  .
Для того чтобы (5) достигало максимума, необходимо определить , b из условия экстремума соответствующей функции Лагранжа


L   T A12b   T A11  1  b T A22b  1 .
2
2
Находя частные производные по , b и приравнивая их нулю, получаем систему
 A12b  A11  0
 t
 A12   A22b  0,
решение которой будет нетривиальным в случае равенства нулю ее определителя. Имеют место соотношения:
1 T
1 T
A111 A12 A22
A12  2 E   0, A22
A12 A111 A12  2 E b  0.
Таким образом, задача определения максимальной
корреляции между каноническими переменными сведена к задаче определения собственных значений матриц



11

1 T
1 T
A111 A12 A22
A12 и A22
A12 A111 A12 и их собственных векторов.
Учитывая, что размерность матриц равна равна n  n и
m  m , получаем n собственных чисел 21  22    2n , m
собственных векторов b и n собственных векторов .
Т е о р е м а 1 : числа 1 ,  2 ,  3 ,...,  n равны корреляциям
между соответствующими каноническими переменными.
Согласно теореме, корреляция corr u, v  достигает
максимального значения при наибольшем . Поэтому
для определения пар ui , v j  достаточно найти все ,
упорядочить их по убыванию, затем вычислить соответствующие им b,  и, используя соотношения (3), (4),
найти требуемые пары канонических переменных.
Замечание: согласно методу канонических корреляций corr u i , u j   corr vi , v j    i j .
Для статистической проверки значимости найденных канонических переменных используется  2 – критерий. При этом если определены первые n канонические
корреляции, то последовательно для каждого s, s  2, n ,
вычисляется статистика
s 1

1

  n
 2H  k  s  m  n  1   K d , p   ln   1  K d , p  ,
2
p 1
  ps


где k – размерность векторов x1 ,, xn , y1 ,, y m , K d , p –
множественный коэффициент корреляции, найденный
по переменным x1 ,, xn с алгебраическим дополнением
R0 p .
12
Заметим, что вычисление статистики  2H следует
проводить до тех пор, пока подтверждается значимость
пар. Как только значимость какой–либо пары, например
p-ой, не подтверждается, вычисления прекращаются, так
как в этом случае все корреляции, начиная с p-ой, будут
равны нулю. Это происходит в силу того, что
0  corr   p   p 1     m .
Проведенный анализ позволяет отсеять /3/ слабокоррелированные факторы и показатели. Полученная
таким образом компактная, максимально информативная система данных может служить основой для дальнейших исследований, например, при помощи методов
факторного анализа.
МЕТОД ГЛАВНЫХ КОМПОНЕНТ
Обычно в начале исследования некоторого явления
с интересующего нас объекта снимается большое число
параметров и замеряется большое число характеристик
x1 ,, xn . Среди них не все являются линейно независимыми друг относительно друга. Если существует достаточно много зависимых между собой признаков, то их
нужно исключить, уменьшая избыточную информацию
и переходя к признакам y1 ,, y m , m  n .
Сформулируем задачу метода главных компонент
более точно:
1) Коррелированность y1 ,, y m уменьшает информацию об объекте, так как корреляция говорит о связи
между признаками;
2) чем в более широких пределах меняются признаки,
тем более они информативны и тем меньше их число
требуется. Поэтому от выбранной совокупности
y1 ,, y m потребуем максимальной дисперсии.
13
Пусть   x1 , x2 ,, xn   n – многомерная слуT
чайная величина,  ~  ( M , A) . Пусть u   y1 , y2 ,, ym 
T
или u  u1 , u 2 ,, u m  – матрица признаков меньшей
размерности
или
вектор
главных
компонент,
u ~  (0, A) . Рассмотрим систему вида:
T
u i    M  (i ) ,
(6)
где  (i ) – неизвестные коэффициенты, i  1, m.
Так как Du i    (i )T A (i ) , то задача нахождения
максимума дисперсии Du i  выглядит следующим образом:
 ( i )T A ( i )  max
(7)
 ( i )T ( i )
   1.
Последнее равенство является условием ортонормированности коэффициентов системы (6), что гарантирует существование и единственность ее решения.
Задача (7) на нахождение условного экстремума
решается методом множителей Лагранжа. Функция Лагранжа при этом будет иметь следующий вид:
L   (i )T A (i )   (i )T  (i ) .
Можно показать, что условный экстремум достигается
на
решениях
матричного
уравнения
(i )
 A  E   0 . Условие ортонормированности обеспечивает выполнение равенств Du i    , i  1, m. Значит,
для достижения максимума дисперсии необходимо
найти все собственные числа  матрицы ковариаций A
и выбрать максимальное. В силу симметричности A будет n различных  .
14
Пусть 1   2     m   m1     n  0. Тогда
первая компонента u вычисляется в соответствии с (6):
u1    M  (1) ,
где  (1) –собственный вектор, соответствующий  1 .
Для получения следующей компоненты u 2 наряду
с (7) потребуем некоррелированности u 2 с u1 . Так как
covu1 , u 2 
corr u1 , u 2  
 0 тогда и только тогда,
Du1  Du 2 
когда covu1 , u 2    (1)T A ( 2)  0 , то задача нахождения
максимума дисперсии Du 2  будет следующей:
 ( 2)T A ( 2)  max
 ( 2 )T ( 2 )
(8)
   1
 (1)T A ( 2)  0.

Решение (8) производится по аналогии с решением
(7). Можно показать, что условие некоррелированности
не дает новой информации о структуре решения. Как и
ранее, для достижения максимума дисперсии необходимо взять максимальное собственное число матрицы ковариаций A . Так как  1 задействовано на первом шаге,
выбирается  2 . Тогда вторая компонента имеет вид:
u 2    M  ( 2) ,
где  ( 2 ) –собственный вектор, соответствующий  2 .
Повторяя процедуру n  2 раз, находим u1 ,, u n .
После определения всех компонент вектора u возникает
вопрос о сокращении их числа, требуемого по условию
задачи, т.е. о выделении главных компонент. Для решения этого вопроса рассмотрим так называемый след
n
n
i 1
i 1
что  Du i   sp A   Dxi    aii . Зная sp A , выбираn
n
n
i 1
i 1
i 1
ют только те главные компоненты u1 ,, u m , для которых соответствующие им собственные числа обеспечивают выполнение неравенства:
m
4
  i  sp A ,
5
i 1
т.е. главные компоненты должны объяснять не менее
80% всей дисперсии.
Наряду со следом матрицы ковариаций можно использовать и ее определитель, так как
det  AU   det  AX  ,
где AU – матрица ковариаций признаков, AX – матрица
ковариаций исходных данных. В этом случае необходиm
4
мо выполнение неравенства   i  det AX .
5
i 1
ФАКТОРНЫЙ АНАЛИЗ
Факторный анализ является естественным обобщением и развитием метода главных компонент. Если
объект описывается с помощью n признаков, то в результате действия метода получается математическая
модель, зависящая от меньшего числа переменных. При
этом предполагается, что на исходные измеряемые данные x1 ,, xn оказывает влияние небольшое число латентных признаков. Цель факторного анализа заключается в выявлении этих скрытых характеристик (факторов) и оценивании их числа.
Запишем факторную модель в общем виде:
матрицы ковариаций sp A   aii    i . Известно /2/,
15
16
X i   (i ) T U   i ,
(9)
где X i ~  0,  2 , U  u1 ,, u m  – факторы,  (i ) – факторные нагрузки,  i – латентные факторы, i  1, n.
Техника факторного анализа направлена на определение факторных нагрузок, дисперсий характерных
факторов и значений факторов для каждого наблюдаемого объекта.
Однофакторная модель
Пусть вектор U содержит одну компоненту u1 .
Обозначим ее через f   f1 ,, f m  . Тогда (9) можно переписать в виде:
X (ji )   j f i   ij ,
где i – индекс наблюдения, j – индекс компоненты центрированного
вектора
исходных
данных
X , j  1, n, i  1, m.
Нахождение факторной нагрузки  и фактора f
осуществляется методом наименьших квадратов из
условия минимизации  ij :

D     i2 j   X (ji )   j f i
n
m
j 1 i 1
n
m
j 1 i 1

2
 min
(10)
Накладывая на f   f1 ,, f m  условие нормировки
1 m
D f     f i 2  1 и дифференцируя (10) по  j , f i , поm i 1
лучаем следующие соотношения:
1 m
1 n
(11)
f i   X (ji )  j ,  j   X (j i ) f i ,
m i 1
 j 1
n
где     2j .
Подставляя первое равенство из (11) во второе и
1 m
учитывая, что a s j    X s(i ) X (j i ) –выборочная матрица
m i 1
ковариаций A для нормально распределенных случайных величин X i ~  0,  2 , имеем:
A  E   0 .
Таким образом, получили задачу на собственные
числа и собственные вектора выборочной матрицы ковариаций.
По аналогии, подставляя второе равенство из (11) в
первое, имеем:
1 m n
(12)
   f s X (j s ) X (ji )  f i .
m s 1 j 1
Если теперь ввести в рассмотрение матрицу P с
нецентрированными элементами матрицы S исходных
1 n
данных p s i    S (j s ) S (ji ) , то (12) может быть записаm j 1
но в виде:
P  E  f  0 .
Значит, фактор f и факторная нагрузка  могут
быть найдены как собственные вектора матриц P и A
соответственно. Следует отметить, что при этом необходимо использовать такое  , чтобы дисперсия латентных факторов (10) принимала наименьшее значение.
Можно показать, что минимум дисперсии достигается
при наибольшем собственном числе матриц A и P .
Двухфакторная модель
Запишем двухфакторную модель в виде:
X (ji )   (j1) f i (1)   (j2) f i ( 2)  ij , j  1, n, i  1, m,
j 1
17
18
вторым наибольшими по величине собственными числами матрицы A .
Вводя в рассмотрение матрицу P c центрированными элементами исходных данных по формуле
причем на f i (1) , f i ( 2 ) накладывают условие взаимной неm
коррелированности  f i (1) f i ( 2)  0 и условие нормировки
   D f   1 .
D f
(1)
i 1
( 2)
ps i 
Нахождение факторных нагрузок и факторов
осуществляется с помощью метода неопределенных
множителей Лагранжа из условия минимизации  ij . Так

как D   X
n m
j 1 i 1
(i )
j
  fi  
(1)
j
(1)
( 2)
j
fi

( 2) 2
P  E  f


i 1
, то функция Ла-
 
i 1

~, 
~ – неизвестные множители.
где 
Для нахождения условного экстремума дифференцируем функцию Лагранжа по  (j2) , f i ( 2) и приравниваем
найденные производные нулю:
n
1 m
 f i ( 2)   f i (1)   X (ji )  j ,  (j2)   X (ji ) f ( 2) , (13)
m i 1
j 1
n
n
2
~   ( 2) ,   
~   (1)  ( 2) .
где   

j
j 1


j
j 1
j
Можно показать, что   0 . Тогда (13) совпадает с
(11) и имеет место случай однофакторной модели, причем за фактор взят вектор f ( 2) . Решение этой задачи известно:  ( 2) – собственные вектора матрицы ковариаций
 
n
2
1 m (i ) (i )
  X s X j ,     j2  – ее собственные чисm i 1
j 1
ла. При этом дисперсия D  достигает минимума, если
as j 
n
 
  1    (j1)
j 1
2
n
 
и    2    (j2)
j 1
19
2
будут первым и
и учитывая выполнение соотношения
 0 , полученного ранее в однофакторной моде-
ли, определим факторы f (1) , f (2) как собственные век-
гранжа определяется следующим равенством:
m
2
~ m f ( 2) 2  2 
~  f (1) f ( 2) ,
L   X (ji )   (j1) f i (1)   (j2) f i ( 2)  
 i
i
i
i, j
1 n ( s ) (i )
X X j
m j 1 j

тора матрицы P, соответствующие ее первым максимальным по абсолютной величине собственным числам
1 и  2 .
Рассмотрение общего случая p–факторной модели
производится в полном соответствии с двух- или однофакторной моделями. Однако следует помнить, что при
вычислении факторов и факторных нагрузок необходимо задействовать уже p наибольших по величине собственных чисел и p соответствующих им собственных
векторов.
Найденные f (1) , f ( 2) образуют в пространстве
признаков новый базис, а (j1) , (j2) играют роль координат X 1 , , X n в этом базисе.
После определения факторов исследователю зачастую требуется оценить уровень информативности или
вклад фактора в суммарную дисперсию всех признаков.
Определение: пусть имеется n-факторная модель.
Пусть f ( p ) – некоторый фактор, p  n . Вкладом фактора
f ( p)
в суммарную дисперсию всех признаков называет-
n
2
ся число V  p     jp     p , где  p – собственное


j 1
число выборочной матрицы ковариаций A .
20
Очевидно, что для n-факторной модели общая
дисперсия есть V0  V  p  . В этом случае V0 называют
n
p 1
еще суммарной общностью факторов f (1) ,..., f (n) .
Определение: долей фактора f ( p ) в суммарной
общности называется отношение V  p  /V0 . Оно характеризует долю, которую вносит фактор f ( p ) в факторную
модель.
Определение: пусть 1   2     n – собственные числа выборочной матрицы ковариаций A . Пусть
собственному числу  p соответствует фактор f ( p ) и
имеются факторные нагрузки  (s1p ) , (s2p ) , , (skp ) , которые, в свою очередь, являются наибольшими по абсолютной величине координатами вектора  ( p ) . Тогда
 
k


число K u  ( p ) 
j 1

( p) 2
sj
 ( p)
называется коэффициентом
2
информативности признаков X s1 ,, X sk  .
Данное число определяет, какие вектора из множества X 1 , , X n вносят наибольший вклад в название
f ( p ) . Принято считать набор объясняющих признаков
X s1 ,, X sk удовлетворительным, если 0,7  K u  ( p )   1.
терию или их совокупности. При этом считается, что
отсутствует дополнительная информация о характере
исходных данных. Кластерный анализ позволяет
1) провести классификацию объектов с учетом признаков, отражающих их сущность;
2) проверить предположения о наличии некоторой
структуры в совокупности этих объектов;
3) построить новые классификации для слабоизученных явлений, когда необходимо установить наличие
связей внутри совокупности и структурировать их.
Методы кластерного анализа подразделяются на
агломеративные (объединяющие), дивизимные (разделяющие) и итеративные. Особенностью последних является формирование кластеров исходя из условий разбиения (т.н. параметров), которые могут быть изменены в
процессе работы алгоритма для улучшения качества
разбиения.
Для проведения классификации данных X 1 , , X n используют понятие метрики или расстояния.
Определение:
метрикой
называется
функция
 : M   , отображающая некоторые метрическое пространство в пространство действительных чисел и обладающая следующими свойствами (аксиомами метрики):
1)  X , Y   0, 2)  X , Y   Y , X  , 3)  X ,Y   0 
X  Y , 4)  X , Y    X , Z   Z , Y .
В теории кластерного анализа используются следующие метрики:
КЛАСТЕРНЫЙ АНАЛИЗ
Кластерный анализ – это анализ, позволяющий
получить разбиение большого объема данных на классы
или группы (от англ. cluster) согласно некоторому кри21
22
1) Евклидово расстояние


m

 2 X (i ) , X ( j )   X s(i )  X s( j )
s 1

2
;
2) Хеммингово (city–block) расстояние


m
 X (i ) , X ( j )   X s(i )  X s( j )

 
s 1
3) расстояние (или угол) Махаланобиса
 


T

 2 X (i ) , X ( j )  X (i )  X ( j ) T A1 X (i )  X ( j ) ,
где  – симметричная положительно–определенная
матрица весовых коэффициентов, A – матрица ковариаций X 1 , , X n
4) расстояние Минковского


m
 p X (i ) , X ( j )   X s(i )  X s( j )
p
.
s 1
Расстояния 1) или 4) используют в случае нормального распределения независимых случайных величин X 1 , , X n или их однородности по физическому
смыслу, когда каждый вектор одинаково важен для
классификации.
Задача выбора метрики для проведения кластерного анализа не имеет единственного решения, так как
процесс выбора неформализуем и зависит от многих
факторов, в частности, от ожидаемого результата, от
опыта исследователя, уровня его математической подготовки и т.д.
В ряде алгоритмов наряду с расстояниями между
векторами используются расстояниями между кластерами и объединениями кластеров. Более подробно об этом
можно узнать в /1/.
Агломеративные методы
Агломеративные методы являются наиболее простыми и распространенными среди алгоритмов кластерного анализа. На первом шаге каждый вектор или объект
X 1 , , X n исходных данных рассматривается как отдельный кластер или класс. По вычисленной матрице
расстояний R    X (i ) , X ( j )  ,  – некоторая метрика, выбираются наиболее близкие друг к другу и объединяются. Очевидно, что процесс завершится через
n  1 шаг, когда в результате все объекты будут объединены в один кластер.
К агломеративным относят методы одиночной,
средней, полной связи и метод Уорда. С математической
точки зрения последний из них наиболее интересен.
Остановимся на нем более подробно.
Пусть X 1 , , X n – данные, причем каждый вектор
образует один кластер. Находим матрицу расстояний,
используя какую–нибудь метрику, определяем по ней
наиболее близкие друг к другу кластеры. Вычисляем
сумму квадратов отклонений векторов внутри кластера
S k по формуле:
 
Vk   X i j  X j k  ,
nk
p
2
i 1 j 1
где k – номер кластера, i – номер вектора в кластере, j –
номер координаты X i   p , n k – число векторов в кластере, X j k – выборочное среднее X j в S k .
В дальнейшем в кластер S k добавляются вектора
или кластеры, приводящие к наименьшему изменению
Vk и, как следствие, расположенные на минимальном
расстоянии от S k .
Итеративные методы
23
24
Сущность итеративных методов заключается в том,
что кластеризация начинается с задания некоторых
начальных условий. Требуется задать число кластеров,
которые необходимо получить, расстояние, определяющее конец процесса образования кластеров и т.д.
Начальные условия выбираются согласно результату,
который нужен исследователю. Однако обычно они задаются по решению, найденному одним из агломеративных методов.
1) Метод k – средних.
Пусть имеются вектора X 1 ,, X n   p и их необходимо разбить на k кластеров. На нулевом шаге из n векторов случайным образом выбираем k элементов. Пусть
каждый образует один кластер. Получаем множество
кластеров–эталонов e1( 0 ) ,  , ek( 0 ) с весами 1( 0 ) ,  , (k0 ) ,
определяющими число элементов в них.На следующем
шаге из оставшегося набора данных выбираем некоторый вектор, например, X i и вычисляем матрицу расстояний между X i и e1( 0 ) ,  , ek( 0 ) по евклидовой метрике.
Затем X i помещается в тот эталон, расстояние до которого минимально. Допустим для определенности, что
это em( 0 ) . Он заменяется новым, пересчитанным с учетом
присоединенной точки, по формуле:
 (m0 ) em( 0 )  X i
, X i включен

em(1)   (m0 )  1
e ( 0 )
, X i не включен.
 m
Кроме того, пересчитывается и вес:
(0)
m  1, X i включен
(1)
m   ( 0)
m
, X i не включен.
25
Если в матрице встречается два или более минимальных расстояния, то X i включают в кластер с
наименьшим порядковым номером.
На следующем шаге выбирают следующий вектор
из оставшихся и процедура повторяется. Таким образом,
через n  k  шагов каждому эталону em n  k  будет соответствовать вес mn  k  и процедура кластеризации завершится.
Можно показать /2/, что при большом n и малом
k алгоритм быстро сходится к устойчивому решению.
Тем не менее, алгоритм всегда пересчитывают несколько раз, используя полученное разбиение в качестве векторов – эталонов (как начальное приближение).
2) Метод поиска сгущений.
Этот алгоритм не требует априорного задания числа кластеров. На первом шаге вычисляется матрица расстояний между X 1 ,, X n   p . Затем случайным образом выбирают один вектор, который будет играть роль
центра первого кластера. Положим, что этот вектор лежит в центре p–мерной сферы радиуса R , задаваемого
исследователем. После этого определяются вектора, попавшие внутрь этой сферы, и по ним высчитывается выборочное математическое ожидание X . Центр сферы
переносится в X и процедура повторяется. Первый кластер считается образованным окончательно, если вектор средних X при вычислениях на предыдущем и последующем шаге остается неизменным.
Попавшие внутрь сферы элементы X s1 ,  , X sk заключаем в кластер и исключаем из дальнейшего исследования. Для оставшихся точек алгоритм повторяется.
26
Можно показать /2/, что алгоритм сходится при
любом выборе начального приближения и любом объеме исходных данных. Однако для получения устойчивого разбиения рекомендуется повторить алгоритм несколько раз при различных значениях радиуса сферы R .
Признаком устойчивого разбиения будет образование
одного и того же числа кластеров с одним и тем же составом.
Q1 S      2  X m , al  , где al  – выборочное ма-
3) Обобщенная
внутриклассовая
дисперсия
k
Q3 S   det  nl Al  , где nl – число элементов в Sl ,
 l 1

Al – выборочная ковариационная матрица для Sl .
Функционал Q3 S  является средней арифметической характеристикой обобщенных внутриклассовых
дисперсий, посчитанных для каждого кластера. Как известно, обобщенная дисперсия позволяет оценить степень рассеивания многомерных наблюдений. Поэтому
Q3 S  определяет средний разброс векторов наблюдений в классах S1 , , S k . Он применяется в случае, когда
необходимо решить задачу о сжатии данных или о сосредоточении наблюдений в пространстве с размерностью меньше исходной.
Замечание: оценить качество разбиения на классы
можно и эмпирически. Например, можно сравнивать
выборочные средние, найденные для каждого класса, со
средним всей совокупности наблюдений. Если они разнятся в два раза и более, то разбиение хорошее.
Если число кластеров в S   S1 ,, S k  заранее неизвестно, то используют следующие функционалы качества разбиения:

1) Q1 S   I m S  
, ,   0, где
Z m S 
тематическое ожидание класса S l .
Функционал Q1 S  позволяет оценить меру однородности всех кластеров в целом.
2) Сумма попарных внутриклассовых расстояний меж-


1
1
средняя
I m S    
  m X j , X l  –


 n i1 ni X jSi X l Si
мера
внутриклассового
рассеяния,
Функционалы качества разбиения
Заметим, что задача кластеризации может иметь
континуальное число решений, если число исходных
данных счетно. Как следствие, перебрать все возможные
разбиения данных на классы не представляется возможным. Для того чтобы оценить качество различных способов кластеризации вводят понятие функционала качества разбиения, который принимает минимальное значение на наилучшем (с точки зрения исследователя)
разбиении.
Пусть S   S1 ,, S k  – некоторая совокупность
кластеров, k известно. Тогда основные функционалы качества разбиения при известном числе кластеров имеют
вид:
1) Взвешенная сумма внутриклассовых дисперсий
k
l 1 X mSl
ду элементами Q2 S      X i , X j  .
k
l 1 X i , X j Sl
27
2
1
m
k
 1 n  V  X   m
i
Z m S     

 n i 1  n 
1
 m


28
– мера концентрации точек множества S , V  X i  – число
элементов в кластере, содержащем точку X i .
2) Q2 S   I m S  Z m S  , ,   0.
Заметим, что в случае неизвестного числа кластеров
функционалы качества разбиения QS  можно выбирать
в виде алгебраической комбинации (суммы, разности,
произведения,
отношения)
двух
функционалов
I m S , Z m S  , так как первый является убывающей, а
другой – возрастающей функцией числа классов k. Такое поведение I m S , Z m S  гарантирует существование
экстремума Q S  .


ДИСКРИМИНАНТНЫЙ АНАЛИЗ
Задача дискриминантного анализа заключается в
разработке методов различения объектов наблюдения по
известным признакам, называемым эталонами. Например, совокупность клиентов банка можно разбить на два
подмножества людей: «кредитоспособны» и «некредитоспособны». Более точно задача различения заключается в следующем: пусть X 1 – наблюдение над некоторым
объектом. Требуется установить правило, которое по
значению X 1 переводит его в одну из возможных совокупностей объектов i , i  1, n . Для построения этого
правила переходят от векторов признаков, характеризующих объект, к линейной функции от них. Эту функцию
называют дискриминантной функцией или решающим
правилом или процедурой классификации.
Пусть имеются классы объектов i , i  1, n , причем
каждый класс описывается k – мерной функцией плотности нормального распределения
29




T
 1

exp   X  M (i ) A1 X  M (i ) ,
 2

(i )
где M – теоретическое математическое ожидание размерности k для i , A – теоретическая матрица ковари-
f i  X   2
k / 2
 det  A
1 / 2
аций векторов из i , M (i ) , A известны. Будем относить
точку X   k классу i , если f i  X  принимает
наибольшее значение среди f1  X ,, f n  X  . Можно показать, что в этом случае X   k будет доставлять
наибольшее значение дискриминантной функции:
T
1
Li  X   X T A1M (i )  M (i )  A1 M (i ) ,
(14)
2
где M (i ) – выборочное среднее.
Таким образом, получили правило, по которому
каждая точка X   k будет к заданному классу i .
Так как тема дискриминантного анализа не входит
в лабораторный практикум, приведем поясняющий пример.
Пример: исследование налоговой службы показало, что склонность фирм к утаиванию части доходов
определяется двумя показателями: X 1 – соотношением
«быстрых активов» и текущих пассивов и X 2 – соотношением прибыли и просроченных платежей. Известно,
что двумерный признак X   X1 , X 2  распределен нормально внутри совокупностей 1  «фирма уклоняется
от уплаты налогов» и  2  «фирма платит налоги».
Пусть ковариационные матрицы для 1 и  2 совпадают
 8467 2041
 . Пусть M (1)  576, 596 ,
и равны A  
 2041 4273
M ( 2)  598,5; 710,8 – теоретические математические
30
ожидания 1 и  2 соответственно. Для фирмы, не проходившей проверку налоговой службы, с вектором
средних M  740, 590 определить, в какую совокупность она попадет.
Решение: воспользуемся линейной дискриминантной функцией (14). В нашем случае X  740, 590 ,
X 1  740, X 2  590, обратная матрица ковариации
 1,3  10 4
 6,3  10 5 

 . Поэтому L1  X   52,88;
A 
5
4 

6
,
3

10
2
,
6

10


L2  X   50,387. Так как L1  X   L2  X  на X  740, 590 ,
то фирму относим к классу 1 .
1
31
32
МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ №1
Рассмотрим приложение теории МСМ для расчетов лабораторного задания №1 (см. приложение 1). Технические вычисления будем производить каким–нибудь
математическим пакетом, например MathCad 2001.
Пусть исходные данные расположены в столбцах
Y3, Х8, Х9, Х10, Х11, Х17. Они образуют шестимерную
МСВ. Для нахождения вектора выборочного математического ожидания для каждого столбца находим его
среднее. Тогда M=(13.7, 1.072, 0.486, 1.53, 14707.8,
19.57). После этого центрируем данные, вычитая из
каждого столбца соответствующее среднее. Получаем
центрированную матрицу Х, которую можно использовать при нахождении выборочной ковариационной матрицы:
1
A   X T  X , т.е.
n
 38.902
3.005


0.448
 3.005

0.04
0.024
A
 0.92
0.03

 1.899  103 2.073  103

0.902
 9.578
0.04
0.92
3
1.899  10
9.578 


0.116
0.039
76.133
0.6 
0.039
0.163
406.947
0.07 

7
76.133 406.947 9.63  10
51.3 

0.6
0.07
51.3
21.696 
0.024
0.03
3
2.073  10
0.902
Для
нахождения
частных
коэффициентов
корреляции необходимо воспользоваться формулой
 Ri j
ri j 
,
Ri i R j j
 1
 0.719

 0.019
R   0.365

 0.031

 0.33
0.719 0.019 0.365
1
0.104
0.104 0.111
1
0.111 0.282
0.023
1
0.103
0.316 0.023 0.103
1
3
0.289 0.378 0.037 1.122  10
Отметим, что для нахождения алгебраических дополнений Ri j необходимо использовать известную /4/
теорему Лапласа о вычислении определителя. Так, для
нахождения Ri j достаточно скопировать найденную
выше выборочную матрицу корреляций, обнулить в ней
все элементы j – столбца, кроме ri j , найти определитель
и умножить его на 1 . Поступая таким образом,
имеем:
r11  1, r12  0.592, r13  10 3 , r14  0.234, r15  9.8 10 3 ,
i j
r16  7.6 10 2 .
Аналогично вычисляем и множественный коэффициент корреляции Ry2  0.762 . Так как R y2  0.5 , то связь
между векторами исходных данных Y3 и Х8, Х9, Х10,
Х11, Х17 сильная и использование регрессионной модели для анализа теоретически обоснованно.
Для построения регрессионной модели воспользуемся равенством (1). Заметим, что матрица Х наряду с
нецентрированными векторами Х8, Х9, Х10, Х11, Х17
должна содержать дополнительный столбец, составленный из одних единиц. Это необходимо для определения
параметра  0 в (1). Вставить единичный
где Ri j – алгебраическое дополнение элемента ri j матрицы корреляций вида:
33
0.316
0.282


0.289

0.378


0.037

3
1.122  10 

1

0.33
0.031
34
столбец в Х можно с помощью команды augment.
Находим  :


1


T  X T X X T Y  0.98; 7.3; - 0.59; 6.7; -1.110-4 ; - 0.17 .
Проведем статистическое оценивание регрессионной модели. Вычисляем статистику
1
m  n 1
T
T
FH 
  X   X   y   X   y   X  ,
n 1
где m  53, n  5.
Так как FH  288.234, а FT 0.05; 6; 47  2.298956,
то надежность регрессионной модели подтверждается.
Статистическое оценивание надежности коэффициентов регрессии  i произведем с помощью t – критерия Стьюдента. Вычисляем статистику:

t H i   i ,
si

где si 
 y  XT   y  X  cii
m  n 1

– средняя ошибка для


1
i , cii –диагональные элементы матрицы X T X .
Получаем,
что
t H 0  0.273,
t H 1  9.978,
t H 2  0.4, t H 3  5.743, t H 4  2.303, t H 5  1.615.
Наблюденное значение t H i  сравниваем с табличным tT 0.05; 47  1.677927. Очевидно, что значимость
коэффициентов 1 , 3 ,  4 подтверждается. Коэффициенты 0 ,  2 , 5 незначимы.
Наконец, произведем статистическое оценивание
вычисленного ранее множественного коэффициента
корреляции Ry2  0.762. Определяем величину статистики Снедекора:
35
 

1
mn
 R y2  1  R y2 .
n 1
Наблюденное значение FH  38.42 сравниваем с
табличным FT 0.05; 4; 48   2.565241. Очевидно, что значи-
FH 
мость Ry2 подтверждается, так как FH  FT .
В заключение лабораторной работы №1 выберем
результативный показатель.
Наибольший по абсолютной величине коэффициент уравнения регрессии (1) равен 1  7.3 . Ему соответствует столбец Х8 исходных данных (вектор X 1 в
(1)). Значит, это и есть искомый результативный показатель.
МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ №2
Рассмотрим приложение теории МСМ для расчетов лабораторного задания №2 (см. приложение 2). Технические вычисления будем производить каким–нибудь
математическим пакетом, например MathCad 2001.
Пусть исходные данные расположены в столбцах
Y2, Y3, Х1 – Х8 матрицы Х, т.е. заданы 2-х и 8-мерные
МСВ. Для нахождения объединенного вектора выборочного математического ожидания для каждого столбца находим его среднее. Тогда M=(5152.2; 40.2; 2402.6;
2.78; 285.8; 334.8; 29.3; 224.7; 432.4; 40.6). После этого
центрируем данные, вычитая из каждого столбца соответствующее среднее. Получаем центрированную матрицу, которую можно использовать при нахождении
выборочной ковариационной матрицы.
A
1 T
X X.
30
36
В методе канонических корреляций она будет иметь
блочный вид. Для «вырезания» блоков используется команда
submatrix. Тогда, например, ковариационная матрица для Y
следующая:
 6.165  106 2.902  104 

A22  


4
192.195  .
 2.902  10
Вид остальных матриц достаточно объемен, поэтому
они приводиться не будут.
1 T
1 T
Строим матрицы A111 A12 A22
A12 , A22
A12 A111 A12 и находим
1 T
их собственные числа (команда eigenvals). У A111 A12 A22
A12
1 T
1
это
у
–
A22 A12 A11 A12
1  0.492,  2  0.723,  3  0,
1  0.492,  2  0.723.
Находим соответствующие им собственные вектора
(команда eigenvec):
(1)  0; 1; 0; 0;  0.02; 0; 0; 0 ,
(2)  0;  0.98; 0.02;  0.01; 0.08;  0.04; 0;  0.19 ,
(3)  0;  0.85; 0; 0.08;0.06; 0.12; 0.05; 0.5 ,
b (1)  0; 1 , b (2)  0.08; 1 .
Согласно (3), (4), для первых двух собственных векторов
строим
канонические
переменные
(1)
( 2)
(1)
( 2)
30
U , U , V , V   . Из–за их объемности точный координатный вид приводиться не будет.
Из теории метода канонических корреляций следует,
что корреляция между U (1) и V (1) равна 1  0.723 –
наибольшему собственному числу. Корреляция между U ( 2 ) и
V ( 2) равна  2  0.492. Остальные корреляции равны нулю.
МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ
ЛАБОРАТОРНОЙ РАБОТЫ №3
37
Рассмотрим приложение теории МСМ для расчетов лабораторного задания №3 (см. приложение 3). Технические
вычисления будем производить каким–нибудь математическим пакетом, например MathCad 2001.
Пусть исходные данные расположены в столбцах X3,
Х8, Х9, Х10, Х11, Х17. Согласно этим данным строим матрицу ковариаций A. Она будет совпадать с аналогичной матрицей из лабораторной работы №1 (это же касается вектора
математического ожидания и корреляционной матрицы), поэтому достаточно ее скопировать из отчета.
Так как X разнородны, переходим к стандартизированным данным:
Z it   X it   i   it1 , 1  i  n , 0  t  N ,
где
i

–
математическое
 it  E  X it   i 
2

1/ 2
ожидание
признака
Xi,
– его волатильность, n=6, N=53.
Проведем обработку Zit методом главных компонент.
Для этого вычисляем собственные числа матрицы ковариаций для Z (которая будет совпадать с ее матрицей корреляций)
и
упорядочиваем
их
по
убыванию:
 6  0.12,  5  0.52,  4  0.69,  3  1.16,  2  1.48, 1  2.02 .
Определяем след матрицы A . Он будет равен sp A  6. Затем выбираем  i таким образом, чтобы выполнялось нераm
4
венство   i  sp A , где m  6 . Однако при осуществлении
5
i 1
такого выбора не стоит забывать об основной цели метода
главных компонент – сжатии информации. Поэтому всегда
следует добиваться минимального количества таких  i –х.
Для выполнения неравенства следует выбрать четыре
собственных числа, так как
38
4

i 1
i
 0.89 , а
3

i 1
i
 0.78 . Поэтому для нахождения
главных компонент Y стандартизированных данных Z
выберем собственные вектора–столбцы, соответствующие 1 , ...,  4 , и составим из них матрицу L1. Тогда
Y=Z∙L1. Для перехода к искомым главным компонентам
U воспользуемся соотношением вида:
n
uit   i   it  yis l stT , 1  i  n , 0  t  N ,
s 1
где litT – элементы матрицы LT1 .
В связи с объемностью получаемых результатов
вид главных компонент приведен не будет.
Заметим, что уже на этапе метода главных компонент можно сделать выводы о числе факторов, которые
нужно использовать в факторном анализе, о факторных
нагрузках, о векторах, вносящих наибольший вклад в
название факторов. Если говорить о данном примере, то
в дальнейшем следует остановить свой выбор на построении четырехфакторной модели. Далее, для вычисления матрицы факторных нагрузок S нужно найти матрицу   diag 1 , ...,  6 , объединить все собственные


вектора–столбцы, соответствующие  i , i  1,6 , в матрицу L и применить формулу S  L , причем, для проверки, S T S  2  diag 1 , ...,  6  . Так, для рассматриваемого нами примера нагрузки первых двух главных компонент будут иметь вид:
1  0.85; 0.88; 0.27; 0.08; 0.28;  0.62 ,
 2   0.42;  0.02; 0.74;  0.79; 0.09;  0.34.
39
Доли факторов в суммарной общности равны 0,34;
0,25; 0,19 и 0,115 соответственно.
Определим название, например, первого фактора.
Для этого посчитаем для него коэффициент информативности
признаков.
В
нашем
случае
2
1  2.023 .
1  0.85; 0.88; 0.27; 0.08; 0.28;  0.62 ,
Информационное множество выберем в виде (0,85;0,88).
Поэтому
0,852  0,882
K u 1  
 0,74  0,7 ,
2,023
т.е. набор признаков можно считать удовлетворительным. Кроме того, первый и второй вектор исходных
данных вносят наибольший вклад в название первого
фактора (а это столбцы Х3 и X8), поэтому их названия
можно перенести на первый фактор.
ЛИТЕРАТУРА
1. Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шефер
М. Многомерный статистический анализ в экономике. М.: ЮНИТИ-ДАНА, 1999. – 598 с.
2. Айвазян С.А., Мхитарян В.С. Теория вероятностей и
прикладная статистика. М.: ЮНИТИ-ДАНА, т.1,
2001. – 656 с.
3. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. М.: Финансы и статистика, 1998. – 352 с.
4. Гантмахер Ф.Р. Теория матриц. М.: Наука, 1967 г.
40
приложение 1
ЛАБОРАТОРНАЯ РАБОТА №1
РЕГРЕССИОННЫЙ АНАЛИЗ,
ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ
МНОГОМЕРНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН
1. В соответствии с предложенными данными:
а) определить вектор выборочного математического
ожидания;
б) определить выборочную матрицу ковариаций, корреляций;
в) найти шесть частных коэффициентов корреляции,
г) найти множественный коэффициент корреляции.
2. По матрице исходных данных построить уравнение
регрессии. Выбрать результативный показатель (вектор данных, которому соответствует наибольший коэффициент уравнения регрессии).
3. Произвести статистическое оценивание регрессионной модели, статистическое оценивание надежности
коэффициентов регрессии, статистическое оценивание множественного коэффициента корреляции.
4. Сравнить результаты с результатами, полученными с
помощью пакета программ STATISTICA 6.0.
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Y1
Y1
Y1
Y1
Y1
Y3
Y3
Y3
Y3
Y3
Y2
Y2
Y2
Y2
Y2
Таблица 2
ТАБЛИЦА ИСХОДНЫХ ДАННЫХ
Таблица 1
ВАРИАНТЫ РАСЧЕТА ЗАДАЧ
Номера векторов
X
Y1
6,8, 11, 12, 17
Y1
6,8, 11, 13, 17
Y1
8,11,12,13,17
Y1
6,8, 13, 14, 17
Y1
8,11,13,14, 17
продолжение таблицы 1
№ варианта
Y
1
2
3
4
5
41
6,8, 12, 13, 17
7,11,12,13,17
7,9, 12, 13, 17
8,11,12,13,17
8,9,13, 14, 17
8,10,15, 16, 17
5,6,10,15, 17
5,6,7, 11, 12
8,9,10,11,17
8, 9,10, 12, 17
4,5,6,8,9
4,5,6,7,9
4,5,6,8,9
4,5,8,9,17
4,5,7,9,17
42
Таблица 3
ТАБЛИЦА ИСХОДНЫХ ДАННЫХ
№
X11
X12
X13
X14
X15
X16
X17
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
26006
23935
22589
21220
7394
11586
26609
7801
11587
9475
10811
6371
26761
4210
3557
167.69
186.10
220.45
169.30
39.53
40.41
102.96
37.02
45.74
40.07
45.44
41.08
136.14
42.39
37.39
47750
50391
43149
41089
14257
22661
52509
14903
25587
16821
19459
12973
50907
6920
5736
6.40
7.80
9.76
7.90
5.35
9.90
4.50
4.88
3.46
3.60
3.56
5.65
4.28
8.85
8.52
166.32
92.88
158.04
93.96
173.88
162.30
88.56
101.16
166.32
140.76
128.52
177.84
114.48
93.24
126.72
10.08
14.76
6.48
21.96
11.88
12.60
11.52
8.28
11.52
32.40
11.52
17.28
16.20
13.32
17.28
17.72
18.39
26.46
22.37
28.13
17.55
21.92
19.52
23.99
21.76
25.68
18.13
25.74
21.21
22.97
43
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
14148
9872
5975
16662
9166
15118
11429
6462
24628
49727
11470
19448
18963
9185
17478
6265
8810
17659
10342
8901
8402
32625
31160
46461
13833
6391
11115
6555
11085
9484
3967
15283
20874
19418
3351
6338
9756
11795
101.78
47.55
32.61
103.25
38.95
81.32
67.26
59.92
107.34
512.60
53.81
80.83
59.42
36.96
91.43
17.16
27.29
184.33
58.42
59.40
49.63
391.27
258.62
75.66
123.68
37.21
53.37
32.87
45.63
48.41
13.58
63.99
104.55
222.11
25.76
29.52
41.99
78.11
26705
20068
11487
32029
18946
28025
20968
11049
45893
99400
20719
36813
33956
17016
34873
11237
17306
39250
19074
18452
17500
7888
58947
94697
29626
11688
21955
12243
20193
20122
7612
27404
39648
43799
6235
11524
17309
22225
7.19
4.82
5.46
6.20
4.25
5.38
5.88
9.27
4.36
10.31
4.69
4.16
3.13
4.02
5.23
2.74
3.10
10.44
5.65
6.67
5.91
11.99
8.30
1.63
8.94
5.82
4.80
5.01
4.12
5.10
3.49
4.19
5.01
11.44
7.67
4.66
4.30
6.62
44
91.80
69.12
66.24
67.68
50.40
70.56
72.00
97.20
80.28
51.48
105.12
128.52
94.68
85.32
76.32
153.00
107.64
90.72
82.44
79.92
120.96
84.60
85.32
101.52
107.64
85.32
131.76
116.64
138.24
156.96
137.52
135.72
155.52
48.60
42.84
142.20
145.80
120.52
9.72
16.20
24.84
14.76
7.56
8.64
8.64
9.00
14.76
10.08
14.76
10.44
14.76
20.52
14.40
24.84
11.16
6.48
9.72
3.24
6.48
5.40
6.12
8.64
11.88
7.92
10.08
18.72
13.68
16.56
14.76
7.92
18.36
8.28
14.04
16.92
11.16
14.76
16.38
13.21
14.48
13.38
13.69
16.66
15.06
20.09
15.98
18.27
14.42
22.76
15.41
19.35
16.83
30.53
17.98
22.09
18.29
26.05
26.20
17.26
18.83
19.70
16.87
14.63
22.17
22.62
26.44
22.26
19.13
18.28
28.23
12.39
11.64
8.62
20.10
19.41
приложение 2
ЛАБОРАТОРНАЯ РАБОТА №2
МЕТОД КАНОНИЧЕСКИХ КОРРЕЛЯЦИЙ
1. В соответствии с предложенными данными:
а) построить блочную матрицу ковариаций переменных
X2, X3, … , Xn и Y1, Y2, Y3, … , Ym. Определить по ней
матрицы A11 , A12 , A22 , A21 ;
1
б) найти все собственные числа матриц A111 A12 A22
A21 и
1
A22
A21 A111 A12 ;
в) определив параметры регрессионной модели , b , для
каждого собственного числа найти соответствующие
канонические переменные;
2. Найти корреляции между каноническими переменными.
3. Сравнить результаты с результатами, полученными с
помощью пакета программ STATISTICA 6.0.
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
3506
2531
2229
2161
3169
3552
1332
3419
1194
2828
2748
1196
2265
1241
3217
1997
1983
842
Таблица 1
ТАБЛИЦА ИСХОДНЫХ ДАННЫХ
№
банка
1
2
3
4
5
6
7
8
9
10
11
12
X1
Х2
ХЗ
Х4
Х5
879
1533
2526
1646
1997
6005
1824
2693
3416
1386
2547
4217
2.80
3.24
3.66
1.55
3.26
2.60
2.96
2.53
3
2.44
3.00
2.75
311
250
220
307
360
275
343
280
190
258
330
250
250
420
400
200
400
420
120
420
800
439
335
520
146
57
18.7
62
123
21.0
19.68
9.92
14.0
27
39.5
16.0
45
Х6
Х7
Х8
Y1
Y2
Y3
198 114 34.7 3090 23 19.0
212 212 30.9 3388 23.9 20.0
260 103 41.4 7525 56.9 46.5
243 582 33.8 3795 27.4 23.4
115 2978 3.60 0.4 22.9 25.3
166 940 20.2 0.00 18.7 50.9
160 858 10.4 0.00 44.3 36.5
128 206 3.8 5360 40.2 33.1
168 509 34.2 6514 47.5 40.2
93 194 24.7 4995 37.8 30.7
222 164 67.0 4889 35.9 30.1
190 439 55.8 7361 54.7 45.4
3.17
3.63
3.09
2.99
2.97
2.10
2.72
3.18
3.03
2.86
2.17
3.21
3.69
1.80
1.77
1.82
1.66
3.47
247
280
260
240
126
88.0
310
145
290
330
502
263
100
720
420
360
230
289
320
380
430
90
400
475
92
250
165
260
180
485
128
320
400
220
474
250
15
29.5
10
27
4.50
29
12.0
5.30
58.0
29.0
17.0
7.00
1.00
43.0
7.00
8.00
1
21.0
195
179
28
251
313
178
208
445
184
257
329
193
177
294
465
311
414
165
409
222
177
58
325
93
117
241
150
219
613
127
11
432
920
643
742
175
продолжение таблицы 1
40.3 4878 36.1 30
37.1 5344 39.4 32.8
45.8 5938 43.4 36.2
68.7 5268 39.0 32.4
43.8 8299 62.3 51.1
99.8 7041 52.0 43.1
57.2 5155 40.6 31.8
56.6 9011 66.8 55.5
31.9 4697 35.8 28.7
48.0 7008 51.5 42.7
36.4 5467 36.3 31.5
39.6 3535 25.7 21.7
105.1 10644 76.7 65.7
23.6 2768 19.2 16.7
36.3 5225 37.0 32.1
31.0 5167 38.1 31.5
31.9 8393 45.8 39.1
23.6 3810 28.4 23.2
Таблица 2
ВАРИАНТЫ РАСЧЕТА ЗАДАЧ
№
1
2
3
4
5
6
7
8
9
10
Y
Y1, Y2
Y1, Y3
Y2, Y3
Y1, Y2, Y3
Y1, Y2, Y3
Y1, Y2
Y1, Y3
Y2, Y3
Y1, Y2
Y1, Y3
№
11
12
13
14
15
16
17
18
19
20
X
1-5
1-5
1-5
1-6
1-7
3-8
3-8
3-8
2-7
2-7
46
Y
Y2, Y3
Y1, Y2
Y1, Y3
Y2, Y3
Y1, Y2
Y1, Y3
Y2, Y3
Y1, Y2
Y1, Y3
Y2, Y3
X
2-7
4-8
4-8
1-8
1-8
1-8
1-8
1-3 и 5-8
1-3 и 5-8
1-3 и 5-8
приложение 3
ЛАБОРАТОРНАЯ РАБОТА №3
МЕТОД ГЛАВНЫХ КОМПОНЕНТ
ФАКТОРНЫЙ АНАЛИЗ
1. В соответствии с предложенными данными:
 перейти к стандартизированным данным, найти выборочную ковариационную матрицу новых векторов – признаков
Z;
 найти собственные числа матрицы ковариаций и упорядочить их по убыванию;
 найти все ее собственные вектора;
 с помощью метода главных компонент выбрать главные
компоненты, используя или sp A, или det(A);
 найти факторые нагрузки S  L ;
2. С помощью факторного анализа построить многофакторную модель (число факторов детерминировать самостоятельно). Для этого:
P  ( pi , j ),
 найти собственные числа матрицы
pi , j 


1 6 (i ) ( j )
 xk xk , i, j  1,53 и упорядочить их по убыва53 k 1
нию;
выбрать максимальные собственные числа матриц ковариации и P  ( pi , j ) , i, j  1,53 ;
найти соответствующие им собственные вектора матрицы
ковариаций A  ( ai , j ), i, j  1,6 (факторные нагрузки) и
матрицы P  ( pi , j ) , i, j  1,53 (факторы);


составить из факторных нагрузок матрицу S и проверить
правильность их вычисления, найдя S T S .
вычислить нормы для векторов факторных нагрузок и их
факторов;
47


посчитать доли факторов в суммарной общности;
определить название факторов, вычислив коэффициенты
информативности признаков.
3. Перейти к исходным признакам X.
4. Сравнить результаты для стандартизированных данных с
результатами, полученными с помощью пакета программ
STATISTICA 6.0.
Таблица 1
ВАРИАНТЫ РАСЧЕТА ЗАДАЧ
№ варианта
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Номер векторов X
1,6,8, 11, 12, 17
1,6,8, 11, 13, 17
1,8,11,12,13,17
1,6,8, 13, 14, 17
1,8,11,13,14, 17
1,6,8, 12, 13, 17
1,7,11,12,13,17
1,7,9, 12, 13, 17
1,8,11,12,13,17
1,8,9,13, 14, 17
3,8,10,15, 16, 17
3,5,6,10,15, 17
3,5,6,7, 11, 12
3,8,9,10,11,17
3,8, 9,10, 12, 17
2,4,5,6,8,9
2,4,5,6,7,9
2,4,5,6,8,9
2,4,5,8,9,17
2,4,5,7,9,17
Исходные данные находятся в таблицах 2,3 приложения
1. Следует учесть, что вектора Х1, Х2, Х3 текущего задания
упомянуты там как вектора Y1, Y2, Y3.
48
СОДЕРЖАНИЕ
Введение …………………………………………
3
Многомерные нормальные случайные величины
4
Регрессионный анализ …………………………..
6
Метод канонических корреляций ………………
9
Метод главных компонент ..…………………….
13
Факторный анализ ……………………………….
16
Кластерный анализ ………………………………
21
Дискриминантный анализ ...……………………..
29
МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ
Учебно–методическое пособие по многомерным
статистическим методам
Методические указания по выполнению лабораторной работы №1 ………………………..
33
Составитель
доцент О.Л. Крицкий
Методические указания по выполнению лабораторной работы №2 ………………………..
36
Методические указания по выполнению лабораторной работы №3 ………………………..
37
Литература ………………………………………..
40
Приложение 1 …………………………………….
41
Приложение 2 …………………………………….
45
Приложение 3 …………………………………….
47
Подписано к печати 01.09.07
Формат 60х84/16. Бумага офсетная.
Печать RISO. Усл.печ.л. 3 Уч.-изд.л. 3
Тираж 50 экз. Заказ №
Цена свободная.
Изд. ТПУ. 634050, Томск, пр. Ленина, 30
Download