эксперементалка продолжение

advertisement
Цель работы
Провести кластерный и факторный анализ для исходных данных и проанализировать
получившиеся данные.
Общие теоретические положения
Факторный анализ
Факторный анализ позволяет решить две важные проблемы исследователя: описать
объект измерения всесторонне и в то же время компактно. С помощью факторного
анализа возможно выявления скрытых переменных факторов, отвечающих за наличие
статистических связей корреляций между наблюдаемыми переменными.
Таким образом, можно выделить 2 цели факторного анализа:
1) Определение взаимосвязей между переменными, их классификация.
2) Сокращение числа переменных.
Кластерный анализ
Кластерный анализ – задача разбиения заданной выборки объектов на подмножества,
называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а
объекты разных кластеров существенно отличались. Кластерный анализ – это
многомерная статистическая процедура, выполняющая сбор данных, содержащих
информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно
однородные группы. Кластер – группа элементов, характеризуемых общим свойством,
главная цель кластерного анализа – нахождение групп схожих объектов в выборке.
Исходные данные
Исходные данные приведены в таблице 1.
Объекты A
H
Q2
L
N
C
G
1
8
11
5
10
9
8
8
2
9
10
4
5
9
7
8
3
9
9
4
4
7
9
9
4
7
5
5
4
5
7
4
5
12
4
7
2
6
8
9
6
11
12
6
4
6
7
5
7
6
7
3
5
5
8
7
8
9
9
6
5
8
8
9
9
9
11
3
6
6
11
4
10
7
10
2
4
6
3
8
Где в таблице «Объекты» находятся Фамилия Имя Отчество студента:
1.Рубан Валентина Анатольевна;
2.Шайхутдинова Лиана Камильевна;
3.Рябцунова Александра Александровна;
4.Рябчун Алина Анатольевна;
5. Корелина Екатерина Вадимовна;
6.Козырева Юлия Владимировна;
7.Гордеева Татьяна Алексеевна;
8.Зуйкова Юлия Сергеевна;
9.Выскочков Владимир Сергеевич;
10. Левкович Людмила Викторовна.
Q3
7
10
3
5
10
6
8
8
8
6
E
7
9
6
2
4
9
8
6
9
9
По строкам расположены следующие показатели(шкалы):
A Замкнутость – открытость в общении;
Н Сдержанность – активность в контактах с людьми;
Q2 Конформность – неконформность;
L Доверчивость – подозрительность по отношению к другим людям в общении;
N Простота – изощренность поведения в обществе;
С Неуравновешенность – контроль эмоциональных реакций;
G Низкая – высокая дисциплинированность;
Q3 Низкий – высокий самоконтроль;
Е Подчиненность – доминантность при поведении в группе.
Проведение исследований
Проведем кластерный и факторный анализ исходных данных в пакете программ
STATGRAPHICS.
Кластерный анализ
Проведем кластерный анализ исходных данных.
Analysis Summary
---------------Data variables:
A
C
E
G
H
L
N
Q2
Q3
Number of complete cases: 10
Clustering Method: Ward's
Distance Metric: Squared Euclidean
Cluster Members Percent
--------------------------1
10
100,00
--------------------------Centroids
Cluster A
C
E
G
H
L
N
Q2
----------------------------------------------------------------------------------------------------------------1
8,7
7,6
6,9
7,1
8,8
4,9
6,7
4,5
----------------------------------------------------------------------------------------------------------------Cluster Q3
---------------------1
7,1
----------------------
Рис.1 Первичная сводка кластерного анализа
Т.к. у нас небольшое количество наблюдений, то чтобы кластерный алгоритм хорошо работал,
остановимся на методе Варда.
Далее посмотрим изображение кластеров на дендограмме, которая отражает иерархическую
структуру группирования субъектов.
Dendrogram
Ward's Method,Squared Euclidean
100
Distance
80
60
40
20
5
10
7
4
9
6
3
8
2
1
0
Рис.2 Дендограмма
На дендограмме видны 3 группировки: первая включает объекты 1,2,8 и 3; вторая- 6 и 9; третья
включает 4,7 и 10; четвертая включает 5. Значит, для более подробного рассмотрения группировок
следует задать их количество равное 4.
1 группировка: Рубан Валентина Анатольевна, Шайхутдинова Лиана Камильевна, Зуйкова
Юлия Сергеевна и Рябцунова Александра Александровна.
2 группировка: Козырева Юлия Владимировна и Выскочков Владимир Сергеевич.
3 группировка: Рябчун Алина Анатольевна, Гордеева Татьяна Алексеевна и Левкович Людмила
Викторовна.
4 группировка: Корелина Екатерина Вадимовна.
Analysis Summary
---------------Data variables:
A
C
E
G
H
L
N
Q2
Q3
Number of complete cases: 10
Clustering Method: Ward's
Distance Metric: Squared Euclidean
Cluster Members Percent
--------------------------1
4
40,00
2
3
30,00
3
1
10,00
4
2
20,00
--------------------------Centroids
Cluster A
C
E
G
H
L
N
Q2
----------------------------------------------------------------------------------------------------------------1
8,75
8,0
7,0
8,5
9,75
6,0
8,25
4,75
2
6,66667 6,0
6,33333 6,33333 7,33333 4,33333 5,33333 3,33333
3
12,0
8,0
4,0
9,0
4,0
2,0
6,0
7,0
4
10,0
9,0
9,0
4,5
11,5
5,0
6,0
4,5
----------------------------------------------------------------------------------------------------------------Cluster Q3
---------------------1
7,0
2
6,33333
3
10,0
4
7,0
---------------------Рис. 3 Сводка кластерного анализа разбитого на 4 кластера
По координатам центроидов можно судить о том, какие переменные играют наиболее важную
роль в каждом кластере.
Во 2 и 1кластере самые низкие значения всех показателей здесь отражает имеющуюся у любого
человека меру общения, активность в социальных контактах связанная с чувствительностью
вегетативной нервной системы. Неконформность в виде негативизма, так и в виде
коллективистического самоопределения. Мнение может совпадать с мнением коллектива,но, если
это мнение идет вразрез с целями и ценностями коллектива, то человек может, защищая их,
выступать против такого мнения коллектива. Доверчивы. Способность управлять своими
эмоциональными реакциями. В 3 и 4 кластере почти все показатели выше, чем у других кластеров,
объекты этих кластеров предпочтительны на местах, требующих постоянного общения с людьми,
управляют своими эмоциональными реакциями и сдерживать свои эмоции и настроения.
Конформность т.е. способны изменять свое поведение под влиянием других людей, чтобы оно
соответствовало мнениям окружающих, стремление приспособить его к их требованиям. По роду
своей работы могут надеяться только на себя в сложные периоды жизни.
Membership Table
---------------Clustering Method: Ward's
Distance Metric: Squared Euclidean
Row Cluster
--------------1
1
2
1
3
1
4
2
5
3
6
4
7
2
8
1
9
4
10
2
---------------
Рис 4.Таблица принадлежности объектов
Dendrogram
Ward's Method,Squared Euclidean
Distance
40
30
20
10
9
6
5
10
7
4
3
8
2
1
0
Рис 5 Дендограмма
На дендограмме видны 4 дерева – 4 группировки, с именами вошедших в них объектов.
Cluster Scatterplot
Ward's Method,Squared Euclidean
11
Cluster
1
2
3
4
Centroids
C
9
7
5
3
6
7
8
9
10
11
12
A
Рис. 6 Двухмерная диаграмма рассеивания
На диаграмме объекты группируются на плоскости двух показателей: Замкнутость – открытость
в общении А и Неуравновешенность – контроль эмоциональных реакций С. Для 1 и 3 кластера
наблюдается среднее значение А и С. Для 2 кластера самое низкое значение А и С. Для 4 кластера
наблюдаются самые высокое значение С и А.
Факторный анализ
Проведем факторный анализ исходных данных.
Analysis Summary
Data variables:
A
C
E
G
H
L
N
Q2
Q3
Data input: observations
Number of complete cases: 10
Missing value treatment: listwise
Standardized: yes
Type of factoring: principal components
Number of factors extracted: 3
Factor Analysis
----------------------------------------------Factor
Percent of Cumulative
Number Eigenvalue Variance Percentage
1
2,69784
29,976
29,976
2
2,15704
23,967
53,943
3
1,35434
15,048
68,991
4
1,12606
12,512
81,503
5
0,89561
9,951
91,454
6
0,535342
5,948
97,403
7
0,152046
1,689
99,092
8
0,0707352 0,786
99,878
9
0,0109923 0,122 100,000
----------------------------------------------Рис.7 Первичная сводка факторного анализа
Analysis Summary
Data variables:
A
C
E
G
H
L
N
Q2
Q3
Data input: observations
Number of complete cases: 10
Missing value treatment: listwise
Standardized: yes
Type of factoring: principal components
Number of factors extracted: 4
Factor Analysis
----------------------------------------------Factor
Percent of Cumulative
Number Eigenvalue Variance Percentage
1
2,69784
29,976
29,976
2
2,15704
23,967
53,943
3
1,35434
15,048
68,991
4
1,12606
12,512
81,503
5
0,89561
9,951
91,454
6
0,535342
5,948
97,403
7
0,152046
1,689
99,092
8
0,0707352 0,786
99,878
9
0,0109923 0,122 100,000
----------------------------------------------Рис.8 Вторичная сводка факторного анализа
Factor Loading Matrix After Varimax Rotation
A
C
E
G
H
L
N
Q2
Q3
Factor
Factor
Factor
Factor
1
2
3
4
------------ ------------ ------------ ------------0,080398 0,913533 -0,0412756 0,164525
-0,0799916 0,195376 0,0812975 0,835398
0,972961 0,0669083 0,0569507 -0,118087
-0,201882 0,26316 0,615157 -0,586489
0,859384 -0,0459787 0,292643 0,182891
0,333753 -0,372981 0,684262 0,419116
0,206776 0,224454 0,911771 -0,00386231
-0,559452 0,653777 0,151513 0,238639
0,128355 0,612102 0,133222 -0,0888977
Рис.9 Значения факторных нагрузок после процедуры вращения
В факторе 1 высокое значение имеет показатель Е,Н. В факторе 2: А,Q2,Q3. В факторе 3: N,L,G.
В факторе 4: C. Назовем факторы:
Фактор 1: Подчиненность – доминантность при поведении в группе. Сдержанность – активность
в контактах с людьми.
Фактор 2: Замкнутость – открытость в общении. Конформность – неконформность. Низкий –
высокий самоконтроль.
Фактор 3: Простота – изощренность поведения. Доверчивость- подозрительность по отношению
к другим людям в общении. Низкая – высокая дисциплинированность.
Фактор 4: Неуравновешенность – контроль эмоциональных реакций.
Percent of variance
Scree Plot
100
80
60
40
20
0
Рис. 10 Процент дисперсии для каждого фактора
0
2
4
6
8
10
1 фактор имеет высокое, самое большое значение процента дисперсии, примерно 2,7%.На 2
фактор приходится примерно 2,2% дисперсии. Factor
На 3 фактор где-то 1,3%. 4 фактор примерно 1,1%
дисперсии. Остальные факторы малозаметны по этому показателю.
1 фактор имеет высокое, самое большое значение процента дисперсии, примерно 30%. На 2
фактор приходится примерно 22% дисперсии. На 3 фактор 14% дисперсии. На 4 фактор 7%
дисперсии. Остальные факторы малозаметны по этому фактору.
Графики зависимости (корреляции) между факторами.
Scatterplot
Factor 2
5,5
3,5
1,5
-0,5
-2,5
-4,4
-2,4
-0,4
1,6
3,6
Factor 1
Рис.11 Проекция исследуемых объектов на плоскость, образованную 1 и 2 фактором. 1 и 2
факторы слабо коррелируют.
Scatterplot
Factor 3
5,1
3,1
1,1
-0,9
-2,9
-4,4
-2,4
-0,4
1,6
3,6
Factor 1
Рис.12 Проекция исследуемых объектов на плоскость, образованную 1 и 3 фактором. 1 и 2
факторы средне коррелируют. Корреляция положительная.
Scatterplot
Factor 3
5,1
3,1
1,1
-0,9
-2,9
-2,5
-0,5
1,5
3,5
5,5
Factor 2
Рис.13 Проекция исследуемых объектов на плоскость, образованную 3 и 2 фактором. 3и 2
факторы не коррелируют.
Plot of Factor Loadings
1,1
Factor 2
0,8
A
Q2
Q3
0,5
G
0,2
C
N
H
E
-0,1
L
-0,4
-0,6
-0,2
0,2
0,6
1
Factor 1
Рис.14 Двухмерное отображение факторных нагрузок
График отображает факторные нагрузки на плоскости, образованной 1 и 2 факторами, увидеть,
какие показатели имеют наибольшее значение для того или иного фактора. Чем факторные
нагрузки к единице, тем больший вес они имеют.
Выводы
Был проведен кластерный анализ 10 объектов по 9 показателям. Было выявлено 4
фактора, отличающихся по коммуникативным свойствам личности и волевым сферам
личности.
Был выполнен факторный анализ 10 объектов по 9 показателям, в результате которого
были объединены в 4 фактора, по которым характеризуется объекты.
Государственное образовательное учреждение высшего профессионального
образования «Сибирский государственный медицинский университет
Федерального агентства по здравоохранению и социальному развитию».
(ГОУВПО СибГМУ Росдрава )
Отчет
по экспериментальной психологии
На тему: «Факторный и кластерный анализ».
Выполнила: Студентка 3 курса группы 6901
ФКПП
Зуйкова Юлия Сергеевна
Г. Томск 2011
Download