Б.Г.Коростелкин ПРИМЕНЕНИЕ МЕТОДОВ КОРРЕЛЯЦИОННОГО И ФАКТОРНОГО АНАЛИЗА В ПСИХОЛОГО-ПЕДАГОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

advertisement
Б.Г.Коростелкин
ПРИМЕНЕНИЕ МЕТОДОВ
КОРРЕЛЯЦИОННОГО И ФАКТОРНОГО АНАЛИЗА
В ПСИХОЛОГО-ПЕДАГОГИЧЕСКИХ ИССЛЕДОВАНИЯХ
Большинство зависимостей в психологии
и педагогике имеют характер не функциональной, а статистической связи. В статистической связи между двумя элементами всегда
есть элементы случайности, поэтому статистическая связь проявляется только как тенденция. Так, например, связь между успеваемостью в начальных классах и возрастом, в
котором дети научились читать, имеет статистический характер, так как можно встретить слабоуспевающего ребенка, который
научился читать еще до школы и наоборот.
В статистике зависимость между двумя
и более переменными называют корреляцией (от лат. «связь», «соотношение»), а в качестве показателя степени и величины статистической связи
используют коэффициент корреляции (К). С изменением коэффициента корреляции изменяется характер связи между переменными, причем если:
• К = 1, то имеет место прямая функциональная связь;
• К = – 1, то связь имеет обратнофункциональный характер;
• К = 0, то связь между признаками отсутствует;
• !К! > 0, 6, то корреляционная связь считается выраженной;
• 0, 3 < !К! < 0,6, то связь выражена слабо [2].
Достоверность связи переменных зависит не только от величины коэффициента корреляции, но и от количества экспериментальных данных, т.к.
чем больше данных, тем достовернее связь между ними. Кроме этого, достоверность связи зависит от заранее принятой исследователем вероятности
ошибки. О статистической связи нельзя говорить с полной уверенностью,
ибо всегда остается вероятность нарушения этой связи, т.е. вероятность
ошибки. Поэтому в статистике принято выделять три уровня достоверности
или значимости выводов (р):
• р = 0,05, или 95%-й уровень достоверности, который допускает вероятность ошибки 5%;
• р = 0,01, или 99% -й уровень достоверности, где вероятность ошибки
составляет 1%;
46
• р = 0,001, или 99,9%-й (уровень достоверности, который означает вероятность одной ошибки на 1000 случаев).
В психолого-педагогических исследованиях достаточно достигнуть первого уровня достоверности выводов, поэтому второй и третий уровни обычно
не используются.
Использование корреляционного анализа в психолого-педагогических исследованиях обусловлено необходимостью установления самого факта и степени статистической зависимости двух или нескольких переменных. Особую
актуальность этот метод приобретает тогда, когда исследователь может
только регистрировать (измерять) переменные, но не может их контролировать (изменять). В этом случае корреляционный анализ позволяет выявить
связи, проверка которых затруднена или невозможна по этическим соображениям (самоубийства, наркомания, физические наказания и т.д.).
К достоинствам данного метода следует также отнести возможность
его использования в качестве пилотажной проверки экспериментальной гипотезы. Эта возможность обусловлена тем, что при наличии причинно-следственной связи, между ними обязательно существует корреляционная связь.
Факт отсутствия корреляции позволяет отвергнуть предположение о причинно-следственной связи переменных.
Как и любой другой метод, корреляционный анализ не лишен недостатков. Главным из них является то, что наличие корреляций не выявляет наличие причинно-следственных отношений, т.е. по корреляции нельзя установить
причину и следствие. Например, при изучении агрессивности детей было установлено, что склонные к жестокости дети чаще сверстников смотрят фильмы со сценами насилия. Что это означает? Сцены насилия развивают агрессивные реакции или наоборот, подобные фильмы привлекают самых агрессивных детей? К сожалению, корреляционный анализ не может дать ответа в
данном и подобных случаях.
Кроме этого, следует учитывать, что обе переменные могут изменяться под влиянием какой-то третьей или даже нескольких переменных. В этом
случае корреляционная связь переменных вовсе не означает, что между ними
имеет место причинно-следственная связь.
Довольно часто в исследовательской практике встречаются случаи «ложной корреляции», обусловленной неоднородностью выборки испытуемых.
Такая ложная корреляция способна стать, например, «доказательством» того,
что женщины дисциплинированнее мужчин, подростки из неполных семей
более склонны к правонарушениям, экстраверты агрессивнее интровертов и
т.п. Действительно, стоит отобрать в одну группу мужчин, работающих в
высшей школе, и женщин, предположим, из сферы обслуживания, да еще про-
47
тестировать и тех, и других на знание научной методологии, то мы, естественно, получим зависимость качества информированности от пола. Можно
ли доверять такой корреляции?
Коэффициентов корреляции существует достаточно много. Наибольшее
распространение получили те из них, которые учитывают наличие линейной
связи между переменными. Это коэффициент линейной корреляции Пирсона
и коэффициент ранговой корреляции Спирмена, выбор которых обусловлен
типом шкалы измерения переменных (интервальная и порядковая). Способы
вычисления этих коэффициентов достаточно подробно рассмотрены в учебно-методической литературе [2].
В отличие от метода парных корреляций, метод множественных корреляций позволяет выявить общую структуру корреляционных зависимостей,
существующих внутри многомерного экспериментального материала, включающего более двух переменных.
Один из наиболее распространенных вариантов этого метода – факторный
анализ – позволяет определить совокупность внутренних взаимосвязей, возможных причинно-следственных связей, существующих в экспериментальном материале. В результате факторного анализа обнаруживаются так называемые факторы – причины, объясняющие множество частных (парных) корреляционных зависимостей. Итогом факторного анализа является факторная
структура, которая представляет собой отражение пространства коррелированных переменных (R), в некоторое пространство идеальных математических объектов (факторов), называемое факторным пространством (F).
Математически фактор представляет собой вектор, равновеликий порядку корреляционной матрицы. Компонентами этого вектора являются нормированные коэффициенты линейных регрессий, связывающих данный фактор со всеми переменными корреляционной матрицы.
Fi = (a1 i, а2 i, а3 i, … аN i)
где i – номер фактора,
N – порядок корреляционной матрицы,
a 1 i , а 2 i , …, а N i – компоненты, называемые факторными зарядами (или
весами) переменных. Факторные заряды изменяются в тех же пределах, что
и коэффициенты корреляции. Поэтому a i j часто, несколько искажая суть дела,
интерпретируют как коэффициент корреляции i-го фактора с j-й переменной
(суть искажения только в неучете ориентации a i j по сравнению с неориентированным r i j).
В содержательном смысле фактор представляет собой неизвестную или
гипотетическую причину совместной изменчивости коррелирующих переменных. По смыслу переменных, изменчивость которых значимо обусловлена
48
данным фактором (a i j – значимы), его интерпретируют в психологических,
педагогических и других терминах. Эта процедура называется содержательной или психолого-педагогической интерпретацией факторов. Так, например,
выделяются факторные структуры личности, интеллекта, успешности обучения и др.
Принято различать общие (генеральные), групповые и единичные (специфические) факторы. Общий фактор имеет значимые веса для корреляционных переменных. Групповой – только для части, а единичный – для единой
какой-нибудь переменной. Единичные факторы рассматриваются лишь в теории факторного анализа, на практике используют только общие и групповые
факторы.
Общий
фактор
1
2
Групповой
фактор
3
4
5
Единичный
фактор
6
7
8
9
Рис. 1. Структура факторного отображения взаимосвязей переменных. 1–9 – коррелирующие переменные; отрезки, соединяющие факторы с переменными, указывают на высокие факторные веса
Все методы факторного анализа исходят из общей базовой идеи, в соответствии с которой структура связей между N анализируемыми переменными x1, x2, …xN может быть объяснена тем, что все эти переменные зависят
(линейно или как-то иначе) от меньшего числа других, непосредственно не
измеряемых (скрытых, латентных) факторов F1 F2… Fk, где k < N [1]. Эта
идея определяет основную формальную задачу факторного анализа – наилучшим образом выбрать факторное пространство с числом факторов меньше числа коррелированных переменных, которое бы всех их отображало с
достаточной точностью [3].
Исходным математическим объектом для факторного анализа является корреляционная матрица (R). Несмотря на процедурные и концептуальные
различия, все методы факторного анализа имеют то общее, что в результате
факторизации (так называется процедура решения основной задачи) корреляционная матрица (R) представляется в виде скалярного произведения факторной матрицы (F) на её транспозицию (FT) либо в виде суммы «слоев» (R i),
49
определяемых тензорными произведениями столбцов (F i ) факторной матрицы на их транспозиции (FiT), разумеется, с некоторой матрицей ошибок (Е):
k
R = FF T + E =
∑R
i
+E .
(1)
i =1
Эти матричные уравнения являются основными для факторного анализа. Согласно этим уравнениям «единичные» дисперсии (из главной диагонали
корреляционной матрицы) выражаются через сумму квадратов факторных
k
зарядов:
(2)
1=
a i2j + E j ,
∑
i =1
а коэффициенты корреляции – через сумму произведений факторных зарядов
коррелирующих переменных:
k
(3)
r jm =
ai j ami + E jm ,
∑
i =1
где Е j и Е j m – погрешности отображения.
По исходным представлениям о количестве общих факторов в корреляционной матрице (R) исторически выделилось три вида факторного анализа:
• однофакторный (по Спирмену);
• бифакторный (по Холзингеру);
• мультифакторный (по Терсону).
При факторизации любым методом первым выделяется всегда общий
фактор. Остальные могут быть общими либо групповыми. Во многих случаях оказывается выгодным использовать более простую однофакторную модель, дающую сходные с мультифакторным анализом результаты. Ниже подробно будет рассмотрен однофакторный метод. За недостатком места бифакторная и мультифакторная модели не будут рассматриваться.
Процедура извлечения факторных зарядов (факторизации) по методу
Спирмена относится лишь к общему фактору и состоит из трех этапов. На первом этапе для каждой j-й переменной вычисляются заряды aj общего фактора
по следующей формуле:
(r ) 2j − (r 2 ) j
aj =
,
(r ) t − 2(r ) j
где (r ) j – сумма всех коэффициентов корреляции в j-м столбце корреляционной матрицы;
(r ) 2j – квадрат предыдущей суммы;
(r 2 ) j – сумма квадратов всех коэффициентов корреляции в j-м столбце
корреляционной матрицы;
( r ) t – сумма всех коэффициентов корреляции в корреляционной матрице.
50
Определенные таким путем факторные заряды aj образуют факторную
матрицу (F), в которой всего один столбец и n строк (по числу переменных:
j = 1, 2, … n):
 a1 
a 
F =  2 .
 ... 
 
a n 
На втором этапе факторного анализа по методу Спирмена осуществляется транспортирование факторной матрицы – столбца. Транспортированная матрица (FT) содержит одну строку с n столбцами:
FT = [ а1 а2 …аn]
Далее, согласно уравнению, определяется репродуцированная корреляционная матрица
R 1 = F FT ,
каждый элемент которой определяется по формуле
r *j k = a j a k ,
*
где r j k – репродуцированный коэффициент корреляции;
a j – факторный заряд j-й переменной,
a k – факторный заряд k-й переменной (j = 1, 2, …n; k = 1, 2,… n; j ≠ k).
По правилу умножения столбцов цифр на строку матрицы, каждая цифра
столбца последовательно умножается на каждую цифру строки и результаты
парных произведений записываются в строку аналогичной матрицы.
 a1a1 a 1a 2 ... a1a n 
 a1 
a 
a a a a ... a a 
2
2 2
2 n

(4)
R1 =
× [a 1 a 2 ... a n ] =  2 1
 ... 
 ...
...
...
... 
 


a n 
a n a 1 a n a 2 ... a n a n 
Третий этап процедуры состоит в определении остаточной корреляционной матрицы и проверки возможности рассматривать остаточную матрицу как матрицу погрешностей.
Остаточная корреляционная матрица определяется как разность между
исходной и репродуцированной корреляционными матрицами:
R 0 = R 0 – R 1,
(5)
где R 0 – исходная,
R 1 – репродуцированная,
R 2 – остаточная корреляционные матрицы. Обозначив элементы остаточной матрицы r *j k , напомним, что они находятся для каждой пары элементов r j k и r * j k по уравнению
(6)
r = r − r* .
jk
jk
51
jk
Далее требуется осуществить проверку равенства
R2 = E,
где E – матрица погрешностей. При проверке обычно исходят из того, что в
остаточной матрице, если она действительно образована погрешностями,
остаточные коэффициенты корреляции r j k распределены нормально со средним значением, равным нулю. Следовательно, достаточно определить стандартное отношение σr и проверить условие
rj k
max
≤ σr .
(7)
Если оно выполняется, то остаточную матрицу считают за матрицу погрешностей, если же оно не выполняется, то значит в остаточной матрице,
наряду с погрешностями, содержаться заряды других общих факторов (по
крайней мере одного), которые можно извлечь другими методами факторного анализа.
Величину σr можно определить либо через математическое ожидание,
либо по более простой формуле:
1
σr =
,
(8)
N −1
где N – количество испытуемых (в общем случае – число пар коррелируемых
значений).
Рассмотрим теперь процедуру однофакторного анализа по Спирмену на
примере*.
Пример. В исследовании индивидуальных различий при запоминании
разных видов материала изучались следующие шесть видов заучиваемого
материала: 1) картинки, 2) слова конкретные, 3) слова абстрактные, 4) числа
двузначные, 5) числа трехзначные, 6) бессмысленные слоги. Оценкой служило количество повторений, потребовавшихся для полного запоминания.
Ряды оценок, полученных для 32 испытуемых, коррелировались для каждой пары видов заучиваемого материала. Корреляционная матрица порядка
6 представлена в верхней части табл.1, а в её нижней части представлены
промежуточные и окончательные данные, соответствующие формуле (3).
Факторная матрица F представлена в табл. 2. Умножая, согласно (4),
матрицу F на её транспозицию F1, получили репродуцированную матрицу R1,
(табл. 3). Далее, вычитая, согласно (5) и (6), матрицу R1 из исходной корреляционной матрицы R0, получаем остаточную матрицу R2, (табл. 4). Выполним
для этой матрицы проверку условия (7). Максимальное абсолютное значе* См.: Теплов Б.М. Простейшие способы факторного анализа // Психологические особенности высшей нервной деятельности человека. М., 1967. Т.5.
52
ние остаточного коэффициента корреляции (табл. 4) составляет 0,11, а значе1
≈ 0,18 ,
ние σr в соответствии с формулой (8) составляет
следова31
тельно, условие (7) выполняется. Все другие остаточные коэффициенты корреляции (табл. 4) удовлетворяют этому условию. Следовательно, остаточную корреляционную матрицу можно считать матрицей погрешностей, а процесс факторизации законченным.
Итак, выделен единственный общий фактор, интерпретируемый как «фактор опосредованного, осмысленного запоминания».
Таблица 1
Исходная корреляционная матрица,
промежуточные и окончательные данные факторизации
Показатели
1
1
2
3
4
5
6
(r) j 2
(r) j
(r2) j
Числитель
(2 r)j
Знаменатель
a 2j
aj
–
0,48
0,24
0,33
0,38
0,43
1,86
3,460
0,726
2,734
3,72
10,16
0,269
0,52
2
0,48
–
0,57
0,56
0,43
0,59
2,63
6,917
1,402
5,525
5,26
8,62
0,640
0,80
3
4
5
6
0,24
0,57
–
0,37
0,40
0,56
2,14
4,580
0,993
3,587
4,28
9,60
0,374
0,61
0,33
0,56
0,37
–
0,49
0,50
2,25
5,062
1,050
4,012
4,50
9,38
0,428
0,65
0,38
0,43
0,40
0,49
–
0,61
2,31
5,336
1,102
4,234
4,62
9,26
0,457
0,68
0,43
0,59
0,56
0,50
0,61
–
2,69 / r t = 13,88
7,236
1,469
5,767
5,38
8,50
0,678
0,82
Таблица 2
Факторная матрица
Показатели
Заряды общего фактора
1
2
3
4
5
6
0,52
0,80
0,61
0,65
0,68
0,82
53
Таблица 3
Репродуцированная корреляционная, вычисленная
как произведение табл. 2 на её транспозицию
Показатели
1
2
3
4
5
6
1
2
3
4
5
6
–
0,42
0,32
0,34
0,35
0,43
0,42
–
0,49
0,52
0,54
0,66
0,32
0,49
–
0,40
0,42
0,50
0,34
0,52
0,40
–
0,44
0,53
0,35
0,54
0,42
0,44
–
0,56
0,43
0,66
0,50
0,53
0,56
–
Таблица 4
Остаточная корреляционная матрица, полученная вычитанием
из матрицы R0 (табл. 1) матрицы R1 (табл. 3)
Показатели
1
2
3
4
5
6
1
2
3
4
5
6
–
0,06
– 0,08
– 0,01
0,03
0,00
0,06
–
0,08
0,04
– 0,11
– 0,07
– 0,08
0,08
–
– 0,03
– 0,02
0, 06
– 0, 01
0,04
– 0,03
–
0,05
– 0,03
0, 03
– 0,11
– 0,02
0, 05
–
0,05
0,00
– 0,07
0,06
– 0,03
0,05
–
Мультифакторный анализ, разработанный Л.Терстоном, базируется на
предложении о наличии в любой корреляционной матрице более чем одного
общего фактора, а также групповых и специфических факторов. В отличие
от однофакторного анализа мультифакторный анализ не исчерпывается процессом факторизации, а включает ещё одну ступень, так называемую «ротацию». Кроме того, процесс факторизации здесь является многошаговым, и
число шагов факторизации определяется целым рядом обстоятельств. Факторизация может проводиться разными методами, из которых наиболее распространены метод главных компонентов и центроидный метод [4; 5; 6].
При использовании факторного анализа, исследователю необходимо ознакомится с геометрической интерпретацией корреляционной и факторной
матриц. Это обусловлено тем, что получаемое первичное факторное решение не единственно возможное. Геометрически любая факторизация представляет собой лишь определенную ориентацию системы координат (факторов) относительно конфигурации векторов переменных. Если повернуть систему координат на некоторый новый угол относительно конфигурации векторов переменных, то получится новое факторное решение. Отсюда ясно, что
54
существует неограниченное число возможных факторных решений даже при
фиксированном количестве факторов. Следовательно, всегда есть возможность улучшения первичного факторного решения путем поворота факторного пространства, которое и называют ротацией.
Как и все другие, методы факторного анализа имеют ограничения и не
лишены ряда проблем, связанных с их применением. Отметим основные ограничения и проблематику.
Основные ограничения: корреляционная матрица не должна содержать
коррелированных переменных и переменных, которые интегрируют другие из
числа того же набора. Переменные должны быть нормализованы в шкалах с
базой не менее 10 шкальных единиц.
Основная проблематика сводится к ограничению числа извлекаемых
факторов и выбору хорошо интерпретируемого и устойчиво повторяющегося
от опыта к опыту факторного решения. При этом имеют значение не столько
конкретные величины факторных зарядов, сколько их знак и статистическая
значимость отличия от нуля по модулю.
В заключение отметим, что факторный анализ может дополняться регрессионным. По факторным зарядам с помощью машинных процедур вычисляются множественные линейные регрессии, позволяющие вывести прогноз успешности в деятельности (в том числе учебной, педагогической). Так
получены, например, известные уравнения успешности для личностных опросников Р. Кэттела. Другой пример – уравнение академической успеваемости
слушателей подготовительного отделения одного из вузов (Г.Ф. Крылова):
у = 0,384 F1 + 0,136 F2 + 0,015 F3 + 3,23 ,
где у – средний бал успеваемости,
F1 – фактор общих умений,
F2 – фактор настойчивости и сосредоточенности (т.е. волевых качеств),
F3 – фактор темпа, умения быстро все делать. Надежность предсказания по этому уравнению порядка 80%.
Список литературы
1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрии. М., 1998.
2. Немов Р.С. Психология. М., 1999. Кн. 3.
3. Харман Г. Современный факторный анализ. М., 1972.
4. Гласс Дж., Стенли Дж. Статистические методы в педагогике и психологии. М., 1976.
5. Фресс П., Пиаже Ж. Экспериментальная психология. М., 1996. Вып. I, II.
6. Факторный, дискриминантный и кластерный анализ: Пер. с англ. М.,
1989.
55
Download