ðÉÝÕÌÉÎÁ ÍÁÔÓÔÁÔ 3 - Томский политехнический университет

advertisement
Министерство образования и науки РФ
«Национальный исследовательский Томский политехнический университет»
Институт кибернетики
Кафедра прикладной математики
Отчет по лабораторной работе 3
«Коэффициенты корреляции Пирсона и Спирмэна»
По дисциплине «Прикладная математическая статистика»
Выполнила
студентка гр. 8БМ10
Пищулина Н.В.
Проверил
профессор кафедры ПМ
Берестнева О.Г.
Томск — 2013
Цель работы:
Теоретические положения
Коэффициент Пирсона
Величина
n
 (x
i 1
i
 x )  ( y i  y ) /( n  1) является мерой связи x и y и
называется ковариацией x и y. Ковариация x и y обозначается через sxy :
 ( xi  x )( y i  y ) .
s xy 
(1)
n 1
Заметим, что ковариация x с самим собой – это просто дисперсия x:
( xi  x )( xi  x )  ( xi  x ) 2

(2)
s xx 

 s x2 .
n 1
n 1
Чтобы избавить меру связи от влияния стандартных отклонений двух
групп значений, sxy делят на произведение sx и sy. Полученная в результате
мера связи x и y называется коэффициентом корреляции Пирсона и
обозначается rху:
s xy
(3)
rxy 
sx sy
или
s xy
 ( xi  x )( y i  y ) /(n  1)
(4)
rxy 

.
2
2
sx s y
 ( xi  x ) /(n  1)   ( yi  y ) /(n  1)
Величину 1/(n – 1) можно выделить в качестве сомножителя из двух
членов знаменателя уравнения (4) (1 / (п  1) из каждого члена) и сократить
на 1/(n – 1) в числителе. Тогда формула для вычисления коэффициента
корреляции примет вид
 ( xi  x )( yi  y )
(5)
rxy 
.
 n ( x  x )2    n ( y  y)2 
i
i

 

i 1
i 1
Простые преобразования приводят к следующей формуле для rxy:
 xi y i   xi  y i  / n
rxy 
2
2
 xi2   xi  / n   yi2   yi  / n ,
(6)
которую можно еще более упростить, образуя расчетную формулу:
n xi y i   xi  y i 
rxy 
.
(7)
2
2
2
2
n xi   xi   n y i   y i 
Значения пирсоновского коэффициента корреляции находятся в
интервале от –1 до +1. Для того чтобы определить, является ли
корреляционная связь между исследуемыми переменными статистически
значимой, нужно вычисленное значение rху сравнить с критическим






значением – rкр . Если окажется, что rху  rкр , то коэффициент корреляции
является «значимым», а корреляционная связь – статистически достоверной.
Несмотря на то, что сосуществование (корреляцию) событий можно
использовать для выявления причинных связей наряду с другими
методологическими подходами, монопольное применение корреляции к
анализу причинности рискованно и может вводить в заблуждение. Вопервых, даже в тех случаях, когда можно предположить существование
причинной связи между двумя переменными, которые коррелированны, rxy
сам по себе ничего не говорит о том, вызывает ли x появление y или y
вызывает появление x. Во-вторых, часто наблюдаемая связь существует
благодаря другим переменным, а не двум рассматриваемым. В-третьих,
взаимосвязи переменных в педагогике и общественных науках почти всегда
слишком сложны, чтобы их объяснением могла служить единственная
причина.
Из всех способов, которыми могут быть связаны измерения двух
переменных, rxу оценивает только один. Величина rxу представляет собой
меру степени линейной связи x и y.
Коэффициент корреляции рангов
Из непараметрических показателей связи наиболее широкое применение
нашел коэффициент корреляции рангов, предложенный Спирмэном:
n
6  d i2
rs  1  i 1
,
n n2 1


(8)
где d i  Rx  R y – разность между рангами признаков x и y; n – число парных
членов ряда или объем выборки.
В основу конструкции этого показателя положены весьма простые
соображения. Ранжируя попарно связанные значения признаков, можно
видеть, как они распределяются относительно друг друга. Если
возрастающим значениям одного признака x соответствуют возрастающие
значения другого y, то между ними существует положительная связь. Если
же при возрастании значений одного признака значения другого
последовательно уменьшаются, это указывает на наличие отрицательной
связи между ними. При отсутствии корреляции ранжированным значениям
одного признака будут соответствовать самые различные значения другого.
Определив ранги значений переменных, по их разностям можно судить
о степени зависимости одного признака от изменений другого. Очевидно,
при полной связи ранги коррелируемых признаков совпадут, и разность
между ними будет равна нулю. В таких случаях коэффициент корреляции
рангов окажется равным единице. Если же признаки варьируют независимо
6 d 2
друг от друга, то величина
 1 и коэффициент корреляции рангов
n(n 2  1)
будет равен нулю. Таким образом, коэффициент корреляции рангов
выражается в долях единицы и может принимать значения от –1 до + 1, т. е.
сопровождается положительным или отрицательным знаком.
Значимость этого показателя оценивают путем сравнения выборочного
коэффициента rs с критической точкой rst , которую можно определить по
формуле
1 
m 
rst 
(9)
1 
,
n  1  n  1
где n – объем выборки; t и т – величины, связанные с уровнем значимости 
следующим образом: для  = 5 % t = 1,96 и т = 0,16; для  = 1 % t = 2,58 и
т = 0,69. Нулевую гипотезу отвергают, если эмпирически найденная
величина rэмп превзойдет или окажется равной критическому значению rкр
для принятого уровня значимости  и объема выборки n. Чтобы каждый раз
не рассчитывать критические точки rкр , составлена специальная таблица
критических значений.
Приведенный способ оценки значимости выборочного rэмп не
единственный. При n  10 значимость эмпирического коэффициента
корреляции рангов можно оценить с помощью t-критерия Стьюдента, т. е. по
отношению этого показателя к своей статистической ошибке:
n2
t эм п  rs
 t кр для n – 2 и принятого уровня значимости .
1  rs2
Рассчитывая коэффициент корреляции рангов, следует иметь в виду, что
на его значении сказывается наличие групп с одинаковыми рангами, и тем
сильнее, чем больше таких групп среди сопряженных значений признаков x и
y. Чтобы получить более точное значение rэмп, нужно при наличии указанных
групп вносить поправку в формулу (8). Эту поправку, обозначаемую буквой
Т, прибавляют к числителю формулы, т. е.
6 d 2  T
*
(8а)
rs  1 
,
n(n 2  1)
где T = Vx + Vy , a Vx – поправка для одного признака (ряд х), Vy – для другого
(ряд у). Для определения Vx и Vy составлена специальная таблица, в которой l
обозначает число групп с одинаковыми рангами (столбцы), а t – число рангов
в этих группах (строки).
Ход работы
Переменные
Замкнутость открытость в общении
Неуравновешенность
– контроль
эмоциональных
реакций
Сдержанность –
активность в
контактах с людьми
По Пирсону
rxy
p
По Спирмэну
rxy
p
0.3657
0.0172
0.3168
0.0425
0.59
0
0.5745
0.002
Эмоциональная
чувствительность
Неуравновешенность
– контроль
Логический интеллект
эмоциональных
реакций
Замкнутость открытость в
общении
Неуравновешенность –
контроль
Сдержанность –
эмоциональных
активность в
реакций
контактах с людьми
Эмоциональная
чувствительность
Подчинённость –
доминантность при
̶
поведении в группе
Бедность – Богатство
Эмоциональная
эмоциональных
чувствительность
реакций человека
Низкая – высокая
̶
дисциплинированность
Замкнутость открытость в
общении
Сдержанность –
Неуравновешенность
активность в контактах
– контроль
с людьми
эмоциональных
реакций
Эмоциональная
чувствительность
Замкнутость открытость в
общении
Неуравновешенность
– контроль
эмоциональных
Эмоциональная
реакций
чувствительность
Бедность – Богатство
эмоциональных
реакций человека
Сдержанность –
активность в
контактах с людьми
Выводы
0.4088
0.0072
0.3747
0.0164
0.3139
0.0444
0.3657
0.0172
0.3168
0.0425
0.5783
0.0001
0.5355
0.0006
0.4552
0.0025
0.4619
0.0031
0.3627
0.0182
0.4389
0.005
0.59
0
0.5745
0.002
0.5783
0.0001
0.5355
0.0006
0.48
0.0013
0.4267
0.0063
0.4088
0.0072
0.3747
0.0164
0.4552
0.0025
0.4619
0.0031
0.3627
0.0182
0.4389
0.005
0.48
0.0013
0.4267
0.0063
Download