Этап 3. Нахождение взаимосвязи между данными Линейная корреляция

advertisement
Этап 3. Нахождение взаимосвязи между данными
Линейная корреляция
Последний этап задачи изучения связей между явлениями – оценка тесноты связи по показателям корреляционной связи. Этот этап очень важен для выявления зависимостей между
факторными и результативными признаками, а следовательно, для возможности осуществления
диагноза и прогноза изучаемого явления.
Диагноз (от греч. diagnosis распознавание) – определение существа и особенностей состояния какого-либо объекта или явления на основе его всестороннего исследования.
Прогноз (от греч. prognosis предвидение, предсказание) – всякое конкретное предсказание, суждение о состоянии какого-либо явления в будущем (прогноз погоды, исхода выборов и
т.п.). Прогноз – это научно обоснованная гипотеза о вероятном будущем состоянии изучаемой
системы, объекта или явления и характеризующие это состояние показатели. Прогнозирование
– разработка прогноза, специальные научные исследования конкретных перспектив развития
какого-либо явления.
Вспомним определение корреляции:
Корреляция – зависимость между случайными величинами, выражающаяся в том, что
распределение одной величины зависит от значения другой величины.
Корреляционная связь наблюдается не только между количественными, но и качественными признаками. Существуют различные способы и показатели оценки тесноты связей. Мы
остановимся лишь на линейном коэффициенте парной корреляции, который используется
при наличии линейной связи между случайными величинами. На практике часто возникает
необходимость определить уровень связи между случайными величинами неодинаковой размерности, поэтому желательно располагать какой-то безразмерной характеристикой этой связи.
Такой характеристикой (мерой связи) является коэффициент линейной корреляции rxy , который
определяется по формуле
rxy 
(X
i
 X )(Yi  Y )
(n  1)  x y
( X
x 
где
i
,
 X )2
n 1
Обозначив X i  X i  X
,
и
расчета коэффициента корреляции
rxy 
 X Y
 X  Y
i
i
2
i
2
i
.
y 
 (Y
i
 Y )2
n 1
.
Yi  Yi  Y , можно получить следующее выражение для
2
Если ввести понятие нормированного отклонения, которое выражает отклонение коррелируемых значений от среднего в долях среднего квадратического отклонения:
txi 
Xi  X
tyi 
,
x
Yi  Y
y
,
то выражение для коэффициента корреляции примет вид
rxy 
t
xi
 tyi
.
n 1
Если производить расчет коэффициента корреляции по итоговым значениям исходных
случайных величин из расчетной таблицы, то коэффициент корреляции можно вычислить по
формуле
rxy 
n X
n  X i Yi   X i   Yi
2
i

 (  X i ) 2  n  Y i  (  Yi ) 2
2

.
Свойства коэффициента линейной корреляции:
1). Коэффициент корреляции – безразмерная величина.
2). |r|  1 или  1  r  1 .
3). r ( X , Y )  r (aX , bY ) , a,b = const, – величина коэффициента корреляции не изменится,
если все значения случайных величин X и Y умножить (или разделить) на константу.
4). r ( X , Y )  r ( X  a, Y  b) , a,b = const, – величина коэффициента корреляции не изменится, если все значения случайных величин X и Y увеличить (или уменьшить) на константу.
5). Между коэффициентом корреляции и коэффициентом регрессии существует связь:
b  rxy
y
x
или rxy  b
x
.
y
Интерпретировать значения коэффициентов корреляции можно следующим образом:
Значение r
Характер связи
r=0
Отсутствует
r=1
Функциональная
0 < r <1
-1 < r <0
Прямая
Обратная
Интерпретация связи
Линейная связь X и Y отсутствует, но не исключена зависимость нелинейная
Каждому значению факторного параметра
строго соответствует одно значение результативного признака
С увеличением X увеличивается Y и наоборот
С увеличением X уменьшается Y и наоборот
3
Количественные критерии оценки тесноты связи:
Величина коэффициента
корреляции
|r| < 0.3
0.3 < |r| < 0.5
0.5 < |r| < 0.7
0.7 < |r| < 1
Степень связи
Практически отсутствует
Слабая
Умеренная
Сильная
В прогностических целях обычно используют величины с |r| > 0.7.
Коэффициент корреляции позволяет сделать вывод о существовании линейной зависимости между двумя случайными величинами, но не указывает, какая из величин обуславливает
изменение другой. В действительности связь между двумя случайными величинами может существовать и без причинно-следственной связи между самими величинами, т.к. изменение обеих случайных величин может быть вызвано изменением (влиянием) третьей.
Коэффициент корреляции rxy является симметричным по отношению к рассматриваемым
случайным величинам X и Y . Это означает, что для определения коэффициента корреляции совершенно безразлично, какая из величин является независимой, а какая – зависимой.
Значимость коэффициента корреляции
Даже для независимых величин коэффициент корреляции может оказаться отличным от
нуля вследствие случайного рассеяния результатов измерений или вследствие небольшой выборки случайных величин. Поэтому следует проверять значимость коэффициента корреляции.
Значимость линейного коэффициента корреляции проверяется на основе t-критерия
Стьюдента:
t
r2
1 r2
 ( n  2) 
r
1 r2
 n2.
Если t > tкр (P, n-2), то линейный коэффициент корреляции значим, а следовательно, значима и статистическая связь X и Y.
Можно рассчитать значение критического коэффициента корреляции
rкр 
t
t 2  ( n  2)
.
Для удобства вычислений созданы таблицы значений доверительных границ коэффициентов корреляции для различного числа степеней свободы f = n–2 (двусторонний критерий) и
различных уровней значимости  = 0,1; 0,05; 0,01 и 0,001. Считается, что корреляция значима,
4
если рассчитанный коэффициент корреляции превосходит значение доверительной границы
коэффициента корреляции для заданных f и  .
Для больших n и  = 0,01 значение доверительной границы коэффициента корреляции
можно вычислить по приближенной формуле
rкр  2.6 / n  2 .
Download