тема 5. методы изучения корреляционной зависимости

advertisement
РАЗДЕЛ 1. ТЕОРИЯ СТАТИСТИТКИ
ТЕМА 5. МЕТОДЫ ИЗУЧЕНИЯ КОРРЕЛЯЦИОННОЙ
ЗАВИСИМОСТИ
Цель: сформировать представление о методах измерения
стохастических связей, специфических черт, преимуществ и
ограничений применения этих методов.
Задачи: представить классификацию видов и методов измерения
связей, раскрыть особенности корреляционного и регрессионного
методов анализа, а также непараметрических методов изучения
связей.
РАЗДЕЛ 1. ТЕОРИЯ СТАТИСТИТКИ ....................................................... 1
ТЕМА 5. МЕТОДЫ ИЗУЧЕНИЯ КОРРЕЛЯЦИОННОЙ ЗАВИСИМОСТИ 1
5.1. Виды связей. Задачи статистики по изучению связи. Общая
характеристика методов измерения связи. .......................................... 1
5.2. Показатели силы и тесноты связи на основе аналитической
группировки. ........................................................................................... 2
5.3. Понятие о регрессии и корреляции ................................................ 4
5.4. Измерение связи по неколичественным признакам:
коэффициенты взаимной сопряженности, контингенции и др. ........... 8
5.5. Ранговая корреляция ...................................................................... 8
Выводы ................................................................................................... 9
Вопросы для самопроверки ................................................................. 10
Библиография ...................................................................................... 10
5.1. Виды связей. Задачи статистики по изучению связи. Общая
характеристика методов измерения связи.
В статистике для изучения взаимосвязей признаки делятся на
два типа: факторные и результативные. Признаки, обусловливающие
изменение других признаков, называются факторными. Признаки,
зависимые от изменения факторов, называются результативными.
Обусловленность явлений множеством факторов называется
детерминизмом.
Выделяют два основных вида связей ─ функциональную (жестко
детерминированную)
и
статистическую
(стохастически
детерминированную). Функциональной называют такую связь, при
которой изменению значений признака-фактора соответствует строго
определенное изменение результативного признака. Иными словами,
при функциональной зависимости факторный признак полностью
определяет результативный признак.
Связь является стохастически детерминированной, если с
изменением признака-фактора результативный признак может в
определенных пределах принимать любые значения с некоторыми
вероятностями. Это обусловлено тем, что зависимая переменная,
кроме выделенного признака-фактора, подвержена влиянию ряда
неконтролируемых или неучтенных факторов. Стохастическая
причинная зависимость проявляется не в каждом отдельном случае, а
в среднем, при большом числе наблюдений. Частным случаем
стохастической связи является корреляционная связь, при которой с
изменением признака-фактора закономерным образом изменяются
средние значения результативного признака.
В статистику термин «корреляция» введен английским ученым
Френсисом Гальтоном в конце XIX в. и означает соответственно
«corelation». Чем теснее связь между явлениями, тем, следовательно,
больше исключается действие второстепенных, случайных факторов.
В результате корреляционная связь приближается к функциональной.
Поэтому функциональная связь может рассматриваться как
предельный случай корреляции.
В процессе статистического исследования связи между
явлениями и их признаками классифицируются по направлению
(прямая и обратная) и форме выражения (линейная и нелинейная).
Разнообразие связей определяет разнообразие методов их
изучения.
Изучению
функциональных
связей
соответствует
балансовый метод, система средних и относительных величин,
система индексов.
Для характеристики стохастических связей используются
методы: аналитической группировки, корреляции и регрессии. Особое
место занимают методы измерения связи по неколичественным
признакам (корреляция по таблицам сопряженности, ранговая
корреляция).
5.2. Показатели силы и тесноты связи на основе
аналитической группировки.
Методы изучения корреляционной зависимости основаны на
сопоставлении вариации признаков-факторов и результативного
признака. Выбор признаков-факторов и результативного признака, а
также
принципиальная
возможность
причинно-следственной
зависимости устанавливаются на основе содержательного анализа.
На первых этапах исследования анализ связи включает задачи
определения формы и направления воздействия одних признаков на
другие. Для этих целей применяются метод приведения
параллельных рядов и метод аналитической группировки.
Используется графическое представление данных в виде поля
корреляции.
Метод приведения параллельных рядов предусматривает
сопоставление значений признаков-факторов и соответствующих им
значений результативного признака у каждой единицы совокупности.
Аналитическая группировка обобщает исходные данные: во-первых,
все единицы совокупности группируются по факторному признаку и,
во-вторых, каждая группа характеризуется средними величинами
результативного признака. Благодаря обобщению, более четко
проявляется связь между признаками, ее направление и форма.
Выводы о характере связи делают через сопоставление изменений
средних значений результата по группам с переходом от одного
интервала к другому по признаку фактору.
Аналитическая
группировка
позволяет
измерить
связь
количественно путем расчета показателей силы и тесноты связи.
Показатель силы связи характеризует, как меняется результативный
признак при изменении признака-фактора на единицу. Разности между
соседними групповыми средними результативного признака дают
возможность определить, как меняется результат при изменении
фактора на величину интервала. При группировке по равным
интервалам эти разности сопоставимы. Различия в их значениях,
полученных в расчете на единицу интервала, свидетельствуют о том,
что с изменением уровня фактора меняется сила связи, т. е. связь
признаков нелинейная. В случае линейной связи при группировке по
равным интервалам важным показателем является средний для
совокупности показатель силы связи.
Оценка тесноты связи между признаками предполагает
определение меры соответствия вариации результативного признака
от одного или нескольких факторов. Их построение базируется на
использовании правила сложения дисперсий, когда общую дисперсию
можно представить как сумму межгрупповой и внутригрупповой
дисперсий. Очевидно, чем больше доля межгрупповой дисперсии в
общей дисперсии, тем сильнее влияние группировочного признакафактора на изучаемый результативный признак.
Показателями
тесноты
связи
являются
коэффициент
детерминации
и
эмпирическое
корреляционное
отношение.
Коэффициент детерминации определяется как доля межгрупповой
дисперсии в общей дисперсии признака-результата. Он показывает,
какая часть общей вариации признака-результата объясняется
влиянием изучаемого фактора. Формула расчета:

где
2
 y2

,
 y2
 y2 - общая дисперсия;  y2 – межгрупповая дисперсия.
Эмпирическое корреляционное отношение – это корень
квадратный из коэффициента детерминации. Формула расчета:

 y2
 y2
.
Для оценки тесноты связи на основе показателя эмпирического
корреляционного отношения можно воспользоваться соотношениями
Чэддока:
Корреляционное
отношение
Теснота связи
0,1-0,3
0,3-0,5
0,5-0,7
0,7-0,9
0,9-0,99
Слабая
Умеренная
Заметная
Тесная
Весьма
тесная
Если связь между признаками отсутствует, то межгрупповая
дисперсия равна нулю, а, следовательно, и коэффициент корреляции
равен нулю. Таким образом, чем ближе значение показателя к
единице, тем сильнее связь между признаками.
5.3. Понятие о регрессии и корреляции
Задачи, решаемые методами регрессии и корреляции,
непосредственно связаны между собой. В то время, ак в
корреляционном анализе оценивается интенсивность, теснота связи,
в регрессионном анализе исследуется ее форма. Иногда регрессию
рассматривают как частный случай корреляции, считая тем самым
корреляцию более широким понятием. Корреляция в широком смысле
слова
означает
связь,
соотношение
между
объективно
существующими явлениями и процессами. Не каждую корреляцию
можно отождествлять с причинной связью. При изучении совместного
изменения явлений может быть установлена так называемая ложная
корреляция.
Под
ложной
корреляцией
понимается
чисто
количественная сопряженность в вариации изучаемых явлений, не
имеющая логического объяснения по содержанию. Причины
возникновения ложной корреляции различны. К ложной корреляции
может привести анализ совместной вариации признаков, которые не
имеют
непосредственной
причинно-следственной
связи,
а
детерминированы общей для них причиной. Ложная корреляция
может возникнуть и в том случае, когда одна переменная входит в
состав другой и тем самым формально обусловливает соответствие
вариации этих переменных. Часто ложная корреляция возникает при
изучении рядов динамики.
В зависимости от числа анализируемых переменных различают
парную, множественную и частную корреляцию. Парная – то
корреляция между двумя переменными, множественная- между более
чем двумя переменными. Частная – то корреляция между двумя
переменными при «фиксированном» влиянии остальных переменных,
включенных в анализ.
При измерении тесноты связи проблема корреляции
рассматривается в узком смысле. Одним из наиболее часто
применяемых показателей тесноты связи является линейный
коэффициент корреляции. Формула расчета:
ryx 
xy  x  y
 x y
.
Он является мерой линейной статистической зависимости между
двумя признаками и изменяется в пределах от –1 до +1. Степень
тесноты связи между переменными в случае не только линейной, но и
нелинейной зависимости можно оценить с помощью теоретического
корреляционного отношения. Его величина определяется как корень
квадратный из соотношения факторной и общей дисперсии.
Факторная дисперсия определяется на основе отклонения значений
результата, рассчитанных по уравнению регрессии, от его среднего
уровня.
Теоретическое корреляционное отношение может быть найдено
и через отклонение от единицы доли остаточной дисперсии в общей
дисперсии. В этом случае оно получило название индекса корреляции.
Величина этих показателей находится в пределах от 0 до 1.
Для определения факторной и остаточной дисперсии при
расчете теоретического корреляционного отношения и индекса
корреляции необходимо построить уравнение регрессии.
Термин «регрессия» введен английским ученым Ф. Гальтоном и
означает отступление, возврат к чему-либо, в частности, к среднему
состоянию. Регрессия – это односторонняя стохастическая
зависимость. Если исследуется стохастическая зависимость x от y, то
определяется регрессия x на y. Односторонняя стохастическая
зависимость характеризуется с помощью функции, которая является
аналитическим
выражением
связи.
Функция,
описывающая
зависимость среднего значения результативного признака от
заданных значений признака-фактора, называется уравнением
регрессии.
В качестве этапов регрессионного анализа называют:
обоснование формы зависимости, определение числа факторных
признаков, включаемых в модель, оценку параметров, интерпретацию
результатов.
Функция
регрессии
формально
устанавливает
соответствие между переменными, хотя они могут не состоять в
причинно-следственных
отношениях.
Имеется
множество
параллельно существующих явлений, которые вызываются общей для
них причиной. Вопрос о реальном бъективном существовании связи, о
наличии причинных отношений между явлениями в каждом
конкретном случае решается на основе содержательного анализа,
который раскрывает механизм связи.
Поскольку не каждая функция или корреляция соответствует
причинной зависимости между явлениями, необходимо соблюдать
основные условия и предположения при использовании этих методов
анализа. Так, для эффективного изучения связи необходимо
использовать совокупности единиц достаточно большого объема и
однородные в отношении тех признаков, связь которых изучается.
Прямолинейная зависимость имеет место, когда с возрастанием
(или
убыванием)
значений
признака-фактора
значения
результативного признака увеличиваются (или уменьшается) более ли
менее равномерно. Линейное уравнение парной регрессии:
yˆ x  a  bx
где ŷ x – среднее значение результативного признака при
определенном значении факторного признака x;
a – свободный член уравнения регрессии;
b – коэффициент регрессии, который показывает, на сколько
единиц в среднем изменится результативный признак у при изменении
факторного признака х на одну единицу его измерения.
Криволинейная форма связи может выражаться различными видами
функций, из которых наиболее часто используются парабола второго
порядка, гипербола, показательная, степенная.
С целью проверки качества модели связи используются
математические критерии адекватности, т. е соответствия модели
фактическим статистическим данным. Например, рассчитывается
средняя ошибка аппроксимации, которая определяется следующим
образом:
ˆi
yi  y

  i
.
 yi
i
Оценки неизвестных параметров уравнения регрессии находят
обычно
методом
наименьших
квадратов
(МНК),
который
предполагает, что сумма квадратов отклонений теоретических
значений от эмпирических должна быть минимальной. Это условие
МНК формулируется следующим образом:
n
n
f (a, b)   ( y i  yˆ i )  [ y i  (a  bxi )] 2  min .
2
i 1
i 1
Система нормальных уравнений МНК для прямой:
n
n

na  b xi   y i

i 1
i 1
 n
n
n
2
a
x

b
x

y i xi



i
i

i 1
i 1
 i 1
Отсюда:
a

;b  b


– определитель системы;  a – частный определитель,
a
где 
получаемый путем замены коэффициентов при a членами правой
части системы уравнений;
b
– частный определитель, получаемый
путем замены коэффициентов при b членами правой части системы
уравнений.
n
n
n
i 1
i 1
  n  xi   xi  y i .
2
i 1
Тогда
n
a
n
y x
i 1
i
i 1
2
i
n
n
i 1
i 1
2
  y i xi  xi


2
n xi    xi 
i 1
 i 1 
n
b
n
n
n
n
i 1
i 1
i 1
;
n y i xi   xi  y i


2
n xi    xi 
i 1
 i 1 
n
n
2
.
Параметры a и b могут быть выражены следующим образом:
a  y  bx ;
b
yx  y  x
x 2  (x ) 2
.
Относительную оценку силы связи даёт общий (средний)
коэффициент эластичности:
ЭYX  f ( X ) *
X
Y
.
Коэффициент эластичности показывает, на сколько процентов
изменится результативный признак при изменении признака-фактора
на один процент.
Изучение связи между тремя и более факторами носит название
множественного корреляционного и регрессионного анализа. При
построении многофакторных моделей необходимо соблюдать
требование возможно меньшей корреляции между объясняющими
переменными (интеркорреляции факторов). В случае, когда более чем
два фактора связаны между собой линейной зависимостью, т. е.
имеет место совокупное воздействие факторов друг на друга,
наблюдается
явление
мультиколлинеарности.
В
результате
затруднена оценка воздействия каждого фактора в отдельности.
Многофакторный анализ включает множественный и частные
коэффициенты
корреляции.
Множественный
коэффициент
корреляции характеризует степень линейной зависимости между
зависимой переменной и остальными переменными, входящими в
модель. Для нелинейной множественной связи рассчитывают индекс
корреляции. Квадрат коэффициента корреляции называется
коэффициентом детерминации. Частный коэффициент корреляции
характеризует степень линейной зависимости между двумя
переменными при исключении влияния третьей переменной, также
учтенной в модели.
5.4. Измерение связи по неколичественным признакам:
коэффициенты взаимной сопряженности, контингенции и др.
Корреляционно-регрессионный метод анализа применим только
к количественным признакам. В этом случае характеристики связи
основаны на вычислении основных параметров распределения
(средних величин, дисперсий). Задача изучения связи атрибутивных
признаков решается непараметрическими методами анализа, с
помощью которых можно измерить связь между явлениями , не
используя при этом количественные значения признаков, а
следовательно, и параметры распределения. Непараметрические
методы анализа включают показатели, которые рассчитываются на
основе распределения единиц совокупности по вариантам
атрибутивного признака. Распределение представлено в форме так
называемых таблиц взаимной сопряженности. Сравнить проявление
связей в разных совокупностях с множеством групп по обоим
признакам позволяют коэффициенты взаимной сопряженности
Пирсона,
Чупрова,
Крамера.
Чем
ближе
величина
этих
коэффициентов к единице, тем теснее связь.
При характеристике связи альтернативных признаков, один из
которых имеет характер причины, а другой – следствия применяется
условное измерение признаков: наличие признака у единицы
совокупности обозначается единицей, а отсутствие - нулем.
Благодаря этому измерение связи проводится на основе
четырехпольных таблиц с помощью коэффициентов контингенции и
ассоциации.
Коэффициент
контингенции
всегда
меньше
коэффициента ассоциации. Связь считается подтвержденной, если
коэффициент ассоциации 0,5 или коэффициент контингенции 0,3.
5.5. Ранговая корреляция
Ранговая корреляция используется для количественных и
качественных признаков. Для измерения связи количественных
признаков ранговую корреляцию рекомендуется использовать, если
имеют место ограничения для применения корреляционнорегрессионного анализа, в частности, если совокупность малого
объема и если распределение существенно отличается от
нормального.
Методы
ранговой
корреляции
основаны
на
ранжировании единиц совокупности по значению признака-фактора и
определении соответствующих им рангов значений результативного
признака. Ранжирование факторного и результативного признаков
ведется в одинаковом направлении: если первый ранг присваивается
наименьшему значению признака-фактора, то и по результативному
признаку ранжирование идет от наименьшего к наибольшему
значению признака. К мерам тесноты парной связи относится
предложенный английским психологом Ч. Спирменом коэффициент
ранговой корреляции, который имеет границы изменения от –1 до +1.
Полное совпадение рангов означает максимально тесную прямую
связь, полная противоположность рангов – максимально тесную
обратную связь. Формула расчета коэффициента корреляции рангов
Ч. Спирмена:
n
  1
6  d i
n
n
i 1
2
2

1
где n – число наблюдений;
d – разность рангов единиц совокупности по анализируемым
признакам x и y.
Для определения тесноты связи между произвольным числом
признаков применяется множественный коэффициент ранговой
корреляции – коэффициент конкордации.
Выводы
Задача оценки степени тесноты связи между признаками
решается методами корреляционного анализа. Показатели тесноты
связи дают представление о взаимодействии изучаемых факторов, а
также об аппроксимации фактических данных аналитической
функцией.
Если линейный коэффициент корреляции мало отличается от
теоретического корреляционного отношения, то зависимость между
переменными близка к линейной. Это позволяет использовать
теоретическое корреляционное отношение в качестве меры
линейности связи между признаками.
Задача восстановления средних значений результативного
признака по заданным значениям факторного признака решается
методами регрессионного анализа. Методы корреляции и регрессии
относятся к категории параметрических методов, т. к. их
использование предполагает вычисление основных параметров
распределения (средних величин, дисперсии). Для оценки тесноты
связи атрибутивных признаков используются непараметрические
методы анализа (коэффициенты взаимной сопряженности Пирсона,
Чупрова, Крамера, ассоциации, контингенции). Коэффициенты
взаимной сопряженности требуют большого объема совокупности.
При малом числе наблюдений, но при достаточном числе градаций
атрибутивных признаков связь между ними может быть измерена с
помощью метода ранговой корреляции.
Вопросы для самопроверки
1.
Что
представляют
собой
функциональная,
стохастическая и корреляционная связь?
2.
Что следует понимать под корреляцией и регрессией?
3.
Какие задачи решает корреляционный метод
анализа?
4.
Что такое ложная корреляция. Каковы причины ее
возникновения?
5.
В
чем
состоят
особенности
аналитических
группировок при изучении связи?
6.
Какое значение имеет правило сложения дисперсий
при решении задач корреляционного анализа?
7.
Что показывает коэффициент эластичности?
8.
Какими показателями измеряется теснота связи?
9.
Как
оценивается
уровень
эмпирического
корреляционного отношения?
10. Как измеряется сила связи между признаками?
11. В чем состоит значение регрессионного метода
анализа связи?
12. Каким образом оценивается качество модели связи?
13. Как интерпретируются результаты линейной парной
регрессии?
14. Какие условия необходимо учитывать при построении
линейного уравнения регрессии с помощью метода наименьших
квадратов?
15. Какие
условия
определяют
построение
многофакторной регрессионной модели связи?
16. Как
интерпретируются
параметры
уравнения
линейной множественной регрессии?
17. Какие существуют предпосылки и направления
использования
результатов
корреляционно-регрессионного
анализа?
18. Какие методы получили название непараметрических
методов изучения связей?
19. В чем отличие ранговой корреляции от других
методов изучения связи?
20. Какие виды коэффициентов взаимной сопряженности
вы знаете?
Библиография
1. Елисеева И.И., Юзбашев М.М. Общая теория статистики:
Учебник/ Под ред. И.И. Елисеевой. – 5-е изд., перераб. и доп. – М.:
Финансы и статистика, 2004.
2. Кургузов В.В. Корпоративная статистика: экономикостатистическое
моделирование
материально-технического
снабжения и сбыта. – 2006.
3. Статистика для менеджеров с использованием Microsoft
Excel/ Д. М. Левин, Д. Стефан, Т. С. Кребиль, М. Л. Беренсон. ─ 4-е
изд.: Пер. с англ. – М.: Издательский дом «Вильямс», 2004.
4. Статистика: Учебник/ Под ред. В. С. Мхитаряна. – М.:
Экономист, 2005.
5. Салин В. Н. Чурилова Э. Ю. Курс теории статистики для
подготовки специалистов финансово-экономического профиля:
Учебник/ В. Н. Салин, Э. Ю. Чурилова – 2006.
6. Практикум по теории статистики: Учеб. пособие/ Под ред.
проф. Р. А. Шмойловой. – М:. Финансы и статистика, 2004.
Download