Lektsii_KorrelyatsiyaNOV

advertisement
Тема –
СТАТИСТИЧЕСКОЕ
ИЗУЧЕНИЕ
ВЗАИМОСВЯЗЕЙ
к.э.н., доцент Колесникова Ирина
Ивановна
• 1. Измерение взаимосвязей между социальноэкономическими явлениями – важнейшая задача
статистической науки. Формы и виды
взаимосвязей.
• 2. Статистические методы выявления связей
между явлениями:
• метод сравнения параллельных рядов;
• графический метод;
• балансовый метод;
• метод аналитических группировок.
• 3. Задачи, решаемые методом корреляции.
Построение уравнения регрессии. Нахождение
параметров уравнения. Измерение тесноты связи.
• 4. Расчет коэффициентов корреляции знаков
Фехнера и рангов Спирмена
• 5. Понятие криволинейной зависимости. Оценка
тесноты связи при криволинейной зависимости.
Литература
•
•
•
•
•
•
Елисеева И.И., Юзбашев М.М. Общая теория статистики:
Учеб. 4-е изд., переработ. и доп. М.: Финансы и статистика,
2001.
Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория
статистики: Учебник. – М.: ИНФРА-М, 2005 – 416 с.
Общая теория статистики: Статистическая методология в
изучении коммерческой деятельности /О.Э. Башина, А.А.
Спирин, В.Т. Бабурин и др. – 5-е изд., доп. и перераб. М.:
Финансы и статистика, 2001.
Статистика. Учеб. пособие. / И.Е. Теслюк, В.А.
Тарловская, И. Н. Терлиженко и др. Мн.: Ураджай, 2000.
Теория статистики: учебник / Р.А. Шмойлова, В.Г.
Минашкин, Н.А. Садовникова и др.; Под ред. Р.А.
Шмойловой. - 4-е изд., перераб. и доп. - М.: Финансы и
статистика, 2007. – 656 с.
Общая теория статистики. Практикум: Учеб. пособие. . /
Под ред Л.И.Карпенко. – Минск: БГЭУ.2007.-271 с.
1. Измерение взаимосвязей между
социально-экономическими явлениями
– важнейшая задача статистической
науки. Формы и виды взаимосвязей.
• Важнейшей задачей статистического
анализа является изучение взаимосвязей
общественных явлений.
• Для измерения и количественного
выражения взаимосвязей между явлениями
различают следующие типы
закономерностей и соответствующие им
виды связей:
Типы
закономерностей:
Взаимосвязь: Виды
динамические
связей:
полная
функциональная
статистические неполная стохастическая
(вероятностная)
• При функциональной связи каждому значению
одной величины (аргументу) соответствует одно
или несколько вполне определенных значений
другой величины (функции). Главным образом,
это законы математики и физики.
• Стохастическая связь – это связь, при которой
с изменением факторного признака меняется
распределение единиц совокупности по
результативному признаку.
• Частным случаем стохастической связи является
корреляционная связь, при которой каждому
значению аргумента соответствует не одно, а
несколько значений функции.
• Термин "корреляция" в 18 веке ввел
французский ученый в области
палеонтологии Жорж Кювье. Также
он сформулировал закон корреляции,
применимый к животному миру
(соответствие частей и органов
животных). Использовалось для
восстановления облика вымерших
животных по их останкам.
Корреляционная связь - связь,
характеризующая взаимную
зависимость двух случайных величин X
и Y. При этом изменение
результативного признака (Y)
обусловлено влиянием факторного (Х)
не всецело, а лишь частично, т.к.
возможно влияние прочих факторов (ε):
Y  f (x )  
где ε - погрешность модели.
• Этапы построения корреляционно-регрессионной
модели:
• 1. Установление факта наличия связи между
признаками и определение набора факторов для
модели.
• 2. Подготовка исходной информации для проведения
анализа. К исходной статистической информации
предъявляется ряд требований:
а) выборочная совокупность исходных данных должна
быть репрезентативной. Обычно считается, что число
наблюдений должно в несколько раз превышать число
факторов;
б) выборка должна состоять из статистически
независимых наблюдений;
в) результаты наблюдений должны быть однородными,
следовательно, из рассмотрения нужно убрать те
наблюдения, которые резко отличаются от типичного
уровня;
г) в анализ должны включаться показатели,
имеющие нормальное или близкое к нормальному
распределение;
д) если строится многофакторная модель, то в
регрессионную модель не должны включаться
факторы, которые связаны между собой
функционально.
• 3. Выбор формы связи и построение уравнения
регрессии.
• 4. Вычисление показателей, характеризующих
качество построенной модели.
• 5. Экономическая интерпретация коэффициентов
регрессии и других характеристик.
• 6. Вычисление показателей тесноты связи.
• 7. Оценка существенности корреляции.
Виды связей:
1) по направлению:прямая и обратная связь.
• При прямой связи с увеличением
значения одной переменной величины
возрастает значение другой величины и
наоборот:
Х : 2 , 5 , 6 , 8 , 11
Y : 12, 14, 17, 19, 22
• При обратной связи с увеличением
значения одной переменной величины
уменьшается значение другой величины:
Х : 2 , 5 , 6 , 8 , 11
Y : 32, 28, 27, 19, 12
• 2) факторные связи – проявляются в согласованной
вариации изучаемых показателей. При этом одни
показатели являются факторными, другие
результативными.
• По числу факторов различают однофакторную и
многофакторную связь в зависимости от числа
признаков, влияющих на результат.
2
0
1
2
• - однофакторная связь, т.к. У зависит от одной
переменной Х.
Y а а Х а Х
Y  а  Х1  b  Х 2  c  X 3
• - многофакторная связь.
• 4) Компонентная связь характеризуется
тем, что изменение статистического
показателя определяется изменением
компонентов, входящих в этот
показатель, как множители:
• У = А * В * С.
• 5) по силе различают связь сильную и
слабую.
• 6) связь также бывает истинная и
ложная.
2 вопрос. СТАТИСТИЧЕСКИЕ
МЕТОДЫ ВЫЯВЛЕНИЯ СВЯЗЕЙ
МЕЖДУ ЯВЛЕНИЯМИ
Для проверки гипотезы о причинноследственной связи между исследуемыми
признаками используются различные
статистические методы: метод сопоставления
параллельных рядов, балансовый, графический,
корреляционная таблица, аналитическая
группировка, дисперсионный, корреляционнорегрессионный и другие.
Метод сопоставления параллельных рядов
• При этом методе стараются выявить общую
тенденцию к возрастанию или снижению
значений двух или более параллельных рядов
(результативного признака и одного или более
факторных). Однако очень часто может быть
выявлена ложная корреляция, когда значения
двух явлений, не зависящие друг от друга,
параллельно увеличиваются или уменьшаются,
поэтому необходима проверка явлений на
наличие причинно-следственных связей между
ними.
• Аисты (5,7,8,10)
• Новорожденные (4,6,7,9)
Балансовая связь
• Характеризует зависимость между источниками
формирования ресурсов (пассив) и их
использованием (актив баланса).
• Актив баланса равен пассиву баланса.
Использование
2. Промежуточное
потребление
3. Валовая добавленная
стоимость в рыночных
ценах
Ресурсы
1.Выпуск товаров и
услуг в рыночных
ценах,
(п.1 = п.2 + п.3)
Графический метод
• Используя данные об индивидуальных
значениях признака-фактора и
соответствующих ему значениях
результативного признака, можно
построить в прямоугольных координатах
точечный график, называемый "полем
корреляции". При графическом методе
строится корреляционное поле
зависимости результативного
признака(Y) от факторного (Х).
Рис - Корреляционное поле зависимости производительности труда от величины потерь рабочего времени
где Yх – это теоретическое, выравненное значение результативного признака,
рассчитанное по уравнению регрессии;
Yi – (точки на графике) – фактические значения результативного признака;
Y - среднее значение результативного признака.
180
175
170
165
160
155
150
145
140
39
42
График 1
35
37
30
33
.
сопротивление разрыву,
кг/см2
Зависимость сопротивления резины
разрыву от времени вулканизации.
Время вулканизации,мин
Аналитическая группировка
Аналитическая группировка начинается с
построения макета таблицы.
В подлежащем таблицы содержится
группировка по факторному признаку, в
сказуемом - исходные данные для
исчисления средних значений
результативного признака.
Согласованность в колеблемости
факторного и результативного признаков
обусловливает наличие связи между
ними.
Аналитическая таблица
Группы
предприятий
по
потерям рабочего
времени, чел.-дн -
факторный
признак
Числ
Величина производительности
о
ден.ед. (Y)
пред
- результативный признак
прия
тий Всег В среднем на одно предприятие
(
)Y
о
труда,
…-…
Итого по группе
Y j  Yf j /  f- групповые
j
средние
…-…
…-…
Всего
…
Y0   Y j f j /  f j   Yi f i /  f i   Yij f ij /  f ij
общая средняя
Корреляционная таблица
Группы
предприятий
по
потерям
рабочего
времени, чел.дн.
8,8-10,6
10,6-12,4
12,4-14,2
14,2-16,0
16,0-17,8
Всего
Группы предприятий
по
величине производительности
труда, ден.ед.
4-10 10- 16 - 22-28 2816
22
34
1
1
2
2
2
4
1
4
2
7
1
1
1
1
1
1
1
2
Всего
5
2
5
8
4
1
20
Затраты на
производство,
млрд. руб.
0-0,8
0,8-1,6
Реализованная продукция, млрд. руб.
0-1,4
1
1,42,8
3
2,84,2
4
6
4,25,6
1,6-2,4
10
8
2,4-3,2
5
9
3,2-4,0
5,67,0
1
3
Дисперсионный анализ
Для характеристики тесноты связей между
признаками в аналитических группировках
рассчитывают эмпирическое корреляционное
отношение и коэффициент детерминации.
Эмпирическое корреляционное отношение
(  ) характеризует тесноту корреляционной
зависимости, т.е. степень ее приближения к
функциональной связи. Коэффициент
детерминации (  2) определяет долю
вариации результативного признака, вызванного
действием факторного признака, положенного в
основание группировки.
• Эмпирическое корреляционное отношение
рассчитывается по формуле:
   /   1  ( /  )
2
Y
• где

2
Y
2
Yj
2
Y
(1)
2
Y
- общая дисперсия;
2
- межгрупповая дисперсия;
Y
- средняя из внутригрупповых
2
 Yj
дисперсий.
Коэффициент детерминации: 2
2
2
Y
Y
(2)
   /
3 вопрос. Задачи, решаемые методом
корреляции.
Построение уравнения регрессии
• Регрессия - это зависимость среднего значения
какой-либо случайной величины от некоторой
другой величины (однофакторная) или от
нескольких величин (множественная регрессия).
Уравнение, связывающее эти величины,
называется уравнением регрессии, а
соответствующий график - линией регрессии Y
по Х.
• Построить уравнение регрессии - значит найти
коэффициенты при факторах, входящих в
уравнение.
• В зависимости от формы связи уравнение
регрессии может быть: линейным,
гиперболическим, параболическим и т.д.
• Уравнение линейной регрессии имеет
вид:
x
0
1
(3)
Y a a Х
где Х - факторный признак;
Yх - результативный показатель;
a0 – свободный параметр уравнения, который характеризует уровень результативного признака (при Х=0);
a1 - коэффициент регрессии. Он показывает, на сколько
изменится результативный признак, если факторный
увеличится на единицу.
Параметры уравнения регрессии
 y  x   xy  x
a0 
2
n x   x x
(4)
n  xy   x  y
a1 
2
n x   x x
(5)
2
Ошибка аппроксимации - характеризует
качество построенной модели:
Yi  Yx
1
А  
 100
n
Yi
(6)
Градация значений средней
ошибки аппроксимации
Значен Менее 10% – 20% – Более
ие
10%
20%
50%
50%
ошибк
и
Урове высокая хорошая удовле неудовле
нь
творит творител
точно
ельная
ьная
сти
• Показатели тесноты связи характеризуют
зависимость вариации результативного
признака от вариации факторного. К ним
относятся индекс корреляции (R) и индекс
детерминации (R2).
• Виды дисперсий :
• Общая дисперсия – это общая вариация
результативного признака Y, объясняемая
влиянием всех факторов, от которых он
зависит:
2
2
  (Yij  Y ) / n
•
(7)
2
2
•
(8)
  (Y j  Y ) * f j / f j



• Общая дисперсия раскладывается на две части:
• 1) Факторная дисперсия – объясняется фактором Х и
показывает меру колеблемости расчетных значений
признака (Yх) около их средней величины.
•
 Yx   (Yx  Y ) / n
2
2
(9)
• 2) Остаточная дисперсия – объясняется другими
факторами (кроме Х) - это мера колеблемости
фактических значений результативного признака Yij
около теоретической линии регрессии Yх:
•
 e   (Yij  Yx ) / n
2
2
(10)
• При этом выполняется правило сложения
дисперсий:
2
2
2
•
(11)
   Yx   e
• Yij – фактические значения результативного
признака;
• Yx – расчетные значения результативного
признака;
• Y - среднее значение результативного
признака.
• Индекс детерминации (причинности) выражает долю факторной дисперсии в
общей
и
показывает,
какая
часть
колеблемости результативного признака Y
объясняется изучаемым фактором Х. (0,1)
2
2
 yx
•
(12)
е
2
R 

 1
2

2
• Индексом корреляции (теоретическое
корреляционное отношение) - характеризует
тесноту связи между результативным и
факторным признаками. Значение: (-1,1).
•
(13)
2
R
R
• При функциональной зависимости значения
Yх полностью совпадают с соответствующими
индивидуальными значениями Yij. Тогда: .
  0, а R  1
2
e
2
• При отсутствии связи вариация Х не
отражается на изменении Y:
  e , а R  0
2
2
2
• При наличии корреляционой
(соотносительной) связи . При этом величина
изменяется в пределах ]01[.
• Для характеристики тесноты связи также
рассчитывают следующие показатели:
• теоретический коэффициент
эластичности – показывает, на сколько
процентов изменится результативный
показатель, если факторный возрастет на 1%:
x
()
Эa 
1
y
• - эмпирический коэффициент эластичности - характеризует, на сколько процентов
изменяется уровень результативного
признака при изменении факторного на 1 %.
Y X
()
Э  ( Y / X ) : (Y0 / X 0 ) 
:
Y0
X0
• Коэффициент линейной корреляции – характеризует
тесноту связи между признаками. Рассчитывается,
если между факторным и результативным признаком
существует линейная зависимость. Значение: (-1, 1).
Чем ближе оно к 1, тем сильнее связь. При значении r
= 1 – связь функциональная, при r = 0 – связь
отсутствует. Если коэффициент r имеет знак (+), это
означает, что связь прямая, если (-), то связь обратная.
•
xy  x  y
r
 Х Y
• где X – среднее квадратическое отклонение
факторного признака;
• Y – среднее квадратическое отклонение
результативного признака.
()
Шкала показаний тесноты связи
Показания
тесноты
связи
0,1 0,3
0,3 0,5
0,5 - 0,7
0,7 - 0,9 0,9 - 0,99
Характе слабая умерен заметная высокая
ристика
ная
силы
связи
весьма
высокая
• Для оценки существенности корреляционной связи
между признаками рассчитывают среднюю
квадратическую ошибку коэффициента корреляции:
1  r2
r 
•
()
n
• - для оценки силы влияния факторного признака на
результативный применяется -коэффициент,
который можно вычислить по формуле:
Х
  а1 
Y
()
• -коэффициент показывает, на какую часть среднего
квадратического отклонения изменится
результативный показатель, если факторный признак
изменится на величину его среднего квадратического
отклонения.
Расчет коэффициентов корреляции
знаков Фехнера и рангов Спирмена
• Для ориентировочной оценки тесноты связи
пользуются приближенными показателями.
К ним относится коэффициент корреляции
знаков Фехнера. Для его расчета
необходимо предварительно определить
средние значения результативного и
факторного признаков, а затем для каждой
единицы совокупности определить знаки
отклонений варианты от средней величины.
• Коэффициент рассчитывается по формуле:
•
uv
Кф 
uv
()
где u – число пар с одинаковыми знаками отклонений
вариант факторного и результативного признака от
средней величины;
v – число пар с разными знаками отклонений.
• Этот коэффициент позволяет получить представление
о направлении связи (если Кф > 0, то связь прямая,
если Кф < 0, то связь обратная) и приблизительную
характеристику ее тесноты.
• Коэффициент корреляции рангов Спирмена
– является непараметрическим
коэффициентом связи. Он применяется как к
количественным, так и к непараметрическим,
но поддающимся ранжированию признакам.
Для его исчисления нужны не первичные
данные, а ранги - порядковые номера, которые
присваиваются всем значениям изучаемых
признаков, расположенных в порядке их
изменения (возрастания или уменьшения).
Полное совпадение рангов в совокупности
означает максимально тесную прямую связь,
полная противоположность рангов максимально тесную обратную связь.
Коэффициент рассчитывается по формуле:
2
•
()
6d
k p 1
n  (n  1)
2
где d  p Xi  pYi – разность между рангами
соответствующих признаков для каждой
единицы совокупности;
p Xi и pYi - ранги соответствующих признаков
для каждой единицы наблюдения,
• n – количество единиц наблюдения.
• Недостатком коэффициента корреляции
рангов является его приблизительность.
Номер
предпр
иятия
Производительн
ость труда,
ден.ед. (Y)
Потери рабочего
времени, чел.-дн.
(Х)
Знаки отклонений
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
31.76
5.79
17.66
19.50
33.48
37.64
13.42
24.51
18.03
25.79
15.85
4.24
23.60
21.53
20.09
14.85
34.26
36.09
20.44
13.84
13.10
14.90
11.80
8.80
11.00
10.09
13.50
12.60
15.10
12.00
17.80
13.90
12.01
15.00
12.02
13.80
9.40
17.50
12.03
16.00
+
+
+
+
+
+
+
+
+
-
Итого
430,37
270,35
Х
Y Y X  X
Ранги
d
d2
Y
X
+
+
+
+
+
+
+
+
+
16
2
7
9
17
20
3
14
8
15
6
1
13
12
10
5
18
19
11
4
11
15
5
1
4
3
12
10
17
6
20
14
7
16
8
13
2
19
9
18
5
13
2
8
13
17
9
4
9
9
14
13
6
4
2
8
16
0
2
14
25
169
4
64
169
289
81
16
81
81
196
169
36
13
4
64
256
0
4
196
Х
Х
Х
168
1920
Спасибо за внимание!
Спасибо за внимание!
Download