Metod.Ukazanija_VZFI_part2

advertisement
Частный коэффициент корреляции
Множественный коэффициент корреляции
Решение первой задачи осуществляется с помощью выборочного коэффициента множественной корреляции по формуле
■J,\,2,...J-\J+\,...m
R
I-
ш
где \R\ — определитель
V корреляционной матрицы R
(3.4)
(3.3);
Rjl — алгебраическое дополнение элемента ■ Гу той же
матрицы R.
Если рассматриваемые случайные величины коррелируют друг
с другом, то на величине коэффициента парной корреляции
частично сказывается влияние других величин. В связи с этим
возникает необходимость исследования частной корреляции между величинами при исключении влияния одной или нескольких
других случайных величин.
Выборочный частный коэффициент корреляции определяется по формуле
R
r
Квадрат коэффициента множественной корреляции
R j ,1,2,…j-1,j+1,…m
принято
называть
выборочным
множественным коэффициентом детерминации, который
показывает, какую долю вариации (случайного разброса)
исследуемой величины Xj объясняет вариация остальных
случайных величин Х{, Х2, ..., Хт,
Коэффициенты множественной корреляции и детерминации
являются величинами положительными, принимающими значения в интервале 0— 1. При приближении коэффициента R2 к
единице можно сделать вывод о тесноте взаимосвязи случайных
величин, но не о ее направлении. Коэффициент множественной
корреляции может только увеличиваться, если в модель включать
дополнительные переменные, и не увеличится, если из имеющихся
признаков производить исключение.
Проверка значимости коэффициента множественной корреляции осуществляется путем сравнения расчетного значения критерия Фишера:
jk
jk,\,2,...,m
2
расч
R2l{n-m) ( l - Л 2 )/(«-!)'
14
Частный коэффициент корреляции, так же как и парный коэффициент корреляции, изменяется от -1 до +1.
Пример 3.1. Вычисление коэффициентов парной, множественной
и частной корреляции
В табл. 3.1 представлены информация об объемах продаж и
затратах на рекламу одной фирмы, а также индекс потребительских расходов за ряд текущих лет.
1.
2.
(3.5)
с табличным /'табд. Табличное значение критерия
определяется
заданным уровнем значимости а и степенями свободы kl - т- 1
и к2= п-т. Коэффициент R2 значимо отличается от нуля, если
выполняется неравенство
расч табл'
где Rjk, Rp Rkk — алгебраические дополнения к соответствующим элементам матрицы (3.3).
3.
4.
5.
6.
Требуется:
Построить диаграмму рассеяния (корреляционное поле) для
переменных «объемы продаж» и «индекс потребительских рас
ходов».
Определить степень влияния индекса потребительских расхо
дов на объемы продаж (вычислить коэффициент парной кор
реляции).
Оценить значимость вычисленного коэффициента парной
корреляции.
Построить матрицу коэффициентов парной корреляции по
трем переменным.
Найти оценку множественного коэффициента корреляции.
Найти оценки коэффициентов частной корреляции.
15
Таблица 3.1
Объем продаж,
Y, тыс. руб.
Затраты на
рекламу, Xi
Индекс
потребительских
расходов, Х^ %
126
4
100
500
450 400
137
148
191
274
370
432
445
4,8
3,8
8,7
8,2
9,7
14,7
18,7
350 I
300
104,1 107 107,4 308,5
s 250
98,4
101,2 103,5
«! ♦ ♦ 1
306,8
3S 200
О 150
Продолжение табл. 3.1
100
50
•
j 107,2
0
Объем продаж,
Y, тыс. руб.
367
367
321
307
331
345
Затраты на
рекламу, Х]
19,8
10,6
8,6
6,5
12,6
6,5
Индекс
потребительских
расходов, Х2, %
108,3
109,2 110,1
110,7
364
5,8
384
5,7
110,3 111,8 112,3 312,9
Решение
1. Вытянутость облака точек на диаграмме рассеяния вдоль
наклонной прямой позволяет сделать предположение, что суще
ствует некоторая объективная тенденция прямой линейной связи
между значениями переменных X — индекс потребительских
расходов и Y ~ объемы продаж.
В нашем примере диаграмма рассеяния имеет вид, приведенный
на рис 3.1.
2. Промежуточные расчеты при вычислении коэффициента
корреляции между переменными X— индекс потребительских рас
ходов и Y — объемы продаж приведены в табл. 3.2.
Средние значения случайных величин Х и У, которые являются
наиболее простыми показателями, характеризующими
последовательности X], х2,..., х]6 и У\,У2,—,У16> рассчитаем по
формулам, соответственно
96
98
100
102
104
106
108
110
112
114
Индекс потребительских расходов
Рис. 3.1. Диаграмма рассеяния (корреляционное поле)
Дисперсия характеризует степень разброса значений хь Xj,..., х16
(у,, у 2 , ..., у { б) вокруг своего среднего х (и соответственно у):
OS
43
8
о
0
О
28
5
41
СО
03
5
5
53
5
,285
66
0
91
0
78
5
53
,535
,410
,285
,160
099'
CN
о) i
ГО
2 3622
87
6
23 201
0
03
80 1076
5
05 3992
3
02 15 671
8
61 19 095
0
14 3622
2 585
41
7
87 1458
3 3270
69
2
13 5957
5 158 718,
474
fN
CO
fN
86
9
55
7
99 305,
4
о
06 289,
9
66 437,
9
00 5681,
0
i о
22
5
469
70
0
650
5
32
5
32
61
2
О
о
со
СО
in
in
о
Затраты на
рекламу 2
Индекс потребительских расходов
3
1
0,646
0,816
' Затраты на рекламу 2
0,646
1
0,273
! Индекс потребительских расходов
0,816
0,273
1
: Объем реализации
1
3
о
OS
о
О
о
о
OS
г-
fN
fN
in
fN
со
m
306,8125
fN
0,1304
0,9253
;де __ определитель корреляционной матрицы R равен
0,1304,
Rn — алгебраическое дополнение 1-го диагонального
элемента той же матрицы R:
""
vж
'
I
0,273
0,273
1
0,9253,
ЧО
Среднее
—
Сумма
о
364
384
4909
367
367
OS
331
345
00
307
ЧО
432
445
370
274
148
ГО
со
= 0,9269,
1-
107,23125
со
00
и х2:
8
18
8
со
fN
OS
fN
8
18
8
18
8
18
го
oo
107
104,1
57,
77,
00
24,
38,
©
60,
60,
125,
138,
m
103,5
98,4
ЧО
137
Объем
реализации
1
■с х,
о
о
о
о
о
63,
7
00
00
18
8
18
fN
8
18
8
18
8
81
3
18
1—i
3
81
3
ro
oo
о
fN
Табличное значение критерия
Стьюдента равно: /табл (а- 0,1; А ~-п- 2= 14) =
1,76 (см. Приложение 2). Сравнивая числовые щдчения
критериев, видно, что /^ > /табл, т.е. полученное значение
коэффициента корреляции значимо.
Таким образом, индекс потребительских расходов оказывает
весьма высокое влияние на объемы продаж.
4. Матрица R коэффициентов парной корреляции, вычисленных по формуле (3.1), для трех факторов будет иметь вид:
5. Вычисление множественного коэффициента корреляции у
-158,
-169,
102,
12
5
77
881
-180,
1П
fN
06
9
569 174,
О
CN^
О
100
о
469
00
00
ЧО
fN
9
969 118
869
CN
7
fN
i
t
OS
oo
1—H
16
9
26 175,
9
06
ro ro
81
3
81
,922 13 412
376 25 221
,838
657
ro
1
1
ГО
о о
fN
432
1307
IK
as
957
28 836
Гf-
005
1
fN
in
OS
OS
1499
1
,291 32 693
Таблица
о
3. Оценим значимость коэффициента корреляции. Для этого
i>.««-считаем
значение r-статистики по формуле
' расч
./1-0,666
6. Вычисление коэффициентов частной корреляции:
jk,\,2,...,m
кк
rj
2*~\ 924
19
r
я
0,423
12
i2(3) "
-0,706,
0,6
46-
где /?I2 — алгебраическое дополнение элемента rl2
матрицы R, а /?22 — алгебраическое дополнение
2-го диагонального элемента г22:
0,8
1
-0,423;
1
(-1)'
m
160,816 0,816
73
= 0,334. 1
13 ~
Г ?2
*
0,2
Г 23
lКоэффициенты частной корреляции можно вычислить, используя коэффициенты парной корреляции:
Г
Г12(3)
12 "
0,8
162
)-
Г13(2)
г., -
(l0?2
732
3.2. РЕГРЕССИОННЫЙ АНАЛИЗ
Регрессионный анализ предназначен для исследования зависимости исследуемой переменной от различных факторов и отображения их взаимосвязи в форме регрессионной модели.
В регрессионных моделях зависимая (объясняемая) переменная Y
может быть представлена в виде функции f{Xu Хъ Х3, ..., Хт), где
Хх, Х2, Х3, ..., Хт — независимые (объясняющие) переменные, или
факторы. В качестве зависимой переменной может выступать
практически любой показатель, характеризующий, например,
деятельность предприятия или курс ценной бумаги. В зависимости от вида функции f ( Х1 Х2, Х3, ..., Х„) модели делятся на линейные и нелинейные. В зависимости от количества включенных
в модель факторов X модели делятся на однофакторные (парная
модель регрессии) и многофакторные (модель множественной
регрессии).
73
0,816
Связь между переменной У и т независимыми факторами
можно охарактеризовать функцией регрессии Y=f(X]t Х2, Х3, ...,
Хт),которая показывает, каково будет в среднем значение
переменной Yj, если переменные X,- примут конкретные
значения.
Данное обстоятельство позволяет использовать модель регрес* ни не только для анализа, но и для прогнозирования экономических явлений.
Линейная парная регрессия
Под линейностью здесь имеется В виду, что переменная у
предположительно находится под влиянием переменной д; в следующей зависимости:
у, = а + р • х,- + е;,
(3.6)
Где а — постоянная величина (или свободный член
уравнения);
β — коэффициент регрессии, определяющий наклон
линии, вдоль которой рассеяны данные наблюдений.
Это показатель, характеризующий изменение переменной у, при изменении значения х( на единицу.
Если р > 0 — переменные х,- и yf положительно
коррелированны, если р < 0 — отрицательно коррелированны;
е,- —независимые одинаково распределенные случайные
величины — остаток с нулевым математическим
ожиданием (те = 0) и постоянной дисперсией
(/)(£/) = а2). Остаточная компонента отражает тот
факт, что изменение у( будет неточно описываться
изменением X, поскольку присутствуют другие
факторы, неучтенные в данной модели.
Оценка параметров регрессионного уравнения
Основные предпосылки метода наименьших квадратов
Свойства коэффициентов регрессии существенным образом
зависят от свойств случайной составляющей. Для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты,
должны выполняться следующие условия, известные как условия
Гаусса—Маркова.
*
Первое условие. Математическое ожидание случайной составляющей в любом наблюдении должно быть равно нулю. Иногда
случайная составляющая будет положительной, иногда —
отрицательной, но она не должна иметь систематического смещения ни в одном из двух возможных направлений.
М(е,) = 0.
Фактически, если уравнение регрессии включает постоянный
член, то обычно это условие выполняется автоматически, так как
роль константы состоит в определении любой систематической
тенденции X, которую не учитывают объясняющие переменные,
включенные в уравнение регрессии.
• Второе условие состоит в том, что в модели (3.6) возмущение Е,- ;
(или зависимая переменная yj есть величина случайная, а объяс
няющая переменная xs — величина неслучайная.
Если это условие выполнено, то теоретическая ковариация
между независимой переменной и случайным членом равна нулю.
• Третье условие предполагает отсутствие систематической связи
между значениями случайной составляющей в любых двух на
блюдениях. Например, если случайная составляющая велика и
положительна в одном наблюдении, это не должно обуслов
ливать систематическую тенденцию к тому, что она будет боль
шой и положительной в следующем наблюдении. Случайные
составляющие должны быть независимы друг от друга.
В силу того, что М(Е/) = M(Ej) = 0, данное условие можно
записать следующим образом:
М (б/, £■) = 0
(/ ^ j).
Возмущения Е,- И EJ не коррелированны (условие независимости случайных составляющих в различных наблюдениях).
Это условие означает, что отклонения регрессии (а значит,
и сама зависимая переменная) не коррелируют. Условие некоррелируемости ограничительно, например, в случае временного
ряда уг Тогда третье условие означает отсутствие автокорреляции ряда Е?.
• Четвертое условие означает, что дисперсия случайной состав
ляющей должна быть постоянна для всех наблюдений. Иногда
случайная составляющая будет больше, иногда — меньше, одна
ко не должно быть априорной причины для того, чтобы она по
рождала большую ошибку в одних наблюдениях, чем в других.
Эта постоянная дисперсия обычно обозначается о2Ы), или
часто в более краткой форме о\, а условие записывается следующим образом:
22
Величина О2(Е), конечно, неизвестна. Одна из задач регрессионного анализа состоит в оценке стандартного отклонения
случайной составляющей. Это условие гомоскедастичности, или
равноизменчивости случайной составляющей (возмущения). •
Предположение о нормальности. Наряду с условиями ГауссаМаркова обычно также предполагается нормальность распределения случайного члена. Дело в том, что если случайный
член нормально распределен, то так же будут распределены и
коэффициенты регрессии.
Свойства оценок МНК
В тех случаях, когда предпосылки выполняются, оценки, полученные по МНК, будут обладать свойствами несмещенности,
состоятельности и эффективности.
Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям.
Для практических целей важна не только несмещенность, но
и эффективность оценок.
Оценки считаются эффективными, если они характеризуются
наименьшей дисперсией. Поэтому несмещенность оценки должна дополняться минимальной дисперсией.
Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными.
Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки.
Для оценки параметров регрессионного уравнения наиболее
часто используют метод наименьших квадратов (МНК), который
минимизирует сумму квадратов отклонения наблюдаемых значений -,у,- от модельных значений у{.
Согласно принципу метода наименьших квадратов оценки
а и р находятся путем минимизации суммы квадратов
■
i
/=1
по всем возможным значениям а и р при заданных (наблюдаемых) значениях *,,...,*„, у{, ...,у„. Задача сводится к известной
23
математической задаче поиска точки минимума функции двух
переменных. Точка минимума находится путем приравнивания к
нулю частных производных функции z— (?(«, Р) по переменным
а и р. Это приводит к системе нормальных уравнений
V (*, - Зс)2 ^ 0,
•I н> равносильно отличию от нуля определителя системы нормальных уравнений. Действительно, этот определитель равен
0Q(a,
0Q(a,
U-I
решением которой и является пара а, р. Согласно правилам вычисления производных имеем
d(?(a,P)/da-22(j'/-a-pjf/)(-l)f
/1
Последнее условие называется условием идентифицируемости
мидели наблюдений у-, = (a + P^JC,-) + е,-, / = 1, ..., п, и означает,
что не все значения JC,, ..., JC,, совпадают между собой. При
нарушении этого условия все точки (xh у;), /= 1, ..., «, лежат на
одной вертикальной прямой х = х.
Оценки а и р называют оценками наименьших квадратов. Обра-
2 2 (у, -а - Р*,)(-дг,),
/1
так что искомые значения а, Р удовлетворяют соотношениям
2 [У1 - а -'fa) «О,
f \У1 ~ а - fa)*, = 0.
тим еще раз внимание на полученное выражение для р. Нетрудно
видеть, что в это выражение -Л*"* входят уже знакомые нам суммы
квадратов, участвовавшие ранее в определении выборочной
дисперсии $1 = Var{x) = 2 (*/ -х) / ( п - \ ) и выборочной
ковариации
/1
Эту систему двух уравнений можно записать также в виде
Cov(x,у) = 2 [XJ -х)(у,- -у)/(п-1), так что в этих терминах
п
2*/
I
2
/-
Varix)
Эта система является системой двух линейных уравнений с
двумя неизвестными и может быть легко решена, например, методом подстановки. В результате получаем
/ 'X,- -п-ух
'х,у
;Г - л • х
(3.8)
2.U-.
2U
Матричная форма записи
-\2
В матричной форме модель парной регрессии имеет вид
a = у -fix.
(3.7)
Такое решение может существовать только при выполнении
условия
24
(3.9)
где У — вектор-столбец размерности (п х \) наблюдаемых
значений зависимой переменной;
25
Download