Примеры решения задач по множественной регрессии

advertisement
Примеры решения задач по множественной регрессии
Пример 1. Уравнение регрессии, построенное по 17 наблюдениям, имеет вид:
y  ? 0,36 x1  9,6 x2  ? x3
3
1,4
mb j
tb j

1,5
3,0

5,0
2,4
Расставить пропущенные значения, а также построить доверительный интервал для b2 с вероятностью
0,99.
Решение. Пропущенные значения определяем с помощью формул:
bˆ 0,36
bˆ
 9,6
aˆ  ta  ma  1,4  3,0  4,2;
mb1  1 
 0,24;
tb2  2 
 3,2;
tb1
1,5
mb2
3,0
bˆ3  tb3  mb3  2,4  5,0  12,0.
Таким образом, уравнение регрессии со статистическими характеристиками выглядит так:
y  4,2  0,36 x1  9,6 x2  12 x3
mb j
tb j
3
1,4
0,24
1,5
3,0
5,0
 3,2 2,4
Доверительный интервал для b2 строим по соответствующей формуле. Здесь уровень значимости
равен 0,01, а число степеней свободы равно n – p – 1 = 17 – 3 – 1 = 13, где n = 17 – объём выборки, p = 3
– число факторов в уравнении регрессии. Отсюда
t табл 0,01;13  3,0123; mb2  3,0; bˆ2  9,6;
 9,6  3,0123  3,0  2  9,6  3,0123  3,0 ,
или  2   18,64;0,56  . Этот доверительный интервал накрывает истинное значение параметра
с вероятностью, равной 0,99.
 2
Пример 2. Уравнение регрессии в стандартизованных переменных выглядит так:
tˆy  0,82t x1  0,65t x2  0,43t x 3 .
При этом вариации всех переменных равны следующим величинам:
Vy  32%; Vx1  38%; Vx 2  43%; Vx 3  35% .
Сравнить факторы по степени влияния на результирующий признак и определить значения частных коэффициентов эластичности.
Решение. Стандартизованные уравнения регрессии позволяют сравнивать факторы по силе их влияния
на результат. При этом, чем больше по абсолютной величине коэффициент при стандартизованной переменной, тем сильнее данный фактор влияет на результирующий признак. В рассматриваемом уравнении самое сильное воздействие на результат оказывает фактор х1, имеющий коэффициент – 0,82, самое
слабое – фактор х3 с коэффициентом, равным – 0,43.
В линейной модели множественной регрессии обобщающий (средний) коэффициент частной
эластичности определяется выражением, в которое входят средние значения переменных и коэффициент при соответствующем факторе уравнения регрессии натурального масштаба. В условиях задачи эти
величины не заданы. Поэтому воспользуемся выражениями для вариации по переменным:
Vy 
y
y
100%; Vx j 
y
xj
100%.
Коэффициенты bj связаны со стандартизованными коэффициентами βj соответствующим соотношением, которое подставим в формулу для среднего коэффициента эластичности:
Эj  bj
xj
y
 j
 y xj
Vy

 j
.
 xj y
Vx j
1
При этом знак коэффициента эластичности будет совпадать со знаком βj:
Э1  0,82 
32
32
32
 0,691; Э2  0,65 
 0,484; Э3  0,43 
 0,393.
38
43
35
■
Пример 3. По 32 наблюдениям получены следующие данные:
уˆ  а  1,864 х1  2,56 х 2  2,86 х3 ; R 2  0,58;
у  110; х1  80; х 2  140; х3  130 .
Определить значения скорректированного коэффициента детерминации, частных коэффициентов
эластичности и параметра а.
Решение. Значение скорректированного коэффициента детерминации определим по одному из формул
для его вычисления:
n 1
32  1
R 2  1  1  R2
 1  1  0,58
 0,535.
n  p 1
32  3  1
Частные коэффициенты эластичности (средние по совокупности) вычисляем по соответствующим формулам:

Э1  1,864 

80
140
130
 1,356; Э2  2,56 
 3,258; Э3  2,86 
 3,38.
110
110
110
Поскольку линейное уравнение множественной регрессии выполняется при подстановке в него
средних значений всех переменных, определяем параметр а:
a  110  1,864  80  2,56 140  2,86  130  52,52.
■
Пример 4. По некоторым переменным имеются следующие статистические данные:
у  15,0; х1  6,5; х 2  12,0;  y  4,0;  x1  2,5;
 х2  3,5; ryx1  0,63; rух2  0,78; rx1x2  0,52.
Построить уравнение регрессии в стандартизованном и натуральном масштабах.
Решение. Поскольку изначально известны коэффициенты парной корреляции между переменными,
начать следует с построения уравнения регрессии в стандартизованном масштабе. Для этого надо решить соответствующую систему нормальных уравнений, которая в случае двух факторов имеет вид:
1  rx1x2  2  ryx1 ,


 2  ryx2 ,
rx1x2 1 
или, после подстановки исходных данных:
1  0,52 2


2
0,521 
 0,63,
 0,78.
Решаем эту систему любым способом, получаем: β1 = 0,3076, β2 = 0,62.
Запишем уравнение регрессии в стандартизованном масштабе:
tˆy  0,3076 t x1  0,62t x2 .
Теперь перейдем к уравнению регрессии в натуральном масштабе, для чего используем формулы
расчета коэффициентов регрессии через бета-коэффициенты и свойство справедливости уравнения регрессии для средних переменных:
4,0
4,0
b1  0,3076 
 0,4922; b2  0,62 
 0,7086;
2,5
3,5
a  15  0,4922  6,5  0,7086  12  3,298.
Уравнение регрессии в натуральном масштабе имеет вид:
yˆ  3,298  0,4922 x1  0,7086 x 2 .
■
2
Пример 5. При построении линейной множественной регрессии y  f x1 ,, x10  по 48 измерениям коэффициент детерминации составил 0,578. После исключения факторов х3, х7 и х8 коэффициент детерминации уменьшился до 0,495. Обоснованно ли было принятое решение об изменении состава влияющих
переменных на уровнях значимости 0,1, 0,05 и 0,01?
Решение. Пусть R12 - коэффициент детерминации уравнения регрессии при первоначальном наборе
факторов, R22 - коэффициент детерминации после исключения трех факторов. Выдвигаем гипотезы:
H 0 : R12  R22  0 ; H1 : R12  R22  0
Основная гипотеза предполагает, что уменьшение величины R 2 было несущественным, и решение об исключении группы факторов было правильным. Альтернативная гипотеза говорит о правильности принятого решения об исключении.
Для проверки нуль – гипотезы используем следующую статистику:
R 2  R22 n  p  1
,
F 1

k
1  R12
где n = 48, p = 10 – первоначальное количество факторов, k = 3 – количество исключаемых факторов.
Тогда
Fнабл 
0,578  0,495 48  10  1

 2,426
1  0,578
3
Сравним полученное значение с критическим F(α; 3; 39) на уровнях 0,1; 0,05 и 0,01:
F(0,1; 3; 37) = 2,238;
F(0,05; 3; 37) = 2,86;
F(0,01; 3; 37) = 4,36.
На уровне α = 0,1 Fнабл > Fкр, нуль – гипотеза отвергается, исключение данной группы факторов
не оправдано, на уровнях 0,05 0,01 нуль – гипотеза не может быть отвергнута, и исключение факторов
можно считать оправданным.
■
Пример 6. На основе квартальных данных с 2000 г. по 2004 г. получено уравнение
y  0,67  0,0098xt1  5,62 xt 2  0,044xt 3   . При этом ESS=110,3, RSS=21,4 (ESS – объясненная
СКО, RSS – остаточная СКО). В уравнение были добавлены три фиктивные переменные, соответствующие трем первым кварталам года, и величина ESS увеличилась до 120,2. Присутствует ли сезонность в
этом уравнении?
Решение. Это задача на проверку обоснованности включения группы факторов в уравнение множественной регрессии. В первоначальное уравнение с тремя факторами были добавлены три переменные,
соответствующие первым трем кварталам года.
Определим коэффициенты детерминации уравнений. Общая СКО определяется как сумма факторной и остаточной СКО:
ТSS = ESS1 + RSS1 = 110,3 + 21,4 = 131,7
Отсюда:
R12 
ESS1 110,3
ESS2 120,2

 0,8375; R22 

 0,9127;
TSS 131,7
TSS 131,7
Проверяем гипотезы H 0 : R22  R12 ,
статистику
H1 : R22  R12 . Для проверки нуль – гипотезы используем
R22  R12 n  p  1
F

k
1  R22
Здесь n = 20 (20 кварталов за пять лет – с 2000 г. по 2004 г.), p = 6 (общее количество факторов в
уравнении регрессии после включения новых факторов), k = 3 (количество включаемых факторов). Таким образом:
0,9127  0,8375 20  6  1
F

 3,73
1  0,9127
3
3
Определим критические значения статистики Фишера на различных уровнях значимости:
F 0,1;3;13  2,56;
F 0,05;3;13  3,41;
F 0,01;3;13  5,74.
На уровнях значимости 0,1 и 0,05 Fнабл> Fкр, нуль – гипотеза отвергается в пользу альтернативной,
и учет сезонности в регрессии является обоснованным (добавление трех новых факторов оправдано), а
на уровне 0,01 Fнабл< Fкр, и нуль – гипотеза не может быть отклонена; добавление новых факторов не
оправдано, сезонность в регрессии не является существенной.
■
Пример 7. При анализе данных на гетероскедастичность вся выборка была после упорядочения по одному из факторов разбита на три подвыборки. Затем по результатам трехфакторного регрессионного
анализа было определено, что остаточная СКО в первой подвыборке составила 180, а в третьей – 63.
Подтверждается ли наличие гетероскедастичности, если объем данных в каждой подвыборке равен 20?
Решение. Рассчитаем–статистику для проверки нуль–гипотезы о гомоскедастичности по тесту Голдфелда–Квандта:
180
Fнабл 
 2,857 .
63
Найдем критические значения статистики по Фишеру:
F 0,1; k  p  1; k  p  1  F 0,1;20  3  1;20  3  1  1,93;
F 0,05;16;16  2,33;
F 0,01;16;16  3,38.
Следовательно, на уровнях значимости 0,1 и 0,05 Fнабл> Fкр, и гетероскедастичность имеет место, а на
уровне 0,01 Fнабл< Fкр, и гипотезу о гомоскедастичности отклонить нельзя.
■
Пример 8. На основе квартальных данных получено уравнение множественной регрессии
y  0,67  0,0098xt1  5,62 xt 2  0,044xt 3   , для которого ESS = 120,32 и RSS = 41,4. Для этой же
модели были раздельно проведены регрессии на основе следующих данных: 1 квартал 1991 г. – 1 квартал 1995 г. и 2 квартал 1995 г. – 4 квартал 1996 г. В этих регрессиях остаточные СКО соответственно
составили 22,25 и 12,32. Проверить гипотезу о наличии структурных изменений в выборке.
Решение. Задача о наличии структурных изменений в выборке решается с помощью теста Чоу.
Гипотезы имеют вид: H 0 : s0  s1  s2 ; H1 : s0  s1  s2 , где s0, s1 и s2 – остаточные СКО соответственно для единого уравнения по всей выборке и уравнений регрессии двух подвыборок общей выборки. Основная гипотеза отрицает наличие структурных изменений в выборке. Для проверки нуль –
гипотезы рассчитывается статистика (n = 24; p = 3):
Fнабл 
s 0  s1  s 2  n  2 p  2 41,4  22,25  12,32 24  2  3  2



 0,79
s1  s 2
p 1
22,25  12,32
3 1
Поскольку F – статистика меньше единицы, нуль – гипотезу нельзя отклонить ни для какого уровня
значимости. Например, для уровня значимости 0,05 :
Fкр  ; p  1; n  2 p  2  Fкр 0,05;4;16   3,01 .
■
4
Download