Оценка статистической значимости оценок регрессии по t

advertisement
17
ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика
Лекция 3
1.6. Разложение оценок коэффициентов
на неслучайную и случайную компоненты
Регрессионный анализ позволяет определять оценки коэффициентов регрессии.
Чтобы сделать выводы по полученной модели, необходимы дополнительные
исследования.
Свойства оценок коэффициентов регрессии, а, следовательно, и качество
построенной модели существенно зависят от свойств случайной составляющей.
Действительно, покажем, что ˆ 0 и ˆ 1 – СВ, зависящие от случайного члена  в уравнении
регрессии.
Рассмотрим модель парной линейной регрессии.
y  0  1 x   .
Пусть на основе выборки из n наблюдений оценено следующее уравнение
yˆ  ˆ 0  ˆ 1 x .
При этом, как было показано,
cov(x, y )
,
ˆ 1 
 2x
что означает, что коэффициент ̂1 также является случайным. В самом деле, значение
выборочной ковариации зависит от того, какие значения принимали x и y . Если значения
x можно считать известными (детерминированными), то значения y зависят от
случайной составляющей  . Разложим коэффициент ̂1 на неслучайную и случайную
составляющие:
cov(x, y )  cov(x, 0  1 x  ) 
 cov(x, 0 )  1 cov(x, x)  cov(x, )  12x  cov(x, ) ,
так как cov(x, 0 )  0, 0  const , cov(x, x)  2x . Тогда
cov(x, )
,
ˆ 1  1 
2x
где
cov(x, )
 2x
(1.6)
– случайная компонента. Итак, выборочный коэффициент регрессии
представлен в виде суммы истинного значения 1 и случайной составляющей, зависящей
от cov(x, ) . Аналогично коэффициент ̂ 0 можно разложить на сумму истинного
коэффициента  0 и случайной составляющей, получим
cov(x, )
ˆ 0  0 
x.
2x
(1.7)
Упражнение. Разложить коэффициент ̂ 0 на сумму истинного коэффициента  0 и
случайной составляющей.
Отметим, что на практике такие разложения получить невозможно, так как
неизвестны истинные значения 0 , 1 ,  .
18
ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика
1.7. Предпосылки МНК. Условия Гаусса – Маркова
МНК предполагает ряд ограничений на поведение случайного слагаемого  ,
которые называют предпосылками МНК. Только при их выполнение оценки параметров
будут «наилучшими».
1. Математическое ожидание случайного отклонения  i равно нулю:
M ( i )  0, i  1, n .
То есть случайное отклонение в среднем не оказывает влияния на зависимую переменную.
2. Дисперсия случайных отклонений  i постоянна:
D(i )  D( j )  2 ,  i, j  1, n .
Выполнимость данной предпосылки называется гомоскедастичностью (постоянством
дисперсий отклонений), невыполнимость – гетероскедастичностью. Поскольку
D( i )  M ( i  M ( i ))2  M ( i2 ) , то данную предпосылку можно переписать в форме
M (i2 )   2 , i  1, n .
3. Случайные отклонения  i и  j являются независимыми друг от друга для
i  j:
0, i  j,
cov( i ,  j )  M ( i  j )   2
 , i  j.
При выполнении этого условия говорят об отсутствии автокорреляции.
4. Случайное отклонение должно быть независимо от объясняющей
переменной:
cov(, x)  M (x)  0 .
Обычно это условие выполняется автоматически, если объясняющие переменные не
являются случайными в данной модели. Невыполнимость не столь критична для
эконометрических моделей.
5. Модель является линейной относительно параметров.
6*. Случайные отклонения распределены по нормальному закону:
 i  N (0;  2 ) .
В этом случае модель называется нормальной регрессионной моделью.
Теорема (Гаусса – Маркова). Если предпосылки 1 – 5 выполнены, то оценки,
полученные по МНК, обладают следующими свойствами:
1) Оценки несмещенные, то есть M (ˆ 0 )  0 , M (ˆ 1 )  1 .
Это вытекает из того, что M (i )  0 и говорит об отсутствии систематической ошибки в
определении положения линии регрессии:
 cov(x, ) 
cov(x, M ( ))
  1 
M (ˆ 1 )  1  M 
 1 ,
2

 2x
 x 
 cov(x, ) 
cov(x, M ())
M (ˆ 0 )   0  M 
x   M (  )  0 
x  M ( )   0 .
2
 2x
 x

2) Оценки состоятельны, так как
D(ˆ 0 ) n
 0 , D(ˆ 1 ) n
 0 ;


M (ˆ 0  M (ˆ 0 ))2  M (ˆ 0  0 ) 2 n
 0 , M (ˆ 1  M (ˆ 1 ))2  M (ˆ 1  1 ) 2 n
 0 ;


ср. кв.
ср. кв.
P.
P
ˆ 0 n
 0 , ˆ 1 n
 1  ˆ 0 n
 0 , ˆ 1 n
 1




.
Другими словами, при увеличении объема выборки надежность оценок увеличивается.
Состоятельность (стремление дисперсий оценок коэффициентов к нулю) будет
обоснована в следующем параграфе.
19
ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика
3) Оценки эффективны, то есть они имеют наименьшую дисперсию по сравнению
с любыми другими оценки данных параметров, линейными по y . Эффективность будет
доказана для случая множественной регрессии.
Если предпосылки 2, 3 не выполнены, то не сохраняется свойство эффективности.
Перейдем к вопросу о том, как отличить «хорошие» МНК оценки от «плохих». Перечислим способы, которые помогают
решить вопрос о достоинствах рассчитанной линии регрессии.
1.8. Анализ точности определения оценок коэффициентов регрессии
Учитывая, что yi  M ( y / x  xi )  i , получим i  yi  M ( y / x  xi ) , следовательно
D(i )  D( yi ) .
Предполагаем, что все измерения равноточные. Будем считать, что все дисперсии
случайных отклонений равны между собой:
D(i )  2 , i  1, n .
Получим формулы связи дисперсий коэффициентов эмпирического уравнения
регрессии D(ˆ 0 ) , D(ˆ 1 ) с дисперсией  2 . Для этого представим формулы определения
коэффициентов ̂ 0 , ̂1 в виде линейных функций относительно значений переменой y :
cov(x, y)  ( xi  x )( yi  y )  ( xi  x ) yi y  ( xi  x )  ( xi  x ) yi
ˆ 1 




,
2x
 ( xi  x ) 2
 ( xi  x ) 2  ( xi  x ) 2  ( xi  x ) 2
1
n
( xi  x )
Обозначив ci 
, имеем
 ( xi  x ) 2
так как  ( xi  x )  n  xi   x  nx  nx  0 .
ˆ 1   ci yi .
Аналогично
y
1

ˆ 0  y  ˆ 1 x   i   ci yi x     ci x  yi .
n
n


1
n
Обозначив, di   ci x получаем, что
ˆ 0   di yi .
Так как предполагается, что дисперсия y постоянна и не зависит от значений x , то ci и d i
можно рассматривать как некоторые постоянные. Следовательно
D(ˆ 1 )  D ci yi    D(ci yi )   ci2 D( yi )  2  ci2 
 2
2
 ( xi  x ) 2 
.
(  ( xi  x ) 2 ) 2  ( xi  x ) 2
(1.8)
2
1

D(ˆ 0 )  D d i yi    2  d i2   2    ci x  
n

2
1

x
 1 2c x


  2   2  i  ci2 x 2   2   0 
2 
n
n

 ( xi  x ) 
n
20
ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика
 2
 2  xi2
x2
 xi2  2 x  xi  nx 2  nx 2   2 x 2  2 x 2  2 x 2   2
.

n  ( xi  x ) 2
 ( xi  x ) 2
 ( xi  x ) 2 n  ( xi  x ) 2
(1.9)
Из соотношений (1.8), (1.9) очевидны следующие выводы:
- Дисперсии оценок коэффициентов ( D(ˆ 0 ) , D(ˆ 1 ) ) прямо пропорциональны
дисперсии случайных отклонений –  2 . Следовательно, чем больше фактор случайности,
тем менее точными будут оценки.
- Чем больше число наблюдений n , тем меньше дисперсии ошибок коэффициентов.
Это вполне логично, чем большим числом наблюдений мы располагаем, тем вероятнее
получение точных оценок.
- Чем больше дисперсия объясняющей переменной x (разброс значений
 ( xi  x )2 ), тем меньше дисперсия оценок коэффициентов. Другими словами, чем шире
область изменения объясняющей переменной, тем точнее будут оценки.
- С ростом числа наблюдений n до бесконечности дисперсии коэффициентов
стремятся к нулю, что вместе с несмещенностью оценок ̂ 0 , ̂1 свидетельствует о
состоятельности МНК-коэффициентов регрессии.
В силу того, что случайные отклонения  i по выборке определены быть не могут,
при анализе оценок коэффициентов регрессии они заменяются отклонениями
ei  yi  yˆi  yi  ˆ 0  ˆ 1xi . Дисперсия случайных отклонений D(i )  2 заменяется еѐ
несмещенной оценкой
S 2  ˆ 2 
1
 ei2 .
n2
(1.10)
Тогда D(ˆ 1 ) , D(ˆ 0 ) можно заменить их несмещенными оценками:
D(ˆ 1 )  Sˆ2 
1
D(ˆ 0 )  Sˆ2 
0
S2
,
 ( xi  x ) 2
S 2  xi2
 x 2 Sˆ2 ,
2
1
n  ( xi  x )
(1.11)
(1.12)
где
S2 
 ei2 – несмещенная оценка дисперсии D( )  2 (мера разброса зависимой
i
n2
переменной вокруг линии регрессии),
e
S  S 2   i – стандартная ошибка регрессии,
n2
2
Sˆ  Sˆ2 , Sˆ  Sˆ2 – стандартные ошибки коэффициентов регрессии.
0
0
1
1
1.9. Интервальные оценки коэффициентов регрессии.
Оценка статистической значимости коэффициентов регрессии
Одной из предпосылок МНК является i  N (0;  2 ) . Естественность этого
положения обосновывается центральной предельной теоремой. Это предположение
позволяет утверждать, что оценки ̂ 0 , ̂1 имеют нормальное распределение.
Ранее было доказано, что ˆ 1   ci yi , ˆ 0   di yi , где ci , d i – постоянные величины.
То есть ̂ 0 , ̂1 являются линейными комбинациями y i , а они в свою очередь
21
ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика
yi  0  1 xi  i являются линейными комбинациями  i , i  1, n . Таким образом
̂ 0 , ̂1
есть линейные функции независимых нормально распределенных случайных величин  i ,
i  1, n . Следовательно, они также имеют нормальный закон распределения.
Учитывая несмещенность МНК-оценок M (ˆ 0 )  0 , M (ˆ 1 )  1 и формулу (1.8),
(1.9) для дисперсий оценок, получим



 2  xi2  ˆ
2


.
,
ˆ 0  N   0 ;


N

;
1
1
2 
2 

n
(
x

x
)
(
x

x
)


i
i




(1.13)
Отсюда следует, что
Z0 
ˆ 0   0

n  ( xi  x ) 2 ˆ 0   0

 N 0;1 ,
ˆ
 xi2
0
ˆ  1
ˆ  
Z1  1
 ( xi  x ) 2  1 1  N 0;1 .
ˆ

1
С другой стороны, статистика
( n  2) S 2
1
 2  ei2   2 (n  2)
2


2
имеет  -распределение с   n  2 степенями свободы, так как две степени свободы
теряются при определении двух параметров ̂ 0 , ̂1 уравнения регрессии ( n наблюдений
связаны двумя уравнениями для нахождения ̂ 0 , ̂1 ),
ei
 N (0; 1) .

Замечание. Число степеней свободы равно разности n  m между числом
наблюдений n независимых СВ и числом связей m , ограничивающих свободу их
измерения, то есть m – число уравнений, связывающих эти наблюдения.
Отсюда следует, что
S
1

 2 ( n  2) ,

n2
то есть по определению статистики Стьюдента имеем
t0 
и, так как
ˆ
0


Sˆ
0

,
ˆ
1

(ˆ 0   0 ) / ˆ
S /

Sˆ
1

tˆ 
0
0
 t (n  2) , t1 
(ˆ 1  1 ) / ˆ
1
S /
 t ( n  2) ,
, получаем
ˆ 0   0
ˆ  1
 t ( n  2) .
 t ( n  2) , tˆ  1
1
Sˆ
Sˆ
0
1
Итак, мы показали, что в случае нормально распределенных ошибок величины t̂ ,
0
t̂ распределены по закону Стьюдента с   n  2 степенями свободы. Заметим, что при
1
  30
распределение Стьюдента практически не отличается от нормального
распределения. С учетом сказанного можно построить доверительные интервалы для
коэффициентов  0 , 1 .
1.9.1. Доверительные интервалы для коэффициентов регрессии
Для определения 100 (1  )% -го доверительного интервала с помощью таблиц
критических точек распределения Стьюдента по доверительной вероятности   1   (  –
уровень значимости или вероятность ошибки) и числу степеней свободы   n  2
определяют критическое значение t ;n 2 , удовлетворяющее условию
22
ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика
P(| t | t;n2 )  1   .
Далее получим
P( t ;n 2 
ˆ 0   0
 t ;n 2 )  1   ,
Sˆ
0
P( t;n 2
ˆ  1
 1
 t;n 2 )  1   .
Sˆ
1
После преобразований имеем
P(ˆ 0  t;n2 Sˆ  0  ˆ 0  t;n2 Sˆ )  1   ,
0
0
(1.14)
P(ˆ 1  t;n2 Sˆ  1  ˆ 1  t;n2 Sˆ )  1   .
1
1
Или учитывая формулы (1.11), (1.12):

S 2  xi2
S 2  xi2 
ˆ t
P ˆ 0  t ;n 2




 1  ,
0
0
;n 2
2
2 

n
(
x

x
)
n
(
x

x
)


i
i




S2
S2
ˆ t
 1 .
P ˆ 1  t;n 2




1
1

;
n

2
2
2 

(
x

x
)
(
x

x
)


i
i


Последние соотношения определяют доверительные интервалы


xi2
xi2


 ˆ  t
,
ˆ
;


t
S
0
 ;n  2 S
0

;
n

2

n  ( xi  x ) 2
n  ( xi  x ) 2 




1
1
ˆ t
 ˆ 1  t ;n 2 S
,
;

S
1

;
n

2
2
2 

(
x

x
)
(
x

x
)


i
i


которые с надежностью   1   покрывают определяемые параметры  0 и 1 .
Фактически доверительный интервал определяет значения теоретических
коэффициентов регрессии  0 и 1 , которые будут приемлемы с надежностью
(вероятностью)   (1  )% при найденных точечных оценках ̂ 0 и ̂1 .
1.9.2. Оценка статистической значимости коэффициентов регрессии
Величина стандартной ошибки совместно с t -распределением Стьюдента при n  2
степенях свободы применяется также для проверки существенности коэффициентов
регрессии.
Гипотезой о статистической значимости коэффициента регрессии 1
называют гипотезу в следующей постановке:
H 0 : 1  0,
при альтернативной гипотезе H1 : 1  0 . Гипотеза H 0 проверяется при заданном уровне
значимости  (вероятности ошибки  или доверительной вероятности   (1  )% ).
Если H 0 принимается, то говорят что коэффициент 1 статистически незначим
(он слишком близок к нулю) и есть основание считать, что величина y не зависит от x .
При отклонении H 0 коэффициент 1 считается статистически значимым, что
указывает на наличие определенной линейной связи между y и x : M ( y / x)  0  1 x . Для
уравнения парной линейной регрессии тестирование статистической значимости
коэффициента 1 эквивалентно тестированию значимости построенного линейного
уравнения регрессии, так как именно в коэффициенте 1 скрыто влияние фактора x на
23
ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика
результативную переменную y . Для тестирования гипотезы H 0 используется t -критерий,
и значение статистики критерия
tˆ 
1
ˆ 1
Sˆ
(1.15)
1
сравнивают с критическим значением t;n 2 , найденным по таблице распределения
Стьюдента при заданном  и   n  2 .
Гипотеза H 0 : 1  0 отвергается с вероятностью ошибки  при выполнении
неравенства
tˆ  t;n 2
1
и уравнение регрессии считается статистически значимым. В противном случае, то есть
если tˆ  t;n 2 , гипотеза H 0 : 1  0 не отвергается и уравнение регрессии считают
1
статистически незначимым и на этом регрессионный анализ заканчивается.
Для значимого уравнения регрессии представляет интерес построение
интервальной оценки коэффициента 1 , свободного члена  0 и дальнейший
регрессионный анализ.
Гипотеза о статистической значимости коэффициента  0 – H 0 : 0  0, проверяется
по аналогичной схеме с помощью статистики
tˆ 
0
ˆ 0
.
Sˆ
(1.16)
0
Замечание 1. Вывод о статистической значимости коэффициентов регрессии
может быть сделан на основе доверительных интервалов. Если окажется, что в
доверительный интервал попадает 0, то соответствующий коэффициент регрессии
объявляется незначимым. При проверке статистической значимости «на глаз»
рассчитанные t̂ , t̂ сравнивают с двойкой, так как t;n2  2 для больших n , если,
0
1
например tˆ  2 , то 1 статистически значим.
1
Замечание 2. При расчете уравнения регрессии на компьютере вычисляют
наблюдаемые значения критерия Стьюдента t̂ , t̂ и вероятности P̂ , P̂ ( P -level, P 0
1
0
1
значения) того, что случайная величина, распределенная по закону Стьюдента, превысит
по абсолютной величине наблюдаемые значения t̂ , t̂ . Если эти вероятности малы
0
1
(меньше выбранного уровня значимости, например 0,05), то коэффициенты считаются
значимыми. В противном случае – незначимыми.
Вообще, если проверяется гипотеза H 0 при уровне значимости  , то
 H 0 " принимается" , если P  ;

 H 0 " отклоняется" , если P  .
Замечание 3. P -значение – это величина, применяемая при статистической
проверке гипотез. Представляет собой вероятность того, что значение проверочной
статистики используемого критерия (t-статистики Стьюдента, F-статистики Фишера и
т.д.), вычисленное по выборке, превысит установленное P -значение. Решение о принятии
или отклонении нулевой гипотезы принимается в результате сравнения P -значения с
выбранным уровнем значимости. Если оно превышает указанный уровень значимости, то
для отклонения нулевой гипотезы (принятия альтернативной) нет достаточных оснований.
24
ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика
Иначе говоря, P -значение – это наименьшее значение уровня значимости (т.е.
вероятности отказа от справедливой гипотезы), для которого вычисленная проверочная
статистика ведет к отказу от нулевой гипотезы. Обычно P -значение сравнивают с
общепринятыми стандартными уровнями значимости 0,05 или 0,01. Например, если
вычисленное по выборке значение проверочной статистики соответствует P = 0,007, это
указывает на вероятность справедливости гипотезы 0,7%. Таким образом, чем P -значение
меньше, тем лучше, поскольку при этом увеличивается "сила" отклонения нулевой
гипотезы и увеличивается ожидаемая значимость результата.
Пример 1.3. По результатам примеров 1.1, 1.2 оценить статистическую значимость
коэффициентов регрессии, определить для них доверительные интервалы при уровне
значимости   0,05 .
Решение. Воспользуемся расчетной таблицей 1.2, которую справа дополним
столбцом значений ( xi  x ) 2 :
Таблица 1.3
ei
ei2
( xi  x )2
66,78243
2,017568
4,070582
4,7524
3398,89
59,39555
-1,09555
1,200227
0,6084
356,82
3918,76
60,45082
2,149182
4,618984
0,9604
51,84
375,12
2714,41
52,5363
-0,4363
0,190358
0,2704
54,5
38,44
337,9
2970,25
57,81265
-3,31265
10,97362
0,2304
6
57,1
36
342,6
3260,41
58,86791
-1,76791
3,125521
0,4624
7
7,8
51
60,84
397,8
2601
49,37049
1,629506
2,65529
1,2544
8
7,5
50,7
56,25
380,25
2570,49
50,9534
-0,2534
0,06421
0,6724
9
8,1
48,6
65,61
393,66
2361,96
47,78759
0,81241
0,660009
2,0164
10
Сумма
Среднее
7,9
66,8
6,68
49,1
552,8
55,28
62,41
458,94
45,894
387,89
3625,61
362,561
2410,81
30940,42
3094,042
48,84286
0,257141
1,49E-13
0,066121
27,62492
1,4884
12,716
№
xi
yi
x i2
xi y i
y i2
ŷ i
1
4,5
68,8
20,25
309,6
4733,44
2
5,9
58,3
34,81
343,97
3
5,7
62,6
32,49
4
7,2
52,1
5
6,2
6
Тогда стандартная ошибка регрессии равна
 ei2  27,6249  3,4531  1,8583.
S  S2 
n2
8
Стандартные ошибки коэффициентов регрессии
Sˆ  Sˆ2 
1
1
S2
3,4531

 0,2716  0,5211,
2
12,716
 ( xi  x )
Sˆ  Sˆ2  x 2 Sˆ2  45,894  0,2716  12,4648  3,5306.
0
0
1
Рассчитаем значения t -статистик для коэффициентов уравнения регрессии
tˆ 
0
ˆ 0 90,526
ˆ
 5,276

 25,6404, tˆ  1 
 10,1247 .
1
Sˆ
3,5306
Sˆ
0,5211
0
1
По таблице критических точек распределения Стьюдента определим t;n2  t0,05;8  2,306 .
Тогда, так как tˆ  t ;n 2 , то коэффициент  0 статистически значим при уровне
0
значимости   0,05 и, так как tˆ  t;n 2 , то коэффициент 1 также статистически значим
1
при уровне значимости   0,05 . Как правило, в уравнении регрессии значения
25
ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика
стандартных ошибок записывают в скобках под соответствующими коэффициентами,
иногда под ними указывают значения t -статистик:
yˆ i  90,526 5,276 xi или yˆ i  90,526  5,276 xi .
S
( 3,5306)
( 0,5211)
t
Определим доверительные интервалы
ˆ 0  t;n 2 Sˆ  0  ˆ 0  t;n 2 Sˆ ,
0
0
( 25,6404)
( 10,1247)
ˆ 1  t;n 2 Sˆ  1  ˆ 1  t;n 2 Sˆ .
1
1
90,526  2,306 3,5306 0  90,526  2,306 3,5306,  5,276  2,306 0,5211 1  5,276  2,306 0,5211.
82,3844  0  98,6676,
 6,4777  1  4,0743.
Доверительный интервал для коэффициента  0 – 82,3844; 98,6676 , для коэффициента 1 –
 6,4777;  4,0743 .
Download