Оценка статистической значимости оценок регрессии по t

17 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика Лекция 3 1.6. Разложение оценок коэффициентов на неслучайную и случайную компоненты Регрессионный анализ позволяет определять оценки коэффициентов регрессии. Чтобы сделать выводы по полученной модели, необходимы дополнительные исследования. Свойства оценок коэффициентов регрессии, а, следовательно, и качество построенной модели существенно зависят от свойств случайной составляющей. Действительно, покажем, что ˆ 0 и ˆ 1 – СВ, зависящие от случайного члена  в уравнении регрессии. Рассмотрим модель парной линейной регрессии. y  0  1 x   . Пусть на основе выборки из n наблюдений оценено следующее уравнение yˆ  ˆ 0  ˆ 1 x . При этом, как было показано, cov(x, y ) , ˆ 1   2x что означает, что коэффициент ̂1 также является случайным. В самом деле, значение выборочной ковариации зависит от того, какие значения принимали x и y . Если значения x можно считать известными (детерминированными), то значения y зависят от случайной составляющей  . Разложим коэффициент ̂1 на неслучайную и случайную составляющие: cov(x, y )  cov(x, 0  1 x  )   cov(x, 0 )  1 cov(x, x)  cov(x, )  12x  cov(x, ) , так как cov(x, 0 )  0, 0  const , cov(x, x)  2x . Тогда cov(x, ) , ˆ 1  1  2x где cov(x, )  2x (1.6) – случайная компонента. Итак, выборочный коэффициент регрессии представлен в виде суммы истинного значения 1 и случайной составляющей, зависящей от cov(x, ) . Аналогично коэффициент ̂ 0 можно разложить на сумму истинного коэффициента  0 и случайной составляющей, получим cov(x, ) ˆ 0  0  x. 2x (1.7) Упражнение. Разложить коэффициент ̂ 0 на сумму истинного коэффициента  0 и случайной составляющей. Отметим, что на практике такие разложения получить невозможно, так как неизвестны истинные значения 0 , 1 ,  . 18 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика 1.7. Предпосылки МНК. Условия Гаусса – Маркова МНК предполагает ряд ограничений на поведение случайного слагаемого  , которые называют предпосылками МНК. Только при их выполнение оценки параметров будут «наилучшими». 1. Математическое ожидание случайного отклонения  i равно нулю: M ( i )  0, i  1, n . То есть случайное отклонение в среднем не оказывает влияния на зависимую переменную. 2. Дисперсия случайных отклонений  i постоянна: D(i )  D( j )  2 ,  i, j  1, n . Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсий отклонений), невыполнимость – гетероскедастичностью. Поскольку D( i )  M ( i  M ( i ))2  M ( i2 ) , то данную предпосылку можно переписать в форме M (i2 )   2 , i  1, n . 3. Случайные отклонения  i и  j являются независимыми друг от друга для i  j: 0, i  j, cov( i ,  j )  M ( i  j )   2  , i  j. При выполнении этого условия говорят об отсутствии автокорреляции. 4. Случайное отклонение должно быть независимо от объясняющей переменной: cov(, x)  M (x)  0 . Обычно это условие выполняется автоматически, если объясняющие переменные не являются случайными в данной модели. Невыполнимость не столь критична для эконометрических моделей. 5. Модель является линейной относительно параметров. 6*. Случайные отклонения распределены по нормальному закону:  i  N (0;  2 ) . В этом случае модель называется нормальной регрессионной моделью. Теорема (Гаусса – Маркова). Если предпосылки 1 – 5 выполнены, то оценки, полученные по МНК, обладают следующими свойствами: 1) Оценки несмещенные, то есть M (ˆ 0 )  0 , M (ˆ 1 )  1 . Это вытекает из того, что M (i )  0 и говорит об отсутствии систематической ошибки в определении положения линии регрессии:  cov(x, )  cov(x, M ( ))   1  M (ˆ 1 )  1  M   1 , 2   2x  x   cov(x, )  cov(x, M ()) M (ˆ 0 )   0  M  x   M (  )  0  x  M ( )   0 . 2  2x  x  2) Оценки состоятельны, так как D(ˆ 0 ) n  0 , D(ˆ 1 ) n  0 ;   M (ˆ 0  M (ˆ 0 ))2  M (ˆ 0  0 ) 2 n  0 , M (ˆ 1  M (ˆ 1 ))2  M (ˆ 1  1 ) 2 n  0 ;   ср. кв. ср. кв. P. P ˆ 0 n  0 , ˆ 1 n  1  ˆ 0 n  0 , ˆ 1 n  1     . Другими словами, при увеличении объема выборки надежность оценок увеличивается. Состоятельность (стремление дисперсий оценок коэффициентов к нулю) будет обоснована в следующем параграфе. 19 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика 3) Оценки эффективны, то есть они имеют наименьшую дисперсию по сравнению с любыми другими оценки данных параметров, линейными по y . Эффективность будет доказана для случая множественной регрессии. Если предпосылки 2, 3 не выполнены, то не сохраняется свойство эффективности. Перейдем к вопросу о том, как отличить «хорошие» МНК оценки от «плохих». Перечислим способы, которые помогают решить вопрос о достоинствах рассчитанной линии регрессии. 1.8. Анализ точности определения оценок коэффициентов регрессии Учитывая, что yi  M ( y / x  xi )  i , получим i  yi  M ( y / x  xi ) , следовательно D(i )  D( yi ) . Предполагаем, что все измерения равноточные. Будем считать, что все дисперсии случайных отклонений равны между собой: D(i )  2 , i  1, n . Получим формулы связи дисперсий коэффициентов эмпирического уравнения регрессии D(ˆ 0 ) , D(ˆ 1 ) с дисперсией  2 . Для этого представим формулы определения коэффициентов ̂ 0 , ̂1 в виде линейных функций относительно значений переменой y : cov(x, y)  ( xi  x )( yi  y )  ( xi  x ) yi y  ( xi  x )  ( xi  x ) yi ˆ 1      , 2x  ( xi  x ) 2  ( xi  x ) 2  ( xi  x ) 2  ( xi  x ) 2 1 n ( xi  x ) Обозначив ci  , имеем  ( xi  x ) 2 так как  ( xi  x )  n  xi   x  nx  nx  0 . ˆ 1   ci yi . Аналогично y 1  ˆ 0  y  ˆ 1 x   i   ci yi x     ci x  yi . n n   1 n Обозначив, di   ci x получаем, что ˆ 0   di yi . Так как предполагается, что дисперсия y постоянна и не зависит от значений x , то ci и d i можно рассматривать как некоторые постоянные. Следовательно D(ˆ 1 )  D ci yi    D(ci yi )   ci2 D( yi )  2  ci2   2 2  ( xi  x ) 2  . (  ( xi  x ) 2 ) 2  ( xi  x ) 2 (1.8) 2 1  D(ˆ 0 )  D d i yi    2  d i2   2    ci x   n  2 1  x  1 2c x     2   2  i  ci2 x 2   2   0  2  n n   ( xi  x )  n 20 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика  2  2  xi2 x2  xi2  2 x  xi  nx 2  nx 2   2 x 2  2 x 2  2 x 2   2 .  n  ( xi  x ) 2  ( xi  x ) 2  ( xi  x ) 2 n  ( xi  x ) 2 (1.9) Из соотношений (1.8), (1.9) очевидны следующие выводы: - Дисперсии оценок коэффициентов ( D(ˆ 0 ) , D(ˆ 1 ) ) прямо пропорциональны дисперсии случайных отклонений –  2 . Следовательно, чем больше фактор случайности, тем менее точными будут оценки. - Чем больше число наблюдений n , тем меньше дисперсии ошибок коэффициентов. Это вполне логично, чем большим числом наблюдений мы располагаем, тем вероятнее получение точных оценок. - Чем больше дисперсия объясняющей переменной x (разброс значений  ( xi  x )2 ), тем меньше дисперсия оценок коэффициентов. Другими словами, чем шире область изменения объясняющей переменной, тем точнее будут оценки. - С ростом числа наблюдений n до бесконечности дисперсии коэффициентов стремятся к нулю, что вместе с несмещенностью оценок ̂ 0 , ̂1 свидетельствует о состоятельности МНК-коэффициентов регрессии. В силу того, что случайные отклонения  i по выборке определены быть не могут, при анализе оценок коэффициентов регрессии они заменяются отклонениями ei  yi  yˆi  yi  ˆ 0  ˆ 1xi . Дисперсия случайных отклонений D(i )  2 заменяется еѐ несмещенной оценкой S 2  ˆ 2  1  ei2 . n2 (1.10) Тогда D(ˆ 1 ) , D(ˆ 0 ) можно заменить их несмещенными оценками: D(ˆ 1 )  Sˆ2  1 D(ˆ 0 )  Sˆ2  0 S2 ,  ( xi  x ) 2 S 2  xi2  x 2 Sˆ2 , 2 1 n  ( xi  x ) (1.11) (1.12) где S2   ei2 – несмещенная оценка дисперсии D( )  2 (мера разброса зависимой i n2 переменной вокруг линии регрессии), e S  S 2   i – стандартная ошибка регрессии, n2 2 Sˆ  Sˆ2 , Sˆ  Sˆ2 – стандартные ошибки коэффициентов регрессии. 0 0 1 1 1.9. Интервальные оценки коэффициентов регрессии. Оценка статистической значимости коэффициентов регрессии Одной из предпосылок МНК является i  N (0;  2 ) . Естественность этого положения обосновывается центральной предельной теоремой. Это предположение позволяет утверждать, что оценки ̂ 0 , ̂1 имеют нормальное распределение. Ранее было доказано, что ˆ 1   ci yi , ˆ 0   di yi , где ci , d i – постоянные величины. То есть ̂ 0 , ̂1 являются линейными комбинациями y i , а они в свою очередь 21 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика yi  0  1 xi  i являются линейными комбинациями  i , i  1, n . Таким образом ̂ 0 , ̂1 есть линейные функции независимых нормально распределенных случайных величин  i , i  1, n . Следовательно, они также имеют нормальный закон распределения. Учитывая несмещенность МНК-оценок M (ˆ 0 )  0 , M (ˆ 1 )  1 и формулу (1.8), (1.9) для дисперсий оценок, получим     2  xi2  ˆ 2   . , ˆ 0  N   0 ;   N  ; 1 1 2  2   n ( x  x ) ( x  x )   i i     (1.13) Отсюда следует, что Z0  ˆ 0   0  n  ( xi  x ) 2 ˆ 0   0   N 0;1 , ˆ  xi2 0 ˆ  1 ˆ   Z1  1  ( xi  x ) 2  1 1  N 0;1 . ˆ  1 С другой стороны, статистика ( n  2) S 2 1  2  ei2   2 (n  2) 2   2 имеет  -распределение с   n  2 степенями свободы, так как две степени свободы теряются при определении двух параметров ̂ 0 , ̂1 уравнения регрессии ( n наблюдений связаны двумя уравнениями для нахождения ̂ 0 , ̂1 ), ei  N (0; 1) .  Замечание. Число степеней свободы равно разности n  m между числом наблюдений n независимых СВ и числом связей m , ограничивающих свободу их измерения, то есть m – число уравнений, связывающих эти наблюдения. Отсюда следует, что S 1   2 ( n  2) ,  n2 то есть по определению статистики Стьюдента имеем t0  и, так как ˆ 0   Sˆ 0  , ˆ 1  (ˆ 0   0 ) / ˆ S /  Sˆ 1  tˆ  0 0  t (n  2) , t1  (ˆ 1  1 ) / ˆ 1 S /  t ( n  2) , , получаем ˆ 0   0 ˆ  1  t ( n  2) .  t ( n  2) , tˆ  1 1 Sˆ Sˆ 0 1 Итак, мы показали, что в случае нормально распределенных ошибок величины t̂ , 0 t̂ распределены по закону Стьюдента с   n  2 степенями свободы. Заметим, что при 1   30 распределение Стьюдента практически не отличается от нормального распределения. С учетом сказанного можно построить доверительные интервалы для коэффициентов  0 , 1 . 1.9.1. Доверительные интервалы для коэффициентов регрессии Для определения 100 (1  )% -го доверительного интервала с помощью таблиц критических точек распределения Стьюдента по доверительной вероятности   1   (  – уровень значимости или вероятность ошибки) и числу степеней свободы   n  2 определяют критическое значение t ;n 2 , удовлетворяющее условию 22 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика P(| t | t;n2 )  1   . Далее получим P( t ;n 2  ˆ 0   0  t ;n 2 )  1   , Sˆ 0 P( t;n 2 ˆ  1  1  t;n 2 )  1   . Sˆ 1 После преобразований имеем P(ˆ 0  t;n2 Sˆ  0  ˆ 0  t;n2 Sˆ )  1   , 0 0 (1.14) P(ˆ 1  t;n2 Sˆ  1  ˆ 1  t;n2 Sˆ )  1   . 1 1 Или учитывая формулы (1.11), (1.12):  S 2  xi2 S 2  xi2  ˆ t P ˆ 0  t ;n 2      1  , 0 0 ;n 2 2 2   n ( x  x ) n ( x  x )   i i     S2 S2 ˆ t  1 . P ˆ 1  t;n 2     1 1  ; n  2 2 2   ( x  x ) ( x  x )   i i   Последние соотношения определяют доверительные интервалы   xi2 xi2    ˆ  t , ˆ ;   t S 0  ;n  2 S 0  ; n  2  n  ( xi  x ) 2 n  ( xi  x ) 2      1 1 ˆ t  ˆ 1  t ;n 2 S , ;  S 1  ; n  2 2 2   ( x  x ) ( x  x )   i i   которые с надежностью   1   покрывают определяемые параметры  0 и 1 . Фактически доверительный интервал определяет значения теоретических коэффициентов регрессии  0 и 1 , которые будут приемлемы с надежностью (вероятностью)   (1  )% при найденных точечных оценках ̂ 0 и ̂1 . 1.9.2. Оценка статистической значимости коэффициентов регрессии Величина стандартной ошибки совместно с t -распределением Стьюдента при n  2 степенях свободы применяется также для проверки существенности коэффициентов регрессии. Гипотезой о статистической значимости коэффициента регрессии 1 называют гипотезу в следующей постановке: H 0 : 1  0, при альтернативной гипотезе H1 : 1  0 . Гипотеза H 0 проверяется при заданном уровне значимости  (вероятности ошибки  или доверительной вероятности   (1  )% ). Если H 0 принимается, то говорят что коэффициент 1 статистически незначим (он слишком близок к нулю) и есть основание считать, что величина y не зависит от x . При отклонении H 0 коэффициент 1 считается статистически значимым, что указывает на наличие определенной линейной связи между y и x : M ( y / x)  0  1 x . Для уравнения парной линейной регрессии тестирование статистической значимости коэффициента 1 эквивалентно тестированию значимости построенного линейного уравнения регрессии, так как именно в коэффициенте 1 скрыто влияние фактора x на 23 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика результативную переменную y . Для тестирования гипотезы H 0 используется t -критерий, и значение статистики критерия tˆ  1 ˆ 1 Sˆ (1.15) 1 сравнивают с критическим значением t;n 2 , найденным по таблице распределения Стьюдента при заданном  и   n  2 . Гипотеза H 0 : 1  0 отвергается с вероятностью ошибки  при выполнении неравенства tˆ  t;n 2 1 и уравнение регрессии считается статистически значимым. В противном случае, то есть если tˆ  t;n 2 , гипотеза H 0 : 1  0 не отвергается и уравнение регрессии считают 1 статистически незначимым и на этом регрессионный анализ заканчивается. Для значимого уравнения регрессии представляет интерес построение интервальной оценки коэффициента 1 , свободного члена  0 и дальнейший регрессионный анализ. Гипотеза о статистической значимости коэффициента  0 – H 0 : 0  0, проверяется по аналогичной схеме с помощью статистики tˆ  0 ˆ 0 . Sˆ (1.16) 0 Замечание 1. Вывод о статистической значимости коэффициентов регрессии может быть сделан на основе доверительных интервалов. Если окажется, что в доверительный интервал попадает 0, то соответствующий коэффициент регрессии объявляется незначимым. При проверке статистической значимости «на глаз» рассчитанные t̂ , t̂ сравнивают с двойкой, так как t;n2  2 для больших n , если, 0 1 например tˆ  2 , то 1 статистически значим. 1 Замечание 2. При расчете уравнения регрессии на компьютере вычисляют наблюдаемые значения критерия Стьюдента t̂ , t̂ и вероятности P̂ , P̂ ( P -level, P 0 1 0 1 значения) того, что случайная величина, распределенная по закону Стьюдента, превысит по абсолютной величине наблюдаемые значения t̂ , t̂ . Если эти вероятности малы 0 1 (меньше выбранного уровня значимости, например 0,05), то коэффициенты считаются значимыми. В противном случае – незначимыми. Вообще, если проверяется гипотеза H 0 при уровне значимости  , то  H 0 " принимается" , если P  ;   H 0 " отклоняется" , если P  . Замечание 3. P -значение – это величина, применяемая при статистической проверке гипотез. Представляет собой вероятность того, что значение проверочной статистики используемого критерия (t-статистики Стьюдента, F-статистики Фишера и т.д.), вычисленное по выборке, превысит установленное P -значение. Решение о принятии или отклонении нулевой гипотезы принимается в результате сравнения P -значения с выбранным уровнем значимости. Если оно превышает указанный уровень значимости, то для отклонения нулевой гипотезы (принятия альтернативной) нет достаточных оснований. 24 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика Иначе говоря, P -значение – это наименьшее значение уровня значимости (т.е. вероятности отказа от справедливой гипотезы), для которого вычисленная проверочная статистика ведет к отказу от нулевой гипотезы. Обычно P -значение сравнивают с общепринятыми стандартными уровнями значимости 0,05 или 0,01. Например, если вычисленное по выборке значение проверочной статистики соответствует P = 0,007, это указывает на вероятность справедливости гипотезы 0,7%. Таким образом, чем P -значение меньше, тем лучше, поскольку при этом увеличивается "сила" отклонения нулевой гипотезы и увеличивается ожидаемая значимость результата. Пример 1.3. По результатам примеров 1.1, 1.2 оценить статистическую значимость коэффициентов регрессии, определить для них доверительные интервалы при уровне значимости   0,05 . Решение. Воспользуемся расчетной таблицей 1.2, которую справа дополним столбцом значений ( xi  x ) 2 : Таблица 1.3 ei ei2 ( xi  x )2 66,78243 2,017568 4,070582 4,7524 3398,89 59,39555 -1,09555 1,200227 0,6084 356,82 3918,76 60,45082 2,149182 4,618984 0,9604 51,84 375,12 2714,41 52,5363 -0,4363 0,190358 0,2704 54,5 38,44 337,9 2970,25 57,81265 -3,31265 10,97362 0,2304 6 57,1 36 342,6 3260,41 58,86791 -1,76791 3,125521 0,4624 7 7,8 51 60,84 397,8 2601 49,37049 1,629506 2,65529 1,2544 8 7,5 50,7 56,25 380,25 2570,49 50,9534 -0,2534 0,06421 0,6724 9 8,1 48,6 65,61 393,66 2361,96 47,78759 0,81241 0,660009 2,0164 10 Сумма Среднее 7,9 66,8 6,68 49,1 552,8 55,28 62,41 458,94 45,894 387,89 3625,61 362,561 2410,81 30940,42 3094,042 48,84286 0,257141 1,49E-13 0,066121 27,62492 1,4884 12,716 № xi yi x i2 xi y i y i2 ŷ i 1 4,5 68,8 20,25 309,6 4733,44 2 5,9 58,3 34,81 343,97 3 5,7 62,6 32,49 4 7,2 52,1 5 6,2 6 Тогда стандартная ошибка регрессии равна  ei2  27,6249  3,4531  1,8583. S  S2  n2 8 Стандартные ошибки коэффициентов регрессии Sˆ  Sˆ2  1 1 S2 3,4531   0,2716  0,5211, 2 12,716  ( xi  x ) Sˆ  Sˆ2  x 2 Sˆ2  45,894  0,2716  12,4648  3,5306. 0 0 1 Рассчитаем значения t -статистик для коэффициентов уравнения регрессии tˆ  0 ˆ 0 90,526 ˆ  5,276   25,6404, tˆ  1   10,1247 . 1 Sˆ 3,5306 Sˆ 0,5211 0 1 По таблице критических точек распределения Стьюдента определим t;n2  t0,05;8  2,306 . Тогда, так как tˆ  t ;n 2 , то коэффициент  0 статистически значим при уровне 0 значимости   0,05 и, так как tˆ  t;n 2 , то коэффициент 1 также статистически значим 1 при уровне значимости   0,05 . Как правило, в уравнении регрессии значения 25 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика стандартных ошибок записывают в скобках под соответствующими коэффициентами, иногда под ними указывают значения t -статистик: yˆ i  90,526 5,276 xi или yˆ i  90,526  5,276 xi . S ( 3,5306) ( 0,5211) t Определим доверительные интервалы ˆ 0  t;n 2 Sˆ  0  ˆ 0  t;n 2 Sˆ , 0 0 ( 25,6404) ( 10,1247) ˆ 1  t;n 2 Sˆ  1  ˆ 1  t;n 2 Sˆ . 1 1 90,526  2,306 3,5306 0  90,526  2,306 3,5306,  5,276  2,306 0,5211 1  5,276  2,306 0,5211. 82,3844  0  98,6676,  6,4777  1  4,0743. Доверительный интервал для коэффициента  0 – 82,3844; 98,6676 , для коэффициента 1 –  6,4777;  4,0743 .

Оценка статистической значимости оценок регрессии по t

Related documents

Products

Support

Оценка статистической значимости оценок регрессии по t

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib