17 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика Лекция 3 1.6. Разложение оценок коэффициентов на неслучайную и случайную компоненты Регрессионный анализ позволяет определять оценки коэффициентов регрессии. Чтобы сделать выводы по полученной модели, необходимы дополнительные исследования. Свойства оценок коэффициентов регрессии, а, следовательно, и качество построенной модели существенно зависят от свойств случайной составляющей. Действительно, покажем, что ˆ 0 и ˆ 1 – СВ, зависящие от случайного члена в уравнении регрессии. Рассмотрим модель парной линейной регрессии. y 0 1 x . Пусть на основе выборки из n наблюдений оценено следующее уравнение yˆ ˆ 0 ˆ 1 x . При этом, как было показано, cov(x, y ) , ˆ 1 2x что означает, что коэффициент ̂1 также является случайным. В самом деле, значение выборочной ковариации зависит от того, какие значения принимали x и y . Если значения x можно считать известными (детерминированными), то значения y зависят от случайной составляющей . Разложим коэффициент ̂1 на неслучайную и случайную составляющие: cov(x, y ) cov(x, 0 1 x ) cov(x, 0 ) 1 cov(x, x) cov(x, ) 12x cov(x, ) , так как cov(x, 0 ) 0, 0 const , cov(x, x) 2x . Тогда cov(x, ) , ˆ 1 1 2x где cov(x, ) 2x (1.6) – случайная компонента. Итак, выборочный коэффициент регрессии представлен в виде суммы истинного значения 1 и случайной составляющей, зависящей от cov(x, ) . Аналогично коэффициент ̂ 0 можно разложить на сумму истинного коэффициента 0 и случайной составляющей, получим cov(x, ) ˆ 0 0 x. 2x (1.7) Упражнение. Разложить коэффициент ̂ 0 на сумму истинного коэффициента 0 и случайной составляющей. Отметим, что на практике такие разложения получить невозможно, так как неизвестны истинные значения 0 , 1 , . 18 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика 1.7. Предпосылки МНК. Условия Гаусса – Маркова МНК предполагает ряд ограничений на поведение случайного слагаемого , которые называют предпосылками МНК. Только при их выполнение оценки параметров будут «наилучшими». 1. Математическое ожидание случайного отклонения i равно нулю: M ( i ) 0, i 1, n . То есть случайное отклонение в среднем не оказывает влияния на зависимую переменную. 2. Дисперсия случайных отклонений i постоянна: D(i ) D( j ) 2 , i, j 1, n . Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсий отклонений), невыполнимость – гетероскедастичностью. Поскольку D( i ) M ( i M ( i ))2 M ( i2 ) , то данную предпосылку можно переписать в форме M (i2 ) 2 , i 1, n . 3. Случайные отклонения i и j являются независимыми друг от друга для i j: 0, i j, cov( i , j ) M ( i j ) 2 , i j. При выполнении этого условия говорят об отсутствии автокорреляции. 4. Случайное отклонение должно быть независимо от объясняющей переменной: cov(, x) M (x) 0 . Обычно это условие выполняется автоматически, если объясняющие переменные не являются случайными в данной модели. Невыполнимость не столь критична для эконометрических моделей. 5. Модель является линейной относительно параметров. 6*. Случайные отклонения распределены по нормальному закону: i N (0; 2 ) . В этом случае модель называется нормальной регрессионной моделью. Теорема (Гаусса – Маркова). Если предпосылки 1 – 5 выполнены, то оценки, полученные по МНК, обладают следующими свойствами: 1) Оценки несмещенные, то есть M (ˆ 0 ) 0 , M (ˆ 1 ) 1 . Это вытекает из того, что M (i ) 0 и говорит об отсутствии систематической ошибки в определении положения линии регрессии: cov(x, ) cov(x, M ( )) 1 M (ˆ 1 ) 1 M 1 , 2 2x x cov(x, ) cov(x, M ()) M (ˆ 0 ) 0 M x M ( ) 0 x M ( ) 0 . 2 2x x 2) Оценки состоятельны, так как D(ˆ 0 ) n 0 , D(ˆ 1 ) n 0 ; M (ˆ 0 M (ˆ 0 ))2 M (ˆ 0 0 ) 2 n 0 , M (ˆ 1 M (ˆ 1 ))2 M (ˆ 1 1 ) 2 n 0 ; ср. кв. ср. кв. P. P ˆ 0 n 0 , ˆ 1 n 1 ˆ 0 n 0 , ˆ 1 n 1 . Другими словами, при увеличении объема выборки надежность оценок увеличивается. Состоятельность (стремление дисперсий оценок коэффициентов к нулю) будет обоснована в следующем параграфе. 19 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика 3) Оценки эффективны, то есть они имеют наименьшую дисперсию по сравнению с любыми другими оценки данных параметров, линейными по y . Эффективность будет доказана для случая множественной регрессии. Если предпосылки 2, 3 не выполнены, то не сохраняется свойство эффективности. Перейдем к вопросу о том, как отличить «хорошие» МНК оценки от «плохих». Перечислим способы, которые помогают решить вопрос о достоинствах рассчитанной линии регрессии. 1.8. Анализ точности определения оценок коэффициентов регрессии Учитывая, что yi M ( y / x xi ) i , получим i yi M ( y / x xi ) , следовательно D(i ) D( yi ) . Предполагаем, что все измерения равноточные. Будем считать, что все дисперсии случайных отклонений равны между собой: D(i ) 2 , i 1, n . Получим формулы связи дисперсий коэффициентов эмпирического уравнения регрессии D(ˆ 0 ) , D(ˆ 1 ) с дисперсией 2 . Для этого представим формулы определения коэффициентов ̂ 0 , ̂1 в виде линейных функций относительно значений переменой y : cov(x, y) ( xi x )( yi y ) ( xi x ) yi y ( xi x ) ( xi x ) yi ˆ 1 , 2x ( xi x ) 2 ( xi x ) 2 ( xi x ) 2 ( xi x ) 2 1 n ( xi x ) Обозначив ci , имеем ( xi x ) 2 так как ( xi x ) n xi x nx nx 0 . ˆ 1 ci yi . Аналогично y 1 ˆ 0 y ˆ 1 x i ci yi x ci x yi . n n 1 n Обозначив, di ci x получаем, что ˆ 0 di yi . Так как предполагается, что дисперсия y постоянна и не зависит от значений x , то ci и d i можно рассматривать как некоторые постоянные. Следовательно D(ˆ 1 ) D ci yi D(ci yi ) ci2 D( yi ) 2 ci2 2 2 ( xi x ) 2 . ( ( xi x ) 2 ) 2 ( xi x ) 2 (1.8) 2 1 D(ˆ 0 ) D d i yi 2 d i2 2 ci x n 2 1 x 1 2c x 2 2 i ci2 x 2 2 0 2 n n ( xi x ) n 20 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика 2 2 xi2 x2 xi2 2 x xi nx 2 nx 2 2 x 2 2 x 2 2 x 2 2 . n ( xi x ) 2 ( xi x ) 2 ( xi x ) 2 n ( xi x ) 2 (1.9) Из соотношений (1.8), (1.9) очевидны следующие выводы: - Дисперсии оценок коэффициентов ( D(ˆ 0 ) , D(ˆ 1 ) ) прямо пропорциональны дисперсии случайных отклонений – 2 . Следовательно, чем больше фактор случайности, тем менее точными будут оценки. - Чем больше число наблюдений n , тем меньше дисперсии ошибок коэффициентов. Это вполне логично, чем большим числом наблюдений мы располагаем, тем вероятнее получение точных оценок. - Чем больше дисперсия объясняющей переменной x (разброс значений ( xi x )2 ), тем меньше дисперсия оценок коэффициентов. Другими словами, чем шире область изменения объясняющей переменной, тем точнее будут оценки. - С ростом числа наблюдений n до бесконечности дисперсии коэффициентов стремятся к нулю, что вместе с несмещенностью оценок ̂ 0 , ̂1 свидетельствует о состоятельности МНК-коэффициентов регрессии. В силу того, что случайные отклонения i по выборке определены быть не могут, при анализе оценок коэффициентов регрессии они заменяются отклонениями ei yi yˆi yi ˆ 0 ˆ 1xi . Дисперсия случайных отклонений D(i ) 2 заменяется еѐ несмещенной оценкой S 2 ˆ 2 1 ei2 . n2 (1.10) Тогда D(ˆ 1 ) , D(ˆ 0 ) можно заменить их несмещенными оценками: D(ˆ 1 ) Sˆ2 1 D(ˆ 0 ) Sˆ2 0 S2 , ( xi x ) 2 S 2 xi2 x 2 Sˆ2 , 2 1 n ( xi x ) (1.11) (1.12) где S2 ei2 – несмещенная оценка дисперсии D( ) 2 (мера разброса зависимой i n2 переменной вокруг линии регрессии), e S S 2 i – стандартная ошибка регрессии, n2 2 Sˆ Sˆ2 , Sˆ Sˆ2 – стандартные ошибки коэффициентов регрессии. 0 0 1 1 1.9. Интервальные оценки коэффициентов регрессии. Оценка статистической значимости коэффициентов регрессии Одной из предпосылок МНК является i N (0; 2 ) . Естественность этого положения обосновывается центральной предельной теоремой. Это предположение позволяет утверждать, что оценки ̂ 0 , ̂1 имеют нормальное распределение. Ранее было доказано, что ˆ 1 ci yi , ˆ 0 di yi , где ci , d i – постоянные величины. То есть ̂ 0 , ̂1 являются линейными комбинациями y i , а они в свою очередь 21 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика yi 0 1 xi i являются линейными комбинациями i , i 1, n . Таким образом ̂ 0 , ̂1 есть линейные функции независимых нормально распределенных случайных величин i , i 1, n . Следовательно, они также имеют нормальный закон распределения. Учитывая несмещенность МНК-оценок M (ˆ 0 ) 0 , M (ˆ 1 ) 1 и формулу (1.8), (1.9) для дисперсий оценок, получим 2 xi2 ˆ 2 . , ˆ 0 N 0 ; N ; 1 1 2 2 n ( x x ) ( x x ) i i (1.13) Отсюда следует, что Z0 ˆ 0 0 n ( xi x ) 2 ˆ 0 0 N 0;1 , ˆ xi2 0 ˆ 1 ˆ Z1 1 ( xi x ) 2 1 1 N 0;1 . ˆ 1 С другой стороны, статистика ( n 2) S 2 1 2 ei2 2 (n 2) 2 2 имеет -распределение с n 2 степенями свободы, так как две степени свободы теряются при определении двух параметров ̂ 0 , ̂1 уравнения регрессии ( n наблюдений связаны двумя уравнениями для нахождения ̂ 0 , ̂1 ), ei N (0; 1) . Замечание. Число степеней свободы равно разности n m между числом наблюдений n независимых СВ и числом связей m , ограничивающих свободу их измерения, то есть m – число уравнений, связывающих эти наблюдения. Отсюда следует, что S 1 2 ( n 2) , n2 то есть по определению статистики Стьюдента имеем t0 и, так как ˆ 0 Sˆ 0 , ˆ 1 (ˆ 0 0 ) / ˆ S / Sˆ 1 tˆ 0 0 t (n 2) , t1 (ˆ 1 1 ) / ˆ 1 S / t ( n 2) , , получаем ˆ 0 0 ˆ 1 t ( n 2) . t ( n 2) , tˆ 1 1 Sˆ Sˆ 0 1 Итак, мы показали, что в случае нормально распределенных ошибок величины t̂ , 0 t̂ распределены по закону Стьюдента с n 2 степенями свободы. Заметим, что при 1 30 распределение Стьюдента практически не отличается от нормального распределения. С учетом сказанного можно построить доверительные интервалы для коэффициентов 0 , 1 . 1.9.1. Доверительные интервалы для коэффициентов регрессии Для определения 100 (1 )% -го доверительного интервала с помощью таблиц критических точек распределения Стьюдента по доверительной вероятности 1 ( – уровень значимости или вероятность ошибки) и числу степеней свободы n 2 определяют критическое значение t ;n 2 , удовлетворяющее условию 22 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика P(| t | t;n2 ) 1 . Далее получим P( t ;n 2 ˆ 0 0 t ;n 2 ) 1 , Sˆ 0 P( t;n 2 ˆ 1 1 t;n 2 ) 1 . Sˆ 1 После преобразований имеем P(ˆ 0 t;n2 Sˆ 0 ˆ 0 t;n2 Sˆ ) 1 , 0 0 (1.14) P(ˆ 1 t;n2 Sˆ 1 ˆ 1 t;n2 Sˆ ) 1 . 1 1 Или учитывая формулы (1.11), (1.12): S 2 xi2 S 2 xi2 ˆ t P ˆ 0 t ;n 2 1 , 0 0 ;n 2 2 2 n ( x x ) n ( x x ) i i S2 S2 ˆ t 1 . P ˆ 1 t;n 2 1 1 ; n 2 2 2 ( x x ) ( x x ) i i Последние соотношения определяют доверительные интервалы xi2 xi2 ˆ t , ˆ ; t S 0 ;n 2 S 0 ; n 2 n ( xi x ) 2 n ( xi x ) 2 1 1 ˆ t ˆ 1 t ;n 2 S , ; S 1 ; n 2 2 2 ( x x ) ( x x ) i i которые с надежностью 1 покрывают определяемые параметры 0 и 1 . Фактически доверительный интервал определяет значения теоретических коэффициентов регрессии 0 и 1 , которые будут приемлемы с надежностью (вероятностью) (1 )% при найденных точечных оценках ̂ 0 и ̂1 . 1.9.2. Оценка статистической значимости коэффициентов регрессии Величина стандартной ошибки совместно с t -распределением Стьюдента при n 2 степенях свободы применяется также для проверки существенности коэффициентов регрессии. Гипотезой о статистической значимости коэффициента регрессии 1 называют гипотезу в следующей постановке: H 0 : 1 0, при альтернативной гипотезе H1 : 1 0 . Гипотеза H 0 проверяется при заданном уровне значимости (вероятности ошибки или доверительной вероятности (1 )% ). Если H 0 принимается, то говорят что коэффициент 1 статистически незначим (он слишком близок к нулю) и есть основание считать, что величина y не зависит от x . При отклонении H 0 коэффициент 1 считается статистически значимым, что указывает на наличие определенной линейной связи между y и x : M ( y / x) 0 1 x . Для уравнения парной линейной регрессии тестирование статистической значимости коэффициента 1 эквивалентно тестированию значимости построенного линейного уравнения регрессии, так как именно в коэффициенте 1 скрыто влияние фактора x на 23 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика результативную переменную y . Для тестирования гипотезы H 0 используется t -критерий, и значение статистики критерия tˆ 1 ˆ 1 Sˆ (1.15) 1 сравнивают с критическим значением t;n 2 , найденным по таблице распределения Стьюдента при заданном и n 2 . Гипотеза H 0 : 1 0 отвергается с вероятностью ошибки при выполнении неравенства tˆ t;n 2 1 и уравнение регрессии считается статистически значимым. В противном случае, то есть если tˆ t;n 2 , гипотеза H 0 : 1 0 не отвергается и уравнение регрессии считают 1 статистически незначимым и на этом регрессионный анализ заканчивается. Для значимого уравнения регрессии представляет интерес построение интервальной оценки коэффициента 1 , свободного члена 0 и дальнейший регрессионный анализ. Гипотеза о статистической значимости коэффициента 0 – H 0 : 0 0, проверяется по аналогичной схеме с помощью статистики tˆ 0 ˆ 0 . Sˆ (1.16) 0 Замечание 1. Вывод о статистической значимости коэффициентов регрессии может быть сделан на основе доверительных интервалов. Если окажется, что в доверительный интервал попадает 0, то соответствующий коэффициент регрессии объявляется незначимым. При проверке статистической значимости «на глаз» рассчитанные t̂ , t̂ сравнивают с двойкой, так как t;n2 2 для больших n , если, 0 1 например tˆ 2 , то 1 статистически значим. 1 Замечание 2. При расчете уравнения регрессии на компьютере вычисляют наблюдаемые значения критерия Стьюдента t̂ , t̂ и вероятности P̂ , P̂ ( P -level, P 0 1 0 1 значения) того, что случайная величина, распределенная по закону Стьюдента, превысит по абсолютной величине наблюдаемые значения t̂ , t̂ . Если эти вероятности малы 0 1 (меньше выбранного уровня значимости, например 0,05), то коэффициенты считаются значимыми. В противном случае – незначимыми. Вообще, если проверяется гипотеза H 0 при уровне значимости , то H 0 " принимается" , если P ; H 0 " отклоняется" , если P . Замечание 3. P -значение – это величина, применяемая при статистической проверке гипотез. Представляет собой вероятность того, что значение проверочной статистики используемого критерия (t-статистики Стьюдента, F-статистики Фишера и т.д.), вычисленное по выборке, превысит установленное P -значение. Решение о принятии или отклонении нулевой гипотезы принимается в результате сравнения P -значения с выбранным уровнем значимости. Если оно превышает указанный уровень значимости, то для отклонения нулевой гипотезы (принятия альтернативной) нет достаточных оснований. 24 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика Иначе говоря, P -значение – это наименьшее значение уровня значимости (т.е. вероятности отказа от справедливой гипотезы), для которого вычисленная проверочная статистика ведет к отказу от нулевой гипотезы. Обычно P -значение сравнивают с общепринятыми стандартными уровнями значимости 0,05 или 0,01. Например, если вычисленное по выборке значение проверочной статистики соответствует P = 0,007, это указывает на вероятность справедливости гипотезы 0,7%. Таким образом, чем P -значение меньше, тем лучше, поскольку при этом увеличивается "сила" отклонения нулевой гипотезы и увеличивается ожидаемая значимость результата. Пример 1.3. По результатам примеров 1.1, 1.2 оценить статистическую значимость коэффициентов регрессии, определить для них доверительные интервалы при уровне значимости 0,05 . Решение. Воспользуемся расчетной таблицей 1.2, которую справа дополним столбцом значений ( xi x ) 2 : Таблица 1.3 ei ei2 ( xi x )2 66,78243 2,017568 4,070582 4,7524 3398,89 59,39555 -1,09555 1,200227 0,6084 356,82 3918,76 60,45082 2,149182 4,618984 0,9604 51,84 375,12 2714,41 52,5363 -0,4363 0,190358 0,2704 54,5 38,44 337,9 2970,25 57,81265 -3,31265 10,97362 0,2304 6 57,1 36 342,6 3260,41 58,86791 -1,76791 3,125521 0,4624 7 7,8 51 60,84 397,8 2601 49,37049 1,629506 2,65529 1,2544 8 7,5 50,7 56,25 380,25 2570,49 50,9534 -0,2534 0,06421 0,6724 9 8,1 48,6 65,61 393,66 2361,96 47,78759 0,81241 0,660009 2,0164 10 Сумма Среднее 7,9 66,8 6,68 49,1 552,8 55,28 62,41 458,94 45,894 387,89 3625,61 362,561 2410,81 30940,42 3094,042 48,84286 0,257141 1,49E-13 0,066121 27,62492 1,4884 12,716 № xi yi x i2 xi y i y i2 ŷ i 1 4,5 68,8 20,25 309,6 4733,44 2 5,9 58,3 34,81 343,97 3 5,7 62,6 32,49 4 7,2 52,1 5 6,2 6 Тогда стандартная ошибка регрессии равна ei2 27,6249 3,4531 1,8583. S S2 n2 8 Стандартные ошибки коэффициентов регрессии Sˆ Sˆ2 1 1 S2 3,4531 0,2716 0,5211, 2 12,716 ( xi x ) Sˆ Sˆ2 x 2 Sˆ2 45,894 0,2716 12,4648 3,5306. 0 0 1 Рассчитаем значения t -статистик для коэффициентов уравнения регрессии tˆ 0 ˆ 0 90,526 ˆ 5,276 25,6404, tˆ 1 10,1247 . 1 Sˆ 3,5306 Sˆ 0,5211 0 1 По таблице критических точек распределения Стьюдента определим t;n2 t0,05;8 2,306 . Тогда, так как tˆ t ;n 2 , то коэффициент 0 статистически значим при уровне 0 значимости 0,05 и, так как tˆ t;n 2 , то коэффициент 1 также статистически значим 1 при уровне значимости 0,05 . Как правило, в уравнении регрессии значения 25 ГрГУ им. Я. Купалы - ФМ и И - СА и ЭМ - «Экономическая кибернетика» - Эконометрика стандартных ошибок записывают в скобках под соответствующими коэффициентами, иногда под ними указывают значения t -статистик: yˆ i 90,526 5,276 xi или yˆ i 90,526 5,276 xi . S ( 3,5306) ( 0,5211) t Определим доверительные интервалы ˆ 0 t;n 2 Sˆ 0 ˆ 0 t;n 2 Sˆ , 0 0 ( 25,6404) ( 10,1247) ˆ 1 t;n 2 Sˆ 1 ˆ 1 t;n 2 Sˆ . 1 1 90,526 2,306 3,5306 0 90,526 2,306 3,5306, 5,276 2,306 0,5211 1 5,276 2,306 0,5211. 82,3844 0 98,6676, 6,4777 1 4,0743. Доверительный интервал для коэффициента 0 – 82,3844; 98,6676 , для коэффициента 1 – 6,4777; 4,0743 .