ЭКОНОМЕТРИКА Лекция 5. § 5. Проверка качества уравнения регрессии.

advertisement
ЭКОНОМЕТРИКА
Лекция 5.
§ 5. Проверка качества уравнения регрессии.
1. Предпосылки метода наименьших квадратов.
Рассмотрим модель парной линейной регрессии
Y
X
.
(5.1)
Пусть на основе выборки из n наблюдений оценивается регрессия (т.е. получены оценки a
и b коэффициентов регрессии):
yˆ x a b x .
(5.2)
Выборочный коэффициент b можно разложить на неслучайную и случайную
составляющие.
S xy cov( X ,
X ).
Следовательно,
S xy
S x2
cov( X , ) .
(5.3)
Sx
.
S x2
(5.4)
Таким образом,
b
Здесь
S xy
S x2
- постоянная величина (истинное значение коэффициента регрессии),
Sx
S x2
случайная компонента. Аналогичное разложение можно получить для коэффициента .
Рассмотрим некоторые условия (называемые классическими предпосылками
метода наименьших квадратов), которые позволяют сделать применение метода
наименьших квадратов наиболее эффективным.
1. Математическое ожидание случайного отклонения t равно нулю: M ( t ) 0
на всем множестве измерений.
Это условие означает, что случайные отклонения в среднем оказывают влияния на
xt .
зависимую величину. В частности, из этого условия вытекает M (Y | X xt )
2. Дисперсия случайных отклонений
t
постоянна: D( ti )
D(
tj )
2
для
любых наблюдений i и j .
Данное условие означает, что каждое конкретное наблюдение (выборка) может
порождать различные случайные отклонения, но разброс этих отклонений – один и тот же.
Это свойство называется условием гомоскедастичности (условием постоянства
дисперсии отклонений). Непостоянство дисперсии отклонений – гетероскедастичность.
Подробнее возможные причины наличия гетероскедастичности, а также способы анализа
моделей при ее наличии будут разобраны в случае модели множественной регрессии.
3. Нет автокорреляции между различными реализациями случайных отклонений:
ti tj
cov(
ti , tj )
0, åñëè i
2
, åñëè i
j;
j.
Другими словами случайные отклонения являются независимыми.
4. Случайное отклонение должно быть независимо от объясняющих переменных:
0.
x
t t
1
Это условие выполняется автоматически, если объясняющие переменные не
являются случайными в данной модели.
5. Модель является линейной относительно параметров.
Теорема (Гаусса-Маркова). Если предпосылки 1. -5. выполнены, то оценки,
полученные по методу наименьших квадратов, обладают следующими свойствами:
1. Оценки
параметров
модели
являются
несмещенными,
т.е.
M (b)
, M (a)
, так как в модели отсутствует систематическая
ошибка.
2. Оценки параметров состоятельны, так как дисперсия оценок параметров при
возрастании
объема
выборки
стремится
к
нулю
D(b)
0, D(a)
0.
T
T
3. Оценки параметров эффективны, т.е. имеют наименьшую дисперсию по
сравнению с любыми другими оценками данных параметров, линейными
относительно величин y .
В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased
Estimators) – наилучшие линейные несмещенные оценки.
2. Анализ точности определения оценок регрессии.
В силу случайности отбора элементов в выборку оценки b и a теоретических
коэффициентов
и
регрессии являются случайными величинами. Их математические
ожидания при выполнении предпосылок об отклонениях t равны соответственно
. При этом оценки тем надежнее, чем меньше их разброс вокруг
и . Надежность получаемых оценок тесно связана с дисперсией случайных отклонений
xt ) переменной Y относительно
t . Фактически D ( t ) является дисперсией D (Y | X
линии регрессии. Полагая, что все измерения делаются с одинаковой точностью, то можно
M (b)
, M (a)
2
2
считать, что все эти дисперсии равны между собой D( t )
.
Приведем формулы связи дисперсий коэффициентов D (b) и D (a ) с дисперсией
2
случайных отклонений D( t )
2
.
T
T
( xt
x )( yt
t 1
b
y)
T
( xt
x)
( xt
t 1
T
2
.
( xt
t 1
x ) yt
x)
2
t 1
T
( xt
Вводя обозначение ct
x)
t 1
T
, получаем
( xt
x)
2
t 1
T
b
ct yt .
(5.5)
t 1
Аналогично,
a
где dt
1
T
y b x
1
T
T
t 1
yt
T
ct yt x
t 1
T
t 1
1
T
ct x yt
T
dt yt ,
(5.6)
t 1
ct x .
2
Поскольку предполагается, что дисперсия зависимой переменной Y и не зависит
от значений фактора X , то величины c t и d t можно считать постоянными. По свойствам
дисперсии получаем:
T
D(b)
D
2
ct yt
t 1
2
T
ct2
t 1
,
T
( xt
x)
(5.7)
2
t 1
T
D(a)
D
t 1
2
T
t 1
d t2
T
2
t 1
2ct x
T
1
T2
T
2
d t yt
t 1
ct2 x 2
2
1
T
ct x
2
x2
1
T
(5.8)
T
( xt
x)
2
t 1
T
2
t 1
xt 2
T
T
( xt
x)
2
x
1
T
2
2
t 1
T
( xt
t 1
T
2
x)
xt 2
.
T
2
T
t 1
( xt
x)
2
t 1
Отсюда можно сделать следующие выводы:
1. Дисперсии коэффициентов D (b) и D (a ) прямо пропорциональны дисперсии
2
случайного отклонения D( t )
.
2. Чем больше число наблюдений T , тем меньше дисперсии оценок.
3. Чем больше дисперсия (разброс значений объясняющей переменной (фактора) X ,
а точнее – величина
T
x ) 2 ), тем меньше дисперсия оценок коэффициентов.
( xt
t 1
Поскольку на единичной выборке распределение случайной величины , вообще
говоря, определено быть не может, то при анализе надежности оценок коэффициентов
регрессии они заменяются на выборочные значения, а точнее – на отклонения
et
yt
2
a b xt . Тогда дисперсия D( t )
случайной величины
естественно
заменяется на ее несмещенную оценку:
T
S2
1
T 2
T
a b xt ) 2
( yt
t 1
et2
t 1
n 2
.
(5.9)
Отсюда следует
D(b)
D( a )
S2
Sb2
( xt
t 1
T
S 2 xt 2
t 1
T
S a2
T
,
T
( xt x )
x)
2
(5.10)
2
x 2 Sb2 .
(5.11)
t 1
3
T
S2
et2
t 1
T
2
- необъясненная дисперсия (мера разброса зависимой переменной
относительно линии регрессии). Корень квадратный из необъясненной дисперсии
называется стандартной ошибкой оценки (стандартной ошибкой регрессии), а величины
S b , S a - стандартными ошибками коэффициентов регрессии.
3. Проверка гипотез относительно коэффициентов линейного уравнения
регрессии.
Эмпирическое уравнение регрессии определяется на основе конечного набора
(выборочных) данных. Коэффициенты эмпирического уравнения регрессии являются
случайными величинами, зависящими от выборки. При проведении статистического
анализа возникает задача сравнения эмпирических коэффициентов b и a с некоторыми
теоретическими (ожидаемыми) значениями
и
этих коэффициентов. Данный анализ
можно проводить по схеме статистической проверки гипотез, при использовании который
исследователь отвечает в данном случае на вопрос – справедливо ли предположение
(гипотеза) о том, что данный параметр (случайная величина) принимает некоторое
конкретное значение.
Для проверки гипотезы
H 0: b
,
(5.12)
H 1: b
используется статистика
t
b
,
Sb
(5.13)
которая при в предположении, что выполнена нулевая гипотеза H 0 имеет распределение
Стьюдента с
T 2 степенями свободы ( T - объем выборки). Следовательно,
гипотеза H 0: b
отклоняется на основании этого критерия, если
tíàáë
b
Sb
t
,T 2 ,
(5.14)
T 2 степенями
где t ,T 2 - табличное значение распределения Стьюдента с
свободы, соответствующее предписанному уровню значимости
. При невыполнении
неравенства (5.14) считается, что при данном уровне значимости нет оснований
отвергнуть нулевую гипотезу H 0 .
Наиболее важной на начальном этапе статистического анализа построенной модели
является задача об установлении наличия линейной зависимости Y от X . Ответ на этот
вопрос может быть также получен на основе использования рассмотренной схемы:
H 0: b 0,
H 1: b
0.
Гипотеза в такой постановке называется гипотезой о статистической значимости
коэффициента регрессии. Если гипотеза H 0 принимается при некотором уровне
значимости, то есть основания считать (с некоторой долей уверенности), что величина Y
не зависит от X . В этом случае говорят, что коэффициент b является статистически
незначимым (он слишком близок к нулю). Если гипотеза H 0 отклоняется в пользу
4
альтернативной гипотезы H1 , то коэффициент b считают статистически значимым, что
указывает на наличие определенной линейной связи между Y и X .
0 , то формально зависимость оценки b
Поскольку полагается, что
коэффициента регрессии проверяется с помощью анализа ее отношения к величине ее
2
S b . При выполнении исходных предпосылок модели
стандартной ошибки (с.к.о) S b
эта дробь имеет распределение Стьюдента с
T 2 степенями свободы ( T - объем
выборки). Данное отношение
t
b
Sb
b
(5.15)
Sb2
называется t-статистикой.
Те же соображения используются при анализе значимости коэффициента
H 0: a
0,
H 1: a
0.
a:
(5.16)
Однако, в любом случае более важным является анализ значимости коэффициента b .
При оценке значимости выборочного коэффициента b линейной регрессии на
начальном этапе можно использовать следующее «грубое» правило, позволяющее не
прибегать к таблицам стандартных распределений:
- если значение t-статистики не превосходит единицы | t | 1 (т.е. стандартная
ошибка выборочного коэффициента не меньше модуля), то коэффициент не может быть
признан значимым, поскольку доверительная вероятность при двусторонней
альтернативной гипотезе составит менее 0,7;
- если 1 | t | 2 , то найденная оценка может рассматриваться как относительно
(слабо) значимая, поскольку доверительная вероятность лежит в этом случае в пределах
от 0,7 до 0,95;
- если 2 | t | 3 , то это свидетельствует о значительной линейной связи Y от X ,
поскольку доверительная вероятность лежит в этом случае в пределах от 0,95 до 0,99;
- если | t | 3 , то это почти наверное говорит о наличии линейной связи Y от X .
Считается, что подобное «грубое» правило начинает работать при объеме выборки
большей 10.
4. Интервальные оценки коэффициентов линейного уравнения регрессии.
Одной из базовых предпосылок метода наименьших квадратов является
предположение о нормальном распределении случайных отклонений
с нулевым
2
математическим ожиданием:
~ N (0, ) . Обоснованность этого предположения
вытекает из центральной предельной теоремы: если случайная величина представляет
собой сумму очень большого числа независимых, равно-распределенных случайных
величин (причем влияние индивидуального слагаемого на общую сумму ничтожно мало),
то рассматриваемая случайная величина имеет распределение, близкое к нормальному.
Пользуясь предположением о (почти) нормальном распределении, можно не только
получать наилучшие линейные несмещенные точечные оценки b и a теоретических
коэффициентов
и , но и находить их интервальные оценки, что дает определенные
гарантии точности.
Проведенные выше рассуждения позволяют сделать вывод, что для метода
наименьших квадратов в классических предположениях случайные величины b и a
5
также можно считать нормально распределенными,
представляются в виде (формула (5.5), (5.6)):
T
их
значения
T
ct yt и a
b
поскольку
d t yt ,
t 1
t 1
где величины c t и d t можно считать постоянными. Другими словами, b и a являются
линейными комбинациями значений y t . Но последние связаны со значениями t
линейным соотношением
yt a b xt
(5.17)
t.
Таким образом (если считать, что в (5.17) величины a, b, xt являются постоянными),
величина y распределена нормально, а, следовательно, b и a являются нормально
распределенными случайными величинами как линейные комбинации таких
распределений.
, M (a)
По условию M (b)
. Кроме того,
S
D(b) Sb2
S2
2
T
( xt
x)
2
, D(a) S a2
t 1
где S
2
xt2
,
T
T
t 1
T
T
( xt
x)
(5.18)
2
t 1
et2
t 1
T 2
. Следовательно, b ~ N ( , D(b)) ,
a ~ N ( , D (a )) . Поэтому статистики
b
a
, ta
(5.19)
Sb
Sa
имеют распределение Стьюдента с
T 2 степенями свободы.
)% доверительного интервала с помощью таблиц
Для определения 100(1
1
критических точек распределения Стьюдента по доверительной вероятности
и
числу степеней свободы определяют критическое значение t ,T 2 , удовлетворяющее
tb
2
условию
P |t | t
2
,T 2
1
.
,T 2
Sb
1
,
(5.21)
,T 2
Sa
1
.
(5.22)
(5.20)
Или, с учетом определения статистик (5.19):
P b t
2
P a t
2
,T 2
Sb
b t
,T 2
Sa
a t
2
2
Пользуясь приближенными равенствами (5.18) получаем из (5.21), (5.22) доверительные
интервалы
S2
b t
2
,T 2
;b t
T
( xt
t 1
S2
x)
2
2
,T 2
,
T
( xt
x)
(5.23)
2
t 1
6
S2
a t
T
t 1
,T 2
2
xt2
;b t
T
T
( xt
S2
x)
2
t 1
,T 2
2
xt2
,
T
T
( xt
t 1
которые с надежностью 1
T
x)
(5.24)
2
t 1
содержат определяемые значения параметров
и
.
5. Доверительные интервалы для зависимой переменной.
Одной из центральных задач эконометрического моделирования является
предсказание (прогнозирование) значений зависимой переменной при определенных
значениях объясняющих переменных. При этом решаются две основные задачи: либо
предсказывается условное математическое ожидание зависимой переменной при
определенных значениях объясняющих переменных (предсказание среднего значения),
либо прогнозируется конкретное значение зависимой переменной (предсказание
конкретного значения).
Предсказание среднего значения. Пусть построено уравнение парной регрессии
ŷt a b xt , на основе которого необходимо предсказать условное математическое
ожидание M (Y | X
x p ) переменной Y при X x p . В данном случае значение
ŷ p a b x p является оценкой значения M (Y | X x p ) . Тогда естественным является
вопрос, как сильно может уклониться модельное значение ŷ p , рассчитанное по
эмпирическому уравнению регрессии, от соответствующего условного математического
ожидания. Ответ на этот вопрос дается на основе интервальных оценок, построенных с
заданной надежностью 1
при любом конкретном значении x p объясняющей
переменной.
Чтобы построить доверительный интервал, покажем, что случайная величина Yˆp
имеет нормальное распределение с конкретными параметрами. Используя формулы (5.5),
(5.6) для оценок коэффициентов регрессии, имеем
Ŷp
Следовательно,
a b xp
Yˆp
dt yt
ct yt xt
dt
ct xt yt .
является линейной комбинацией нормально распределенных
случайных величин, и, значит, сама имеет нормальное распределение.
M (Yˆp )
D(Yˆp )
Здесь
M (a b x p )
M (a) M (b) x p
xp ,
(5.25)
D(a) D(b) x 2p 2 cov( a, b) x p
xp .
D( X Y ) D( X ) D(Y ) 2 cov( X , Y ) ,
формулы
D( a b x p )
использованы
D(cX ) c 2 D( X ) , cov( X , bY ) b cov( X , Y ) ,
cov( a, b) M (a M (a))(b M (b)) M (a
)(b
)
2
M ( y bx ( y
x ))(b
)
xM (b
)(b
)
x D(b)
x
( xt
x )2
.
Следовательно,
7
2
D(Yˆp )
T
t 1
xt2
2
T
T
( xt
x)
T
2
( xt
t 1
2
x
T
( xt
2x
T
( xt
t 1
2
x)
xp
2
t 1
x 2p
2x x p
2
x)
x)
2
2
x 2p
x p )2
(x
2 1
T
(5.26)
T
( xt
t 1
x)
.
2
t 1
T
2
Подставив вместо
2
ее несмещенную оценку S
et2
t 1
T
2
получим выборочную
исправленную дисперсию S Yˆp рассматриваемой случайной величины.
Тогда случайная величина
2
Yˆp
T
(
xp )
(5.27)
S (Yˆp )
имеет распределение Стьюдента с числом степеней свободы
T 2 . Следовательно,
по таблице критических точек распределения Стьюдента
и числу степеней свободы
T 2 можно определить критическое значение t ,T 2 , удовлетворяющее условию
2
P(| T | t
2
,T 2
) 1
, т.е.
P
Yˆp
(
xp )
t
S (Yˆp )
2
1
,T 2
Таким образом, доверительный интервал для M (Y | X
a b xp
t
2
,T 2
S
x
1
T
xp
( xt
.
(5.28)
x p имеет вид:
xp )
2
x )2
;a b xp
t
2
,T 2
S
1
T
x
( xt
xp
2
x )2
.
Для проверки гипотезы
H 0 : M (Y | X
xp )
yp,
H1 : M (Y | X
xp )
yp
используется статистика
T
M (Y | X
S
1
T
xp ) yp
x
( xt
2
xp
,
(5.29)
x )2
T 2 . Поэтому
имеющая распределение Стьюдента с числом степеней свободы
нулевая гипотеза H 0 отклоняется, если | Tíàáë | t ,T 2 , где
- требуемый уровень
2
значимости.
Предсказание индивидуальных значений зависимой переменной. На практике иногда
важнее знать дисперсию Y , чем ее среднее значение или доверительные интервалы для
8
условных математических ожиданий. Это позволяет определять допустимые границы для
конкретных значений случайной переменной Y .
Вопрос, который нас при этом интересует, звучит так: может ли зависимая
случайная переменная Y принимать
некоторое возможное значение y 0 при
определенном значении объясняющей переменной x p . Предсказанное по уравнению
регрессии значение Y при X x p равно y p . Если считать y0 реализацией (значением)
случайной величины Y0 , а y p реализацией (значением) случайной величины Y p , то
можно заключить, что
Y0 ~ N (
xp,
2
) , а Yp ~ N a
b xp,
x p )2
(x
2 1
T
x )2
( xt
.
Случайные величины Y0
U
Y0
и Y p являются независимыми, а случайная величина
Yp имеет нормальное распределение с
2
0 и D(U )
M (U )
1
x p )2
(x
1
T
x )2
( xt
.
Тогда случайная величина
Y0 Y p
U
SU
S 1
имеет распределение Стьюдента с
Таким образом, интервал
a b xp t
2
,T 2
S 1
1
T
1
T
x p )2
x )2
( xt
( xt
x )2
2 степенями свободы.
T
(x
( x x p )2
;a b xp t
2
,T 2
S 1
(x
1
T
( xt
x p )2
x )2
представляет собой доверительный интервал за пределами могут оказаться не более
100 % наблюдений Y0 при X x p .
6. Проверка общего качества уравнения регрессии.
Для оценки качества подбора линейной функции рассчитывается квадрат
2
линейного коэффициента корреляции rxy , называемый коэффициентом детерминации.
Коэффициент детерминации характеризует долю дисперсии результативного признака y ,
объясняемую регрессией, в общей дисперсии результативного признака:
2
ôàêò
2
y
rxy2
где
2
y
1
T
T
t 1
yt
y 2,
2
ôàêò
Соответственно величина 1
1
T
T
1
yˆ t y 2 ,
2
îñò
2
y
2
îñò
,
(4.9)
1
t
T
yt yˆ t
2
.
t 1
t 1
2
rxy характеризует долю дисперсии y, вызванную
влиянием остальных, не учтенных в модели, факторов. После того как найдено уравнение
9
линейной регрессии, проводится оценка значимости как уравнения в целом, так и
отдельных его параметров. Проверить значимость уравнения регрессии – значит
установить, соответствует ли математическая модель, выражающая зависимость между
переменными, экспериментальным данным и достаточно ли включенных в уравнение
объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Чтобы иметь общее суждение о качестве модели из относительных отклонений по
каждому наблюдению, определяют среднюю ошибку аппроксимации:
1
T
A
T
t 1
yˆt
yt
100% .
yt
(4.10)
Средняя ошибка аппроксимации не должна превышать 8–10%.
Оценка значимости уравнения регрессии в целом производится на основе F критерия Фишера, которому предшествует дисперсионный анализ. В математической
статистике дисперсионный анализ рассматривается как самостоятельный инструмент
статистического анализа. В эконометрике он применяется как вспомогательное средство
для изучения качества регрессионной модели.
Согласно основной идее дисперсионного анализа, общая сумма квадратов
отклонений переменной y от среднего значения y раскладывается на две части –
«объясненную» и «необъясненную»:
T
t 1
где
T
t 1
yt
y
2
yt
y
T
2
t 1
yˆ t y
T
2
t 1
yt yˆ t
– общая сумма квадратов отклонений;
T
t 1
2
,
yˆ t y
2
– сумма квадратов
отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);
T
t 1
yt yˆ t
2
– остаточная сумма квадратов отклонений, характеризующая влияние
неучтенных в модели факторов.
Схема дисперсионного анализа имеет вид, представленный в таблице 4.1 (T – число
наблюдений, m – число параметров при переменной x ).
Таблица 1.1
Компоненты
Сумма квадратов
Число степеней
Дисперсия на одну
дисперсии
свободы
степень свободы
T
T
Общая
2
2
t 1
Факторная
T
t 1
Остаточная
T
t 1
yt
y
yˆ t y
yt yˆ t
T 1
2
Sîáù
yt
t 1
T 1
T
2
m
2
Sôàêò
t 1
T m 1
2
Sîñò
yˆ t y
2
m
T
2
y
t 1
T
yt yˆ t
2
m 1
Определение дисперсии на одну степень свободы приводит дисперсии к
сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну
степень свободы, получим величину F -критерия Фишера:
F
2
Sôàêò
2
Sîñò
.
(4.11)
10
Фактическое значение F -критерия Фишера (4.11) сравнивается с табличным значением
Fòàáë ( ; k1; k 2 ) при уровне значимости a и степенях свободы k1 m и k 2 T m 1 .
При этом, если фактическое значение F -критерия больше табличного, то признается
статистическая значимость уравнения в целом.
Для парной линейной регрессии m =1, поэтому
T
2
Sôàêò
2
Sîñò
F
t 1
T
t 1
yˆ t y
2
(T
yt yˆ t
2) .
(4.12)
2
2
Величина F -критерия связана с коэффициентом детерминации rxy , и ее можно
рассчитать по следующей формуле:
rxy2
F
1 rxy2
(T
2) .
(4.13)
В парной линейной регрессии оценивается значимость не только уравнения в целом, но и
отдельных его параметров. С этой целью по каждому из параметров определяется его
стандартная ошибка: mb и ma . Стандартная ошибка коэффициента регрессии
определяется по формуле:
mb
2
Sîñò
t 1
T
где F
2
Sôàêò
2
Sîñò
t 1
T
t 1
yˆ t y
yt yˆ t
Sîñò
T
xt
x
2
x
T
,
(4.14)
2
(n 2) – остаточная дисперсия на одну степень свободы.
2
Величина стандартной ошибки совместно с t –распределением Стьюдента при n - 2
степенях свободы применяется для проверки существенности коэффициента регрессии и
для расчета его доверительного интервала. Для оценки существенности коэффициента
регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется
фактическое значение t -критерия Стьюдента: tb
b
, которое затем сравнивается с
mb
табличным значением при определенном уровне значимости a и числе степеней свободы
(n - 2). Доверительный интервал для коэффициента регрессии определяется как
b t òàáë m . Поскольку знак коэффициента регрессии указывает на рост
результативного признака y при увеличении признака-фактора x (b > 0), уменьшение
результативного признака при увеличении признака-фактора (b < 0) или его
независимость от независимой переменной (b = 0), то границы доверительного интервала
для коэффициента регрессии не должны содержать противоречивых результатов,
1,5 b 0,8 . Такого рода запись указывает, что истинное значение
например,
коэффициента регрессии одновременно содержит положительные и отрицательные
величины и даже нуль, чего не может быть.
11
Download