Лекция 1 Панельные данные

advertisement
ЭКОНОМЕТРИЧЕСКИЙ
АНАЛИЗ ПАНЕЛЬНЫХ
ДАННЫХ (36 ЧАСОВ)
д.э.н. Е.А.Коломак
Программа курса










Введение
Однонаправленная панельная модель
Двунаправленная панельная модель
Тестирование гипотез для панельных данных
Несбалансированные панели
Модель с гетероскедастичностью
Модель с серийной автокорреляцией
Динамическая панельная регрессия
Векторная авторегрессия панельных данных
Бинарные зависимые переменные в панельных
данных
1. Обзор линейной регрессии
1.1. Метод наименьших квадратов
1.2. Тестирование гипотез
1.1. Метод наименьших квадратов
i=1,..,n
– индекс наблюдения
yi – наблюдения над зависимой переменной,
xi – вектор наблюдений над независимыми переменными
yi  xiT   ei
β - вектор коэффициентов регрессии, ei – ошибка регрессии, xiT –
транспонированный вектор наблюдений над независимыми
переменными.
 x1i 
 
xi   ... 
x 
 ki 
 1 
 
   ... 
 
 k
1.1. Метод наименьших квадратов
В матричном виде:
y  X  e
где
y  ( y1 ,..., yn )T
 x1T 
 
X   ... 
 xT 
 n
e  (e1 ,..., en )T
xi1=1 для i=1,…,n , в этом случае β1 является
константой
1.1. Метод наименьших квадратов
Метод наименьших квадратов (Ordinary Least Squares - OLS)
ˆ
OLS
 arg min 
yˆi  xiT ̂
n
T
2
(
y

x

)
 i i
i 1
ˆOLS  ( X T X )1 X T y
eˆi  yi  yˆi
Оценки метода наименьших квадратов являются несмещенными линейными
оценками с минимальной дисперсией, если верны следующие предположения о
стохастической структуре модели:

E(ei)=0

E(ei2)=σ2

E(eiej)=0 для всех i≠j

rk X=k<n

xj – детерминированы
Оценки метода наименьших квадратов имеют нормальное распределение, если
дополнительно выполнено условие о явной форме ошибок: ei ~N(0, σ2)
1.1. Метод наименьших квадратов
Ковариационная матрица
VarˆOLS   2 ( X T X ) 1
1 n 2
s 
eˆi

n  k i1
Оценка дисперсии ошибок σ2:
2
Стандартная ошибка коэффициента регрессии
Коэффициент детерминации
RSS
eˆT eˆ yˆ T yˆ
R 1
1 T  T
TSS
y y y y
2

se ( ˆ j )  s ( X T X ) 1
2
adj
R

jj
eˆT eˆ (n  k )
 1 T
y y (n  1)
RSS – сумма квадратов ошибки регрессии, TSS – сумма квадратов
центрированных значений зависимой переменной
1.1. Метод наименьших квадратов
Если в модели линейной регрессии нарушены
предположения, что E(ei2)=σ2 и E(eiej)=0 для всех i≠j, то
наиболее эффективной в классе линейных несмещенных
оценок является оценка обобщенного метода
наименьших квадратов (Generalized Least Squares – GLS).
ˆGLS  ( X T 1 X ) 1 X T 1 y
Где Ω – ковариационная матрица ошибок регрессии.
Ковариационная матрица оценки:
Varˆ
GLS
1
 (X  X )
T
1
1.1. Метод наименьших квадратов
Доступный обобщенный метод наименьших квадратов
(Feasible Generalized Least Squares - FGLS).
На первом этапе методом наименьших квадратов получают
состоятельные оценки ошибок и оценку ковариационной матрицы Ω,
На втором этапе получают оценки регрессионной модели.
ˆ 1 X ) 1 X T 
ˆ 1 y
ˆFGLS  ( X T 
ˆ 1 X ) 1
VarˆFGLS  ( X T 
se ( ˆ jFGLS ) 
( X
T
1 X ) 1

jj
1.2. Тестирование гипотез
Существует два подхода к тестированию гипотез:
точный и асимптотический.
Точный подход основан на предположении о
нормальности распределения ошибок
регрессии.
Асимптотический подход опирается на следствия
центральной предельной теоремы.
1.2. Тестирование гипотез. Точный
подход: ei ~N(0, σ2)
1. Линейная гипотеза относительно коэффициентов:
H 0 : R  r
где R – матрица размерности qxk, а r – вектор размерности qx1.
Пример:
1  2

 2   3  0
1 0 0 

R  
0
1

1


 1 
 
   2 
 
 3
 2
r   
0
Статистика для проверки гипотез
или
( Rˆ  r )T ( R( X T X ) 1 RT ) 1 ( Rˆ  r )
F
~ Fq,n-k
qs 2
(eˆ rT eˆ r  eˆT eˆ) q
F
eˆT eˆ (n  k )
~ Fq,n-k
1.2. Тестирование гипотез. Точный
подход: ei ~N(0, σ2)
Наиболее часто тестируемые гипотезы:
1.
Проверка на значимость регрессионной модели в целом
H 0 :  2  ....   k  0
(TSS  RSS ) (k  1) yˆ T yˆ (k  1)
R2 n  k
F
 T


2
ˆ
ˆ
RSS (n  k )
e e (n  k ) 1  R k  1
2.
Проверка гипотезы о значении отдельного коэффициента
H 0 :  j   (j 0)
ˆ j   (j 0)
se ( ˆ j )
 t nk
ˆ
tn  k ˆ
tn  k 
ˆ
ˆ


s
(

)

q
;


s
(

)

q
 j e j 1 j e j 1 
2
2

1.2. Тестирование гипотез.
Асимптотический подход: ˆ  
n
В этом случае
1.
se ( ˆ j )  
1 n 2
ˆ   eˆi
n i1
2
( X
T
X ) 1
Линейная гипотеза относительно коэффициентов:
H 0 : R  r
W  ( Rˆ  r )T ( RVˆRT ) 1 ( Rˆ  r )   q2
ˆ 1 X ( X T X ) 1
Vˆ  ( X T X ) 1 X T 
2.
Гипотеза о значении коэффициента регрессии
H 0 :  j   (j 0)
ˆ j   (j 0)
se ( ˆ j )

 N (0,1)
n 
ˆ

N ( 0,1) ˆ
N ( 0,1)
ˆ
ˆ


s
(

)

q
;


s
(

)

q
 j e j 1

j
e
j

1
2
2



jj
2. Панельные данные
2.1. Структура панельных данных
2.2. Преимущества панельных данных
2.3. Линейная модель панельных данных
2.1. Структура панельных данных
Панельные данные представляют собой наблюдения над
однородными объектами в течение определенного периода
времени, таким образом, панельные данные объединяют
кросс-секции и временные ряды.
Пусть i=1,…,n – индекс объекта, t=1,…,T – индекс момента
времени, тогда
yit – наблюдения над зависимой переменной,
xit – вектор наблюдений над независимыми переменными.
Если для всех объектов имеются наблюдения в каждый момент
времени, тогда панель считается сбалансированной, общее
количество наблюдений равно n*T. Если для некоторых i или t
наблюдения отсутствуют, то панель считается
несбалансированной. Если в различные моменты времени
наблюдаются различные объекты, то в этом случае имеем дело
с псевдопанелью.
2.1. Структура панельных данных
Примеры регрессий с панельными данными.

Wit – заработная плата объекта i в момент времени t, Eduit – образование
объекта i в момент времени t, Expit – опыт работы объекта i в момент
времени t, Hoursit – количество отработанных часов объекта i в момент
времени t. Оценивается влияние образования, опыта работы и
отработанного времени на заработную плату.
Wit  1   2 Eduit   3 Expit   4 Expit2   5 Hours it  eit

Iit – инвестиционные вложения на предприятии i в момент времени t, Fit –
рыночная стоимость предприятия i в момент времени t, Сit – основные фонды
предприятия i в момент времени t. Оценивается влияние рыночной
стоимости и накопленных основных фондов на инвестиции.
I it  1   2 Fit  3Cit  eit
2.2. Преимущества панельных
данных
1.
2.
3.
Большее количество наблюдений увеличивает число
степеней свободы, уменьшает коллинеарность
независимых переменных и позволяет получить более
эффективные оценки.
Возможность контролировать неоднородность
объектов в выборке.
Позволяют тестировать эффекты, которые
невозможно идентифицировать в кросс-секциях и во
временных рядах.
Примеры
- исследование рынка труда женщин;
-влияние членства в профсоюзе на заработную плату.
2.2. Преимущества панельных
данных
4.
В случае временных рядов возникает проблема оценки
динамических коэффициентов, например при оценки модели
распределенного лага
h
yt    xt   ut ,
 0
5.
Панельные данные позволяют снизить остроту проблемы
отсутствующих и ненаблюдаемых переменных
yit   *   T xit   T zit  uit
Если zit=zi для всех t=1,…,T.
yit  yi ,t 1   T ( xit  xi ,t 1 )  (uit  ui ,t 1 ),
Если zit=zt для всех i=1,…,n
yit  yt   T ( xit  xt )  (uit  ut ),
1 n
yt   yit
n i 1
1 n
xt   xit
n i1
1 n
ut   uit
n i1
2.3. Линейная модель панельных
данных
Линейная панельная модель
yit  xitT   uit
i – индекс объекта, t – индекс момента времени, β – вектор коэффициентов
регрессии, xitT – транспонированный вектор наблюдений над k
независимыми переменными.
 x1it 
 
xit   ... 
x 
 kit 
Однонаправленная модель ошибки:
 1 
 
   ... 
 
 k
uit  i  it
μi – ненаблюдаемые индивидуальные эффекты, υit – остаточные
идиосинкратические компоненты.
Двунаправленная модель ошибки:
uit  i  t  it
λi – ненаблюдаемые временные эффекты.
2.3. Линейная модель панельных
данных

Предполагается, что μi, λi и υit являются
независимыми одинаково распределенными
величинами с нулевой средней и постоянной
дисперсией σμ2, σλ2 и συ2 соответственно.

Индивидуальные и временные эффекты могут
трактоваться как фиксированные или как
случайные. В первом случае оценивается модель с
фиксированными эффектами, во втором случае
оценивается модель со случайными эффектами.
Download