Тема N. Фиктивная зависимая переменная

advertisement
Иткина А.Я. Эконометрика на практике
To be, or not to be …
Уильям Шекспир
Тема N. Фиктивная зависимая переменная
Общая постановка задачи
Имеется выборка, в которой зависимая переменная Y является качественной (с
двумя альтернативами), а независимые переменные могут быть как качественными, так
и количественными. Необходимо построить модель, в которой Y
Задание Y в виде Y
0, 1-я альтернатива,
1, 2-я альтернатива.
f ( x1 , x2 ,...) .
, позволяет переформулировать задачу
как вероятностную. Какова вероятность того, что Y примет значение одной из
альтернатив, при конкретном наборе факторов?
Пример 1. В России имеется около 60 000 скважин, добыча из которых ведется с
использованием
ЭЦН.
Имеется
выборка
по
ЭЦН.
Требуется
оценить
работоспособность насоса в зависимости от его срока службы.
Переформулируем задачу следующим образом: как зависит вероятность выхода
из строя насоса от его возраста (в месяцах). Зададим Y
0, насос исправен,
1, насос сломан.
Построение линейной МНК модели приводит к а) невозможным значениям
зависимой переменной, например
BREAK(1) -0.21 ; б) нарушению логики –
1
Тема N. Фиктивная зависимая переменная
вероятность поломки растет с возрастом линейно, в то время как на самом деле новые
насосы ломаются очень редко, а несломанных насосов старше 3.5 лет почти нет.
logit модель
Зададим вероятность того, что зависимая переменная примет значение 1, в виде
P(Y
1| x1; x2 ;... xn )
1
1 e
( k1x1 k2 x2 ... kn xn b )
. Такая форма задания переменной позволяет
справиться с а) выходом вероятности за границы [0;1]; б) линейностью изменения
вероятности при изменении факторов. Однако при такой форме зависимости
коэффициенты включены в модель нелинейно и напрямую использовать МНК
невозможно. Общепринято обозначать за
z
и находить
k1 x1 k2 x2 ...kn xn b
коэффициенты методом максимального правдоподобия.
В Eviews logit модель можно построить путем выбора в окне уравнения метода
BINARY – Binary choice (…), а среди предложенных методов оценки отметив Logit.
Для рассмотренного выше
примера
модель
записана
может
следующим
1
break
1 e
(0.14 age 4.91)
быть
образом
. То, какие
именно коэффициенты определятся
в модели, влияет на скорость роста
вероятности.
Графически
это
выражается в крутизне перехода от
области
с
почти
нулевой
вероятностью к области с вероятностью близкой к единице.
По
графику
зависимости
break (age) можно заметить, что новые
насосы (до 10 месяцев) почти не
ломаются. На промежутке от 25 до 40
месяцев
вероятность
растет
почти
линейно с возрастом. Более старые
насосы ломаются с вероятностью более
80%.
2
Иткина А.Я. Эконометрика на практике
Вероятность поломки насоса
в зависимости от его возраста
1
0.8
0.6
0.4
0.2
0
0
10
20
30
40
50
Рис. 1. Зависимость break от age
Для более четкого понимания роли возраста стоит вычислить производную
dbreak
. Она покажет скорость, с которой растет вероятность поломки:
dage
e z
dz
z 2
(1 e ) dage
dbreak
dage
e (0.14age 4.91)
0.14 . По графику (рис. 2) видно, что
(1 e (0.14age 4.91) )2
максимум воздействия возраста приходится на период 33-35 месяцев. В соответствии с
моделью увеличение возраста насоса на 1 месяц с 34 до 35 месяцев увеличивает
вероятность поломки на 3.5%. Эта вероятность невелика, т.е. большое количество
насосов старше 35 месяцев продолжают работать. Выборочный возраст насосов
ограничен 49 месяцами. Незначительное количество (существенно менее половины)
насосов в выборке сломаны. Поэтому график вероятности (рис. 1) не доходит до 1, а
график предельного воздействия (рис. 2) оборван справа и не доходит до 0.
Предельное воздействие возраста
насоса на его поломку
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
0
0
10
20
30
40
50
60
Рис. 2. Скорость поломок в зависимости от возраста насоса
3
Тема N. Фиктивная зависимая переменная
probit модель
Зададим вероятность того, что зависимая переменная примет значение 1, в виде
P(Y
1| x1; x2 ;... xn )
(k1 x1 k2 x2 ...kn xn b) , т.е. функции стандартного нормального
распределения. Такая форма задания переменной также позволяет а) соблюдать
границы вероятности [0;1]; б) нелинейно менять вероятность при изменении факторов.
Однако при такой форме зависимости коэффициенты снова включены в модель
нелинейно и напрямую использовать МНК невозможно. Общепринято обозначать за
z
k1 x1 k2 x2 ...kn xn b и находить коэффициенты модели методом максимального
правдоподобия.
В Eviews probit модель можно построить путем выбора в окне уравнения метода
BINARY – Binary choice (…), а среди предложенных методов оценки отметив Probit.
Для рассмотренного выше примера модель может быть записана следующим
образом break Ф(0.074age 2.564) . В Excel зависимость может быть вычислена с
помощью встроенной функции НОРМРАСП( z;0;1;1), где z 0.074age 2.564 .
Вероятность поломки насоса в
зависимости от его возраста
1
0.8
0.6
logit
0.4
probit
0.2
0
0
20
40
60
По графику зависимости break (age) можно заметить, что две модели дают очень
похожие прогнозы. Probit модель предлагает немного более пологий рост вероятности,
нежели logit.
Скорость поломки в модели probit можно вычислить с помощью функции
плотности нормального распределения
dbreak
dage
Ф ( z)
dz
dage
f ( z ) 0.074 . В Excel
плотность f ( z) можно вычислить используя функцию НОРМРАСП( z;0;1;0) .
По
графику (рис. 3) видно, что максимум воздействия возраста совпадает в двух моделях.
Однако величина этого максимума в модели probit на 0.5% ниже, чем в logit модели.
4
Иткина А.Я. Эконометрика на практике
Предельное воздействие возраста
насоса на его поломку
0.04
logit
0.035
probit
0.03
0.025
0.02
0.015
0.01
0.005
0
0
10
20
30
40
50
60
Рис. 3. Скорость поломок в зависимости от возраста насоса
Анализ окна модели
В верхней части окна выписан метод построения модели, например: Method: ML Binary Probit (Quadratic hill climbing). Эта запись означает, что коэффициенты модели
были найдены методом максимального правдоподобия (maximum likelihood) для
бинарной probit-модели. Будем далее сокращенно писать ММП вместо метода
максимального правдоподобия.
Рассмотрим верхнюю часть таблицы. Каждой переменной соответствует
коэффициент. Это значение коэффициента оценено по выборке. Относительно каждой
переменной проверяется гипотеза о равенстве коэффициента при ней 0, т.е. о том, что
соответствующая переменная не влияет на функцию-вероятность (в генеральной
совокупности).
Приведенные
стандартные
ошибки
коэффициентов
являются
асимптотическими, т.е. доверять им можно при больших выборках. В связи с этим в
программе Eviews вместо t-Statistic используют z-Statistic – расчетное значение
стандартного нормального распределения z-Statistic
Coefficient
. Prob. – это, при
Std . Error
условии верности выдвинутой гипотезы, вероятность получения такого или большего
расчетного значения z-Statistic (для положительного коэффициента)/такого или
меньшего расчетного значения z-Statistic (для отрицательного коэффициента), т.е. это
односторонняя вероятность.
Доверительные интервалы для коэффициентов модели следует рассчитывать,
используя таблицы статистики Стьюдента.
5
Тема N. Фиктивная зависимая переменная
Для приведенного выше примера коэффициент 0.074 с вероятность 95% попадет в
интервал (0.038;0.110), рассчитанный по t-Statistic и в (0.039;0.109), рассчитанный по zStatistic. Т.е. для достаточно больших выборок или для коэффициентов с маленькой
Std.Error можно пользоваться таблицами стандартного нормального распределения.
В нижней части таблицы имеются уже знакомые нам описательные статистики:
среднее значение и стандартное отклонение зависимой переменной, стандартная
ошибка регрессии и остаточная сумма квадратов. Они имеют тот же смысл, что в МНКмоделях.
Дополнительно приведены несколько статистик ММП:
Логарифмическое правдоподобие (Log likelihood) – максимизируемое значение
функции максимального правдоподобия.
Среднее значение логарифмического правдоподобия (Avg. log likelihood) -
Avg. log likelihood
Log likelihood
, n - объем выборки.
n
Ограниченное логарифмическое правдоподобие (Restr. log likelihood) – значение
функции максимального правдоподобия в модели с одной лишь константой, т.е. в
случае равенства коэффициентов при остальных объясняющих переменных 0. Restr. log
likelihood вычисляется только в моделях со свободным членом.
Статистика "отношение правдоподобия" (LR statistic) – аналог F-статисики в
МНК-моделях. Проверяется значимость модели в целом. Приводится только для
моделей со свободным членом. Проверяется гипотеза о совпадении построенной
модели и модели только со свободным членом, т.е. возможность одновременного
равенства всех коэффициентов модели 0, кроме свободного члена. Статистика критерия
рассчитывается
как
2(Log likelihood Restr. log likelihood) .
В
скобках
задано
количество степеней свободы (1 df) – количество переменных модели.
Probability(LR
stat)
– при условии верности нулевой гипотезы LR stat
асимптотически распределена как
2
с указанным выше df числом степеней свободы.
McFadden R-squared – псевдо коэффициент детерминации в ММП-моделях,
аналог соответствующего коэффициента в МНК-моделях, рассчитывается как
1
Log likelihood
Restr. log likelihood
и меняется в интервале [0;1). Может применяться для
сравнения моделей между собой, но не имеет понятной интерпретации.
6
Иткина А.Я. Эконометрика на практике
Теперь обратимся к меню. View/Expectation-Prediction Table – этот пункт меню
позволяет увидеть в скольких случаях построенная модель, а также лучшая константа,
«угадала» значение зависимой переменной, а в скольких «ошиблась». При вызове этого
пункта возникает окно, в котором по умолчанию
стоит значение 0.5. Это число показывает, что при
прогнозе выше него бинарная переменная приняла
значение 1, а ниже него – 0. Соответственно можно
задать любое значение из интервала (0;1).
Обратимся к следующему пункту меню View/Goodness-of-Fit Test... Он дает
дополнительную возможность проверить качество построенной модели, т.е. степень
совпадения реальных и предсказанных значений вероятности. Для этого данные
группируются по какой-нибудь переменной или с помощью квантилей (m групп),
определяется реальное (Actual) количество наблюдений, попавших в каждый интервал,
и рассчитывается по модели ожидаемая частота (Expect) попадания в этот интервал.
Близость теоретических и реальных частот оценивается с помощью критериев
согласия
Хосмера-Лемешова
(Hosmer-Lemeshow)
и
Андрюса
Асимптотически статистики этих критериев имеют распределение
(Andrews).
2
с числом
степеней свободы m-2 и m соответственно. Низкие значения вероятности показывают,
что гипотезу отвергают, а значит, имеются существенные различия между реальными и
предсказанными значениями вероятностей.
Литература:
1. Бородич С.А. Эконометрика. Учебное пособие. – Минск: Новое знание, 2006. – 407 с.
2. Доугерти К. Введение в эконометрику. - М.: ИНФРА-М, 2009. – 413 с.
3. Program Eviews. User's Guide.
7
Download