Тема N. Фиктивная зависимая переменная

Иткина А.Я. Эконометрика на практике To be, or not to be … Уильям Шекспир Тема N. Фиктивная зависимая переменная Общая постановка задачи Имеется выборка, в которой зависимая переменная Y является качественной (с двумя альтернативами), а независимые переменные могут быть как качественными, так и количественными. Необходимо построить модель, в которой Y Задание Y в виде Y 0, 1-я альтернатива, 1, 2-я альтернатива. f ( x1 , x2 ,...) . , позволяет переформулировать задачу как вероятностную. Какова вероятность того, что Y примет значение одной из альтернатив, при конкретном наборе факторов? Пример 1. В России имеется около 60 000 скважин, добыча из которых ведется с использованием ЭЦН. Имеется выборка по ЭЦН. Требуется оценить работоспособность насоса в зависимости от его срока службы. Переформулируем задачу следующим образом: как зависит вероятность выхода из строя насоса от его возраста (в месяцах). Зададим Y 0, насос исправен, 1, насос сломан. Построение линейной МНК модели приводит к а) невозможным значениям зависимой переменной, например BREAK(1) -0.21 ; б) нарушению логики – 1 Тема N. Фиктивная зависимая переменная вероятность поломки растет с возрастом линейно, в то время как на самом деле новые насосы ломаются очень редко, а несломанных насосов старше 3.5 лет почти нет. logit модель Зададим вероятность того, что зависимая переменная примет значение 1, в виде P(Y 1| x1; x2 ;... xn ) 1 1 e ( k1x1 k2 x2 ... kn xn b ) . Такая форма задания переменной позволяет справиться с а) выходом вероятности за границы [0;1]; б) линейностью изменения вероятности при изменении факторов. Однако при такой форме зависимости коэффициенты включены в модель нелинейно и напрямую использовать МНК невозможно. Общепринято обозначать за z и находить k1 x1 k2 x2 ...kn xn b коэффициенты методом максимального правдоподобия. В Eviews logit модель можно построить путем выбора в окне уравнения метода BINARY – Binary choice (…), а среди предложенных методов оценки отметив Logit. Для рассмотренного выше примера модель записана может следующим 1 break 1 e (0.14 age 4.91) быть образом . То, какие именно коэффициенты определятся в модели, влияет на скорость роста вероятности. Графически это выражается в крутизне перехода от области с почти нулевой вероятностью к области с вероятностью близкой к единице. По графику зависимости break (age) можно заметить, что новые насосы (до 10 месяцев) почти не ломаются. На промежутке от 25 до 40 месяцев вероятность растет почти линейно с возрастом. Более старые насосы ломаются с вероятностью более 80%. 2 Иткина А.Я. Эконометрика на практике Вероятность поломки насоса в зависимости от его возраста 1 0.8 0.6 0.4 0.2 0 0 10 20 30 40 50 Рис. 1. Зависимость break от age Для более четкого понимания роли возраста стоит вычислить производную dbreak . Она покажет скорость, с которой растет вероятность поломки: dage e z dz z 2 (1 e ) dage dbreak dage e (0.14age 4.91) 0.14 . По графику (рис. 2) видно, что (1 e (0.14age 4.91) )2 максимум воздействия возраста приходится на период 33-35 месяцев. В соответствии с моделью увеличение возраста насоса на 1 месяц с 34 до 35 месяцев увеличивает вероятность поломки на 3.5%. Эта вероятность невелика, т.е. большое количество насосов старше 35 месяцев продолжают работать. Выборочный возраст насосов ограничен 49 месяцами. Незначительное количество (существенно менее половины) насосов в выборке сломаны. Поэтому график вероятности (рис. 1) не доходит до 1, а график предельного воздействия (рис. 2) оборван справа и не доходит до 0. Предельное воздействие возраста насоса на его поломку 0.04 0.035 0.03 0.025 0.02 0.015 0.01 0.005 0 0 10 20 30 40 50 60 Рис. 2. Скорость поломок в зависимости от возраста насоса 3 Тема N. Фиктивная зависимая переменная probit модель Зададим вероятность того, что зависимая переменная примет значение 1, в виде P(Y 1| x1; x2 ;... xn ) (k1 x1 k2 x2 ...kn xn b) , т.е. функции стандартного нормального распределения. Такая форма задания переменной также позволяет а) соблюдать границы вероятности [0;1]; б) нелинейно менять вероятность при изменении факторов. Однако при такой форме зависимости коэффициенты снова включены в модель нелинейно и напрямую использовать МНК невозможно. Общепринято обозначать за z k1 x1 k2 x2 ...kn xn b и находить коэффициенты модели методом максимального правдоподобия. В Eviews probit модель можно построить путем выбора в окне уравнения метода BINARY – Binary choice (…), а среди предложенных методов оценки отметив Probit. Для рассмотренного выше примера модель может быть записана следующим образом break Ф(0.074age 2.564) . В Excel зависимость может быть вычислена с помощью встроенной функции НОРМРАСП( z;0;1;1), где z 0.074age 2.564 . Вероятность поломки насоса в зависимости от его возраста 1 0.8 0.6 logit 0.4 probit 0.2 0 0 20 40 60 По графику зависимости break (age) можно заметить, что две модели дают очень похожие прогнозы. Probit модель предлагает немного более пологий рост вероятности, нежели logit. Скорость поломки в модели probit можно вычислить с помощью функции плотности нормального распределения dbreak dage Ф ( z) dz dage f ( z ) 0.074 . В Excel плотность f ( z) можно вычислить используя функцию НОРМРАСП( z;0;1;0) . По графику (рис. 3) видно, что максимум воздействия возраста совпадает в двух моделях. Однако величина этого максимума в модели probit на 0.5% ниже, чем в logit модели. 4 Иткина А.Я. Эконометрика на практике Предельное воздействие возраста насоса на его поломку 0.04 logit 0.035 probit 0.03 0.025 0.02 0.015 0.01 0.005 0 0 10 20 30 40 50 60 Рис. 3. Скорость поломок в зависимости от возраста насоса Анализ окна модели В верхней части окна выписан метод построения модели, например: Method: ML Binary Probit (Quadratic hill climbing). Эта запись означает, что коэффициенты модели были найдены методом максимального правдоподобия (maximum likelihood) для бинарной probit-модели. Будем далее сокращенно писать ММП вместо метода максимального правдоподобия. Рассмотрим верхнюю часть таблицы. Каждой переменной соответствует коэффициент. Это значение коэффициента оценено по выборке. Относительно каждой переменной проверяется гипотеза о равенстве коэффициента при ней 0, т.е. о том, что соответствующая переменная не влияет на функцию-вероятность (в генеральной совокупности). Приведенные стандартные ошибки коэффициентов являются асимптотическими, т.е. доверять им можно при больших выборках. В связи с этим в программе Eviews вместо t-Statistic используют z-Statistic – расчетное значение стандартного нормального распределения z-Statistic Coefficient . Prob. – это, при Std . Error условии верности выдвинутой гипотезы, вероятность получения такого или большего расчетного значения z-Statistic (для положительного коэффициента)/такого или меньшего расчетного значения z-Statistic (для отрицательного коэффициента), т.е. это односторонняя вероятность. Доверительные интервалы для коэффициентов модели следует рассчитывать, используя таблицы статистики Стьюдента. 5 Тема N. Фиктивная зависимая переменная Для приведенного выше примера коэффициент 0.074 с вероятность 95% попадет в интервал (0.038;0.110), рассчитанный по t-Statistic и в (0.039;0.109), рассчитанный по zStatistic. Т.е. для достаточно больших выборок или для коэффициентов с маленькой Std.Error можно пользоваться таблицами стандартного нормального распределения. В нижней части таблицы имеются уже знакомые нам описательные статистики: среднее значение и стандартное отклонение зависимой переменной, стандартная ошибка регрессии и остаточная сумма квадратов. Они имеют тот же смысл, что в МНКмоделях. Дополнительно приведены несколько статистик ММП: Логарифмическое правдоподобие (Log likelihood) – максимизируемое значение функции максимального правдоподобия. Среднее значение логарифмического правдоподобия (Avg. log likelihood) - Avg. log likelihood Log likelihood , n - объем выборки. n Ограниченное логарифмическое правдоподобие (Restr. log likelihood) – значение функции максимального правдоподобия в модели с одной лишь константой, т.е. в случае равенства коэффициентов при остальных объясняющих переменных 0. Restr. log likelihood вычисляется только в моделях со свободным членом. Статистика "отношение правдоподобия" (LR statistic) – аналог F-статисики в МНК-моделях. Проверяется значимость модели в целом. Приводится только для моделей со свободным членом. Проверяется гипотеза о совпадении построенной модели и модели только со свободным членом, т.е. возможность одновременного равенства всех коэффициентов модели 0, кроме свободного члена. Статистика критерия рассчитывается как 2(Log likelihood Restr. log likelihood) . В скобках задано количество степеней свободы (1 df) – количество переменных модели. Probability(LR stat) – при условии верности нулевой гипотезы LR stat асимптотически распределена как 2 с указанным выше df числом степеней свободы. McFadden R-squared – псевдо коэффициент детерминации в ММП-моделях, аналог соответствующего коэффициента в МНК-моделях, рассчитывается как 1 Log likelihood Restr. log likelihood и меняется в интервале [0;1). Может применяться для сравнения моделей между собой, но не имеет понятной интерпретации. 6 Иткина А.Я. Эконометрика на практике Теперь обратимся к меню. View/Expectation-Prediction Table – этот пункт меню позволяет увидеть в скольких случаях построенная модель, а также лучшая константа, «угадала» значение зависимой переменной, а в скольких «ошиблась». При вызове этого пункта возникает окно, в котором по умолчанию стоит значение 0.5. Это число показывает, что при прогнозе выше него бинарная переменная приняла значение 1, а ниже него – 0. Соответственно можно задать любое значение из интервала (0;1). Обратимся к следующему пункту меню View/Goodness-of-Fit Test... Он дает дополнительную возможность проверить качество построенной модели, т.е. степень совпадения реальных и предсказанных значений вероятности. Для этого данные группируются по какой-нибудь переменной или с помощью квантилей (m групп), определяется реальное (Actual) количество наблюдений, попавших в каждый интервал, и рассчитывается по модели ожидаемая частота (Expect) попадания в этот интервал. Близость теоретических и реальных частот оценивается с помощью критериев согласия Хосмера-Лемешова (Hosmer-Lemeshow) и Андрюса Асимптотически статистики этих критериев имеют распределение (Andrews). 2 с числом степеней свободы m-2 и m соответственно. Низкие значения вероятности показывают, что гипотезу отвергают, а значит, имеются существенные различия между реальными и предсказанными значениями вероятностей. Литература: 1. Бородич С.А. Эконометрика. Учебное пособие. – Минск: Новое знание, 2006. – 407 с. 2. Доугерти К. Введение в эконометрику. - М.: ИНФРА-М, 2009. – 413 с. 3. Program Eviews. User's Guide. 7

Тема N. Фиктивная зависимая переменная

Related documents

Products

Support

Тема N. Фиктивная зависимая переменная

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib