ЛОГІТ ТА ПРОБІТ-МОДЕЛІ РЕГРЕСІЇ В ПРОГНОЗУВАННІ СЕП 1. Моделі дискретного вибору.

advertisement
ЛОГІТ ТА ПРОБІТ-МОДЕЛІ РЕГРЕСІЇ
В ПРОГНОЗУВАННІ СЕП
1. Моделі дискретного вибору.
2. Логіт та пробіт-моделі регресії.
3. Особливості вирішення логіт та
пробіт-моделей в аналітичних
пакетах.
Определение
Модель дискретного выбора – модель
регрессии, в которой зависимая переменная
является дискретной.
Причины дискретности зависимой
переменной:
• Целочисленность
• Качественная природа зависимой
переменной
• Порядковая или ранговая переменная
Примеры моделей дискретного выбора
•
•
•
•
Решение об участии на рынке труда
Выбор вида транспорта
Выдача кредитов
Голосование...
Методы оценивания:
• Линейная вероятностная модель (linear
probability model)
• Логит (logit)
• Пробит (probit)
• Множественный логит (multinomial logit)
• Упорядоченный логит (ordered logit)
• Модели с группировкой (nested logit)
Виды моделей дискретного выбора:
• Модели бинарного выбора
• Модели множественного выбора
Модели бинарного выбора
Модель бинарного выбора – частный случай
модели дискретного выбора, при котором
зависимая переменная может принимать
только два значения (1 или 0)
Модели множественного выбора
• Модель множественного выбора –модель
дискретного выбора, при котором
зависимая переменная может принимать
более двух значений
Виды моделей множественного выбора
• Номинальные (важно только количество
принимаемых значений, или состояний) –
модели с неупорядоченными
альтернативами
• Порядковые (важно ранжирование
значений зависимой переменной) –
модели с упорядоченными
альтернативами
Модели с неупорядоченными
альтернативами:
• Множественный логит и пробит
• Предположение о максимизации полезности,
связанной с каждой из альтернатив
• Оценка при помощи метода максимального
правдоподобия
• Использование моделей с группировкой при
многошаговом процессе принятия решений
Модели с упорядоченными
альтернативами:
• Проблематичность применения МНК из-за
качественной природы зависимой
переменной
• Упорядоченный логит и пробит
Прогнозная формула логистической
регрессии
p^
( )
^
^
^
=
w
+
w
x
+
w
x
log
·
·
0
1
1
2
2
^
1–p
логит-баллы
Выберите максимизирующие оценки константы и параметров для:
логарифмической функции правдоподобия
∑
^
log(pi)
+ ∑ log(1 –
^
pi )
обучающие
обучающие
наблюдения
наблюдения
с первичным со вторичным
исходом
исходом
...
Связывающая функция - логит
p^
( )
^
^
^
=
w
+
w
x
+
w
x
log
·
·
0
1
1
2
2
1 – p^
5
логит-баллы
связывающая
функция (логит
Логит-функция преобразует вероятность
(между 0 и 1) в логит-баллы (между −∞ и +∞).
0
1
-5
...
Связывающая функция - логит
p^
( )
^
^
^
^
=
w
+
w
x
+
w
x
log
0
1· 1
2· 2 = logit( p )
^
1–p
1
p^ =
^
1 + e-logit( p )
Для получения оценки прогноза логит-уравнение
решается относительно p.
^
...
Связывающая функция - логит
...
Пример использования регрессии
Прогнозирование цвета точки по
ее координатам x1 и x2.
1.0
0.9
0.70
0.8
0.7
Необходимо вычислить
значение константы и других
параметров модели.
0.6
x2
0.60
0.5
0.4
0.50
0.3
0.2
0.1
0.0
0.40
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
Пример использования регрессии
1.0
0.9
0.70
0.8
0.7
0.6
Поиск максимизирующих
оценок параметров
x2
0.60
0.5
0.4
0.50
0.3
0.2
обучающие
наблюдения
с первичным
исходом
обучающие
наблюдения
со вторичным
исходом
0.1
0.0
0.40
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
логарифмическая функция правдоподобия
...
Выберите правильный ответ из
списка
Что будет значением прогноза для точки x1=0,3
x2=0,7?
1.0
0.9
a. 0.243
0.8
b. 0.56
0.7
0.6
c. желтая
d. Ответ зависит от … x2 0.5
0.70
0.60
0.4
0.50
0.3
0.2
0.1
0.0
0.40
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
Правильный ответ
Что будет значением прогноза для точки x1=0,3
x2=0,7?
1.0
a. 0.243
b. 0.56
c. Желтая
d. Ответ зависит от …
0.9
0.70
0.8
0.7
0.6
x2
0.60
0.5
0.4
0.50
0.3
0.2
0.1
0.0
0.40
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
Особенности модели LOGIT
• P[0, 1], L (-∞, +∞)
• L линейна по переменным, вероятности – нет
• Интерпретация параметров: при изменении
фактора j на 1 ед. логарифм относительного
числа шансов в пользу события Y=1 к числу
шансов против события Y=1 изменится в среднем
на bj единиц при условии, что все остальные
факторы модели зафиксированы
• Возможность перехода к оценкам вероятности
Оценка параметров модели LOGIT
• Метод максимального правдоподобия для:
Pi
Li  ln(
)  Z i  1   2 X i
1  Pi
Модель PROBIT
Функция, характеризующая искомую
вероятность, определяется как кумулятивная
функция нормального распределения:
Pi Yi   X...X k  
где z = a+b1X1+…+bkXk+u


z
e

s 

ds
ВАЖНО!
Оценки коэффициентов моделей логит и пробит
НЕЛЬЗЯ интерпретировать как показатели силы
связи из-за нелинейности по параметрам.
Однако от этих оценок можно легко перейти к
относительным показателям силы связи для
отдельных факторов, включенных в модель.
Сравнение моделей LOGIT и PROBIT
• Индивидуальный выбор исследователя
• Разница в «крутизне» функции
распределения
• Аналогичные результаты для выборок с
небольшим разбросом объясняющих
переменных
Logit и probit модели: преимущества и
недостатки
Преимущества
1. Дает статистически
надежные результаты:
исправляет недостатки
линейной модели
2. Результаты легко
интерпретируются
3. Сравнительно
несложный метод
анализа.
Высшая школа экономики, Москва, 2012
Недостатки
1. Необходимый фото
большой
размер выборки (>500)
2. Проблемы
мультиколлинеарности
фото
3. Минимум 10 исходов на
каждую
независимую
переменную
фото
Сравнение использования logit и probit
моделей
фото
Качественно, logit и probit модели дают
примерно одинаковые результаты
фото
фото
Высшая школа экономики, Москва, 2012
Оценка качества моделей:
•
Псевдо коэффициент детерминации:
1
R  1
, L  функция правдоподобия в
2( L  L )
1
n
модели без ограничений, L  функция правдоподобия в
модели c ограничениями , n  число наблюдений
2
p
•
Индекс отношения правдоподобия:
2
MF
R
•
L
 1
L
Проверка гипотез на основе теста правдоподобия:
LR  2( L  L ) ~  2s , s  число ограничений
29
Регрессия: обзор возможных
проблем
Работа с пропущенными значениями
Интерпретация модели
Настройка экстремальных и нетипичных
значений
Использование не численных входных
переменных
Работа с нелинейностью
...
Обзор инструментов для регрессии
Заменяет пропущенные значения для
интервальных (средним) и категориальных
данных (модой). Создает уникальный
индикатор замены.
Создает модели линейной и логистической
регрессии. Выбирает входные переменные с
помощью метода последовательного выбора
и соответствующей статистики подгонки.
Интерпретирует модели с помощью
коэффициентов вероятностей.
Регуляризирует распределения входных
переменных. Обычно применяются
логарифмические преобразования,
управляющие асимметрией входных
переменных.
продолжение...
Обзор инструментов для регрессии
Объединяет уровни категориальной
входной переменной с использованием
окна Term Editor.
Добавляет члены полиномиальной
регрессии либо вручную, либо с
помощью автономного поиска методом
полного перебора.
Коэффициент вероятности и удваивающийся
коэффициент первичного исхода
p^
( )
^
^
^
log
= w0 + w1· x1 + w2· x2
^
1–p
Δxi
Удваивающийся
коэффициент:
Входная переменная
изменяется на 0,69/wi при
удвоении вероятности
первичного исхода.
Логит-баллы
результат
1  отнош.  exp(wi)
0.69  отнош. 2
wi
Коэффициент
вероятности:
Увеличение значения
вероятности первичного
исхода связанное с
изменением входной
переменной на единицу
измерения.
...
34
35
Download