SASSTATHW2REGx

advertisement
1
SAS/STAT. HOME WORK 2. REG
ФИО
DATA
Набор данных CARS – информация, включая цену, о различных марках и моделях автомобилей 1993
года. Чтобы создать набор, выполните код в файле CARS.sas.
Переменные:
Manufacturer – производитель
Model – модель
Type – Compact, Large, Midsize, Small, Sporty
Price – цена – ЕЕ БУДЕМ ПРЕДСКАЗЫВАТЬ.
Citympg – потребление топлива при езде по городу (кол-во миль / галлон)
Hwympg – потребление топлива при езде за городом (кол-во миль / галлон)
Cylinders – кол-во цилиндров в двигателе
EngineSize – рабочий объем цилиндров (в литрах)
Horsepower – максимальная мощность в лошадиных силах
FuelTank – объем топливного бака (в галлонах)
Passengers – вместимость
Luggage – объем багажника
Weight – вес
Origin - US or non-US Car
TASKS
1. (1) Exploratory Data Analysis.
Исследовать данные с помощь PROC SGSCATTER (пример) (обратите внимание на опцию
PBSPLINE <= (options)> в операторе PLOT) и PROC CORR (см. пример тут). Дать общее описание
наличия и характера «связи» между различными переменными и ценой (Price).
Линейная/нелинейная? Если нелинейная, то какая?
ОТВЕТ [только картинки и выводы]
2
2. Если обнаружена нелинейная зависимость, нужно применить соответствующее
преобразование входной переменной, а точнее использовать полиномиальную регрессию
(см. пример тут) . Идея здесь простая: если на графике видна некая нелинейная зависимость,
то преобразованная переменная будет «более» линейно связана с целевой:
ОТВЕТ [код преобразования + график до и после (как в примере выше)]
3. (2) Candidate Model Selection.
Протестировать различные методы выбора переменных (пошаговые и перебор подмножеств).
Для пошаговых методов исследовать влияние порогов для p-value для входных (включаемых
в регрессию) и выходных (исключаемых из регрессии) переменных. Выбрать «наилучшую»
модель на основе любого из исследованных методов.
ОТВЕТ [код – статистика=значение/график – вывод]
4. (3) Model Assumption Validation
Для выбранной в предыдущем пункте «наилучшей» модели проверить предположения
регрессионного анализа. Если вы не заметили раньше, то теперь почти точно нужно
моделировать не Price, а log(Price) – все из-за дисперсий))).
5. [THEORY PART] познакомиться с процедурой PROC TRANSREG: посмотреть, как с ее помощью
можно выбрать нужное преобразование.
ОТВЕТ [код – статистика=значение/график – вывод]
3
6. (4) Collinearity and Influential Variables Detection
Проверить наличие коррелирующих переменных среди выбранных, используя различные
статистики в моей презентации.
ОТВЕТ [код – статистика=значение/график – вывод]
7. Прочитать главу «3 Linear Methods for Regression» из вот этой книги (правда не совсем о
статистике). Уделить особое внимание разделам «3.4 Shrinkage Methods»! (они могут помочь
справиться с проблемой коллинеарности). Протестировать 3 метода в SAS/STAT: (1) PROC REG
…. RIDGE …. (пример) и (2,3) PROC GLMSELECT опция SELECTION={LAR, LASSO} в операторе
MODEL.
ОТВЕТ [код – статистика=значение/график – вывод]
8. Исследовать данные на предмет наличия «влиятельных» наблюдений (Influential
Observation), используя методы в моей презентации.
ОТВЕТ [код – статистика=значение/график – вывод]
9. Убедившись, что теперь-то модель в порядке, применить ее к новому набору данных (для
простоты к тому же самому (со всеми наблюдениями) из которого удалены значения
переменной Price). Для этого использовать PROC SCORE (пример).
ОТВЕТ [код – статистика=значение/график – вывод]
Download