Задание 5

advertisement
Задание 5
Задача 1
Используйте данные в файле data.xls для создания линейной модели стоимости московских
квартир.
Попробуйте добавить в модель разные факторы (площадь, число комнат, расстояние до метро,
крайний этаж, тип дома и т.п.).
При добавлении категориальных факторов учитывайте, сколько примеров с каждым классом
имеется в данных. Например, ситуация по типам домов выглядит так:
Обозначение
Б
П
Ж-б
Смысл
Блочный
Панельный
Железнобетонный
Сколько наблюдений
397
2150
1
Что делать
Объединить с панельным
Оставить
Удалить или объединить с
панельными
К
Кирпич
1979
Оставить
М-К
Монолит-кирпич
613
Объединить с монолит
М
Монолит
1963
Оставить
Ста
Сталиника
350
Оставить?
Шла
Шлакоблок
1
Удалить
При вводе категориальных факторов не кодируйте их числами (1 – К, 2 – Ста и т.п.), вместо этого
используйте по одной новой переменной для каждой категории, и устанавливайте её в 1 для
наблюдений, которые относятся к этой категории, и в 0 для остальных.
Например, для типа дома надо будет создать 4 переменные и кодировать следующим образом
(строки таблицы – исходный тип дома из файла, столбцы – новые переменные для регрессии):
П
К
П (и Б)
1
0
К
0
1
М (и М-К)
0
0
Ста
0
0
Аналогичным образом можно поступить с ближайшими
балконов и т.п.
М
0
0
1
0
станциями метро,
Ста
0
0
0
1
наличием лифтов,
Для контроля качества модели при добавлении переменных обязательно используйте разбиение
на тестовую и обучающую выборки.
Download