подбор объясняющих переменных для линейной модели

advertisement
ПОДБОР ОБЪЯСНЯЮЩИХ
ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ
МОДЕЛИ
Лекция 11
С формальной точки зрения, объясняющие переменные в
линейной эконометрической модели должны обладать
следующими свойствами:
• иметь высокую вариабельность;
• быть сильно коррелированными с объясняемой
переменной;
• быть слабо коррелированными между собой;
• быть сильно коррелированными с представляемыми ими
другими переменными, не используемыми в качестве
объясняющих*.
Объясняющие переменные подбираются с помощью
статистических методов.
Процедура подбора переменных состоит из
следующих этапов:
1.На основе накопленных знаний составляется
множество так называемых потенциальных
объясняющих переменных (первичных переменных),
в которое включаются все важнейшие величины,
влияющие на объясняемую переменную.
Такие переменные будем обозначать
Х1 Х2, ..., Хт.
2.Собирается статистическая информация о
реализациях как объясняемой переменной,
так и потенциальных объясняющих переменных.
Формируется вектор у наблюдаемых значений
переменной Y и матрица X наблюдаемых
значений переменных Х1, Х2, ..., Хт в виде
3. Исключаются потенциальные объясняющие
переменные, характеризующиеся слишком
низким
уровнем вариабельности.
4.Рассчитываются коэффициенты корреляции
между всеми рассматриваемыми переменными.
5.Множество потенциальных объясняющих
переменных редуцируется с помощью
выбранной статистической процедуры
Исключение квазинеизменных переменных
Предварительным условием присвоения различным
величинам статуса объясняющих переменных считается
достаточно высокая вариабельность.
В качестве меры вариабельности используется
коэффициент вариации
где Xj — среднее арифметическое переменной X;.
тогда как Sj — стандартное отклонение
переменной Xj.
Задается критическое значение коэффициента
вариации v*, например v* = 0,10.
Переменные, удовлетворяющие неравенству
vi<v*
признаются квазинеизменными и исключаются
из множества потенциальных объясняющих
переменных.
Эти переменные не несут значимой
информации
Пример 1. Для описания объема производства на
предприятии (Y), измеряемого в млн руб.,
рассматриваются четыре величины:
Х1 — количество работающих, тыс. чел.;
Х2 — стоимость машин и оборудования,
млн руб.;
Х3 — длительность простоя машин, дней;
Х4 — инвестиционные затраты, млн руб.
Значения конкретных переменных
за период 1991—2000 гг. представлены в табл. 1.
При заданном критическом значении
коэффициента v* = 0,15 проверяем, обладают ли
потенциальны объясняющие переменные
достаточно высокой вариабельностью.
Стандартные отклонения потенциальных
объясняющих переменных равны соответственно:
Коэффициенты вариации рассматриваемых
переменных принимают следующие значения:
Поскольку значение коэффициента Х4 меньше
заданного критического значения v*=0,15
данная переменная (инвестиционные затраты)
признается квазинеизменнои переменной
и удаляется из множества потенциальных
объясняюших переменных
Вектор и матрица коэффициентов
корреляции
Для оценивания силы линейной зависимости
объясняемой переменной Y от потенциальных
объясняющих переменных Х1, Х2, .., Хт
рассчитываются коэффициенты корреляции:
Эти коэффициенты представляются в виде
вектора корреляции:
Коэффициенты корреляции между потенциальными
объясняющими переменными Х1, Х2, ..., Хт
рассчитываются по формуле
образуют матрицу корреляции R:
Матрица R симметрична, т. е.
rij= rji.
Метод анализа матрицы коэффициентов
корреляции
Идея этого метода сводится к выбору таких
объясняющих переменных, которые сильно
коррелируют с объясняемой переменной и,
одновременно, слабо коррелируют между
собой.
В качестве исходных точек рассматриваются
вектор R0 и матрица К
Для заданного уровня значимости (например, 5%,
т.е. 0,05) и для (п — 2)
степеней свободы рассчитывается так называемое
критическое значение коэффициента корреляции:
где /* — значение t-распределения Стьюдента
для заданного уровня значимочти и для (п — 2)
степеней свободы.
Критическое значение коэффициента корреляции
r*
также может априорно задаваться аналитиком.
Процедура подбора объясняющих переменных
состоит из следующих этапов:
1.Из множества потенциальных объясняющих
переменных исключаются все элементы, которые
удовлетворяют неравенству
abs(ri)< r*
поскольку они несущественно коррелируют
объясняемой переменной.
2. Из оставшихся переменных объясняющей признается
такая переменная Хh, для которой
\rh\ = max{ri},
поскольку Xh является носителем наибольшего количества
информации об объясняемой переменной.
3.
Из
множества
потенциальных
объясняющих
переменных исключаются все элементы, которые
удовлетворяют неравенству
rhi > r*
поскольку эти переменные слишком сильно коррелируют
с объясняющей переменной , и, следовательно, только
воспроизводят представляемую ею информацию.
Этапы 1—3 повторяются вплоть до момента опустошения
множества потенциальных объясняющих переменных.
Метод показателей информационной
ёмкости
Идея метода показателей информационной
емкости cводится к выбору таких объясняющих
переменных,которые сильно коррелированы с
объясняемой переменной, и одновременно, слабо
коррелированы между собой.
В качестве исходных точек этого метода
рассматриваются вектор R0 и матрица R.
Рассматриваются все комбинации потенциальных
объясняющих переменных, общее количество
которых составляет
I = 2n-1.
Для каждой комбинации потенциальных
объясняющих переменных рассчитываются
индивидуальные и интегральные показатели
информационной емкости.
Индивидуальные показатели информационной
ёмкости в рамках конкретной комбинации
рассчитываются по формуле
В этом выражении l обозначает номер
переменной,
а тl — количество переменных в рассматриваемой
комбинации.
Интегральные показатели информационной
емкости потенциальных объясняющих
переменных рассчитываются по формуле
Индивидуальные у интегральные показатели
информационной ёмкости нормируются в
интервале [0; 1].
Их значения оказываются тем больше чем
сильнее объясняющие переменные коррелируют с
объясняемои перемени и чем слабее они
коррелируют между собой.
В качестве объясняющих выбирается такая
комбинация переменных, которой соответствует
максимальное значение интегрального показателя
информационной емкости.
Пример 4. Необходимо подобрать объясняющие
переменные для линейной модели, описывающей
производство скота в живом весе в расчёте на 1 га
сельхозугодий (У) на некотором аграрном
предприятии.
Рассматривается cледующее множество
потенциальных объясняющих переменных:
Х1 — урожай кормовой кукурузы,
Х2 — доля стоимости растительной агропродукции
в общей стоимости продукции сельского
хозяйства,
Х3 — средние закупочные цены мяса в живом весе,
Х4 — использование комбикормов.
На основе статистических данных за 1986—2000
гг. построен вектор коэффициентов корреляции
между переменной У и переменными Х1 Х2, Х3, Х4,
а также матрица коэффициентов корреляции
между переменными
X1,Х2, Х3, Х4:
Выберем объясняющие переменные при помощи
метода показателей информационной емкости.
Поскольку рассматриваются четыре
потенциальные объясняющие переменные,
необходимо проанализировать
L = 24 — 1 = 15
комбинаций переменных
Перечислим все эти комбинации:
Интегральные показатели информационной
емкости одноэлементных комбинаций идентичны
индивидуальным показателям емкости,
Которые, в свою очередь, равны квадратам
коэффициентов корреляции между объясняемой
переменной и потенциальными объясняющими
переменными. Taким образом
Для двухэлементной комбинации С5 = (Х1, Х2)
рассчитываются два индивидуальных показателя
информационной емкости: h51, относящийся к
переменной Х1, и h52, относящийся к
переменной Х2:
Интефальный показатель информационной
емкости этой комбинации равен:
H5 = h51 + h52 = 0,113 + 0,390 = 0,503
.
После проведения аналогичных расчетов для
остальных двухэлементных комбинаций получаем:
В свою очередь, рассмотрим трехэлементную
комбинацию
С11= {Х1, Х2, X3). Рассчитаем индивидуальные
показатели информационной ёмкости:
После проведения аналогичных расчетов для
остальных трехэлементных комбинаций получаем:
Интегральный показатель информационной
емкости этой комбинации равен:
Далее рассчитаем индивидуальные показатели
информационной ёмкости переменных Х\, Х2, Х3
и Х4 (комбинация С15):
Интегральный показатель информационной
ёмкости равен:
H15 = h15,1 + h15,2 + h15,з + h15,4 = 0,585.
Максимальное значение интегрального показателя
Информационной ёмкости равно 0,668 и относится к
комбинации С9, включающей переменные Х2 и Х4.
Это означает, что в линейной модели, описывающей
уровень производства скота в живом весе на 1 га
сельхозугодий на рассматриваемом аграрном
предприятии,в качестве объясняющих переменных
должны применятьсяХ2 — доля стоимости растительной
агропродукции в общей стоимости продукции сельского
хозяйства, Х4 — использование комбикормов. Модель
примет вид
Download