ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ Лекция 11 С формальной точки зрения, объясняющие переменные в линейной эконометрической модели должны обладать следующими свойствами: • иметь высокую вариабельность; • быть сильно коррелированными с объясняемой переменной; • быть слабо коррелированными между собой; • быть сильно коррелированными с представляемыми ими другими переменными, не используемыми в качестве объясняющих*. Объясняющие переменные подбираются с помощью статистических методов. Процедура подбора переменных состоит из следующих этапов: 1.На основе накопленных знаний составляется множество так называемых потенциальных объясняющих переменных (первичных переменных), в которое включаются все важнейшие величины, влияющие на объясняемую переменную. Такие переменные будем обозначать Х1 Х2, ..., Хт. 2.Собирается статистическая информация о реализациях как объясняемой переменной, так и потенциальных объясняющих переменных. Формируется вектор у наблюдаемых значений переменной Y и матрица X наблюдаемых значений переменных Х1, Х2, ..., Хт в виде 3. Исключаются потенциальные объясняющие переменные, характеризующиеся слишком низким уровнем вариабельности. 4.Рассчитываются коэффициенты корреляции между всеми рассматриваемыми переменными. 5.Множество потенциальных объясняющих переменных редуцируется с помощью выбранной статистической процедуры Исключение квазинеизменных переменных Предварительным условием присвоения различным величинам статуса объясняющих переменных считается достаточно высокая вариабельность. В качестве меры вариабельности используется коэффициент вариации где Xj — среднее арифметическое переменной X;. тогда как Sj — стандартное отклонение переменной Xj. Задается критическое значение коэффициента вариации v*, например v* = 0,10. Переменные, удовлетворяющие неравенству vi<v* признаются квазинеизменными и исключаются из множества потенциальных объясняющих переменных. Эти переменные не несут значимой информации Пример 1. Для описания объема производства на предприятии (Y), измеряемого в млн руб., рассматриваются четыре величины: Х1 — количество работающих, тыс. чел.; Х2 — стоимость машин и оборудования, млн руб.; Х3 — длительность простоя машин, дней; Х4 — инвестиционные затраты, млн руб. Значения конкретных переменных за период 1991—2000 гг. представлены в табл. 1. При заданном критическом значении коэффициента v* = 0,15 проверяем, обладают ли потенциальны объясняющие переменные достаточно высокой вариабельностью. Стандартные отклонения потенциальных объясняющих переменных равны соответственно: Коэффициенты вариации рассматриваемых переменных принимают следующие значения: Поскольку значение коэффициента Х4 меньше заданного критического значения v*=0,15 данная переменная (инвестиционные затраты) признается квазинеизменнои переменной и удаляется из множества потенциальных объясняюших переменных Вектор и матрица коэффициентов корреляции Для оценивания силы линейной зависимости объясняемой переменной Y от потенциальных объясняющих переменных Х1, Х2, .., Хт рассчитываются коэффициенты корреляции: Эти коэффициенты представляются в виде вектора корреляции: Коэффициенты корреляции между потенциальными объясняющими переменными Х1, Х2, ..., Хт рассчитываются по формуле образуют матрицу корреляции R: Матрица R симметрична, т. е. rij= rji. Метод анализа матрицы коэффициентов корреляции Идея этого метода сводится к выбору таких объясняющих переменных, которые сильно коррелируют с объясняемой переменной и, одновременно, слабо коррелируют между собой. В качестве исходных точек рассматриваются вектор R0 и матрица К Для заданного уровня значимости (например, 5%, т.е. 0,05) и для (п — 2) степеней свободы рассчитывается так называемое критическое значение коэффициента корреляции: где /* — значение t-распределения Стьюдента для заданного уровня значимочти и для (п — 2) степеней свободы. Критическое значение коэффициента корреляции r* также может априорно задаваться аналитиком. Процедура подбора объясняющих переменных состоит из следующих этапов: 1.Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству abs(ri)< r* поскольку они несущественно коррелируют объясняемой переменной. 2. Из оставшихся переменных объясняющей признается такая переменная Хh, для которой \rh\ = max{ri}, поскольку Xh является носителем наибольшего количества информации об объясняемой переменной. 3. Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству rhi > r* поскольку эти переменные слишком сильно коррелируют с объясняющей переменной , и, следовательно, только воспроизводят представляемую ею информацию. Этапы 1—3 повторяются вплоть до момента опустошения множества потенциальных объясняющих переменных. Метод показателей информационной ёмкости Идея метода показателей информационной емкости cводится к выбору таких объясняющих переменных,которые сильно коррелированы с объясняемой переменной, и одновременно, слабо коррелированы между собой. В качестве исходных точек этого метода рассматриваются вектор R0 и матрица R. Рассматриваются все комбинации потенциальных объясняющих переменных, общее количество которых составляет I = 2n-1. Для каждой комбинации потенциальных объясняющих переменных рассчитываются индивидуальные и интегральные показатели информационной емкости. Индивидуальные показатели информационной ёмкости в рамках конкретной комбинации рассчитываются по формуле В этом выражении l обозначает номер переменной, а тl — количество переменных в рассматриваемой комбинации. Интегральные показатели информационной емкости потенциальных объясняющих переменных рассчитываются по формуле Индивидуальные у интегральные показатели информационной ёмкости нормируются в интервале [0; 1]. Их значения оказываются тем больше чем сильнее объясняющие переменные коррелируют с объясняемои перемени и чем слабее они коррелируют между собой. В качестве объясняющих выбирается такая комбинация переменных, которой соответствует максимальное значение интегрального показателя информационной емкости. Пример 4. Необходимо подобрать объясняющие переменные для линейной модели, описывающей производство скота в живом весе в расчёте на 1 га сельхозугодий (У) на некотором аграрном предприятии. Рассматривается cледующее множество потенциальных объясняющих переменных: Х1 — урожай кормовой кукурузы, Х2 — доля стоимости растительной агропродукции в общей стоимости продукции сельского хозяйства, Х3 — средние закупочные цены мяса в живом весе, Х4 — использование комбикормов. На основе статистических данных за 1986—2000 гг. построен вектор коэффициентов корреляции между переменной У и переменными Х1 Х2, Х3, Х4, а также матрица коэффициентов корреляции между переменными X1,Х2, Х3, Х4: Выберем объясняющие переменные при помощи метода показателей информационной емкости. Поскольку рассматриваются четыре потенциальные объясняющие переменные, необходимо проанализировать L = 24 — 1 = 15 комбинаций переменных Перечислим все эти комбинации: Интегральные показатели информационной емкости одноэлементных комбинаций идентичны индивидуальным показателям емкости, Которые, в свою очередь, равны квадратам коэффициентов корреляции между объясняемой переменной и потенциальными объясняющими переменными. Taким образом Для двухэлементной комбинации С5 = (Х1, Х2) рассчитываются два индивидуальных показателя информационной емкости: h51, относящийся к переменной Х1, и h52, относящийся к переменной Х2: Интефальный показатель информационной емкости этой комбинации равен: H5 = h51 + h52 = 0,113 + 0,390 = 0,503 . После проведения аналогичных расчетов для остальных двухэлементных комбинаций получаем: В свою очередь, рассмотрим трехэлементную комбинацию С11= {Х1, Х2, X3). Рассчитаем индивидуальные показатели информационной ёмкости: После проведения аналогичных расчетов для остальных трехэлементных комбинаций получаем: Интегральный показатель информационной емкости этой комбинации равен: Далее рассчитаем индивидуальные показатели информационной ёмкости переменных Х\, Х2, Х3 и Х4 (комбинация С15): Интегральный показатель информационной ёмкости равен: H15 = h15,1 + h15,2 + h15,з + h15,4 = 0,585. Максимальное значение интегрального показателя Информационной ёмкости равно 0,668 и относится к комбинации С9, включающей переменные Х2 и Х4. Это означает, что в линейной модели, описывающей уровень производства скота в живом весе на 1 га сельхозугодий на рассматриваемом аграрном предприятии,в качестве объясняющих переменных должны применятьсяХ2 — доля стоимости растительной агропродукции в общей стоимости продукции сельского хозяйства, Х4 — использование комбикормов. Модель примет вид