подбор объясняющих переменных для линейной модели

ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ Лекция 11 С формальной точки зрения, объясняющие переменные в линейной эконометрической модели должны обладать следующими свойствами: • иметь высокую вариабельность; • быть сильно коррелированными с объясняемой переменной; • быть слабо коррелированными между собой; • быть сильно коррелированными с представляемыми ими другими переменными, не используемыми в качестве объясняющих*. Объясняющие переменные подбираются с помощью статистических методов. Процедура подбора переменных состоит из следующих этапов: 1.На основе накопленных знаний составляется множество так называемых потенциальных объясняющих переменных (первичных переменных), в которое включаются все важнейшие величины, влияющие на объясняемую переменную. Такие переменные будем обозначать Х1 Х2, ..., Хт. 2.Собирается статистическая информация о реализациях как объясняемой переменной, так и потенциальных объясняющих переменных. Формируется вектор у наблюдаемых значений переменной Y и матрица X наблюдаемых значений переменных Х1, Х2, ..., Хт в виде 3. Исключаются потенциальные объясняющие переменные, характеризующиеся слишком низким уровнем вариабельности. 4.Рассчитываются коэффициенты корреляции между всеми рассматриваемыми переменными. 5.Множество потенциальных объясняющих переменных редуцируется с помощью выбранной статистической процедуры Исключение квазинеизменных переменных Предварительным условием присвоения различным величинам статуса объясняющих переменных считается достаточно высокая вариабельность. В качестве меры вариабельности используется коэффициент вариации где Xj — среднее арифметическое переменной X;. тогда как Sj — стандартное отклонение переменной Xj. Задается критическое значение коэффициента вариации v*, например v* = 0,10. Переменные, удовлетворяющие неравенству vi<v* признаются квазинеизменными и исключаются из множества потенциальных объясняющих переменных. Эти переменные не несут значимой информации Пример 1. Для описания объема производства на предприятии (Y), измеряемого в млн руб., рассматриваются четыре величины: Х1 — количество работающих, тыс. чел.; Х2 — стоимость машин и оборудования, млн руб.; Х3 — длительность простоя машин, дней; Х4 — инвестиционные затраты, млн руб. Значения конкретных переменных за период 1991—2000 гг. представлены в табл. 1. При заданном критическом значении коэффициента v* = 0,15 проверяем, обладают ли потенциальны объясняющие переменные достаточно высокой вариабельностью. Стандартные отклонения потенциальных объясняющих переменных равны соответственно: Коэффициенты вариации рассматриваемых переменных принимают следующие значения: Поскольку значение коэффициента Х4 меньше заданного критического значения v*=0,15 данная переменная (инвестиционные затраты) признается квазинеизменнои переменной и удаляется из множества потенциальных объясняюших переменных Вектор и матрица коэффициентов корреляции Для оценивания силы линейной зависимости объясняемой переменной Y от потенциальных объясняющих переменных Х1, Х2, .., Хт рассчитываются коэффициенты корреляции: Эти коэффициенты представляются в виде вектора корреляции: Коэффициенты корреляции между потенциальными объясняющими переменными Х1, Х2, ..., Хт рассчитываются по формуле образуют матрицу корреляции R: Матрица R симметрична, т. е. rij= rji. Метод анализа матрицы коэффициентов корреляции Идея этого метода сводится к выбору таких объясняющих переменных, которые сильно коррелируют с объясняемой переменной и, одновременно, слабо коррелируют между собой. В качестве исходных точек рассматриваются вектор R0 и матрица К Для заданного уровня значимости (например, 5%, т.е. 0,05) и для (п — 2) степеней свободы рассчитывается так называемое критическое значение коэффициента корреляции: где /* — значение t-распределения Стьюдента для заданного уровня значимочти и для (п — 2) степеней свободы. Критическое значение коэффициента корреляции r* также может априорно задаваться аналитиком. Процедура подбора объясняющих переменных состоит из следующих этапов: 1.Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству abs(ri)< r* поскольку они несущественно коррелируют объясняемой переменной. 2. Из оставшихся переменных объясняющей признается такая переменная Хh, для которой \rh\ = max{ri}, поскольку Xh является носителем наибольшего количества информации об объясняемой переменной. 3. Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству rhi > r* поскольку эти переменные слишком сильно коррелируют с объясняющей переменной , и, следовательно, только воспроизводят представляемую ею информацию. Этапы 1—3 повторяются вплоть до момента опустошения множества потенциальных объясняющих переменных. Метод показателей информационной ёмкости Идея метода показателей информационной емкости cводится к выбору таких объясняющих переменных,которые сильно коррелированы с объясняемой переменной, и одновременно, слабо коррелированы между собой. В качестве исходных точек этого метода рассматриваются вектор R0 и матрица R. Рассматриваются все комбинации потенциальных объясняющих переменных, общее количество которых составляет I = 2n-1. Для каждой комбинации потенциальных объясняющих переменных рассчитываются индивидуальные и интегральные показатели информационной емкости. Индивидуальные показатели информационной ёмкости в рамках конкретной комбинации рассчитываются по формуле В этом выражении l обозначает номер переменной, а тl — количество переменных в рассматриваемой комбинации. Интегральные показатели информационной емкости потенциальных объясняющих переменных рассчитываются по формуле Индивидуальные у интегральные показатели информационной ёмкости нормируются в интервале [0; 1]. Их значения оказываются тем больше чем сильнее объясняющие переменные коррелируют с объясняемои перемени и чем слабее они коррелируют между собой. В качестве объясняющих выбирается такая комбинация переменных, которой соответствует максимальное значение интегрального показателя информационной емкости. Пример 4. Необходимо подобрать объясняющие переменные для линейной модели, описывающей производство скота в живом весе в расчёте на 1 га сельхозугодий (У) на некотором аграрном предприятии. Рассматривается cледующее множество потенциальных объясняющих переменных: Х1 — урожай кормовой кукурузы, Х2 — доля стоимости растительной агропродукции в общей стоимости продукции сельского хозяйства, Х3 — средние закупочные цены мяса в живом весе, Х4 — использование комбикормов. На основе статистических данных за 1986—2000 гг. построен вектор коэффициентов корреляции между переменной У и переменными Х1 Х2, Х3, Х4, а также матрица коэффициентов корреляции между переменными X1,Х2, Х3, Х4: Выберем объясняющие переменные при помощи метода показателей информационной емкости. Поскольку рассматриваются четыре потенциальные объясняющие переменные, необходимо проанализировать L = 24 — 1 = 15 комбинаций переменных Перечислим все эти комбинации: Интегральные показатели информационной емкости одноэлементных комбинаций идентичны индивидуальным показателям емкости, Которые, в свою очередь, равны квадратам коэффициентов корреляции между объясняемой переменной и потенциальными объясняющими переменными. Taким образом Для двухэлементной комбинации С5 = (Х1, Х2) рассчитываются два индивидуальных показателя информационной емкости: h51, относящийся к переменной Х1, и h52, относящийся к переменной Х2: Интефальный показатель информационной емкости этой комбинации равен: H5 = h51 + h52 = 0,113 + 0,390 = 0,503 . После проведения аналогичных расчетов для остальных двухэлементных комбинаций получаем: В свою очередь, рассмотрим трехэлементную комбинацию С11= {Х1, Х2, X3). Рассчитаем индивидуальные показатели информационной ёмкости: После проведения аналогичных расчетов для остальных трехэлементных комбинаций получаем: Интегральный показатель информационной емкости этой комбинации равен: Далее рассчитаем индивидуальные показатели информационной ёмкости переменных Х\, Х2, Х3 и Х4 (комбинация С15): Интегральный показатель информационной ёмкости равен: H15 = h15,1 + h15,2 + h15,з + h15,4 = 0,585. Максимальное значение интегрального показателя Информационной ёмкости равно 0,668 и относится к комбинации С9, включающей переменные Х2 и Х4. Это означает, что в линейной модели, описывающей уровень производства скота в живом весе на 1 га сельхозугодий на рассматриваемом аграрном предприятии,в качестве объясняющих переменных должны применятьсяХ2 — доля стоимости растительной агропродукции в общей стоимости продукции сельского хозяйства, Х4 — использование комбикормов. Модель примет вид

подбор объясняющих переменных для линейной модели

Related documents

Products

Support

подбор объясняющих переменных для линейной модели

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib