Курс лекций Тема 1. Основы эконометрики. макроэкономике, микроэкономике и эконометрике.

advertisement
Курс лекций
Тема 1. Основы эконометрики.
Современное экономическое образование держится на трех базовых дисциплинах:
макроэкономике, микроэкономике и эконометрике.
Эконометрика – это относительно молодая научная дисциплина, сформировавшаяся
во второй половине XX века и развивающаяся на стыке экономической теории, статистики и
математики.
Впервые термин эконометрика был введен норвежским ученым Рагнаром Фришем в
1926 году и в буквальном переводе означает «измерение в экономике». Однако на
сегодняшний день эта трактовка чересчур широка. Более четко определение эконометрики
предложено известным российским ученым, профессором С.А.Айвазяном.
Эконометрика – это самостоятельная научная дисциплина, объединяющая
совокупность теоретических результатов, приемов, методов и моделей, предназначенных
для того, чтобы на базе:
- экономической теории;
- экономической статистики;
- математико-статистического инструментария.
придавать конкретное количественное выражение общим качественным
закономерностям, обусловленным экономической теорией.
Эконометрика – наука, изучающая количественные закономерности и
взаимозависимости в экономике методами математической статистики.
Закономерности в экономике выражаются в виде связей и свойств экономических
показателей, а также в виде математических моделей их поведения. Такие зависимости
могут быть получены только путем обработки статистических данных с учетом внутренних
механизмов связи и случайных факторов.
Т.е. изучая и анализируя статистические данные находят существующие между ними
закономерности и вид связи между ними. Например, связь между заработной платой
человека и уровнем образования, или связь между уровнем дохода и уровнем накопления.
Или, например, как связаны энергозатраты организма с объемом физической нагрузки
определенного вида.
Во всех этих случаях внимание исследователя привлекает зависимость между
различными величинами, описывающими интересующие его признаки.
Ещё пример: Экономическая теория гласит, что повышение цены на товар, при
прочих равных условиях, приводят к падению спроса на него. Однако экономическая
теория не может дать ответ на вопрос о величине снижения спроса на конкретный товар в
конкретных условиях. Решить эту задачу можно только с помощью эконометрики, которая
таким образом, вносит эмпирическое содержание в экономическую теорию.
Во всех этих случаях внимание исследователя привлекает зависимость между
различными величинами, описывающими интересующие его признаки.
Цель эконометрики – эмпирический вывод экономических законов.
Задачи эконометрики – построение экономических моделей и оценивание их
параметров, проверка гипотез о свойствах экономических показателей и формах их связи.
Эконометрический анализ служит основой для экономического анализа и
прогнозирования, создавая возможность для принятия обоснованных экономических
решений.
Эконометрические методы необходимо знать и ученому, и преподавателю, и
практику. Без них нельзя построить сколько-нибудь надежный прогноз, а значит - под
вопросом и успех в банковском деле, финансах, бизнесе. Поэтому курс эконометрики входит
в "ядро" учебных программ современного экономического вуза наряду с такими предметами,
как микроэкономика, макроэкономика, финансовый анализ.
Чем большим профессионалом становится экономист, тем яснее он понимает, что в
экономике неё зависит от всего. Причинно - следственными связями занимается
экономическая теория, а связями вообще, без выявления их причин - эконометрика.
Мы будем решать эконометрические задачи методом корреляционно-регрессионного
анализа.
Типы данных.
При моделировании экономических процессов оперируют двумя типами данных:
пространственными и временными:
- Пространственные данные — это данные по какому-либо экономическому показателю,
полученные от разных однотипных объектов (фирм, регионов и т.п.), но относящиеся к одному
и тому же моменту времени (пространственный срез). Например, данные об объеме производства, количестве работников, доходе разных фирм в один и гот же момент времени.
- Временные ряды — это данные, характеризующие один и тот же объект в различные
моменты времени (временной срез). Например, ежеквартальные данные об инфляции, средней
заработной плате, данные о национальном доходе за последние годы.
Отличительная черта временных данных — упорядоченность во времени. Кроме того,
наблюдения в близкие моменты времени часто бывают зависимы
Любые экономические данные представляют собой характеристики какого-либо
экономического объекта. Они формируются под воздействием множества факторов, не все
из которых доступны внешнему контролю. Неконтролируемые (неучтенные) факторы
обусловливают случайность данных, которые они определяют.
Поскольку экономические данные имеют статистическую природу, для их анализа и
обработки необходимо применять специальные методы.
Классы моделей.
Можно выделить три основных класса моделей: модели временных рядов,
регрессионные модели с одним уравнением и системы одновременных уравнений.
К моделям временных рядов относятся модели тренда и модели сезонности. Тренд
представляет собой устойчивое изменение уровня показателя в течение длительного
времени. Сезонность характеризует устойчивые внутригодовые колебания уровня
показателя.
Кроме того, к этому классу относится множество более сложных моделей, таких,
например, как модель адаптивного прогноза, модель авторегрессии.
Их общей чертой является то, что они объясняют поведение временного ряда исходя
только из его предыдущих значений.
В регрессионных моделях с одним уравнением объясняемая переменная
представляется в виде функции от объясняющих переменных. Примером служит модель
спроса на некоторый товар в зависимости от его цены и дохода.
По виду функции регрессионные модели делятся на линейные и нелинейные.
Существуют эффективные методы оценки и анализа линейных регрессионных моделей.
Анализ линейных регрессионных моделей является базовым в прикладной эконометрике.
Область применения регрессионных моделей, даже линейных, значительно шире, чем
моделей временных рядов.
При обработке и использовании статистических данных с целью получения как
научных, так и практических выводов важно проследить, как изменяется один признак
при изменении другого, т.е. найти уравнение связи и значения коэффициента корреляции
и детерминации, определяющие степень влияния одного признака на другой.
Задача корреляционного анализа – количественное определение тесноты связи
между двумя признаками (при парной связи) и между результативным и множеством
факторных признаков (при многофакторной связи).
Задача регрессионного анализа заключается в получении параметров функции,
описывающей (аппроксимирующей) экспериментальные данные, с наименьшей
среднеквадратичной погрешностью (МНК).
Корреляционно-регрессионный анализ как общее понятие включает в себя
измерение тесноты, направление связи и установление аналитического выражения
(формы) связи (регрессионный анализ).
Корреляция и регрессия тесно связаны между собой. Корреляция оценивает силу
(тесноту) статистической связи, регрессия исследует её форму. Та и другая служат для
установления соотношения между явлениями, для определения наличия или отсутствия
связи.
Регрессия может быть:
- однофакторной (парной);
- многофакторной (множественной).
По форме зависимости различают:
- линейную регрессию;
- нелинейную регрессию.
По направлению связи различают:
- прямую (положительную) регрессию;
- обратную (отрицательную) регрессию.
В практических исследованиях возникает необходимость аппроксимировать
(описать приблизительно) диаграмму рассеяния математическим уравнением. То есть
зависимость между переменными величинами Х и Y можно выразить аналитически с
помощью формул и уравнений и графически в виде геометрического место точек в
системе прямоугольных координат.
Статистическая связь между признаками выражают с помощью такой
математической функции, которая дает наименьшее отклонение от полученных при
наблюдении значений признаков. Уравнение связи называют также уравнением
регрессии.
Тема 2. Корреляционный анализ.
Виды взаимосвязей между признаками
Во всех случаях внимание исследователя привлекает зависимость между
различными величинами, описывающими интересующие его признаки.
Этой цели служит математическое понятие функции, имеющее в виду случаи,
когда определенному значению одной (независимой) переменной Х, называемой
аргументом, соответствует определенное значение другой (зависимой) переменной Y,
называемой функцией. Однозначная зависимость между переменными величинами Y и X
называется функциональной, т.е. Y = f(X).
Но такого рода однозначные или функциональные связи между переменными
величинами встречаются не всегда. Известно, например, что между объемом валового
внутреннего продукта (ВВП) и объемом добычи нефти существует положительная связь:
более высокие объемы добычи нефти обеспечивают более высокий ВВП государства.
Однако даже при отрицательной динамике добычи нефти ВВП в какие-то годы может
иметь напротив положительную динамику, что обусловлено тем, что на ВВП влияют
различные параметры (курс валюты, объем экспорта, объем высокотехнологичного
производства и т.д.).
Отсюда зависимость между рассматриваемыми параметрами приобретает
статистический характер, когда определенному значению одного признака,
рассматриваемого в качестве независимой переменной, соответствует не одно и то же
числовое значение, а целая гамма распределяемых в вариационный ряд числовых
значений другого признака, рассматриваемого в качестве независимой переменной.
Такого рода зависимость между переменными величинами называется корреляционной
или корреляцией (термин “корреляция” происходит от лат. correlatio — соотношение,
связь). При этом данный вид взаимосвязи между признаками проявляется в том, что при
изменении
одной
из
величин
изменяется
среднее
значение
другой.
Если функциональные связи одинаково легко обнаружить и на единичных, и на
групповых объектах, то этого нельзя сказать о связях корреляционных, которые
изучаются только на групповых объектах методами математической статистики.
Задача корреляционного анализа сводится к установлению направления и формы
связи между признаками, измерению ее тесноты и к оценке достоверности выборочных
показателей корреляции.
Корреляционная связь между признаками может быть линейной и криволинейной
(нелинейной),
положительной
и
отрицательной.
Прямая корреляция отражает однотипность в изменении признаков: с увеличением
значений первого признака увеличиваются значения и другого, или с уменьшением
первого уменьшается второй.
Обратная корреляция указывает на увеличение первого признака при уменьшении
второго или уменьшение первого признака при увеличении второго.
Например, больший прыжок и большее количество тренировок — прямая
корреляция, уменьшение времени, затраченного на преодоление дистанции, и большее
количество тренировок — обратная корреляция.
Корреляционные поля и цель их построения
Корреляция изучается на основании экспериментальных данных, представляющих
собой измеренные значения (xi, yi) двух признаков. Если экспериментальных данных
немного, то двумерное эмпирическое распределение представляется в виде двойного ряда
значений xi и yi. При этом корреляционную зависимость между признаками можно
описывать разными способами. Соответствие между аргументом и функцией может быть
задано таблицей, формулой, графиком и т. д.
Корреляционный анализ, как и другие статистические методы, основан на
использовании вероятностных моделей, описывающих поведение исследуемых признаков
в некоторой генеральной совокупности, из которой получены экспериментальные
значения
xi
и
yi.
Когда исследуется корреляция между количественными признаками, значения которых
можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и
т.д.), то очень часто принимается модель двумерной нормально распределенной
генеральной совокупности. Такая модель отображает зависимость между переменными
величинами xi и yi графически в виде геометрического места точек в системе
прямоугольных координат. Эту графическую зависимость называются также диаграммой
рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле)
позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к.
распределение в совокупности зависит от пяти параметров: x, y – средние значения
(математические ожидания); x y – стандартные отклонения случайных величин Х и Y и
р – коэффициент корреляции, который является мерой связи между случайными
величинами Х и Y.
Если р = 0, то значения, xi, yi, полученные из двумерной нормальной совокупности,
располагаются на графике в координатах х, у в пределах области, ограниченной
окружностью. В этом случае между случайными величинами Х и Y отсутствует
корреляция и они называются некоррелированными. Для двумерного нормального
распределения некоррелированность означает одновременно и независимость случайных
величин Х и Y.
Если р = 1 или р = -1, то между случайными величинами Х и Y существует
линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной
корреляции. При р = 1 значения xi, yi определяют точки, лежащие на прямой линии,
имеющей положительный наклон (с увеличением xi значения yi также увеличиваются),
при р = -1 прямая имеет отрицательный наклон.
В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi, yi,
попадают в область, ограниченную некоторым эллипсом, причем при p > 0 имеет место
положительная корреляция (с увеличением xi значения yi имеют тенденцию к
возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к , тем уже эллипс и
тем теснее экспериментальные значения группируются около прямой линии.
Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки,
может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д.
В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную)
корреляцию.
Таким образом, визуальный анализ корреляционного поля помогает выявить не
только наличия статистической зависимости (линейную или нелинейную) между
исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение
для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента
корреляции.
Корреляционную зависимость между признаками можно описывать разными способами.
В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X),
где признак Y – зависимая переменная, или функция от независимой переменной X,
называемой аргументом. Соответствие между аргументом и функцией может быть задано
таблицей, формулой, графиком и т. д.
Ковариация Тема 3. Ковариация. Дисперсия. Корреляция
Различают выборочную и теоретическую ковариацию.
Выборочная ковариация - является мерой взаимосвязи между двумя переменными.
Выборочной ковариацией двух переменных x,y называется средняя величина
произведения отклонений этих переменных от своих средних.
При наличии n наблюдений двух переменных (х и у) выборочная ковариация между
х и у задается формулой:
1 n
Cov( x, y )   ( xi  x)( y i  y ),
n i 1
где x, y - выборочные средние.
Другим эквивалентным выражением является
1 n
Cov( x, y )   xi y i  x * y
n i 1
Оно более удобно при расчетах ковариации.
Теоретическую ковариацию (т.е. относящуюся к генеральной совокупности)
между х и у обычно обозначают  ху или prop.cov(x,y) и определяют как
математическое ожидание произведения отклонений этих величин от их средних
значений:
 xy  M ( x   x )( y   y )
где  x ,  y - теоретические средние значения х и у.
Если эта теоретическая ковариация неизвестна, то для ее оценки можно
использовать выборочную ковариацию, вычисленную по ряду наблюдений. Но эта оценка
будет смещенной. Для получения несмещенной оценки нужно умножить выборочную
n
оценку на
n  1.
Основные правила расчета ковариации
1. Если у = v + w, то Cov(x,y)=Cov(x,v) + Cov(x,w)
2. Если у = аz,где а- константа, то
Cov(x,y) = aCov(x,z).
З.Если у = а , то Соv (х,у) = 0
Дисперсия
Для выборки из n наблюдений, х1х2,...,хп выборочная дисперсия определяется
формулой
1
( xi  x) 2

n
и является смещенной оценкой теоретической (генеральной) дисперсии  x2 .
Основные правила расчета дисперсии:
1. Если у = v + w, то Db(y)=Db(v)+Db(w)+2Cov{v,w).
2. Если у=az ,TO Db(y)=a2Db(z).
3. Если у = а, то Db (у)=0.
4. Если у = v + a, то Db (y)=Db (v).
Db ( x) 
Заметим, что дисперсию х можно рассматривать как ковариацию между двумя
величинами х:
1 n
Db(x)=  ( xi  x)( xi  x)  Cov( x, x).
n i 1
Используя соотношение (1.2) можно получить другую формулу для расчета Db(x):
1
n
n
x
i 1
2
i

 x
2
Коэффициент корреляции
Более точной мерой зависимости величин по сравнению с ковариацией является
тесно связанный с ней коэффициент корреляции.
Подобно дисперсии и ковариации, коэффициент корреляции имеет две формы:
теоретическую и выборочную. Для переменных х и у теоретический коэффициент
p xy 
 xy
 x2  y2
определяется следующим образом:
Если х и у независимы, то рху = 0, так как равна нулю теоретическая
ковариация. Если между х и у существует положительная зависимость, то  ху, а
следовательно, и рху будут положительными. Если существует строгая положительная
линейная зависимость, то рху принимает максимальное значение, равное 1, Аналогично при
отрицательной зависимости рху будет отрицательным с минимальным значением -1.
Выборочный коэффициент корреляции rху – определяется путем замены
теоретических ковариации и дисперсии в выражении (1.5) на их несмещенные оценки:
n
Cov( x, y )
n

1
rxy 
n
n
Db ( x) *
Db ( y )
n 1
n 1
Подобно величине р, коэффициент r имеет максимальное значение 1 при строгой
линейной положительной зависимости между выборочными значениями х и у (когда на
диаграмме рассеяния все точки находятся точно на восходящей прямой линии). Аналогично r принимает минимальное значение -1, когда существует линейная отрицательная
зависимость {точки лежат точно на нисходящей прямой линии).
Величина г = 0 показывает, что зависимость между наблюдениями Х и у в выборке
отсутствует. Разумеется, тот факт, что г =0, необязательно означает, что р = 0, и
наоборот.
Коэффициент частной корреляции определяется следующим соотношением
rxy  rxy ryz
rxy , я 
,
(1  rxz2 )(1  ryz2 )
где rxy,z - коэффициент частной корреляции между Х и у в случае постоянства
воздействия величины z.
Коэффициенты корреляции и их свойства.
Коэффициент корреляции р для генеральной совокупности, как правило,
неизвестен, поэтому он оценивается по экспериментальным данным, представляющим
собой выборку объема n пар значений (xi, yi), полученную при совместном измерении двух
признаков Х и Y. Коэффициент корреляции, определяемый по выборочным данным,
называется выборочным коэффициентом корреляции (или просто коэффициентом
корреляции). Его принято обозначать символом r.
Коэффициенты корреляции — удобный показатель связи, получивший широкое
применение в практике. К их основным свойствам необходимо отнести следующие:
1. Коэффициенты корреляции способны характеризовать только линейные связи,
т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной
зависимости между варьирующими признаками следует использовать другие показатели
связи.
2. Значения коэффициентов корреляции – это отвлеченные числа, лежащее в
пределах от —1 до +1, т.е. -1 < r < 1.
3. При независимом варьировании признаков, когда связь между ними отсутствует,
г = 0.
4. При положительной, или прямой, связи, когда с увеличением значений одного
признака возрастают значения другого, коэффициент корреляции приобретает
положительный (+) знак и находится в пределах от 0 до +1, т.е. 0 < r 1.
5. При отрицательной, или обратной, связи, когда с увеличением значений одного
признака соответственно уменьшаются значения другого, коэффициент корреляции
сопровождается отрицательным (–) знаком и находится в пределах от 0 до –1, т.е. -1 < r
<0.
6. Чем сильнее связь между признаками, тем ближе величина коэффициента
, то корреляционная связь переходит в функциональную,
т.е. каждому значению признака Х будет соответствовать одно или несколько строго
определенных значений признака Y.
7. Только по величине коэффициентов корреляции нельзя судить о достоверности
корреляционной связи между признаками. Этот параметр зависит от числа степеней
свободы k = n –2, где: n – число коррелируемых пар показателей Х и Y. Чем больше n, тем
выше достоверность связи при одном и том же значении коэффициента корреляции.
В практической деятельности, когда число коррелируемых пар признаков Х и Y не
велико (
), то при оценке зависимости между показателями используется
следующую
градацию:
1) высокая степень взаимосвязи – значения коэффициента корреляции находится в
пределах от 0,7 до 0,99;
2) средняя степень взаимосвязи – значения коэффициента корреляции находится в
пределах от 0,5 до 0,69;
3) слабая степень взаимосвязи – значения коэффициента корреляции находится от
0,2 до 0,49.
Нормированный коэффициент корреляции Браве-Пирсона
В качестве оценки генерального коэффициента корреляции р используется
коэффициент корреляции r Браве–Пирсона. Для его определения принимается
предположение о двумерном нормальном распределении генеральной совокупности, из
которой получены экспериментальные данные. Это предположение может быть
проверено с помощью соответствующих критериев значимости. Следует отметить, что
если по отдельности одномерные эмпирические распределения значений xi и yi
согласуются с нормальным распределением, то из этого еще не следует, что двумерное
распределение будет нормальным. Для такого заключения необходимо еще проверить
предположение о линейности связи между случайными величинами Х и Y. Строго говоря,
для вычисления коэффициента корреляции достаточно только принять предположение о
линейности связи между случайными величинами, и вычисленный коэффициент
корреляции будет мерой этой линейной связи.
Коэффициент корреляции Браве–Пирсона (
) относится к параметрическим
коэффициентам и для практических расчетов вычисляется по формуле:
Из формулы видно, что для вычисления
необходимо найти средние значения
признаков Х и Y, а также отклонения каждого статистического данного от его среднего
.
Зная
эти
значения,
находятся
суммы
.
Затем, вычислив значение
, необходимо определить достоверность найденного
коэффициента корреляции, сравнив его фактическое значение с табличным для k = n –2
(табл. 10 приложения). Если
, то можно говорить о том, что между признаками
наблюдается достоверная взаимосвязь. Если
, то между признаками наблюдается
недостоверная корреляционная взаимосвязь.
Коэффициент ранговой корреляции Спирмена
Применение линейного коэффициента корреляции для оценки степени тесноты
связи между признаками обусловлено лишь в условиях нормального распределения
признаков в изучаемой совокупности. Кроме того, для определения величины
коэффициента Пирсона необходимо, чтобы значения признаков имели количественное
выражение. В то же время довольно-таки часто встречаются случаи, когда качественные
(например, «лучше-хуже») признаки не поддаются численному выражению.
Именно эти обстоятельства заставляют грамотных специалистов прибегать к
использованию непараметрических методов, достоинство которых заключается в
возможности определять степень связи между качественными признаками.
В основу этих методов положен принцип ранжирования членов вариационного
ряда. По этой причине коэффициенты получили название коэффициентов ранговой
корреляции.
Коэффициент ранговой корреляции Спирмэна – непараметрическая оценка,
позволяющая измерить тесноту связи как между количественными, так и между
качественными признаками, основанная на рассмотрении разности рангов значений
факторного и результативного признаков:
rxe  1 
6 *  Di
2
n3  n
Di2 - cумма квадратов разностей рангов
n – число парных наблюдений
Если потребуется установить связь между двумя признаками, значения которых в
генеральной совокупности распределены не по нормальному закону, т. е. предположение
о том, что двумерная выборка (xi и yi) получена из двумерной нормальной генеральной
совокупности, не принимается, то можно воспользоваться коэффициентом ранговой
корреляции Спирмена (
):
где:
dx
и
dy
–
ранги
показателей
xi
и
yi;
n – число коррелируемых пар.
Коэффициент ранговой корреляции также имеет пределы 1 и –1. Если ранги
одинаковы для всех значений xi и yi, то все разности рангов (dx - dy) = 0 и = 1. Если ранги xi
и yi расположены в обратном порядке, то = -1. Таким образом, коэффициент ранговой
корреляции является мерой совпадения рангов значений xi и yi.
Когда ранги всех значений xi и yi строго совпадают или расположены в обратном
порядке, между случайными величинами Х и Y существует функциональная зависимость,
причем эта зависимость не обязательно линейная, как в случае с коэффициентом
линейной корреляции Браве-Пирсона, а может быть любой монотонной зависимостью (т.
е. постоянно возрастающей или постоянно убывающей зависимостью). Если зависимость
монотонно возрастающая, то ранги значений xi и yi совпадают и
= 1; если зависимость
монотонно убывающая, то ранги обратны и
= –1. Следовательно, коэффициент
ранговой корреляции является мерой любой монотонной зависимости между случайными
величинами Х и Y.
Из формулы (8.2) видно, что для вычисления необходимо сначала проставить
ранги (dx и dy) показателей xi и yi, найти разности рангов (dx - dy) для каждой пары
показателей и квадраты этих разностей (dx - dy)2. Зная эти значения, находятся суммы
, учитывая, что
всегда равна нулю. Затем, вычислив
значение
, необходимо определить достоверность найденного коэффициента
корреляции, сравнив его фактическое значение с табличным (табл. 9 приложения). Если
, то можно говорить о том, что между признаками наблюдается достоверная
взаимосвязь. Если
, то между признаками наблюдается недостоверная
корреляционная взаимосвязь.
Коэффициент ранговой корреляции Спирмена вычисляется значительно проще,
чем коэффициент корреляции Браве-Пирсона при одних и тех же исходных данных,
поскольку при вычислении используются ранги, представляющие собой обычно целые
числа.
Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:
- Если экспериментальные данные представляют собой точно измеренные
значения признаков Х и Y и требуется быстро найти приближенную оценку коэффициента
корреляции. Тогда даже в случае двумерного нормального распределения генеральной
совокупности можно воспользоваться коэффициентом ранговой корреляции вместо
точного коэффициента корреляции Браве-Пирсона. Вычисления будут существенно
проще, а точность оценки генерального параметра р с помощью коэффициента при
больших объемах выборки составляет 91,2% по отношению к точности оценки по
коэффициенту корреляций.
- Когда значения xi и (или) yi заданы в порядковой шкале (например, оценки судей
в баллах, места на соревнованиях, количественные градации качественных признаков), т.
е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут
быть расставлены в определенном порядке.
Тема 4. Модель парной линейной регрессии.
Рассмотрим некоторый экономический объект (процесс, явление, систему) и
выдели только две переменные, характеризующие объект. Обозначим переменные
буквами Х и У. Будем предполагать, что независимая (объясняющая) переменная Х
оказывает воздействие на значения переменной Н, которая, таким образом, является
зависимой переменной, т.е. имеет место зависимость: У = f(х).
В модели парной линейной регрессии зависимость между переменными в
генеральной совокупности представляется в виде:
y   *xu
где х – неслучайная величина, а y и u – случайные величины.
Величина у называется объясняемой (зависимой) переменной, а х – объясняющей
(независимой) переменной. Постоянные α и β – параметры уравнения. Наличие
случайного члена u (ошибки регрессии) связано с воздействием на зависимую
переменную других неучтенных в уравнении факторов, с возможной нелинейностью
модели и ошибками измерения.
На основе выборочного наблюдения оценивается выборочное уравнение регрессии
(линия регрессии):
Ŷ = а + b*x
Где (a, b) – оценка параметра (α, β).
Неизвестные значения (a, b) определяются методом наименьших квадратов (МНК).
Суть МНК заключается в минимизации суммы квадратов остатков.
Угловой коэффициент связи (параметр b) т.н. коэффициент наклона, показывает на
сколько единиц в среднем изменяется переменная y при увеличении независимой
переменной х на единицу. Вычисляется по формуле:
b
Cov( x, y )
Db ( x)
Свободный член уравнения (параметр а) – это постоянная, которая дает
прогнозируемое значение зависимой переменной при х = 0. Это может иметь смысл в
зависимости от того, как далеко находится х = 0 от выборочного значения х. Определяется
по формуле:
a  y  bx
Тема 5. Нелинейные модели регрессии и их линеаризация.
Нелинейные регрессии делятся на два класса:
1. регрессии, нелинейные относительно включенных в анализ объясняющих
переменных, но линейные по оцениваемым параметрам
2. регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным
y    1 x   2 x 2   3 x 3  u
полиномы разных степеней
y  

u
x
равносторонняя гипербола
2
парабола y  a  bx  cx
Регрессии, нелинейные по оцениваемым параметрам:

степенная y  x u
показательная y   x * u
экспоненциальная
y    x u
Тема 6. Множественный регрессионный анализ
Модель с двумя независимыми переменными
Множественный регрессионный анализ является развитием парного регрессионного
"анализа для случаев, когда зависимая переменная предположительно связана с более чем
одной независимой переменной.
При расширении парной регрессионной модели возникают две новые проблемы. Вопервых, при оценке влияния данной независимой переменной на зависимую переменную
необходимо решить проблему разграничения ее воздействия и воздействий других независимых переменных. Во вторых, нужно решить проблему спецификации модели.
В этой главе предположим, что спецификация модели правильная и рассмотрим
случай двух независимых переменных. В качестве примера запишем уравнение, в котором
определяются факторы совокупного спроса на продукты питания:
у = а -βх + β2p + и
где у - общая величина расходов на питание;
х - располагаемый личных доход:
р - цена продуктов питания.
Вывод коэффициентов множественной регрессии
Как и в случае парной регрессии, оценка оптимальности соответствия определяется
минимизацией суммы квадратов отклонений S:
S=e12+e22+…e2т
(5.1)

где еi = yi - yi - остаток в i-м наблюдении, т.е. разность между фактическим

значением уi в этом наблюдении и значением yi = а + b1x1i+ b 2x2i прогнозируемым
по уравнению регрессии
S   ei2   ( yi  a  b1 x1i  b2 x2i ) 2
Необходимые условия первого порядка для минимума дают следующие
уравнения:
S
 2 ( y i  a  b1 x1i  b2 x 2i )  0
a
S
 2 x1i ( y i  a  b1 x1i  b2 x 2i )  0
b1
S
 2 x 2i ( y i  a  b1 x1i  b2 x 2i )  0
b2
Получили три уравнения с тремя неизвестными а, Ь1 и Ь2. Выразим а из 1-го
уравнения
a  y  b1 x 1  b2 x 2
Используя это выражение и два других уравнения, после преобразований можно
получить выражение:
Cov( x1 , y ) Db ( x 2 )  Cov( x 2, y )Cov( x1 , x 2 )
b1 
2
Db ( x1 ) Db ( x 2 )  Cov( x1 , x 2 )
Отсюда следует, что принципы, лежащие s основе вычисления коэффициентов
парной и множественной регрессии не различается. Но используемые при этом формулы
будут разными.
Общая модель
Допустим, что переменная у связана с к независимыми переменными X1, Х2, .... Хk:
неизвестной истинной зависимостью
у =а + β1 х1 + ... + βкхк +и
Оценим это уравнение по МНК:

y  a  b1 x1  ...  bk xk
Это означает минимизацию суммы квадратов отклонений
S   ei2 , где

ei  yi  y  yi  a  b1 x1i  b2 x2i  ...  bk xki
Мы выбираем a, b1 bk так, чтобы свести к минимуму S, в итоге получаем (к+1)
условий первого порядка S / a =0, S / b1 =0,..., S / bk =0, что дает (к+1) уравнение для
нахождения к+1 неизвестного. Из первого уравнения можно получить а:
а = y  b1 x1  b2 x2  ...  bk xk
Выражения для b1, b2... Ьk становятся очень сложными. Для практических примеров
вычисления вручную неприемлемы, и для нахождений решений следует использовать
компьютер.
Множественная регрессия - уравнение связи с несколькими независимыми
переменными
y  f ( x1, x2,......, xk )
Линейное уравнение множественной регрессии имеет вид:
y    1 x1   2 x2  ......   k xk  u
rx1 , y 
cov( x1 ; y )
Db ( x1 ) * Db ( y )
rx2 , y 
cov( x2 ; y )
Db ( x2 ) * Db ( y )
rx1 , x2 
cov( x1 ; x2 )
Db ( x1 ) * Db ( x2 )
b1 
b2 
Db ( y )
Db ( x1 )
Db ( y )
Db ( x2 )
*
*
rx1 y  rx2 y * rx1 x2
1  r 2 x1 x2
rx2 y  rx1 y * rx1 x2
1  r 2 x1 x2
a  y  b1 * x1  b1 * x2
Свойства коэффициентов множественной регрессии
Как и в случает парного регрессионного анализа, каждый коэффициент регрессии
вычисляется как функция значений у и независимых переменных в выборке, а у определяется
независимыми переменными и случайным членом. Следовательно, коэффициенты
регрессии определяются значениями независимых переменных и случайным членом, а
их свойства зависят от свойств последнего
Мы продолжаем считать, что выполняются условия Гаусса-Маркова: 1)
математическое ожидание U в любом наблюдении равно нулю; 2) теоретическая дисперсия
его распределения одинакова для всех наблюдений; 3) теоретическая ковариация его
значений в любых двух наблюдениях равна нулю; 4) распределение U независимо от
распределения любой объясняющей переменной. Первые три условия идентичны условиям
для парного регрессионного анализа, а четвертое является обобщением своего аналога.
Примем усиленные вариант этого условия, допустив, что независимые переменные являются
нестохастическими.
Существует еще два практических требования. Во-первых, нужно иметь достаточно
данных для проведения линии регрессии, что означает наличие стольких (независимых)
наблюдений, сколько параметров необходимо оценить. Во-вторых, между независимыми
переменными не должно существовать строгой линейной зависимости
Аналогично парному регрессионному анализу
можно показать, что при
выполнении четвертого условия bi является несмещенной оценкой β1:
M(b1)=β1
Тема 7. Проверка качества уравнения регрессии и его параметров.
Точность коэффициентов множественной регрессии
В теореме Гаусса-Маркова для множественного регрессионного анализа
доказывается, что как и для парной регрессии, обычный МНК дает наиболее эффективные
линейные оценки в том смысле, что на основе той же самой выборочной информации
невозможно найти другие несмещенные оценки с меньшей дисперсией при выполнении
условий Гаусса-Маркова. Мы не будем доказывать эту теорему, но исследуем факторы,
регулирующие возможную точность коэффициентов. В общем случае можно сказать, что
коэффициенты регрессии являются более точными:
- чем больше число наблюдений в выборке;
- чем больше дисперсия выборки объясняющих переменных:
- чем меньше теоретическая дисперсия случайного члена;
- чем меньше связаны между собой объясняющие переменные.
Первые три условия повторяют условия для парного регрессионного анализа. Лишь
четвертое является новым. Рассмотрим случай с двумя независимыми переменными. Если
истинная зависимость имеет вид
Y=a+β1x1+β2x2+u
и мы получили уравнение регрессии:

y , a  b1 x1  b2 x2
то теоретическая
дисперсия
вероятностного распределения для b1 будет
описываться выражением:
 u2
1
nDb ( x1 ) 1  rx21 , x2
где  u2 - теоретическая дисперсия и.
 b2 
1
*
Аналогичное выражение можно получить для  b22 , заменив Db(x1) на Db(x2}).
Из уравнения
видно, что, как и в случае парного регрессионного анализа,
желательно, чтобы величины n и Db(x1) были большими, а величина  u2 - малой. Но здесь
мы получили еще и член (1-r2x1.x2). и вполне очевидно, что желательно иметь слабую
корреляцию между X1 и Х2. Если между X1 и Х2 существует нестрогая линейная
зависимость, то коэффициент корреляции rx1.x2., будет близок к 1, если зависимость
положительна, к -1, если зависимость отрицательна.
Отметим, что отсюда не следует автоматически, что b1 и b2 будут иметь большие
теоретические дисперсии, если между X1 и Х2 существует нестрогая линейная зависимость.
Дисперсии также зависят от n и  u2 , как и в случае парного регрессионного анализа. Если n
велико, а  u2 мало, то теоретические дисперсии b1 и Ь2 могут быть небольшими, несмотря
на нестрогую линейную зависимость.
Стандартная ошибка коэффициентов множественной регрессии
Эта ошибка имеет тот же смысл, что и в парном регрессионном анализе, т.е. она
служит оценкой стандартного отклонения распределения коэффициента регрессии вокруг
его истинного значения. Как и парном регрессионном анализе, формулу для стандартной
ошибки можно вывести из выражения дисперсии распределения, заменяя  u2 на
несмещенную оценку и извлекая квадратный корень. Как и прежде, значимость
полученного выражения зависит от правильной спецификации модели и выполнения
условий Гаусса-Маркова для случайного члена.
Несмещенную оценку  u2
можно получить, умножая Db(e), т.е. выборочную
дисперсию остатков, на n/n-3.Следовательно:
c.o.(b1 ) 

S u2
1
*

nDb ( x1 ) 1  rx21 . x2
(n / n  3) Db (e)
1
*

nDb ( x1 )
1  rx21 . x2
Db (e)
1
*
(n  3) Db ( x1 ) 1  rx21 . x2
Выражение для стандартной ошибки b2 можно получить путем перестановки
индексов.
Выполнение четырех условий, которые сформулированы в начале раздела, позволяет
получить довольно надежные оценки коэффициентов регрессии. Тесная линейная связь
между объясняющими переменными приводит к значению r2x1.x2 близкому к единице, а
следовательно, стандартные ошибки (при прочих равных условиях) будут относительно
большими, что отражает вероятную неточность коэффициентов регрессии.
t-тесты и доверительные интервалы
t- тесты для коэффициентов множественной регрессии выполняются также, как и в
парном регрессионном анализе. Критический уровень t при любом уровне значимости
зависит от числа степеней свободы (п - к - 1), где n - число наблюдений, к - число
оцениваемых параметров Доверительный интервал определяется точно так же, как и в
парном регрессионном анализе с учетом указанного числа степеней свободы.
Качество оценивания: коэффициент R2
Как и в парном регрессионном анализе, коэффициент детерминации R2
определяет долю дисперсии, объясненную регрессией. Этот коэффициент никогда не
уменьшается (а обычно увеличивается) при добавлении переменной в уравнение регрессии,
если все ранее включенные переменные сохраняются Для иллюстрации этого предположим,
что мы оценивая регрессионную зависимость у от X1 и Х2, получили уравнения вида:

y = а + b1 x 1 - Ь2 х2

Далее предположим, что мы оцениваем регрессионную зависимость у только от х1:


y  a  b 1 x1
Это уравнение можно записать в виде:

y  a   b 1 x1 + 0x2
F- Тесты
Когда мы используем регрессивный анализ для деления дисперсии у на
"объясненную" и "необъясненную" составляющие, можно так построить F- статистику:
ESS / k
RSS /( n  k  1)
F=
где ESS - объясненная сумма квадратов отклонений; RSS -остаточная (необъясненная)
сумма квадратов.
С помощью F- теста можно определить, действительно ли объясненная сумма
квадратов больше той, которая может иметь место случайно. Для этого по таблице находят
критическое значение F-критерия.
Чаще всего F- тест используется для оценки того, значимо ли объяснение, даваемое
уравнением в целом. Кроме того, с помощью F- статистик можно выполнить ряд
дополнительных тестов.
Уравнение в целом
При осуществлении F- теста для уравнения в целом проверяется, превышает ли R2 то
значение, которое может быть получено случайно. Проверим, является ли значимой
совместная объясняющая способность к независимых переменных; тест для этого может быть
описан, как проверка нулевой гипотезы:
Но
β1 = β2 = …= βk= 0
Этот тест дополняет t- тесты для проверки значимости вклада отдельных случайных
переменных, когда проверяется каждая из гипотез β1 = 0, ..βк = 0 .
Согласно преобразованиям F- статистику можно записать:
R2 / k
(1  R 2 ) /( n  k  1)
Критическое значение Fкрит. находят по таблице.
F
Для оценки параметров уравнения множественной регрессии применяют МНК. В
случае двух объясняющих переменных МНК дает следующие расчетные формулы оценок
неизвестных параметров:
b1 
COV x1 y * Db x2   COV x2 y * COV x1 x2 
2
Db x1 Db x2   COV x1, x2 
Выражение для b2 можно получить путем перестановки х1 и х2 в соотношении
a  y  b1 x1  b2 x2
Стандартная ошибка коэффициентов регрессии, вычисляется по формуле
Su2
1
с.о(b1 ) 
*
nDb x1  1  r 2 x1 x2
Выражение для стандартной ошибки можно получить путем перестановки индексов.
t -тесты для коэффициентов множественной регрессии выполняются также, как и в
парном регрессионном анализе.
Как и в парном регрессионном анализе, коэффициент детерминации R2 определяет
долю дисперсии, объединенную регрессией.
В случае множественной регрессии F-тест чаще всего используют для оценке того,
значимо ли объединение, даваемое уравнением в целом.
Тема 8. Автокорреляция и гетескедастичность
Проверка на наличие автокорреляции остатков.
Важной предпосылкой построения качественной регрессионной модели по МНК
является независимость значений случайных отклонений от значений отклонений во всех
других наблюдениях. Это гарантирует отсутствие коррелированности между любыми
отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция
между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или
в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно
встречается в регрессионном анализе при использовании данных временных рядов и
очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная
автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев
положительная автокорреляция вызывается направленным постоянным воздействием
некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным
отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если
ту же зависимость между спросом на прохладительные напитки и доходами
рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию, можно выделить
следующие:
- Ошибки спецификации. Неучет в модели какой-либо важной объясняющей
переменной либо неправильный выбор формы зависимости обычно приводят к системным
отклонениям точек наблюдения от линии регрессии, что может обусловить
автокорреляцию;
- Инерция. Многие экономические показатели (инфляция, безработица, ВНП и
т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой
активности. Поэтому изменение показателей происходит не мгновенно, а обладает
определенной инертностью;
- Эффект паутины. Во многих производственных и других сферах экономические
показатели реагируют на изменение экономических условий с запаздыванием (временным
лагом);
- Сглаживание данных. Зачастую данные по некоторому продолжительному
временному периоду получают усреднением данных по составляющим его интервалам.
Это может привести к определенному сглаживанию колебаний, которые имелись внутри
рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности:
выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и
коэффициента детерминации, возможно, будут неверными.
Обнаружение автокорреляции
- Графический метод:
Есть ряд вариантов графического определения автокорреляции. Один из них
увязывает отклонения εi с моментами их получения i. При этом по оси абсцисс
откладывают либо время получения статистических данных, либо порядковый номер
наблюдения, а по оси ординат – отклонения εi (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между
отклонениями, то автокорреляция имеет место. Отсутствие зависимости скорее всего
будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости
εi от εi-1
- Коэффициент автокорреляции.
Error!
Если коэффициент автокорреляции rei < 0.5, то есть основания утверждать, что
автокорреляция отсутствует.
3. Критерий Дарбина-Уотсона.
Этот критерий является наиболее известным для обнаружения автокорреляции.
При статистическом анализе уравнения регрессии на начальном этапе часто
проверяют выполнимость одной предпосылки: условия статистической независимости
отклонений между собой. При этом проверяется некоррелированность соседних величин
ei.
y
120
123
130
135
140
139
150
162
175
178
y(x)
115.47
122.08
128.68
135.29
141.9
148.5
155.11
161.72
168.32
174.93
ei = y-y(x)
4.53
0.92
1.32
-0.29
-1.9
-9.5
-5.11
0.28
6.68
3.07
e2
20.5
0.85
1.73
0.0846
3.6
90.31
26.1
0.0811
44.61
9.44
197.3
(ei - ei-1)2
0
13
0.16
2.58
2.58
57.85
19.31
29.09
40.88
13
178.46
Для анализа коррелированности отклонений используют статистику ДарбинаУотсона:
Error!
Error!
Критические значения d1 и d2 определяются на основе специальных таблиц для
требуемого уровня значимости α, числа наблюдений n = 10 и количества объясняющих
переменных m=1.
Автокорреляция отсутствует, если выполняется следующее условие:
d1 < DW и d2 < DW < 4 - d2.
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и
считать, что автокорреляция остатков отсутствует, если 1.5 < DW < 2.5. Поскольку 1.5 >
0.9045 < 2.5, то автокорреляция остатков присутствует.
Для более надежного вывода целесообразно обращаться к табличным значениям.
По таблице Дарбина-Уотсона для n=10 и k=1 (уровень значимости 5%) находим: d1
= 1.08; d2 = 1.36.
Поскольку 1.08 < 0.9045 и 1.36 < 0.9045 < 4 - 1.36, то автокорреляция остатков
присутствует.
Проверка наличия гетероскедастичности.
- Методом графического анализа остатков.
В этом случае по оси абсцисс откладываются значения объясняющей переменной
X, а по оси ординат либо отклонения ei, либо их квадраты e2i.
Если имеется определенная связь между отклонениями, то гетероскедастичность
имеет место. Отсутствие зависимости скорее всего будет свидетельствовать об отсутствии
гетероскедастичности.
2) При помощи теста ранговой корреляции Спирмена.
Коэффициент ранговой корреляции Спирмена.
Присвоим ранги признаку ei и фактору X. Найдем сумму разности квадратов d2.
По формуле вычислим коэффициент ранговой корреляции Спирмена.
Error!
X
ei
1
2
3
4
5
6
7
8
9
10
-4.53
-0.92
-1.32
0.29
1.9
9.5
5.11
-0.28
-6.68
-3.07
ранг X, ранг ei, dy (dx - dy)2
dx
1
2
1
2
5
9
3
4
1
4
7
9
5
8
9
6
10
16
7
9
4
8
6
4
9
1
64
10
3
49
166
Error!
Связь между признаком ei и фактором X слабая и обратная
Оценка коэффициента ранговой корреляции Спирмена.
Значимость коэффициента ранговой корреляции Спирмена
Error!
По таблице Стьюдента находим tтабл:
tтабл (n-m-1;α/2) = (8;0.05/2) = 2.306
Поскольку Tнабл < tтабл , то принимаем гипотезу о равенстве 0 коэффициента
ранговой корреляции. Другими словами, коэффициент ранговой корреляции
статистически - не значим.
Интервальная оценка для коэффициента корреляции (доверительный интервал).
Error!
Доверительный интервал для коэффициента ранговой корреляции
r(-0.7353;0.7231)
Проверим гипотезу H0: гетероскедастичность отсутствует.
Тема 9. Адаптивные методы прогнозирования.
При анализе временных рядов часто более важной бывает текущая тенденция
(тенденция в данный момент времени, определяемая несколькими последними
наблюдениями), а не тенденция, сложившая на длительном интервале времени.
Соответственно, наиболее ценной является информация последнего периода. Исходя из этого
в последнее время важное значение получили, так называемые, адаптивные методы
прогнозирования.
Адаптивными называются методы прогнозирования, позволяющие строить
самокорректирующиеся (самонастраивающиеся) экономико-математические модели, которые
способны оперативно реагировать на изменение условий путем учета результата прогноза,
сделанного на предыдущем шаге, и учета различной информационной ценности уровней
ряда.
Особенности адаптивных методов прогнозирования:
– способность учитывать информационную ценность уровней временного ряда (с
помощью системы весов, придаваемых этим уровням);
– использование рекуррентных процедур уточнения параметров модели по мере
поступления новых данных наблюдений и тем самым адаптация модели применительно к
новым условиям развития явления.
Скорость (быстроту) реакции модели на изменения в динамике процесса
характеризует, так называемый, параметр адаптации. Параметр адаптации должен быть
выбран таким образом, чтобы обеспечивалось адекватное отображение тенденции при
одновременной фильтрации случайных отклонений. Значение параметра адаптации может
быть определено на основе эмпирических данных, выведено аналитическим способом или
получено на основе метода проб. В качестве критерия оптимальности при выборе параметра
адаптации обычно принимают минимум среднего квадрата ошибок прогнозирования.
Благодаря указанным свойствам адаптивные методы особенно удачно используются при
краткосрочном прогнозировании (при прогнозировании на один или несколько шагов
вперед). Адаптивные методы, как правило, основаны на использовании процедуры
экспоненциального сглаживания.
Экспоненциальное сглаживание. Для экспоненциального сглаживания временного
ряда уt используется рекуррентная формула:
где St – значение экспоненциальной средней в момент t;
уt – значение времен- ного ряда в момент t;
α – параметр сглаживания, α = const, 0< α < l; β = 1 – α .
Совокупность значений St образует сглаженный временной ряд.
Это соотношение позволяет выразить экспоненциальную среднюю St через
предшествующие значения уровней временного ряда уt. При n → ∞ :
Таким образом, величина St оказывается взвешенной суммой всех членов ряда.
Причем веса отдельных уровней ряда
убывают по мере их удаления в прошлое
соответственно экспоненциальной функции (в зависимости от «возраста» наблюдений).
Например, при α = 0,4 вес текущего наблюдения уt будет равен α = 0,4, вес предыдущего
уровня уt–1 будет соответствовать α ·β = 0,4·0,6 = 0,24; для уровня уt–2 вес составит α ·β2 =
0,144; для yt–3 – α ·β3 = 0,0864 и т. д. Доказано, что математические ожидания исходного ряда
и экспоненциальной средней совпадают. В то же время дисперсия экспоненциальной средней
D(St) меньше дисперсии временного ряда σ2. Чем меньше α, тем это отличие больше. Таким
образом, с одной стороны, желательно увеличивать вес более свежих наблюдений, что может
быть достигнуто повышением α, с другой стороны, для сглаживания случайных отклонений
величину α нужно уменьшить. Выбор параметра сглаживания α с учетом этих двух
противоречивых требований составляет задачу оптимизации модели. В качестве начального
значения S0 используется среднее арифметическое значение из всех имеющихся уровней
временного ряда или из какой-то их части.
Использование экспоненциальной средней для краткосрочного прогнозирования. При
использовании экспоненциальной средней для краткосрочного прогнозирования
предполагается, что модель ряда имеет вид:
где
– варьирующий во времени средний уровень ряда;
– случайные неавтокоррелированные отклонения с нулевым математическим
ожиданием и дисперсией σ2.
Прогнозная модель определяется соотношением:
где ŷτ(t) – прогноз, сделанный в момент t на τ единиц времени (шагов) вперед;
– оценка
.
Величина параметра модели
момент t:
принимается равной экспоненциальной средней St в
Прогнозирование предполагает следующую последовательность действий:
– на основании исходного временного ряда y1, y2, …, yn вычисление сглаженных
уровней ряда S1, S2, …, Sn;
– вычисление
;
– осуществление прогноза на τ шагов вперед
Перегруппировав члены можно записать формулу:
.
Если величину
рассматривать как погрешность прогноза, то но- вый
прогноз St получается как результат корректировки предыдущего прогноза с учетом его
ошибки. В этом и состоит адаптация модели. Экспоненциальное сглаживание является
примером простейшей самообучающейся модели. Вычисления выполняются итеративно,
причем вся прошлая информация заключена в единственном значении St–1.
Адаптивные полиномиальные модели. Если для прогнозирования временного ряда,
имеющего ярко выраженную линейную тенденцию, использовать подход опирающийся на
модель экспоненциального сглаживания, то модель, как правило, будет давать смещенные
прогнозы, т. е. иметь систематическую ошибку. Для таких временных рядов целесообразно
использовать модели линейного роста, в которых процедуре экспоненциального сглаживания
подвергаются оценки коэффициентов адаптивной модели. В этих моделях прогноз может
быть получен с помощью следующего выражения:
где
– текущие оценки коэффициентов; τ – время упреждения прогноза.
Наиболее часто применяются три модели данного типа, отличающиеся
рекуррентными выражениями для пересчета текущих оценок коэффициентов (параметры
адаптации или параметры экспоненциального сглаживания 0 < α1, α2, α3, β < 1):
– двухпараметрическая модель Ч. Хольта:
– однопараметрическая модель Р. Брауна
– трехпараметрическая модель Дж. Бокса и Г. Дженкинса
Начальные
значения
коэффициентов
принимаются
равными
коэффициентам уравнения регрессии, построенного по начальным уровням ряда. В
эконометрических пакетах чаще представлена модель Ч. Хольта с возможностью выбора
оптимальных параметров по критерию минимума среднеквадратической ошибки путем
перебора на сетке возможных значений. Рекуррентные формулы для оценки коэффициентов
по этой модели могут быть записаны в виде, явно показывающем зависимость
«корректирующего воздействия» от величины ошибки:
где
– ошибка прогноза. Из последних выражений видно, что модель
Р. Брауна можно считать частным случаем модели Ч. Хольта. При этом единственный
параметр β играет роль коэффициента дисконтирования наблюдений.
Исследование взаимосвязи двух временных рядов.
Модели, построенные на основе данных, характеризующих какой-либо объект за ряд
последовательных моментов (периодов) времени, называются моделями временных рядов.
Исследование взаимосвязи между переменными, за- данными при помощи временных рядов
имеет существенные особенности. Наличие в составе временных рядов тенденций и
периодических компонент может при применении обычных методов корреляционного или
регрессионного анализа привести к явлениям «ложной корреляции» или «ложной регрессии».
В этом случае абсолютная величина коэффициента корреляции между переменными х и у,
абсолютно не влияющими друг на друга, имеет высокое значение вследствие зависимости
каждой из них от времени, либо коэффициент детерминации свидетельствует о высоком
качестве полученной между ними регрессии. Чтобы избежать этого, перед изучением
взаимосвязи между переменными х и у необходимо предварительно исключить из уровней
временных рядов влияние тенденции и периодической компоненты.
Для исключения тенденции применяются такие методы, как метод последовательных
разностей, метод отклонений от тренда, метод явного включения в модель регрессии по
временным рядам фактора времени.
Метод отклонений от тренда. Рассмотрим два временных ряда хt и уt, каждый из
которых содержит трендовую компоненту Т и случайную компоненту . Предположим, что
проведено аналитическое выравнивание этих рядов и найдены параметры соответствующих
уравнений тенденций
и
. Вычитание расчетных значений уровней ряда
и
из фактических хt и уt позволяет устранить влияние тенденции в обоих рядах.
Дальнейший анализ взаимосвязи рядов проводят с использованием отклонений от тренда
и
,
т.
е.
уравнение
регрессии
строится
в
виде
.
Метод последовательных разностей. Если временной ряд содержит ярко
выраженную полиномиальную тенденцию (имеющую вид полинома от времени t), то с
целью устранения тенденции можно применить метод последовательных разностей,
заключающийся в замене исходных уровней ряда последовательными разностями
соответствующих порядков (порядок разности равен порядку поли- нома).
Последовательными разностями первого порядка называются величины
.
Последовательными
разностями
второго
порядка
называются
величины
и т. д. Замена исходных уровней ряда последовательными разностями
первого порядка позволяет устранить линейную тенденцию, задаваемую уравнением у = a +
b · t. Замена исходных уровней ряда последовательными разностями второго порядка
позволяет устранить параболическую тенденцию, задаваемую уравнением в виде полинома
второго порядка
, и т. д.
Если тенденция временного ряда характеризуется экспоненциальной зависимостью,
то временной ряд из логарифмов исходных уровней будет иметь линейную тенденцию, что
позволяет применить метод последовательных разностей к ряду логарифмов. С
использованием первых разностей
уравнение регрессии находится в виде
или
.
Включение в модель регрессии фактора времени. Включение фактора времени в
модель в качестве независимой переменной позволяет зафиксировать тенденцию с целью
исключения ее влияния на параметры модели. Уравнение парной регрессии в этом случае
принимает следующий вид
Этот же прием может быть использован, если число факторов больше единицы.
Параметры а, b1, b2 модели с включением времени в качестве фактора определяются
обычным МНК. Параметры уравнения регрессии (могут быть проинтерпретированы
следующим образом: – параметр b1 показывает, насколько в среднем изменится значение
результативного признака уt при увеличении фактора xt на единицу при неизменной
величине других факторов; – параметр b2 показывает, насколько в среднем за период
наблюдения изменится значение результативного признака уt за счет воздействия всех
факторов, кроме фактора xt.
Коинтеграция временных рядов.
Не всегда наличие тенденции во временных рядах хt и уt приводит к недостоверности
оценок параметров регрессии
полученных с помощью обычного МНК, так как наличие тенденции во времен- ном
ряде уt может являться следствием наличия тенденции во временном ряде хt. Если
нестационарные временные ряды хt и уt являются коинтегрируемыми, то оценки параметров
регрессии оказываются состоятельными. Нестационарные временные ряды хt и уt
называются коинтегрируемыми, если существует линейная комбинация этих рядов,
представляющая собой стационарный временной ряд, т. е. существуют такие числа λ1 и λ2,
что временной ряд
является стационарным. Для тестирования временных рядов
на коинтеграцию применяется критерий Энгеля-Грэнджера. Согласно этому критерию,
исследуются остатки et уравнения регрессии, полученного обычным МНК, для которых
рассчитываются параметры уравнения регрессии
– где первые разности остатков. Фактическое значение t-статистики для параметра ae
сравнивается с критическим значением критерия τ. Если фактическое значение меньше
критического, то нулевая гипотеза об отсутствии коинтеграции отклоняется.
Критические значения критерия τ для уровней значимости 0,01; 0,05 и 0,1 составляют
соответственно 2,5899; 1,9439 и 1,6177. Таким образом, наличие коинтеграции
нестационарных временных рядов позволяет при построении регрессионной модели
использовать их исходные уровни хt и уt. Через коинтеграцию, к примеру, подтверждаются
зависимости между уровнем инфляции, ВВП и денежной массой, ценами на акции и их
доходностью, потреблением и уровнем дохода и многие другие экономические зависимости
с шумящими переменными. Но следует отметить, что такой подход применим только к
временным рядам, охватывающим достаточно длительные промежутки времени.
Download