Парная регрессия и корреляция

ББК Рецензенты: Трищенко Е.К., к.ф.-м.н. (ИМКН ДВГУ); Колобов А.Г., к.ф.-м.н. (ИМКН ДВГУ). Пак Т.В., Еремеева Я.И. Эконометрика. Учебное пособие. – Владивосток: Изд-во Дальневост. ун-та, 2009. -70 с. Учебное пособие включает теоретический материал по основным хозяйственным операциям бухгалтерского учета коммерческого предприятия от момента его создания до финансовых результатов в течение отчетного периода, а также их реализация в программе 1С-предприятие. Пособие может быть использовано при выполнении лабораторных работ по дисциплинам «Компьютерный бухгалтерский анализ» и «1С - программирование» у студентов специальностей 010200 «Прикладная математика и информатика» и 010100 «Математика», а также может быть использовано для самостоятельного изучения основ бухгалтерского учета и знакомства с 1Сбухгалтерией. П_________________ ББК © Пак Т.В., 2009 © Еремеева Я.И., 2009 © ИМКН ДВГУ, 2009. Содержание Введение………………………………………………………………………..…4 1.Работа с данными………………………………………………………………8 2.Сохранение данных…………………………………………………………….9 3.Операции и проводки…………………………………………………………..9 4.Хозяйственные операции…………………………………………………..…10 4.1.Ввод информации о предприятии……………………………………..…10 4.2.Создание предприятия…………………………………………………....11 4.3.Учет денежно – финансовых операций……………….………………....13 4.4.Кассовые операции………………………………………………………..17 4.5.Расчеты с подотчетными лицами………………………………………...19 4.6.Расчеты с дебиторами и кредиторами……………………….……….….20 4.6.1 . Выписка счет-фактуры……………………………………………..23 4.6.2 . Книга продаж……………………………………………………….24 4.7. Отпуск материалов в производство……………………………………..28 4.8. Сдача готовой продукции на склад………………………………..….....29 4.9. Реализация готовой продукции………………………………………….30 5 . Типовые операции……………………………………………………………31 6 . Начисление заработной платы…………………………..……………..……33 6.1. Ставки ЕСН в 2009 году……………………………………………..…..34 6.2. Размеры взносов по обязательному пенсионному страхованию в 2009 году………………………………………………………………………....35 6.3. Ставки налога на доходы физических лиц в 2009 году………..……....36 7. Учет затрат на выпуск готовой продукции…………………………….…...37 8. Финансовые результаты……………………………………………………...40 9. Элементы налогового учета……………………………………………….....40 Литература…………………………………………………………………….…41 3 1. Парная регрессия и корреляция В математике мы привыкли к тому, что речь идет о функциональной зависимости, когда каждому значению одной переменной соответствует вполне определенное значение другой. В экономике в большинстве случаев, между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной (или определенное условное распределение другой переменной). Такая зависимость получила название статистической, вероятностной. Возникновение такой связи обусловлено тем, что зависимая переменная подвержена влиянию неконтролируемых или неучтенных факторов, а также случайными ошибками. В силу неоднозначности статистической зависимости между Y и X , представляет интерес усредненная по X схема зависимости, т.е. закономерность в измерении условного математического ожидания M x Y  (математическое ожидание случайной переменной Y , вычисленного в предположении, что переменная X приняла значение x ) в зависимости x . экзогенная, фактор, x - независимая переменная, объясняющая, входная, предсказывающая, регрессор, факторный признак. y - зависимая переменная, функция отклика, объясняемая, выходная, результирующая, эндогенная переменная, результативный признак. Нас интересует односторонняя зависимость случайной переменной Y от независимой переменной X . M x Y   f x  Определение: Когда каждому значению одной переменной x соответствует определенное условное математическое ожидание (среднее значение) другой, то такая зависимость называется корреляционной. Иначе, корреляционной зависимостью между двумя переменными называется функциональная зависимость между значениями одной и средним значением другой (условным математическим ожиданием), (1) M x Y   f x  это уравнение называется модельным уравнением регрессии (или просто уравнением регрессии, или функцией регрессии, а её график – линией регрессии). Для точного описания уравнения регрессии необходимо знать условный закон распределения переменной Y при условии, что переменная X примет значение x , X  x . В статистической практике такой информации получить не удается, т.к. обычно имеется выборка пар значений xi , yi  объема n . В этом случае речь может идти о приближенном выражении, аппроксимации по выборке функции регрессии. Такой оценкой является выборочная линия (кривая) регрессии ^  y  f x, a, b1 ,  , b p  ^ y - условная средняя переменной Y при фиксированном значении X  x , a, b1 ,  , b p - параметры кривой.  При n     f x, a, b1 , , b p  должна сходиться по вероятности к функции регрессии f x  . f x, a, b1 , , b p n  f ( x)  Таким образом, эконометрическая модель имеет вид: Y  f x    где Y - наблюдаемое значение зависимой переменной, f x  - объясненная часть, зависящая от значений объясняющих переменных,  - случайная составляющая. 4 В многомерном случае, когда х – вектор, x j , где j  1, p - могут считаться как случайными, так и детерминированными. Y  f x1 ,  , x p   .   Итак, чтобы получить достаточно достоверные и информативные данные о распределении какой-либо случайной величины, необходимо иметь выборку её наблюдений достаточно большого объема. Такие выборки представляют собой наборы значений xi1 , xi 2 , , xip ; yi , i  1, n - число   наблюдений, p - количество объясняющих переменных. Рассмотрим p  1 . Парная регрессия – уравнение связи двух переменных x, y  . Определение. Любое эконометрическое исследование начинается со спецификации модели, т.е. с формулировки (выбора) вида модели, исходя из соответствующей теории связи между переменными. Различают линейные и нелинейные регрессии. Нелинейные регрессии делят на два класса: регрессии, нелинейные относительно включенных объясняющих переменных, но линейных по оцениваемым параметрам, и, регрессии, нелинейные по оцениваемым параметрам. Линейная: y  a  bx   , a  bx  f x . Нелинейные по объясняющим параметрам: y  a  b1 x  b2 x 2    bk x k   , b x Регрессии, нелинейные по оцениваемым параметрам: Степенная: y  ax b   y a Показательная: y  ab x   Экспоненциальная: y  ea bx   Логарифмическая: ln y  a  b ln x   Полулогарифмическая: y  a  b ln x   y  a  bx c   1  a  bx Если у нас есть набор значений двух переменных xi и yi , i  1, n то на плоскости XY эти значения можно отобразить точками, таким образом получаем поле корреляции, которое изображено на рис. 1. Обратная: y  yi   отклонение yi от f x  xi Рис.1. Поле корреляции 5 Предположим, что нашей задачей является подобрать (подогнать) функцию f x  из параметрического семейства функций f x, a, b , наилучшим способом описывающую зависимость y от x. Подобрать функцию – это два шага: 1 шаг: спецификация модели 2 шаг: выбрать наилучшие значения параметров a и b . В качестве меры отклонения функции f x, a, b от набора наблюдений можно взять: n 1. g    yi  f xi , a, b 2 i 1 n 2. g   yi  f xi , a, b  i 1 3. в общем случае: n g   F  yi  f xi , a, b  , где F - мера, с которой отклонение i 1 yi  f xi , a, b входит в функционал g . Примером такой меры может служить функция Хубера, которая при малых отклонениях квадратична, а при больших линейна: x 2 , x  c  F x   2cx  c 2 , x  c  2cx  c 2 , x  c  Наиболее употребительной является функция g вида 1. 1.1. Метод наименьших квадратов Построение уравнения регрессии сводится к оценке её параметров. Для оценки параметров регрессии, линейной по параметрам, будем использовать МНК. Согласно МНК поиск наилучшей аппроксимации набора наблюдений линейной функцией сводится к минимизации функционала n g    y i  a  bxi  . 2 i 1 Необходимые условия экстремума: n g  2  y i  a  bxi   0 , a i 1 n g  2  y i  a  bxi xi  0 , b i 1 или n  y i 1 i  a  bxi   0 i  a  bxi xi  0 n  y i 1 1 n 1 n 2 1 n 1 n 2 Введем обозначения: x   xi , y   yi , xy   xi yi , x   xi . n i 1 n i 1 n i 1 n i 1 6 Вспомним обозначения для:  x2 _2  x  x - выборочной дисперсии переменной x;  y2 2 _2  y  y - выборочной дисперсии переменной y; 2 cov x, y   yx  y  x - выборочной ковариации. В новых обозначениях система определения a и b принимает вид: a  bx  y    x a x  b x 2  xy  Тогда b x  y  xy _2  covx, y   x2 , a  y  bx , x x при x  0 a  y , если x  0 , то указанная трактовка a не имеет смысла и, соответственно, может не иметь экономического содержания. Замечание. Из уравнения для определения параметра a : y  a  b x следует, что уравнение прямой y  a  bx проходит через точку x, y . 2   1.2. Уравнение в отклонениях Значения переменных xi и yi могут быть измеримы в отклонениях от средних значений, введем новые переменные xi'  xi  x , yi'  yi  y .   Начало координат при этом переместится в точку x, y и из геометрических соображений ясно, что решением задачи будет та же прямая на плоскости x ' , y ' , что и для исходных данных  x, y  , только  x '  0 ; y '  0 . Решая систему в новых переменных МНК, получим формулы: b x' y' '2 , a  0. x Поэтому значение и основная смысловая нагрузка ложится на коэффициент b . Определение. Коэффициент b называется выборочным коэффициентом регрессии (или просто коэффициентом регрессии) y по x . Коэффициент регрессии y по x показывает, на сколько единиц в среднем изменяется переменная y при увеличении переменной x на одну единицу. Запишем уравнение регрессии в ином виде, т.к. a  y  b x , то, подставив правую часть этого равенства в уравнение y  a  bx , получим  y  y  b x  bx ; y  y  b x  x y  y  b b  y x y  x  x ; y  y  rxy xx x y x     x yy xx  rxy ;  rxy y y x 7 эквивалентный вид т.о. rxy  b  x covx, y   x covx, y  .    y y  x y  x2 На первый взгляд, подходящим измерителем тесноты связи y от x является коэффициент регрессии b , ибо, как уже было сказано, он показывает, на сколько единиц в среднем изменяется y , когда x увеличивается на одну единицу. Однако b зависит от единиц измерения переменных (например, он увеличится в 100 раз, если измерять не в метрах, а в сантиметрах). Очевидно, что для исправления b как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной её среднее квадратическое отклонение  . В этой системе величина r показывает, на сколько величин  y изменится в среднем y , когда x увеличится на одно  x . Величина r является показателем тесноты связи и называется выборочным коэффициентом корреляции (коэффициентом корреляции). Ниже, на рисунке 2 изображены варианты a) - d) полей корреляции. (удалить надписи, добавить названия осей) a) b) c) d) Рис 2. На рис.2 b) исходные данные расположены плотнее к прямой – функции регрессии, нежели данные рис.2 a), а на рис. 2 c) – d) все данные расположены на прямой. Свойства коэффициента корреляции: 1)  1  r  1 , т. к. covx, y    x y ; 2) при r  1 , корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой (рис. 2 c) – d)); 3) при r  0 линейная связь отсутствует (рис. 3), при этом близость к нулю не означает отсутствия связи между признаками, она может оказаться достаточно тесной. Рис. 3 Для практических расчетов наиболее удобна формула: 8 n r xy  x  y i 1   x y n n i 1 i 1 n  xi y i   xi  y i n n i 1 2 xi2 n  n   n     xi   n yi2    yi  i 1  i 1   i 1  2 т.к. по этой формуле r находится непосредственно из данных наблюдений, и на значении r не скажутся округление данных, связанные с расчетом средних и отклонений от них. 1.3. Оценка значимости уравнения регрессии Проверить значимость уравнения регрессии - значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. ^ Обозначим через y  a  bx - теоретически вычисляемые по формуле значения, тогда ^ ^ ^  ^   yi  y  yi  y  y i  y i   yi  y i    y i  y      Преобразуем формулу дисперсии с учетом вышеуказанной суммы:  y i  y  n 2 i 1 2 2 2 n ^ n  n ^ ^  ^  ^   ^        y i  y    yi  y i     y i  y     yi  y i   2  y i  y  yi  y i  Дале        i 1  i 1  i 1  i 1  n е   y i  y  yi  y i     yi  y i a  bxi  y  b x     yi  y i a  y  b x   ^    ^      ^     ^    ^    b  yi  y i  xi  x  b  yi  a  bxi xi  b x   yi  a  bxi   0   Так как имеет место равенство a  y  b x  0 ,   и из МНК следуют два соотношения   y  a  bx x  0 ,   y  a  bx   0 i i i i i то  n i 1  2 n ^ ^    yi  y    y i  y     yi  y i    i 1  i 1  2 n 2 (*) TSS RSS ESS Введем обозначения: TSS (total sum of sguares) – вся дисперсия: сумма квадратов отклонений от среднего. RSS (regression sum of sguares) – объясненная часть всей дисперсии (обусловленная регрессией), факторная, объясненная дисперсия. ESS (error sum of sguares) – остаточная сумма, дисперсия остаточная. Определение. Коэффициентом детерминации, или долей объясненной дисперсии называется R2  1 В силу определения R 2 : 0  R 2  1 . 9 ESS RSS  . TSS TSS Если R 2  0 , то это означает, что регрессия ничего не дает, т.е. x i не улучшает качество предсказания ^ yi , по сравнению с тривиальным y i  y . Если R 2  1 , то xi , yi  лежат на линии регрессии и между x и y существует линейная функциональная ^ зависимость, т.е. абсолютно точное совпадение: y i  y i . Для линейной регрессии определяется коэффициент регрессии по формуле: rxy  b x y rxy2   y2  b 2   x2 . или Тогда b  x2 2 b 2  xi  x  2    bxi  b x  2  ^      y i  a   y  a    2 2  ^     yi  a  y  a        2 b 2 x2  объясн RSS 2     R2 ; получившаяся формула есть дисперсия объясненная, факторная, тогда rxy  y2  y2 общ TSS отсюда, можно построить коэффициент (индекс корреляции )  xy для нелинейной регрессии ^     yi  y i   i 1  n  xy  RSS  1 TSS  y i  y  n 2 . 2 i 1 ^ Т.к. формулы для связи TSS, RSS, ESS мы получили в предположении что y i  a  bx , то при a  0 , полученная формула не будет справедливой. 1.4. Оценка качества модели Оценку качества построенной модели можно определить через коэффициент (индекс) детерминации, а также с помощью средней ошибки аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических в процентах: y  yx 1 A   100% . n y Предел значений A  0.08  0.1 8  10% считаем допустимым при построении модели. Средний коэффициент эластичночти Э показывает, на сколько % в среднем по совокупности изменится результат y от своей средней величины при изменении фактора x на 1% от своего среднего значения x Э  f x   Э  y  f x   x y f  - характеризует соотношение прироста результата и фактора для соответствующей формы связи. Т.к., коэффициент Э не всегда const, то используем среднее значение - Э . В таблице представлены формулы эластичности для наиболее употребительных функций. 10 y y y  a  bx b y  a  bx  cx 2 b  2cx y a b x b x2 ln b  a  b x  y  ab x y  ax b a  b  x b 1 b x b y  a  b ln x y 1 a  bx a  bx 2 Э bx Э a  bx b  2cx x Э a  bx  cx 2 b Э a  bx xln b b b a  b ln x  bx a  bx Иногда коэффициент Э экономического смысла не имеет. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах. Например, изменение роста заработной платы с ростом стажа работы на 1%. 1 Если линеаризация не затрагивает зависимую переменную, например z  ln x, z  , то x 2 требование МНК:   y  y x   min выполнимо, то rxy   xy (коэффициент корреляции совпадает с индексом корреляции), в этом легко убедиться. Использование F-критерия С помощью F-критерия можно оценить качество построенной функции. Поскольку при заданном объеме наблюдений ( x , y ) факторная сумма квадратов при линейной регрессии зависит только от одной константы - коэффициента регрессии b , то говорят, что данная сумма квадратов имеет одну степень свободы. К этому же выводу мы придем формальным путем, а именно, y x  a  bx . Но свободный член a  y  bx , тогда y x  y  bx  bx  y  bx  x  при заданном наборе переменных x и y , расчетное значение y x является в линейной регрессии функцией только одного параметра b . Соответственно факторная сумма квадратов отклонений имеет число степеней свободы равное 1. Любая сумма квадратов отклонений связана с числом степеней свободы, т.е. с числом свободы независимого варьирования признака. Значит число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показывать, сколько независимых отклонений из n возможных y1  y, y 2  y, , y n  y требуется для образования данной суммы квадратов. Так для общей суммы квадратов  y  y  требуется n  1 независимое отклонение, ибо по совокупности из n 2 i единиц после расчета среднего уровня y , свободно варьируют лишь n  1 числом отклонений. Например, имеем ряд 1, 2, 3, 4, 5. Среднее y =3, тогда n отклонений от среднего: -2, -1, 0, 1, 2. Т.к.   y  y   0, то свободно варьируют 4 отклонения, а пятое может быть определено, если 4 известны. Число степеней свободы в левой и правой частях соотношения (*) должно совпадать, то число степеней свободы второго слагаемого должно быть равно (n - 2). 11 То есть  y  y 2   y x  y 2    y  y x 2 .            n1 n2 1 Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что тоже самое, дисперсию на одну степень свободы D TSS RSS ESS  Dобщ ,  Dфакт ,  Dостат . . n 1 1 n2 Это приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточные дисперсии в расчете на одну степень свободы, получим величину F - отношения (F- критерия): Dфакт F , где F- критерий для проверки нулевой гипотезы H 0 : Dфакт  Dост . Dостат Если нулевая гипотеза справедлива, то D факт и Dост не отличаются друг от друга. Для H 0 необходимо опровержение, то есть, чтобы факторная дисперсия превышала остаточную в несколько раз. Fтабл - это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности. F-критерий - это оценивание качества уравнения регрессии, которое состоит в проверке гипотезы H 0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого производится сравнение фактического Fфакт и Fтабл значений F критерия ФишераСнедекора. Fфакт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы Fфакт    y x  y 2 / m   y  y x 2 /n  m  1  2 rxy 2 1  rxy n  2 , m  1. Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости  . Уровень значимости  - это вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно   0,05 0,01 . Если Fтабл < Fфакт , то H 0 - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если Fтабл > Fфакт , то H 0 - гипотеза не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии. Геометрическая интерпретация регрессии и коэффициента детерминации. Геометрическая интерпретация наглядна для n = 3. Пусть имеем: x1 , y1  x2 , y 2   x3 , y 3   y1   x1      Y   y 2  , X   x2  y  x   3  3  1   , Y  aS  bX , где S  1 .  1   ^ 12 ^ Необходимо найти такие значения оценок a и b , при которых вектор Y наилучшим образом ^ аппроксимирует вектор Y, т.е. вектор остатков    1 ,  2 ,  3  ,  i  y i  yi будет иметь минимальную длину. Очевидно, решением задачи будет такой вектор y , для которого  перпендикулярно плоскости  , образуемой векторами S и X, а значит и   X ,   S . Условием перпендикулярности пары векторов является равенство нулю их скалярного произведения:  , X   0  , S   0  , X   0 n или n   i  1   a  bxi  yi   0 , i 1 i 1 n n   x   a  bx или i 1 i i i 1 i  y i xi  0 , т.е. мы получили те же условия, из которых находятся a и b МНК. Вектор OP есть ортогональная проекция Y на вектор S. Из векторной алгебры известно, что длина такого вектора равна: 3 OP Y , S    y1  1  y 2  1  y 3  1 S 111  y i 1 3 i 3  y S . Итак, OP  y  S . ^ Вектор Y - есть ортогональная проекция Y на плоскости  . ^ По теореме стереометрии о трех перпендикулярах, проекция вектора Y на вектор S совпадает с OP. Следовательно, прямоугольный треугольник PMN образуют векторы PM, PN, NM. PM  Y  y  S   ^  PN  Y  y  S  по теореме Пифагора: PM  ^ NM  Y  Y    2  PN  NM . 2 2 Это равенство соответствует разложению TSS=RSS+ESS, поэтому R 2 - коэффициент детерминации примет вид: R  2 PN PM 2 2  cos 2  , где  - угол между векторами PN и PM. При n  3 геометрическая интерпретация регрессии сохраняется, однако теряет наглядность. 13 Интервальная оценка функции регрессии и её параметров. Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитывается t - критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза H 0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t - критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки. b a r ; ta  ; tr  Рассчитываются: t b  . mb ma mr ^ Уравнение регрессии y  a  bx представимо в виде: ^ y  y  bx  x  . Стандартная ошибка m^2  m 2y  mb2 x  x 2 , т.е. стандартная ошибка прогнозного значения y зависит от ошибки y и ошибки коэффициента регрессии. Для доказательства этого рассмотрим дисперсии:  ^2 ,  y2 ,  b2 . y  ^2   y2   b2 x  x 2 - здесь учтено, что x  x  неслучайная (детерминированная) величина, y при вынесении которой за знак дисперсии её необходимо возвести в квадрат,  n    yi   y2  1 n 2 2 2 2  i 1 y     2   yi  2 n  n n n   n i 1     n  b2 : b  xi  x  yi  y  i 1 n  xi  x 2   xi  y i  ; 2  xi  i 1 n  b2   xi  x 2  y2 i 1 n   y2   xi  x 2 i 1   y2 x  n     x i  x 2     i 1      2 2 2 2     x  x     1 x  x y y  n   y2   n Т.о.  ^2  . n n y 2 2    xi  x   xi  x    i 1 i 1   Определим стандартную ошибку y через остаточную дисперсию на одну степень свободы:  n     x i  x 2     i 1  2  ост  2 ^    y  y    n2 2 2 2  ост или 14 ^    y  y     n2 2 m 2y  2  ост , mb2  n 2  ост  x2  x  x 2 2 1 , m ^2   ост  n y  xi  x 2      n ma2  xi2 i 1 2   ост n n    xi  x  , mr2  2 2 1  rxy n2 i 1 Сравнивая фактические и табличные значения t - статистики t факт и t табл принимаем или отвергаем гипотезу H 0 . Установим связь между F-критерием Фишера и t - статистикой Стьюдента: 2  факт r но t r   y2 2 ; Fкрит  r 2 y2 1  r  2 2 y n  2  r2 1 r2 n  2 , r r   n  2 , очевидно t r2  F . 2 mr 1 r 2 t b2  b2 mb2  b2  ^ 2     y  y    x  x 2 /n2 ^    y  y  Dфакт     F 2 D ^ ост     y  y    n2 Следовательно: t r2  t b2 . Т.о. проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. Если t табл < t факт , но H 0 отклоняется, т.е. a, b, r не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x . Если t табл > t факт , то H 0 не отклоняется и признается случайная природа формирования a, b или rxy . Для расчета доверительного интервала определяем предельную ошибку  для каждого показателя:  a  t табл  ma ,  b  t табл  mb , тогда формула для расчета доверительных интервалов имеют следующий вид:  a min  a   a ,  a max  a   a ;  b min  b   b ,  b max  b   b ; Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, т.к. он не может одновременно принимать и положительное и отрицательное значения. Прогнозное значение y p определяется путем подстановки в уравнение регрессии y x  a  bx соответствующего прогнозного значения x p . Вычисляется средняя стандартная ошибка прогноза m yp m yp   ост   xp  x 2 1  1  ,  ост  n   x  x 2 и строится доверительный интервал прогноза  yp  y p  t табл  m yp . 15   y  y x 2 n  m 1 Рассмотренные формулы стандартных ошибок предсказываемого среднего значения y при заданном x k характеризует ошибку положения линии регрессии, min m yx при xk  x , и возрастает при удалении x k от x . Но фактические значения y варьируют около среднего y x , индивидуальные значения y могут отклоняться на величину  , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы, поэтому ошибка предсказываемого индивидуального значения y должна включать 2 не только m yx , но и случайную составляющую  ост , или 2 m y x   ост 1 k 2 1 xk  x   . n  x  x 2 Множественная регрессия и корреляция Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Если это невозможно, то следует попытаться выявить влияние других факторов, вводя их в модель, т.е. построить модель множественной регрессии y  f x1 , x 2 ,  , x p   y - зависимая переменная, результативный признак, x1 , , x p - независимые переменные – факторы. Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. (Применительно к парной регрессии это означало формулировку вида модели, исходя из соответствующей теории связи между переменными). Применительно к множественной регрессии, необходимо до определения вида модели, произвести отбор факторов. Факторы, включаемые в модель должны быть: 1) количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность. 2) факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи. Это может привести к тому, что система уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения оказываются не интерпретируемыми. Например, rx1, x2  0 , то в y  a  b1 x1  b2 x2   , b1 - определяет силу влияния фактора x1 на y при неизменном x2 . Если же rx1, x2  1 , то с изменением x1 фактор x2 тоже изменяется, отсюда b1 и b2 нельзя интерпретировать как показатели раздельного влияния x1 и x2 на y ( rxi x j  0.7 , то xi и xj коллинеарны, или находятся в линейной зависимости между собой). Напомним, что коэффициент корреляции определяется по формуле: x x x  x j xi rxi x j  b i  j i .  xj  xi  x j По величине парных коэффициентов корреляции обнаруживается явная коллинеарность факторов, но может быть и мультиколлинеарность факторов, когда более чем 2 фактора связаны между собой линейной зависимостью, т.е. имеет совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы всегда будут действовать в унисон. В результате вариация в исходных данных перестает быть независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность, тем менее надежна оценка с помощью МНК. 16 Для оценки мультиколлинеарности может использоваться определитель (det) матрицы парных коэффициентов корреляции. Если бы факторы не коррелировали между собой, то rx1x1 rx2 x1 rx3x1  1 0  0 Det R  rx1x2 rx2 x2 rx3x2   0 1  0  1 - идеальный случай.      Если есть связь между факторами и все коэффициенты корреляции равны 1, то 1 1  1 1 1  1 Det R   0.    1 1  1 Чем ближе к 0 det (R), тем сильнее мультиколлинеарность факторов и наоборот. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной (факторной) вариации по отдельным факторам с помощью метода (МНК). S y (общ )  S факт  S остат , где S факт равно сумме квадратов отклонений, обусловленных влиянием соответствующих факторов. Если же факторы интеркоррелированы, то последнее равенство нарушается. Методы построения уравнения множественной регрессии:  метод исключения,  метод включения,  шаговый регрессионный анализ. Каждый из методов по-своему решает проблему отбора факторов, давая в целом близкие результаты: отсев факторов из полного его набора; дополнительное введение фактора исключение ранее введенного фактора. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов примерно в 6-7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной вариации очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми. В линейной множественной регрессии параметры при x называются коэффициентами чистой регрессии, они характеризуют среднее изменение результата с изменением соответствующего фактора на 1 единицу при неизменном значении других факторов, закрепленных на среднем значении. Метод наименьших квадратов. При оценке параметров уравнения регрессии применяется МНК. При этом делаются определенные предпосылки относительно случайной составляющей  y  a  b1 x1    b p x p   .  - ненаблюдаемая величина. После того, как произведена оценка параметров модели, рассчитывая разности фактических и теоретических значений y , можно определить оценки y  y теор . Поскольку они не являются реальными случайными случайной составляющей остатками, их можно считать некоторой выборочной реализацией неизвестного остатка заданного уравнения, т.е.  i . При изменении спецификации модели, добавлении в неё новых наблюдений, выборочные оценки остатков  i могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений  i , т.е. остатков. До сих пор мы останавливались на формальных проверках статистической достоверности коэффициентов регрессии и корреляции с помощью t - критерия Стьюдента, F - критерия Фишера. Оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными.   17 Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Следовательно, при большом числе выборочных оцениваний, остатки не будут накапливаться и найденный параметр b можно рассматривать как среднее значение из возможного большого числа несмещенных оценок. Эффективность оценки – оценки, характеризующиеся наименьшей дисперсией. Состоятельность оценок характеризует увеличение их точности с увеличением выборки. Указанные критерии должны учитываться при разных способах оценивания. МНК строит оценки регрессии на основе минимизации суммы квадратов остатков. Поэтому очень важно исследовать поведение остаточных величин регрессии  i . Исследования остатков  i предполагают проверку наличия следующих предпосылок МНК (т.е. при выполнении их получаются несмещенные эффективные и состоятельные оценки): 1. случайный характер остатков 2. нулевая средняя величина  i , не зависящая от xi 3. гомоскедастичность – дисперсия каждого  i одинакова для всех значений x 4. отсутствие автокорреляции остатков. Значения остатков  i распределены независимо друг от друга. 5. остатки подчиняются нормальному распределению. Если не все предпосылки выполняются, то следует корректировать модель. Рассмотрим все предпосылки. 1). На рис. ниже изображено поведение остатков в различных случаях:  i  y y y теор    2). Эта предпосылка означает, что  y  yтеор  0 . Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных. Для моделей нелинейных относительно оцениваемых параметров и приводимых к линейному виду, например, логарифмированием, средняя ошибка равна нулю для логарифмов.   y  ax11 x22  x pp   ,  ln y  ln y теор  0 Вместе с тем несмещенность оценок регрессии означает независимость случайных остатков и x . Строятся графики, если полоса, то  i независимы от x j , если график показывает зависимость, то модель неадекватна. b b b 18 5). Предпосылка о нормальным распределении остатков позволяет проводить проверку параметров регрессии с помощью критериев t и F . Вместе с тем оценки регрессии, найденные с МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков. Совершенно необходимы 3) и 4) предпосылки. 3). Для каждого фактора x j остатки  j имеют одинаковую дисперсию, если это условие не выполняется, то имеет место гетероскедастичность. y теор y теор Для каждого значения x j распределения остатков  j одинаковы (гомоскедастичность) и диапазон варьирования остатков меняется с переходом от одного значения x j к другому (гетероскедастичность). Наличие гомо и гетероскедастичности можно видеть и по рассмотренным выше двум графикам зависимости остатков  j от yтеор . 19 i i y теор y теор большая дисперсия  j для ^ больших значений y теор Итак, основные предпосылки регрессионного анализа: yi  a  bxi   i  возмущение  i есть величина случайная, а 1. В модели объясняющая переменная xi - величина детерминированная. 2. Математическое ожидание возмущения  i равно нулю: M  i   0 - несмещенность. 3. Дисперсия возмущения  i постоянна D i    2 (условие гомоскедастичности или равноизменчивости возмущения). M  i ,  j   0 i  j указывает на некоррелированность ошибок для разных 4. наблюдений. Это условие часто нарушается в случае, когда данные являются временными рядами. В случае, когда это условие не выполняется, говорят об автокорреляции ошибок. M  i  j   p  0 p0 5. Возмущение  i есть нормально распределенная случайная величина. В этом случае модель называется нормальной линейной регрессионной (CNLR model). Итак, мы хотим оценить a и b наилучшим способом. Что значит «наилучшим»? Например, найти в классе линейных (по yi ) несмещенных оценок наилучшую в смысле минимальной дисперсии. 20 Заметим, что когда такая оценка найдена, это вовсе не означает, что не существует нелинейной несмещенной оценки с меньшей дисперсией. Теорема Гаусса-Маркова В предположениях (1-4) модели  оценки a и b по МНК имеют наименьшую дисперсию в классе всех линейных несмещенных оценок (Best Linear Unbiased Estimator BLUE). Таким образом, оценки a и b в определенном смысле являются наиболее эффективными линейными оценками ~ истинных параметров a~ и b . Множественная корреляция Практическая значимость уравнения регрессии оценивается с множественной корреляции и его квадрата – коэффициента детерминации. Ryx ,.., x  1 1  y2..ост  y2 p помощью показателя ,(при любой форме связи) где  y2 – общая дисперсия результативного признака, ^   y  y  x1... x p   n 2 – остаточная дисперсия для уравнения y  f ( x1 ,...x p ), где  y2.ост  ост как 2  общ 2  общ  2  факт 2  общ     2 , так 2  ост 2  общ Иначе, формула примет вид: 2 Ryx 1,.., x p  (y - y x1, x2 ,.., x p ) 2 , отсюда следует 0≤R≤1.  1 2 (y y )  Этот показатель характеризует тесноту связи рассматриваемого набора факторов с используемым признаком, т.е. оценивает тесноту связи совместного влияния факторов на результат. При линейной зависимости признаков формула индекса корреляции имеет вид: Ryx ,.., x  1 p p   xi ryxi i 1 где  xi – стандартизованные коэффициенты регрессии, r yx i – парные коэффициенты корреляции результата с каждым фактором. В справедливости данной формулы можно убедиться, если обратиться к линейному уравнению множественной регрессии в стандартизованном масштабе и определить для него индекс множественной корреляции как ^ R (t y  t y ) 2  1  (t y  t y ) 2 ^ или, что, то же самое R   (t y  t y )2  (t y  t y )2 В числителе последней формулы мы имеем факторную сумму квадратов отклонений для yy 2 стандартизованных переменных: t y  , t y  0 и тогда  (t y  t y ) 2   t y  n, так как y  t y 2  n t2y ,  R  R  ^2 ty n ^ , но t y   x1 t x1   x2 t x2  ..   x p t x p , отсюда ^ ^ 1 1 1 t (  t   t  ..   t )   t t  ..   t  y x1 x1 x2 x2 xp xp x1  x1 y x  xp t y , n n n p 21 ^ ^ 1 1 r  t t , t t y  x2 y , …  x1 yx 2 n n Выведенная формула называется линейным коэффициентом множественной корреляции или совокупным коэффициентом корреляции. Возможен иной подход к определению параметров, когда на основе матрицы парных коэффициентов корреляции строится уравнение регрессии в стандартизованном масштабе x  xi yy t y  1t x1   2 t x2  ..   p t x p   , где t y  , t xi  i y  xi тогда ryx1  t y и t xi - стандартизованные переменные, для которых среднее значение равно нулю t y  t xi  0 , так как а ty   y   y  t y  ny; среднее ny   y t y  ny   y t y  0 квадратичное yy yy ;t y  ; t y  ty ty  t y2  1 ty отклонение  t y   t x  1, так как  ( y  y) 2 . Применяя МНК к уравнению множественной регрессии в стандартизованном масштабе, получим систему нормальных уравнений вида  R yx1  1   2 R x2 x1   3 R x3x1  ..   p R x p x1 ; R  yx2  1 R x2 x1   2   3 R x3 x2  ..   p R x p x2 ; ...   R yx p  1 R x p x1   2 R x p x2   3 R x3x p  ..   p ;  Решая систему, найдем параметры. Стандартизованные параметры  – показывают, на сколько сигм изменится в среднем результат, если увеличить соответствующий фактор xi на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как централизованные и нормированные, то  – коэффициенты регрессии сравнимы между собой. Сравнивая их, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов чистой регрессии, которые несравнимы между собой. Связь коэффициентов стандартизованных и нестандартизованных: bi   i y x i a  y  b1 x1  ...  b p x p Для МНК имеем формулы:  t y  t T y  min,   t  t  t    t  t y  1t x1   2t x 2  ...   pt x p1  min, y  1t x1   2t x 2  ...   pt x p1 y  1t x1   2t x 2  ...   pt x p1 x1  0, x2  0, ... t t y x1  1  t x1   2  t x1 t x 2  ..    pt x p t x 2 . 2 Таким образом, в системе вычисляется коэффициент корреляции по формуле: 22 rxy 1 ( y t y  y )( x t x  x )  y.x yx  y. x   n   x y  x y 1 1 1   x y t x t y  x  y  t y  y x  t x  x . y  y. x 1 n n  n   t x t y  rxy  rt x t y  x y n так как  t y  0 ,  t x  0 , и он равен коэффициенту корреляции в стандартизованных переменных. Стандартизованные коэффициенты регрессии  j связаны с коэффициентом регрессии b j и коэффициентом эластичности Э  j  bj xj y , Эj  bj xj y где βj – показывает, на сколько величин  y изменится в среднем y при увеличении только j-ой объясняющей переменной на  x j . Э j – коэффициент эластичности показывает, на сколько процентов от средней величины изменится в среднем y при увеличении только x j на один процент. Пример: Сравнить раздельное влияние на сменную добычу угля двух факторов мощности пласта и уровня механизации работ  2 =0,285  1 = 0,728 Э1=1,180 Э2=0,340 Таким образом, увеличение мощности пласта и уровня механизации работ на одно  x1 или на одно  x2 увеличивает в среднем сменную добычу угля на одного рабочего на 0,728*  y или на 0,285*  y ,а увеличение этих переменных на 1% от своих средних значений приводит к росту добычи на 1,18% и 0,34%. Итак, по обоим показателям на сменную добычу угля большее влияние оказывает фактор “мощность пласта” по сравнению с фактором “уровень механизации работ”. Для построения уравнения регрессии используются функции: y  a  b1 x1  ...  b p x p   – линейная, (1) b y  a  x1b1  x2b2 ...  x pp   – степенная, в частности, производственная функция Кобба – Дугласа имеет вид: y  a  x1b1  x2b2 , где x1 - капиталовложения, x 2 - трудозатраты, а y - совокупный выпуск продукции, ye a  b1x1 ... b p x p  – экспоненциальная, y  (a  b1 x1  ...  b p x p   ) 1 - гиперболическая. Очевидно, перебирая различные функции и выбирая ту из них, для которой остаточная дисперсия и ошибка аппроксимации коэффициента детерминации минимальны. Параметры уравнения оцениваются МНК. Отметим ещё одну формулу для коэффициента детерминации: R 2  1 S ост. S общ Вместе с тем использование только одного коэффициента детерминации для выбора наилучшего уравнения регрессии может оказаться недостаточным. На практике встречаются случаи, когда плохо определяется модель регрессии и может дать сравнительно высокий коэффициент R 2 . 23 Недостатком коэффициента R 2 является то, что он, вообще говоря, увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно обозначает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать скорректированный ^2 (адаптированный, поправленный) коэффициент R , определяемый по формуле: ^2 R  1  n -1 1 R2 n - p -1  ^2 из этой формулы следует: чем больше число объясняющих переменных p ,тем меньше R по сравнению с R 2 . Очевидно, скорректированный коэффициент может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенного влияния на зависимую переменную. Если известен R 2 , то используем критерий значимости уравнения регрессии. Гипотеза H 0 о равенстве нулю параметров регрессионной модели H 0 : 1   2  ...   P  0 отвергается, или уравнение регрессии значимо, если R2 n  p 1 F  F ,k1,k2  F , p,n  p 1 (1) - табличное значение F - критерия Фишера, где α – p 1- R2 уровень значимости, n – число наблюдений, p – число факторов. Частные уравнения регрессии На основе линейного уравнения множественной регрессии y  a  1 x1  ..   p x p   могут быть найдены частные уравнения регрессии: y x1, x2 ,.., x p  f ( x1 ) y x2 , x1 ,.., x p  f ( x2 ) … y x p , x1 ,.., x p 1  f ( x p ) то есть уравнения регрессии, которые связывают результативный признак y с соответствующими факторами x при закреплении других, учитываемых во множественной регрессии на среднем уровне: y x1, x2 ,.., x p  a  1 x1 +  2 x2 +…+  p x p   y x2 , x1,.., x p  a  1 x1 +  2 x2 +…+  p x p   … y x p , x1,.., x p 1  a  1 x1 +  2 x2 +…+  p x p   При подстановке в эти уравнения средних значений соответствующих факторов, они принимают вид парных уравнений линейной регрессии: y x1, x2 ,.., x p  A1  1 x1 +  y x2 , x1 ,.., x p  A2   2 x2 +  … y x p , x1 ,.., x p 1  AP   p x p   A1  a   2 x2 +  3 x3 +…+  p x p ; A2  a  1 x1 +  3 x3 + …+  p x p ; … 24 AP  a  1 x1 +  2 x2 +…+  p-1 x p 1 Частные уравнения характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены. Это позволяет на основе частных уравнений определять частные коэффициенты эластичности. Частные индексы корреляции. В случае, когда имеется одна независимая и одна зависимая переменные, естественной мерой зависимости (в рамках линейного подхода) является (выборочный) коэффициент корреляции между ними. Использование множественной регрессии позволяет обобщить это понятие на случай, когда имеется несколько независимых переменных. Корректировка здесь необходима по следующим очевидным соображениям. Высокое значение коэффициента корреляции между исследуемой зависимой и какой-либо независимой переменной может, как и раньше, означать высокую степень зависимости, но может быть обусловлено и другой причиной. А именно, есть третья переменная, которая оказывает сильное влияние на две первые, что и служит, в конечном счете, причиной их высокой коррелированности. Поэтому возникает естественная задача найти “чистую” корреляцию между двумя переменными, исключив (линейное) влияние других факторов. Рассуждения здесь могут быть такими. Обозначим ^ 1 S 2 yx1   ( y i  y i ) 2 n i остаточную дисперсию. Включим в уравнение регрессии ещё один фактор x 2 , его включение приведет к уменьшению остаточной дисперсии. Чем больше число факторов включения в модель, тем меньше величина остаточной дисперсии. Сокращение остаточной дисперсии за счет дополнительного введения фактора x 2 составит: S 2 yx1  S 2 yx1x2 Чем меньше доля этого сокращения в остаточной вариации до введения дополнительного фактора, то есть в S 2 yx1 , тем теснее связь между y и x 2 при постоянном действии фактора x1 . Корень квадратный из этой величины и есть индекс частной корреляции, показывающий в чистом виде тесноту связи y и x 2 . Следовательно, чистое влияние фактора x 2 на результат y можно определить так: ryx2 x1  S 2 yx1  S 2 yx1x2 S 2 yx1 , аналогично, чистое влияние на результат фактора x1 : ryx1x2  S 2 yx2  S 2 yx1x2 S 2 yx2 . 2 Если выразить остаточную дисперсию через показатель детерминации, S err =  2 (1  r 2 ) то формула коэффициента частной корреляции примет вид: ryx1x2  S 2 yx2  S 2 yx1x2 S 2 yx2 аналогично, ryx2 x1   1 S 2 yx1  S 2 yx1x2 S 2 yx1x2 S 2 yx2  1 1  R 2 yx1x2 1  r 2 yx2 1  R 2 yx1x2 .  1 S 2 yx1 1  r 2 yx1 Преобразуем полученную формулу: 25 r 2 yx1x2  1  1  R 2 yx1x2 1 r  2 yx2 R 2 yx1x2  1  1 r  2  r 2 yx1x2  1 , отсюда yx2  R 2 yx1x2  1  1  r 2 yx2 1  r 2 yx1x2 , обобщая эту формулу на p независимых переменных, получим (***) R 2 yx1x2 ..x p  1  (1  r 2 yx2 ) 1  r 2 yx1x2 1  r 2 yx1x2 x3 ... 1  r 2 yx1..x p1x p     Из приведённых формул частных коэффициентов корреляции, видна связь этих показателей с совокупным коэффициентом корреляции. Зная частные коэффициенты корреляции последовательного первого, второго, и так далее, порядка, совокупный коэффициент корреляции получается.     R 2 yx1x2 .. x p  1  (1  r 2 yx2 ) 1  r 2 yx1x2 1  r 2 yx1x2 x3 ... 1  r 2 yx1.. x p 1x p  1 2 При полной зависимости результативного признака от исследуемых факторов корреляции, совокупного их влияния, коэффициент корреляции равен единице. Из единицы вычитается доля остаточной вариации результативного признака (1  r 2 ) , обусловленная последовательно включёнными в анализ факторами. В результате подкоренное выражение характеризует совокупное действие всех исследуемых факторов. Оценка надежности результатов. Так же как и для множественной регрессии, можно сформулировать гипотезы H 0 о равенстве нулю параметров частных уравнений регрессии 2 2 R yx  R yx .. x 1 p 1.. xi 1xi 1... x p n  p  1 Fчаст.xi  , частный F -критерий оценивает статистическую 2 1 1  R yx .. x 1 p значимость присутствия каждого фактора в уравнений. В числе Fчаст.xi показан прирост доли объяснённой или факторной вариации y за счет дополнительного включения в модель соответствующего фактора: 2 2 R yx - R yx - прирост факторной дисперсии за счет x1 ; 1.. x p 2 .. x p … … … 2 R yx - R yx2 1 .. x p 1 -прирост факторной дисперсии за счет x p . 1.. x p В знаменателе Fчаст.xi указана доля остаточной вариации по регрессионной модели, включающей полный набор факторов. Числитель и знаменатель формулы приведены к сравнимому виду путем деления на число степеней свободы, соответственно, на 1 и n  p  1 . В Fчаст.xi , так как прирост факторной суммы квадратов отклонений обусловлен дополнительным включением в модель одного исследуемого фактора, то число степеней свободы для него равно 1. Если Fфакт.xi  Fтабл ( , df1 , df 2 ) , где df1 =1, df 2 = n  m  1 , то дополнительное включение в модель фактора xi в модель статистически оправдано и коэффициент чистой регрессии bi при факторе xi статистически значим. Если Fфакт.xi  Fтабл ( , df1 , df 2 ) , то дополнительное включение в модель фактора xi не увеличивает существенно долю объяснённой вариации признака y , значит, нецелесообразно включение его в модель. С помощью частного F - критерия можно проверить значимость всех коэффициентов регрессии в предположении, что каждый коэффициент вводился последним в уравнение. Дисперсионный анализ для оценки факторов. 26 Число cтепеней свободы Источники вариаций y общая Факторная, в том числе за счет x1 … за счет x p остаточная n 1 p 1 … 1 n  p  1 Суммы квадратов отклонений S x x x … x Дисперсии на одну степень свобод Д -x x … x x x F fakt . F fabl . -x x … x -x x … x x x Средняя часть таблицы существенно меняется, в зависимости от того, какие гипотезы проверяются, так как во множественной регрессии источник вариации складывается из нескольких составляющих и каким образом проверяется действие включенных факторов, независимо, последовательно и в какой последовательности. Например: три переменных x1 , x 2 , x3 , то можно определить F - критерий, частный, для уравнения с x1 , затем F - критерий последовательного включения x 2 после x1 и наконец, F - критерий, частный для уравнения с x1 , x 2 , x3 . Последовательный F - критерий может интересовать лишь на стадии формирования модели. С критерием Стьюдента связан именно F част.. Оценка значимости коэффициентов чистой регрессии по t - критерию Стьюдента может быть проведена и без расчета частных F - критериев. В этом случае, аналогично парной регрессии: i ti = , m i βi - коэффициент чистой регрессии при xi ; m i - среднеквадратическая ошибка коэффициента регрессии βi. Для уравнения y  a  1 x1  ..   p x p средняя квадратическая ошибка коэффициента регрессии может быть определена так: m i =  y 1  R yx2 .. x 1 p  x 1  R x2 x .. x i i 1 1 n  p 1 p  y - средне квадратическое отклонение для y;  x - средне квадратическое отклонение для xi ; i R 2 yx1 .. x p - коэффициент детерминации для уравнения множественной регрессии; Rx2i x1 .. x p - коэффициент детерминации для зависимости фактора xi со всеми другими факторами уравнения множественной регрессии. n  p  1 – число степеней свободы для остаточной суммы квадратов отклонений. Если проверяется регрессия: y  a  1 x1  ..   p x p   R yx2 i x2  r 2 yx2 n  p  1  Для фактора x1 определим Fx1  1 1  R yx2 i x2 R yx2 i x2  r 2 yx1 n  p  1  Для фактора x 2 определим частный F - критерий Fx2  1 1  R yx2 i x2 27 № 1) 2) 3) 4) 5) Источники вариации Общая Регрессия Обусловл. x1 Обусловл. x 2 при данном x1 Остаточная Число степеней свобод Дисперсия одну суммы на S степень квадратов свободы n  1 n 2 y 2 1 1 n 2 y n  2  1 S tot / n 1 R2 S fakt ./ p 2 r n -yx1 n -2 2 ( Ryx x - r yx ) 1 2 F fakt -S fact . n  m  1 Serr. m 2 y 1 2 n y2 (1-R ) S err n  p  1 F fabl F одномерный Fx 2 -x x x -- -- Дорисовать горизонтали где n y2 = S tot .- S fakt 3) сумма квадратов, обусловленная включением в модель лишь x1 , определяется в предложении, что построено лишь парное уравнение регрессии то есть n y2 ryx2 1 4) сумма квадратов, обусловленная включением x 2 , после x1 , определяется как разность суммы квадратов за счет регрессии и за счет регрессии только фактора x1 то есть строки 2) и 3) таблицы. Системы эконометрических уравнений. Объектом статистического изучения в экономике являются сложные системы. Системы уравнений в экономических исследованиях могут быть: системы независимых уравнений: y1  a11 x1  a12 x 2  ...  a1m x m   1 ; (1) y 2  a 21 x1  a 22 x 2  ...  a 2m x m   2 ; … y n  a n1 x1  a n2 x2  ...  a nm x m   n . системы рекурсивных уравнений: y1  a11 x1  a12 x 2  ...  a1m x m   1 ; y 2  b21 y1  a 21 x1  a 22 x 2  ...  a 2m x m   2 ; (2) … y n  bn1 y1  bn2 y 2  ...  bnn1 y n1  a n1 x1  a n2 x 2  ...  a nm x m   n Каждое уравнение системы (1) и системы (2) может рассматриваться самостоятельно. Для нахождения параметров каждого уравнения, используется МНК. Но наибольшее распространение в эконометрических исследованиях получила система взаимозависимых уравнений. В ней одни и те же зависимые переменные (в одних уравнениях входят в левую часть, а в других уравнениях – в правую): y1  b12 y 2  b13 y3  ...  b1n y n  a11 x1  a12 x 2  ...  a1m x m   1 ; y 2  b21 y1  b23 y3  ...  b2n y n  a 21 x1  a 22 x 2  ...  a 2m x m   2 ; (3) … y n  bn1 y1  bn2 y 2  ...  bnn1 y n1  a n1 x1  a n2 x 2  ...  a nm x m   n . Такая система называется системой совместных, одновременных уравнений или структурной формой модели. Структурная форма модели содержит эндогенные переменные – y . Это зависимые переменные, число которых равно числу уравнений в системе, и (которые определяются внутри системы). Экзогенные переменные – x . Это независимые переменные, которые определяются вне системы и влияющие на эндогенные переменные, но независящие от них. Лаговые переменные – 28 независимые переменные за предыдущие моменты времени. Лаговыми могут быть эндогенные переменные за предшествующий период времени, и тогда они являются экзогенными. Предопределённые переменные – это экзогенные и лаговые. Структурные коэффициенты модели: a ij и bij при переменных x и y. Все переменные в модели выражены в отклонениях от     среднего уровня, то есть под x подразумеваются ( x - x ), под y – ( y - y ). Поэтому свободный член в каждом уравнении отсутствует. Использование МНК для оценивания структурных коэффициентов модели дает, как принято считать в теории, смещенные и несостоятельные оценки. Поэтому обычно для определения структурных коэффициентов модели структурная форма модели преобразуется в приведенную форму модели: ^ y 1   11 x1   12 x 2  ..   1m x m ; ^ y 2   21 x1   22 x 2  ..   2m x m ; … (4) ^ y n   n1 x1   n 2 x 2  ..   nm x m По своему виду приведённая форма модели идентична системе (1), поэтому параметры системы (4) оцениваются традиционным МНК. А затем оценить значение эндогенных переменных через экзогенные. Коэффициенты приведённой формы модели (4) представляют собой нелинейные функции коэффициентов структурной формы модели. Пример простейшей структурной модели: y1  b12 y 2  a11 x1 ; y 2  b21 y1  a22 x2 . Приведенная форма получается так: y  a11 x1 y2  1 b12 систему одновременных уравнений имеем y  a11 x1 , y 2  b21 y1  a22 x2 . y2  1 b12 Отсюда y1  a11 x1  b12 b21 y1  b12 a22 x2 , y1 (1  b12 b21 )  a11 x1  b12 a22 x2 , a11 b a y1  x1  12 22 x 2 ; 1  b12 b21 1  b12 b21  11  a11 b a ,  12  12 22 1  b12 b21 1  b12 b21 Аналогично, получается второе уравнение приведённой формы: y1  y 2  a 22 x 2 , b21 y 2  a22 x2  b21b12 y 2  b21a11 x1, a b a 22 y 2  11 21 x1  x2 ; 1  b12 b21 1  b12 b21 a b a 22  21  11 21 ,  22  1  b12 b21 1  b12 b21 При переходе от приведённой формы модели к структурной возникает проблема идентификации. Идентификация – это единственность соответствия между приведённой и структурной формами модели. Рассмотрим это на примере: 29 y1  b12 y 2  a11 x1  a12 x 2  ...  a1m xm ; (5) y 2  b21 y1  a 21 x1  a 22 x 2  ...  a 2m x m . a y a a из второго уравнения следует: y1 = 2  21 x1  22 x 2  ..  2m x m . b21 b21 b21 b21 Тогда в системе имеем два уравнения для эндогенной переменной y1 c одним и тем же набором переменных, но с разными коэффициентами. Наличие двух вариантов для расчёта структурных коэффициентов одной и той же модели связано с неполной её идентификацией. Структурная модель в полном виде, состоящая в каждом уравнений системы из n эндогенных и m экзогенных переменных, содержит nn 1  m параметров. Приведённая форма модели – n x m параметров, но n x m < n n 1 + n x m , случай n =1 не рассматриваем. Следовательно, nn 1  m параметров структурной модели не могут быть однозначно определены из n x m параметров приведенной формы модели. Чтобы получить единственно возможное решение для структурной модели, необходимо предположить, что некоторые из структурных коэффициентов модели ввиду слабой взаимосвязи признаков с эндогенной переменной из левой части системы, равны нулю. Тем самым уменьшится число коэффициентов структурной модели. Так, если предположить, что в нашей системе m  3 , a13  0 и a 21  0 то y1  b12 y 2  a11 x1  a12 x2 ; (6) y 2  b21 y1  a 22 x 2  a 23 x3 ; тогда приведенная форма модели имеет вид: ^ y1   11 x1   12 x 2   13 x3 ; ^ y 2   21 x1   22 x 2   23 x3 . и если в системе (5) при m =3 было 8 коэффициентов ( b12 , b21 , a11 , a12 , a13 , a21 , a22 , a23 ), а в приведенной только 6, то теперь в системе (6) 6 коэффициентов, и в приведённой 6, и тогда однозначность структурных коэффициентов обеспечена. Уменьшение числа структурные коэффициентов модели возможно и другими путями, например, приравнивания некоторых коэффициентов друг другу, то есть путем предположений, что их взаимодействие на формируемую эндогенную переменную одинаково. С позиции идентифицируемости, модели можно разделить на 3 вида: 1. идентифицируемые; 2. неидентифицируемые; 3. сверхидентифицируемые. Модель идентифицируема, если все структурные её коэффициенты определяются однозначно по коэффициентам приведённой формы модели, то есть число параметров одной модели равно числу параметров другой. Модель неидентифицируема, если число приведённых коэффициентов меньше числа структурных коэффициентов. Структурная модель в полном виде n – эндогенных и m – экзогенных переменных, всегда неидентифицируема. Модель сверхидентифицируема, если число приведённых коэффициентов больше числа структурных коэффициентов. В этом случае на основе коэффициентов приведённой формы можно получить более одного значения каждого структурного коэффициента. В этом частном случае системы (6), если ещё и a 22  0 , то система станет сверхидентифицируемой. y1  b12 y 2  a11 x1  a12 x2 ; y 2  b21 y1  a 23 x3 ; в ней 5 коэффициентов, а 6 коэффициентов приведённой формы. 30 Сверхидентифицируемая модель в отличие от неидентифицируемой модели практически разрешима, но требует для этого специальных методов вычисления параметров. Структурная модель всегда представляет собой систему совместных уравнений, каждое из которых требуется проверять на идентификацию. Модель идентифицируема – если каждое уравнение системы идентифицируемо. Если хотя бы одно уравнение неидентифицируемо, то и все модель считается неидентифицируемой. Сверхидентифицируемая модель содержит хотя бы одно сверхидентифицируемое уравнение. Выполнение условия идентифицируемости модели проверяется для каждого уравнения системы. Чтобы уравнение было идентифицируемым, необходимо, чтобы число D2 – предопределённых переменных, отсутствующих в данном уравнении, но присутствующих в системе, было равно числу H – эндогенных переменных в данном уравнении без одного. Для полной системы имеем nxm параметров приведённой системы и nn 1  m параметров структурной модели, поэтому в общем случае параметры структурной модели не могут быть однозначно определёнными через параметры приведённой формы модели. Для каждого уравнения системы имеем m – параметров приведённой формы, n 1  m – параметров структурной модели; Обозначим D1 – число экзогенных переменных, которые присутствуют в уравнении, D2 – число экзогенных переменных, которые отсутствуют в данном уравнении, m  D1  D2 ; Обозначим H – число эндогенных переменных в уравнении, тогда очевидно, чтобы решить поставленную задачу определения параметров модели, необходимо потребовать, чтобы D2  H  1 , в этом случае уравнение идентифицируемо; если D2  H  1 , то уравнение неидентифицируемо; если D2  H  1 , то уравнение сверхидентифицируемое. Указанное условие отражает необходимое условие идентификации, но не достаточное. Достаточное условие формируется с помощью ограничений на матрицу коэффициентов системы. Целесообразность проверки условия идентификации модели через определитель матрицы коэффициентов при эндогенных и экзогенных переменных, отсутствующих в данном уравнении, объясняется это тем, что возможна ситуация, когда для каждого уравнения системы: D2  H  1 , а определитель матрицы названных коэффициентов равен нулю. В этом случае соблюдается лишь необходимое, но недостаточное условие идентифицируемости. Пример 1: y1  b12 y 2  b13 y3  a11 x1  a12 x 2 ; y 2  b21 y1  a 22 x 2  a 23 x3  a 24 x 4 ; y3  b31 y1  b32 y 2  a31 x1  a32 x 2 . переменные y1 , y 2 , y3 , x1 , x 2 , x3 , x 4 ; для каждого уравнения выполняется счётное правило D2  H  1 , поэтому они точно идентифицируемы. Пример 2: в примере 1 положим a22 = 0, a31 = 0; тогда второе и третье уравнение становится сверхидентифицируемыми, а первое идентифицируемо. Пример 3: в примере 1 добавим слагаемое a34 x4 , тогда первое и второе уравнения системы остаются идентифицируемыми, а третье уравнение – неидентифицируемо. Для рассмотрения достаточного условия идентифицируемости представим систему экономических уравнений в матричном виде, введя следующие обозначения: 31  y1   x1    1 b12 ... b1n         a11 ... a1m     y2   x2   b21  1 ... b2n  Y =  , X   , A   ... ... ... , B   , тогда BY  AX =  (*) ... ...  ... ... ... ...          a n1 ... a nm  b b  y  x   n1 n 2 ... 1   n  n Рассмотрим i -ое уравнение системы (*). Без ограничения общности можно считать, что первые q коэффициентов при эндогенных переменных и первые p коэффициентов при экзогенных переменных не равны нулю в этом уравнении, а остальные коэффициенты целые, тогда i -ое уравнение можно записать в следующем виде:  y1   x1       y2  x  (bi1 ,..., biq ,0,...,0)   (a i1 ,..., aip ,0,...,0) 2    i ... ...     y  x   n  n Векторы Y и X разобьем на два подвектора,  bi1   a i1      Y1 q  X1  p  Y = , X   , 1   ... ,  1   ... . Y2 nq     X2 m  p  biq   a ip  Приведённая форма модели (*) имеет вид Y   B 1 AX  B 1 , обозначим    B 1 A ,   B 1 , тогда в соответствии с разбиением векторов Y и X , матрица П так же примет блочный вид: П П11 П12 П 21 П 22 p m p q nq Тогда наше уравнение в векторном виде примет вид: 1T Y1  1T X 1   i По правилу перемножения блочных матриц (**) B11 П11   A11 B11 П12  0 здесь B11 , A11 ,0 -- блочные подматрицы матриц B, A соответствующих размерностей. Для нашего i -го уравнения соотношения (**) имеют вид: 1) 1T П11  1T ; занумеровать 2) 1T П12  0 , занумеровать здесь 0 - нуль-вектор соответствующей размерности. Соотношение (2) является системой ( m  n ) уравнений с ( q  1 ) неизвестным bi1 ,..., biq , так как один bii всегда равен 1. Эта система разрешима, если ранг системы равен ( q  1 ), это следует из обшей теории систем линейных уравнений. Итак, для разрешимости системы (2) необходимо и достаточно, чтобы матрица П12 имела ранг ( q  1 ). Это условие называется ранговым условием (rank condition), m  p = q  1 . Очевидно, если из системы (2) коэффициенты 1 найдены, то коэффициенты 1 определяются из предыдущего соотношения (1). Возвращаясь к примеру 1, рассмотрим выполнение достаточных условий: Для первого уравнения: из общего количества y1 , y 2 , y3 , x1 , x2 , x3 , x4 отсутствуют x3 , x4 , тогда в матрице отделить палочками номера уравнений, как 2 уравнение 32 2a a  С   23 24  , det C  0 значит H =3, D2 =2 , хотя D2 =2= H -1=2; 30 0  уравнение неидентифицируемо, ранг должен был быть равен 2. Для второго уравнения: отсутствуют y 3 , x1 . 1  a11 b13   , в общем случае det C  0 - уравнение идентифицируемо, ранг равен 2. С   3  a31  1  Для третьего уравнения: отсутствуют x3 , x4 . 1 0 0   , det C  0 - уравнение идентифицируемо. С   2  a 23 a 24  В экономических моделях часто наряду с уравнениями, параметры которых должны быть статистически оценены, используются балансовые тождества переменных, коэффициенты при которых равны  1 . В этом случае, хотя само тождество и не требует проверки на идентификацию, ибо коэффициенты при переменных в тождестве известны, в проверке на идентификацию собственно структурных уравнений системы, тождества участвуют. Проблема сверхидентифицируемости – это проблема количества наблюдений: с увеличением объема выборки все различные состоятельные оценки параметра стремятся к одному и тому же истинному значению. Проблема неидентифицируемости – это проблема структуры модели. Неидентифицируемость не исчезает с ростом количества наблюдений и означает, что существует бесконечное число структурных моделей, имеющих одну и ту же приведенную форму. Оценивание параметров структурной модели. Методы оценивания. 1) Косвенный метод наименьших квадратов; 2) Двух шаговый метод наименьших квадратов; 3) Трёх шаговый наименьших квадратов; 4) Метод максимального правдоподобия. 1. КМНК применяется в случае точно идентифицируемой структурной модели. Процедура состоит из следующих этапов: а) структурная модель преобразуется в приведённую форму модели; б) для каждого уравнения приведённой формы обычным МНК оцениваются  ij коэффициенты; в) с помощью алгебраических преобразований от коэффициентов приведённой формы переходят - возвращаются к параметрам структурной модели, получая тем самым оценки этих параметров. Применение КМНК предполагает, что система уравнений содержит в правой части в каждом уравнении как экзогенные, так и эндогенные переменные. Между тем, могут быть системы, в которых в одном или нескольких уравнениях, например, отсутствуют экзогенные переменные. Для такой модели непосредственной получение структурных коэффициентов невозможно. В этом случае, сначала определяется система приведённой формы модели, решаемая обычным МНК, а затем путём алгебраических преобразований переходя к коэффициентам структурной модели. 2. Двухшаговый МНК (ДМНК). Если система сверхидентифицируема, то используется ДМНК. Этапы выполнения этой процедуры: а) на основе приведённой формы модели получают для сверхидентифицируемого уравнения теоретические значения эндогенных переменных, содержащихся в правой части уравнения; б) далее, подставив их вместо фактических значений, можно применить обычный МНК к структурной форме сверхидентифицируемого уравнения. В этом методе дважды используется МНК: на первом этапе, при определении приведённой формы модели и нахождении на её основе оценок теоретических значений эндогенной переменной: 33 ^ y i   i1 x1   i 2 x 2  ...   ij x j и на втором шаге, применительно к структурному сверхидентифицируемому уравнению при определении структурных коэффициентов модели по данным теоретических (расчётных) значений эндогенных и экзогенных переменных. Сверхидентифицируемая модель может быть двух типов: 1. все уравнения сверхидентифицируемые; 2. часть идентифицируемых точно и часть сверхидентифицируемых уравнений. В первом случае для оценки структурных коэффициентов каждого уравнения используется ДМНК. Во втором случае, структурные коэффициенты по точно идентифицируемым уравнениям находятся из системы приведённых уравнений. Для точно идентифицируемых уравнений ДМНК=КМНК. Существует так называемый трёх шаговый МНК (ТМНК), который учитывает взаимодействие уравнений в системе, что приводит к повышению эффективности оценки. Метод максимального правдоподобия также используется для случаев множественной регрессии. Метод (МП) является конструктивным методом. В простых случаях удаётся получить явные формулы для оценок. В более сложных случаях получить явные формулы не удаётся, однако можно определить численное значение оценки, максимизирующее функцию правдоподобия, и также оценить статистические свойства оценки. МОДЕЛИРОВАНИЕ ОДНОМЕРНЫХ ВРЕМЕННЫХ РЯДОВ Можно построить эконометрическую модель, используя два типа исходных данных:  Данные, характеризующие совокупность различных объектов в определенный момент (период) времени;  Данные, характеризующие один объект за ряд последовательных моментов (периодов) времени. Модели, построенные по данным первого типа, называются пространственными моделями. Модели, построенные на основе второго типа данных, называются моделями временных рядов. Временной (динамический) ряд – это совокупность значений какого-либо показателя за несколько последовательных моментов или периодов времени. Но в отличие от пространственных моделей, наблюдения во временных рядах, как правило, нельзя считать независимыми. Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые условно можно разделить на три группы: 1. факторы, формирующие тенденцию ряда; 2. факторы, формирующие циклические колебания ряда; 3. случайные факторы. При различных сочетаниях в изучаемом явлении или процессе этих факторов зависимость уровней ряда от времени может принимать различные формы. Во-первых, большинство временных рядов экономических показателей имеют тенденцию, характеризующую совокупное долговременное воздействие множества факторов на динамику изучаемого явления. Очевидно, что эти факторы, взятые в отдельности, могут оказывать разнонаправленное воздействие на исследуемый показатель. Однако в совокупности они формируют его возрастающую или убывающую тенденцию. Во-вторых, изучаемый показатель может быть подвержен циклическим колебаниям. Эти колебания могут носить сезонный характер, поскольку экономическая деятельность ряда отраслей экономики зависит от времени года. При наличии больших массивов данных за длительные промежутки времени, можно выявить циклические колебания, связанные с общей динамической конъектуры рынка, а также с фазой бизнес цикла, в которой находится экономика страны. Некоторые временные ряды не содержат тенденции и циклической компоненты, а каждый следующий их уровень образуется как сумма среднего уровня ряда и некоторой (положительной или отрицательной) случайной компоненты. 34 Очевидно, что реальные данные не следуют целиком и полностью из каких-либо описанных выше моделей. Чаще всего они содержат все три компоненты. Каждый их уровень формируется под воздействием тенденции – T, сезонных колебаний – S и случайной компоненты – E. Модель, в которой временной ряд представлен как  перечисленных компонент, называется аддитивной моделью временного ряда. Y = T + S + E. Модель, в которой временной ряд представлен как  перечисленных компонент, называется мультипликативной моделью временного ряда. Y = T  S  E. Основная задача экономического исследования отдельного временного ряда – выявление и придание количественного выражения каждой из перечисленных выше компонент с тем, чтобы использовать полученную информацию для прогнозирования будущих значений ряда или при построении моделей взаимосвязи двух или более временных рядов. АВТОКОРРЕЛЯЦИЯ УРОВНЕЙ ВРЕМЕННОГО РЯДА При наличии во временном ряде тенденции и циклических колебаний значения каждого последующего уровня ряда зависят от предыдущих. Корреляционную зависимость между последовательными уровнями временного ряда называют автокорреляцией уровней ряда. Количественно ее можно измерить с помощью линейного коэффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутыми на несколько шагов во времени. t yt yt 1 1 y1 – 2 y2 y1 3 y3 y2 … … n … yn 1 yn x y Одна из рабочих формул коэффициента корреляции: rxy   ( x  x )( y  y )  ( x  x)   ( y  y) j 2 j Взяв в качестве j j x : y2 , y3 , ... , yn 1, yn . y : y1 , y2 , ... , yn1 . Получим формулу: 35 2 . n  (y r1  t t 2 n n  (y t 2  y1 )( yt 1  y2 )  y1 )   ( yt 1  y2 ) 2 t 2 , t 2 где 1 n 1 n y1  yt ; y2  yt 1;   n  1 t 2 n  1 t 2 r1 – коэффициент автокорреляции уровней ряда 1-го порядка, т.к. он измеряет зависимость между соседними уровнями ряда yt и yt -1, т.е. при сдвиге – лаге =1, он измеряет корреляцию между членами одного и того же ряда, поэтому автокорреляция. Аналогично можно определить коэффициенты автокорреляции 2-го и более высоких порядков, коэффициент 2-го порядка характеризует тесноту связи между yt и yt -2 n r2  (y t 3 n (y t 3 t  y 3 )( y t  2  y 4 ) n t 1 y3  n2 ,  y3 ) 2   ( yt 2  y 4 ) 2 t 3 n y; t 3 t 1 y4  n2 n y t 3 t 2 ; Если r1 близко к 1, то имеется тесная зависимость и во временном ряде имеется сильная линейная тенденция. Число периодов, по которым рассчитывается коэффициент автокорреляции, называется лагом. С увеличением лага число пар значений, по которым рассчитывается коэффициент автокорреляции, уменьшается. Для обеспечения статистической достоверности коэффициентов автокорреляции имеет смысл использовать правило: max лаг  n/4. Отметим два важных свойства коэффициента автокорреляции: 1. Он строится по аналогии с линейным коэффициентом корреляции и т.о. характеризует тесноту только линейной (или близкой к линейной) связи текущего и предыдущего уровней ряда. Для некоторых временных рядов, имеющих сильную нелинейную трендовую составляющую (например, параболу или экспоненту), коэффициент может оказаться близок к нулю. 2. По знаку коэффициента нельзя делать вывод о возрастающей или убывающей тенденции в уровнях ряда. Последовательность r1, r2, … – называется автокорреляционной функцией временного ряда. График зависимости ее значений от величины лага называется коррелограммой. Анализ автокорреляционной функции позволяет определить лаг, при котором автокорреляция наиболее высокая, а, следовательно, и лаг, при котором связь между текущим и предыдущими уровнями наиболее тесная, т.е. при помощи анализа можно выявить структуру ряда. Если наиболее высоким оказался r1, то исследуемый ряд содержит только тенденцию, если наиболее высоким является r, то ряд содержит циклические колебания с периодичностью в  моментов времени. Если ни один из коэффициентов не является преобладающим, то можно предположить: 1. либо ряд не содержит трендовой компоненты и циклических колебаний 2. либо ряд содержит сильную нелинейную тенденцию, для выявления которой нужен дополнительный анализ. 36 МОДЕЛИРОВАНИЕ ТЕНДЕНЦИИ ВРЕМЕННЫХ РЯДОВ Одним из наиболее распространенных способов моделирования тенденции временного ряда является построение аналитической функции, характеризующей зависимость уровней ряда от времени или тренда. Этот способ называют аналитическим выравниванием временного ряда. Для построения трендов чаще всего используют: ^  линейный тренд y t  a  bt ,  ^ b y гиперболу t  a  , t ^  экспоненту y t  exp( a  bt ), ^  степенной тренд yt  a  t b , ^  многочлен y t  a  b1t  b2t 2  ...  bk t k . 37 Параметры каждого из перечисленных трендов можно определить МНК, используя в качестве называемой переменной t: 1, 2, …, в качестве зависимой переменной – фактические уровни временного ряда yt. Формулы МНК, например, для линейного тренда a + bt, t = 1, 2, …, n, n n t 1 t 1 a  n  b  t   yt , n n n t 1 t 1 t 1 a  t  b  t 2   t  yt , n(n  1) t ,  2 t 1 n n t t 1 2  n(n  1)( 2n  1) , 6 отсюда коэффициенты регрессии: n 1 (n  1)( 2n  1) y t  yt t , t2  , то b t , т.к. t  2 6 t2  t 2 2 yt t  (n  1) yt n 1 , a  yt  b . 2 n 1 2 Для нелинейных трендов предварительно проводят линеаризацию. Выбор наилучшего уравнения можно осуществить путем перебора основных форм, а затем посмотреть суммы квадратов отклонений фактических данных от теоретических, но если из набора функций предпочтение отдавать той, при которой меньше сумма ^ ( yt  y t ) 2 , то можно дойти до абсурда, т.к. для любого ряда из n точек можно побрать полином (n-1)-ой степени, проходящий через все точки и, следовательно, с минимальной (нулевой) суммой квадратов отклонений, но в этом случае, очевидно, не следует говорить о выделении основной тенденции. Можно сравнить различные функции b6  с помощью скорректированного коэффициента детерминации R  1  (1  R ) 2 2 n 1 , n  p 1 2 (чем больше p, тем больше разница между R2 и R ). При прочих равных условиях предпочтение следует отдавать более простым функциям. Другим методом выравнивания (сглаживания) временного ряда, т.е. выделения неслучайной составляющей, является метод скользящей средней. Он основан на переходе от начальных значений членов ряда к их средним значениям на интервале времени, длина которого определенна заранее. При этом сам выбранный интервал времени “скользит” вдоль ряда. Получаемый таким образом ряд скользящих средних ведет себя более гладко, чем исходный, из-за усреднения отклонений ряда. МОДЕЛИРОВАНИЕ СЕЗОННЫХ И ЦИКЛИЧЕСКИХ КОЛЕБАНИЙ. Общий вид моделей: Y = T + S + E, Y = TSE. Выбор одной из 2-х моделей осуществляется на основе анализа структуры сезонных колебаний. Если амплитуда колебаний приблизительно const, строят аддитивную модель, в которой значения сезонной компоненты предполагаются постоянными для различных циклов. Если амплитуда сезонных колебаний возрастает или уменьшается, строят мультипликативную модель временного ряда. Процесс построения модели включает в себя следующие шаги: 1. Выравнивание исходного ряда методом скользящей средней. 38 2. Расчет значений сезонной компоненты S. 3. Устранение сезонной компоненты из исходных уравнений ряда и получение выровненных данных (T+E) в аддитивной или (TE) в мультипликативной модели. 4. Аналитическое выравнивание уровней (T+E) или (TE) и расчет значений T с использованием полученного уравнения тренда. 5. Расчет полученных по модели значений (T+E) или (TE). 6. Расчет абсолютных и/или относительных ошибок. Если полученные значения ошибок не содержат автокорреляции, или можно заметить исходные уровни ряда и в дальнейшем использовать временной ряд ошибок E для анализа взаимосвязи исходного ряда и других временных рядов. Выравнивание исходного ряда методом скользящей средней: 1 шаг. 1) Для этого суммируется, уровни ряда последовательно за каждые 4 квартала со сдвигом на 1 момент времени и определяются условные годовые объемы, уровни и т.д. 2) Разделив полученные суммы на 4, найдем скользящие средние. Полученные т.о. выровненные значения уже не содержат сезонной компоненты. 3) Приведем эти значения в соответствии с фактическими моментами времени, для чего найдем средние значения из двух последовательных скользящих средних – центрированные скользящие средние. 2 шаг. Оценки сезонной компоненты найдем как разность между фактическими уровнями ряда и центрированными скользящими средними. Используем эти оценки для расчета значений сезонной компоненты S. Для этого найдем средние за каждый квартал оценки сезонной компоненты Si. В моделях с сезонной компонентой обычно предполагается, что сезонные воздействия за период взаимопогашаются. Например, в аддитивной модели это выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна нулю. В мультипликативной модели взаимопогашаемость сезонных воздействий выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна числу периодов в цикле. Например, при сезонных колебаниях число периодов одного цикла (год) равно 4 (4 квартала). В аддитивной модели: Si  Si  K , где K – корректирующий коэффициент, 4 K   Si / 4 i 1 и тогда  Si = 0; В мультипликативной модели: Si  Si  K , i  1,4 , K  4 4 S i 1 i и тогда 4  Si  4. i 1 3 шаг. Устранение сезонной компоненты. В аддитивной модели вычитаем ее значения из каждого уровня исходного временного ряда. Получим T+E =Y-S. В мультипликативной модели разделим каждый уровень исходного ряда на соответствующие значения сезонной компоненты. Тем самым получим TE =YS, которые содержат только тенденцию и случайную компоненту. 4 шаг. Определение компоненты T данной модели. Для этого проводится аналитическое выравнивание ряда T+E (TE) с помощью линейного тренда T  a  bt. 39 Для этого посчитаем a – const, b – коэффициент регрессии, стандартную ошибку коэффициента регрессии R2, число наблюдений и число степеней свободы. С помощью них определяем значимость регрессии. 5 шаг. Найдем значения уровней ряда по Ti – полученным по теоретической (аналитической) формуле и Si – значениям сезонной компоненты для соответствующих кварталов. E  Y  (T  S ) E  Y  (T  S ) Это абсолютные значения (абсолютные ошибки). По аналогии с моделью регрессии для оценки качества построенной модели или для выбора наилучшей модели можно применять сумму квадратов полученных абсолютных ошибок.  E2  1   i   100%  это доля факторной дисперсии уровней ряда объясняет   ( y  y )2  i   полученное количество процентов от общей вариации уровней временного ряда. ТЕСТЫ НА ГЕТЕРОСКЕДАСТИЧНОСТЬ Одной из предпосылок регрессионного анализа является предположение о постоянстве дисперсии случайного члена для всех наблюдений (гомоскедастичность). Это значит, что для каждого значения объясняющей переменной случайные члены имеют одинаковые дисперсии. Если это условие не выполняется, то имеет место гетероскедастичность. Имеется большое количество тестов для обнаружения гетероскедастичности, в которых делаются различные предположения о зависимости между дисперсией случайного члена и величиной объясняющей переменной. В этих тестах проверяется основная гипотеза H0:  1   2 количество наблюдений, против альтернативной гипотезы H1: не H0. 2 2  ...   n2 ,где n – I. Тест ранговой корреляции Спирмена Этот тест использует наиболее общие предположения о зависимости дисперсий ошибок регрессии от значений регрессоров: 2 = fi (xi), i  1, n. При этом никаких дополнительных предположений относительно вида функций fi не делается. Не накладываются также ограничения на закон распределения возмущений (ошибок) регрессии ei. Идея теста заключается в том, что абсолютные величины остатков регрессии ei являются оценками i, поэтому в случае гетероскедастичности абсолютные величины остатков ei и значений регрессоров xi будут коррелированны. Для нахождения коэффициента ранговой корреляции (КРК)  x, e ранжировать наблюдения по значениям переменной xi и остатков ei и вычислить следует n  x,e  1  6 di2 i 1 3 n n , 40 где di – разность между рангами значений xi и ei. Коэффициент ранговой корреляции значим на уровне значимости  при n > 10, если статистика t   x ,e где n2 1  2 x ,e  t1 ;n  2 , t1 ;n  2 – табличное значение t – критерия Стьюдента, определенное на уровне значимости  при (n-2) степенях свободы. Если в модели более одной объясняющей переменной, то проверка гипотезы может выполняться с использованием любой из них. Если ранги всех объектов di =0, i  1, n , то  x, e =1, т.е. имеет место полная прямая связь. При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке, можно показать, что  = -1. Во всех остальных случаях   1. При ранжировании иногда сталкиваются со случаями, когда невозможно найти существенные различия между объектами по величине проявления рассматриваемого признака: объекты, как говорят, оказываются связанными. Связанным объектам приписывают одинаковые средние ранги, такие, чтобы сумма всех рангов оставалась такой же, как и при отсутствии связанных рангов. Например, если 4 объекта оказались равнозначными в отношении рассматриваемого признака и невозможно определить, какие из 4-х рангов (4, 5, 6, 7) приписать этим объектам, то каждому объекту приписывается 4567  5,5. средний ранг, равный 4 Пример. Оценим регрессионную зависимость выпуска продукции на душу населения y от ВВП на душу населения x для 17 стран в одном году. n y x 1 18 3 2 27 6 3 18 7 4 45 9 … … … 17 180 44 Пусть модель описывается y = a + bx +, по МНК получена регрессионная ^ зависимость y  12,84  2,92 x, стандартные ошибки для a и b, соответственно, 14,5 и 0,6; R2 = 0,608. Составим таблицу рангов и разностей между рангами значений xi и ei. xi 3 6 7 9 … 44 ранг 1 2 3 4 … 17 | ei 3.6 3.3 15.2 5.9 … 40.8 ранг 2 1 9 4 … 13 di -1 1 -6 0 … 4 41 17  x ,e  1  6 d i2 i 1 3 17  17  0.866; t  6.7  t0.99;15  2.95, следовательно, гипотеза H0 об отсутствии гетероскедастичности отклоняется. II. Тест Голдфелда-Кватдта Этот тест применяется, когда есть предположение о том, что ошибки регрессии можно считать нормально распределенными случайными ошибками. Предположим, что (стандартные) средние квадратичные отклонения возмущений i пропорциональны значениям объясняющей переменной x. Тест состоит из следующих шагов: a) Упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность; b) Исключить в этом упорядочении (n – 2m) средних наблюдений, (n – 2m) должно быть примерно равно четверти общего количества наблюдений, т.е. m = 3n/8; c) Провести две независимые регрессии первых m и последних m наблюдений и построить соответствующие остатки e1,…, em и en-m+1,…, en; d) Гипотеза о равенстве дисперсий двух нормально распределенных совокупностей проверяется с помощью критерия Фишера. Нулевая гипотеза о равенстве дисперсий двух наборов по m наблюдений (т.е. гипотеза об отсутствии гетероскедастичности) отвергается, если m F e i 1 n 2 i e  F ; m  p; m  p , 2 i i  n  m 1 F ; m  p ; m  p  табличное значение при уровне значимости  и (m – p) степенях свободы, где p – число регрессоров. Мощность теста, т.е. вероятность отвергнуть гипотезу H0 об отсутствии гетероскедастичности, когда действительно гетероскедастичности нет, оказывается максимальной, если выбирать m как указано выше. Формально тест работает и без исключения наблюдений, но, как показывает опыт, при этом его мощность уменьшается. III. Тест Уайта (White) Тест ранговой корреляции Спирмена и Голдфелда-Квандта позволяют обнаружить лишь само наличие гетероскедастичности, но они не дают возможности проследить количественный характер зависимости дисперсий ошибок регрессии от значений регрессоров и, следовательно, не представляют каких-либо способов устранения гетероскедастичности. При использовании этого теста предполагается, что дисперсии ошибок регрессии представляют собой одну и ту же функцию от наблюдаемых значений регрессоров, т.е. 2 = fi (xi), i  1, n. (1) Чаще всего функция f выбирается квадратичной, что соответствует тому, что средняя квадратичная ошибка регрессии зависит от наблюдаемых значений регрессоров приближенно линейно. Гомоскедастичной выборке соответствует случай f = const. 42 Идея теста Уайта заключается в оценке функции (1) с помощью соответствующего уравнения регрессии для квадратов остатков: ei2  f ( xi )  ui , i  1, n , где ui – случайный член. (2) Гипотеза H0 об отсутствии гетероскедастичности (условие f = const) принимается в случае не значимости регрессии (2) в целом. a) Итак, сначала к исходной модели применяется обычный МНК; b) Находятся остатки ei, i  1, n регрессии; c) Осуществляется регрессия квадратов этих остатков ei на все регрессоры x вида (2); d) Осуществляется регрессия квадратов этих остатков ei на квадраты регрессоров x2; e) Осуществляется регрессия квадратов этих остатков ei на попарные произведения регрессоров; Для пунктов c) – e) считается F – статистика, если F  F ; p; n  p 1; где p – количество регрессоров, то гипотеза H0 об отсутствии гетероскедастичности отклоняется. Заметим, что на практике применение теста Уайта с включением и не включением попарных произведений дают, как правило, один и тот же результат. Привлекательной чертой теста является его универсальность. Однако, если гипотеза H0 об отсутствии гетероскедастичности отклоняется, этот тест не дает указания на функциональную форму гетероскедастичности. IV. Тест Глейзера. Этот тест во многом аналогичен тесту Уайта, только в качестве зависимой переменной для обнаружения гетероскедастичности выбирается не квадрат остатков, а их абсолютная величина, т.е. осуществляется регрессия ei  f ( xi )  u i , i  1, n, (3) Зависимость f может быть представлена в виде: f = a + b xc. Регрессия (3) осуществляется при разных значениях c, затем выбирается то значение, при котором коэффициент b оказывается наиболее значимым, т.е. имеет наибольшее значение t – статистики. Нулевая гипотеза H0 об отсутствии гетероскедастичности отклоняется, если оценка b значимо отлична от нуля. V. Тест Бреуша-Пагана. Этот тест применяется в тех случаях, когда априорно предполагается, что дисперсии  2 i зависят от некоторых дополнительных переменных, но не трех, как в предыдущем тесте, а от двух коэффициентов, например, для одного регрессора осуществляется регрессия  i2  a  bxi  ui , i  1, n.  i2  a  bx, т.е (4) Тест состоит из следующих шагов: a) Осуществить обычную регрессию, т.е. к исходной модели применить МНК; b) Получить вектор остатков ei, i  1, n регрессии; 1 n 2 2 ei c) Построить оценку   n i 1 ;  43 d) Осуществить регрессию вида ei2 (4), 2  a  bxi  ui и найти для нее объясненную (факторную) часть вариации RSS; e) Построить статистику RSS/2. Установлено авторами этого теста, что, если верна гипотеза H0 об отсутствии гетероскедастичности, то величина RSS/2 асимптотически имеет распределение статистики  2 ( p) , где p – количество регрессоров, т.е. по определению величина RSS/2 сравнивается с табличным значением  2 ( p) при  , 12 ( p). необходимом уровне значимости VI. Устранение гетероскедастичности Если наблюдается гетероскедастичность, то МНК – оценки будут неэффективными. Одним из вариантов улучшения ситуации является использование обобщенного (взвешенного) МНК. Суть метода заключается в уменьшении вклада данных наблюдений, имеющих большую дисперсию в результате расчета. Пусть рассматриваются регрессионная исходная модель p yi   0    j xij   i , i  1, n, j 1 (5) или в матричном виде Y = X + . Будем считать, что модель гетероскедастична, т.е. дисперсии возмущений  i , i  1, n, не равны между собой, и сами возмущения i и k не коррелированны. Это означает, что ковариационная матрица вектора возмущений – диагональная: 2   12   0   ...  0  0  22 ... 0 0   ... 0  . ... ...  ...  n2  ... Допустим, что дисперсии  i известны, тогда гетероскедастичность легко устраняется. В самом деле, будем рассматривать в качестве i-го наблюдения зависимой Y и объясняющих переменных Xj (j = 1, 2, …,p) нормированные по i переменные, т.е. 2  z1    zi  yi , Z   ... , i  1, n. i z   n 1  v1 j    1 vij  xij , V j   ... , i v   nj   x1 j    X j   ... , i  1, n. x   nj  Тогда модель имеет вид 44 p zi   0    j vij  i , i  1, n. j 1 Где (6) 0  0  i , i   i  i . Очевидно, получившаяся модель гомоскедастична, т.к. дисперсия остатков  i постоянна. При этом ковариационная матрица  становится единичной. Если для отыскания параметра  использовать формулу  bT  X T 1 X  1 вместо X T Y  bT  X T X (7)  1 X TY, которая обычно получается при использовании МНК, то по теореме Айткена [?] оценка первая имеет наименьшую ковариационную матрицу. Применение формулы (7) для отыскания параметра , т.е. обобщенный метод наименьших квадратов для модели с гетероскедастичностью, когда ковариационная матрица возмущений  есть диагональная матрица, называемая взвешенным методом наименьших квадратов. Применяя МНК, находим неизвестные параметры регрессионной модели n минимизируя S    yi  yˆ i  , используя 2 i 1 обобщенный МНК, минимизируя S  eT 1e, наконец, в частном случае, применяя взвешенный МНК, минимизируя 1 2 S     yˆ i  yi  . i 1   i  n “Взвешивая” каждый остаток ei с помощью коэффициента 1  i , мы добиваемся равномерного вклада остатков в общую сумму, что приводит в конечном счете к получению наиболее эффективных оценок параметров модели. На практике, однако, значения i почти никогда не бывают известны. В этом случае, при нахождении переменных в формуле (6), значения i следует заменить их оценками ˆ i . Оценка параметров регрессионной модели взвешенным МНК состоит из следующих шагов: 1) Применить обычный МНК к модели (5); 2) Найти регрессию квадратов остатков на квадратичные функции регрессоров, т.е. найти уравнение регрессии (2) из теста Уайта, где f – квадратичная функция, аргументами которой являются квадраты значений регрессоров и их попарные произведения; 3) Вычислить прогнозные значения 4) Получить набор “весов”: eˆi2 по полученному уравнению регрессии; ˆ i  eˆi2 ; 5) Ввести новые переменные vij  xij ˆ i , zi  yi ˆ i , i  1, n, j  1, p. 6) Найти уравнение Zˆ  Vb ,полученная оценка b и есть оценка взвешенного МНК исходного уравнения (5). На практике процедура устранения гетероскедастичности может представлять технические трудности, т.к. реально в матрице  присутствуют не сами стандартные 45 отклонения ошибок регрессии, а их оценки. А это значит, что модель (6) не обязательно окажется гомоскедастичной. Причины этого следующие: 1. далеко не всегда оказывается справедливым само предположение (2) теста Уайта или (3) теста Глейзера; 2. функция f в (2) и (3), вообще говоря, не обязательно степенная (и уж тем более, не обязательно квадратичная), и в этом случае, ее подбор может оказаться далеко не столь простым. Другим недостатком тестов Уайта и Глейзера является то, что факт не выявления или гетероскедастичности, вообще говоря, не означает ее отсутствия. Принимая гипотезу H0, мы принимаем лишь тот факт, что отсутствует определенного вида зависимость дисперсий ошибок регрессии от значений регрессоров. ТЕСТЫ НА ОБНАРУЖЕНИЕ АТОКОРРЕЛЯЦИИ Одной из предпосылок регрессионного анализа является независимость случайного члена в любом наблюдении от его значений во всех других наблюдениях. Если данное условие не выполняется, то говорят, что случайный член подвержен автокорреляции. В этом случае коэффициенты регрессии, полученные по МНК, оказываются неэффективными, хотя и несмещенными, а их стандартные ошибки рассчитываются некорректно. Автокорреляция обычно встречается при использовании данных временного ряда. Стационарные временные ряды, это ряды, вероятностные свойства которых не изменяются во времени. Стационарные временные ряды применяются, в частности, при описании случайных составляющих анализируемых рядов. Временной ряд yi (i = 1, 2, …, n) называется строго стационарным (или стационарным в узком смысле), если совместное распределение вероятностей n наблюдений y1, y2, …, yn такое же, как и n наблюдений y1 , y2  , ..., yn  при любых n, i, . Другими словами, свойства строго стационарных рядов yi не зависят от i, т.е. от момента времени. Напомним, что в случае пространственной выборки отсутствие автокорреляции постулируется. I. Тест Дарбина-Уотсона. Этот тест определяет наличие автокорреляции между соседними членами ряда. Выдвигается нулевая гипотеза об отсутствии корреляции первого порядка, т.е. H0:  =0, где  – коэффициент корреляции между двумя соседними случайными членами i и i-1; В качестве альтернативной гипотезы может выступать либо H1:  >0, либо H2:  <0. Соответствующей оценкой коэффициента корреляции  является коэффициент автокорреляции остатков первого порядка, который при достаточно большом числе наблюдений имеет вид: n r1  e e i2 n i 1 i e i 1 , 2 i 46 (он получается из формулы (?) для r1, используемой в п.номер) в предположении, что 1 n 1 n    i 1  0,  i n 1 n  1 i2 i2 n n n i2 i2 i 1  ei2   ei21    i2 . Введем величину n d  (e  e i2 i 1 i n e i 1 )2 . 2 i Очевидно, d  2(1  r1 ). Естественно, что в случае отсутствия автокорреляции выборочный коэффициент r1 окажется не сильно отличающимся от нуля, а значение статистики d будет близко к 2. Близость наблюдаемого значения к нулю должна означать наличие положительной автокорреляции, к четырем – отрицательной. Тест Дарбина-Уотсона имеет один существенный недостаток – распределение статистики d зависит не только от числа наблюдений, но и от значений регрессоров xj (j=1, …,p). Это означает, что тест Д-У, вообще говоря, не представляет собой статистический критерий, в том смысле, что нельзя указать критическую область, которая позволяла бы отвергнуть гипотезу об отсутствии корреляции, если бы оказалось, что в эту область попало наблюдаемое значение статистики d. Однако, существуют два пороговых значения dВ и dН, зависящие только от числа наблюдений, числа регрессоров и уровня значимости, такие, что выполняются следующие условия. Если фактически наблюдаемое значение d: 1. dB<d<4-dB, то гипотеза об отсутствии автокорреляции принимается; 2. dН<d<dB или 4-dB<d<4-dН, то вопрос об отвержении или принятии гипотезы остается открытым (область неопределенности критерия); 3. 0<d<4-dН, то принимается альтернативная гипотеза о положительной автокорреляции; 4. 4-dН<d<4, то принимается альтернативная гипотеза об отрицательной автокорреляции. 0 dН Н1 dВ зона неопред  ти 2 Н0 4  dВ 4  dН зона неопр  ти 4 Н2 Для d – статистики найдены dB и dН границы на различных уровнях значимости и помещены в таблицу. Недостатками критерия Д-У является: 1) Наличие области неопределенности критерия; 47 2) Что критические значения d – статистики определены для объемов выборки не менее 15. В этом смысле при n = 6, 7, 8 результаты недостоверны даже для парной регрессии; 3) Методика расчета и использование критерия Д-У направлена только на выявление автокорреляции остатков первого порядка. II. Тест серий Бреуша-Годфри Тест основан на следующей идее: если имеется корреляция между соседними наблюдениями, то естественно ожидать, что в уравнении ei    ei 1  i , i  1, n, (*) где ei – остатки регрессии, получаемые обычным МНК, коэффициент  окажется значимо отличающимся от нуля. Практическое применение теста заключается в оценивании МНК регрессии (*), где временной ряд ei-1 представляет ряд ei со сдвигом по времени на единицу. Преимущество теста Б-Г по сравнению с тестом Д-У заключается в том, что он проверяет с помощью статистического критерия, между тем как тест Д-У содержит зону неопределенности для значений d – статистики. Другим преимуществом теста является возможность обобщения: в число регрессоров могут быть включены не только остатки с лагом 1, но и с лагом 2, 3 и так далее, что позволяет выявить корреляцию не только между соседними, но и между более отдаленными наблюдениями. III. Q – тест Льюинга-Бокса (англ) Тест основан на рассмотрении выборочных автокорреляционной r ( ) и частной автокорреляционной rчаст ( ) функций временного ряда. Функция r ( ) как последовательность r1, r2, … была введена в п.номер, для нее можно записать общую формулу n  r ( )  n  n  i 1 i 1 (n   ) yi yi    yi   yi  i 1 n  n    (n   ) y 2   y    i i  i 1 i 1    2     1 2 n   n   2   (n   )  yi     yi    i 1  i 1   2     1 . 2 Если ряд стационарный, то, как можно доказать, выборочный частный коэффициент корреляции rчаст ( ) совпадает с оценкой обычного МНК коэффициента p в модели yi   0  1  yi 1  ...   p yi  p   i , это утверждение лежит в основе вычисления значений частной автокорреляционной функции. Напомним, что график выборочной автокорреляционной функции называется коррелограммой. Коррелограмма является быстро убывающей функцией. Если формально построенная коррелограмма не удовлетворяет этому свойству, это, скорее всего, означает, что ряд на самом деле нестационарный. Очевидно, что в случае отсутствия автокорреляции все значения автокорреляционной функции равны нулю. Конечно, ее выборочные значения r ( ) окажутся отличными от нуля, но в этом случае отличие не должно быть существенным. Статистика Льюинга-Бокса имеет вид: 48 r 2 ( ) Qp  n  (n  2) , n    1 p можно доказать, что если верна гипотеза H0 о равенстве нулю всех коэффициентов корреляции  (ei ei  ), p степенями свободы.   1, 2, ... , p, то статистика Qp имеет распределение  2 с IV. Тест h – статистика Дарбина Статистика Д-У неприменима, когда уравнение регрессии включает лаговую зависимую переменную, например yi-1. В таком случае можно использовать h – статистику Дарбина, которая также вычисляется на основе остатков: n  d h  1   ,  2  1  n var (b) где d – значение статистики Д-У(полное название), n – число наблюдений в выборке, var(b) – оцененная дисперсия коэффициента при лаговой зависимой переменной, например, var( b)  2  yi21 , 2 – общая дисперсия для парной регрессии. Значение h можно вычислить на основе обычных результатов оценивания регрессии. Этот тест предназначен только для проверки на наличие автокорреляции первого порядка. При больших выборках h распределена как N (0;1) по нулевой гипотезе об отсутствии автокорреляции. Следовательно, при применении двустороннего критерия и большой выборке гипотеза об отсутствии автокорреляции может быть отклонена: a) Если  h  >1,96 при уровне значимости 5%; b) Если  h  >2,58 при уровне значимости 1%. Тест Дарбина неприменим, если n  var (b)  1. Литература 1. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. М.: Дело, 2000. 2. Доугерти К. Введение в эконометрику. М.:ИНФРА-М, 2001. – 402 с. 3. Тихомиров Н.П., Дорохина Е.Ю. Эконометрика: Учебник. М.: Издательство «Экзамен», 2007. – 512 с. 4. Эконометрика: Учебник / Под ред. Н.И. Елисеевой. - М.: Финансы и статистика, 2001. 5. Практикум по эконометрике: Учеб. пособие / Под ред. Н.И. Елисеевой. - М.: Финансы и статистика, 2001. 6. Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. Н.Ш. Кремера. – М.: ЮНИТИ, 2002. 7. Крамер Г. Математические методы статистики: Пер. с англ. – М.: Мир, 1975. 8. Домбровский В.В. Эконометрика: Учебник. М.: Издательский дом «Новый учебник», 2004. – 342 с. 49 Учебное пособие Татьяна Владимировна Пак Яна Игоревна Еремеева ЭКОНОМЕТРИКА Учебное пособие Для студентов математических специальностей В авторской редакции Технический редактор А.К. Мухаматинова Компьютерный набор и верстка авторов Подписано в печать Формат 60 × 84 1 / 16. Усл. печ. л. Тираж экз. Уч. – изд. л. Издательство Дальневосточного университета 690950, Владивосток, ул. Октябрьская, 27 Отпечатано в лаборатории методов вычислений Кафедры компьютерных технологий ИМКН ДВГУ 690950, Владивосток, ул. Октябрьская, 27, к.132 50

Парная регрессия и корреляция

Products

Support

Парная регрессия и корреляция

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib