Эконометрика_2

advertisement
Автокорреляция
Автокорреляция (последовательная корреляция)
определяется
как
корреляция
между
наблюдаемыми показателями, упорядоченными
во времени (временные ряды) или в пространстве
(перекрестные данные).
Положительная
автокорреляция
вызывается
направленным
постоянным
воздействием
некоторых неучтенных в модели факторов.
Пример автокорреляции
• Отрицательная автокорреляция фактически
означает, что за положительным отклонением
следует отрицательное и наоборот
Основные причины, вызывающие появление
автокорреляции:
- ошибки спецификации;
- инерцию в изменении экономических
показателей;
- эффект паутины;
- сглаживание данных.
Ошибки спецификации
• Неучет в модели какой-либо важной объясняющей
переменной либо неправильный выбор формы
зависимости обычно приводит к системным
отклонениям точек наблюдений от линии
регрессии, что может обусловить автокорреляцию.
Пример
Анализируется зависимость предельных издержек МС
от объема выпуска Q.
• Если для ее описания вместо реальной
квадратичной модели МС = β0 + β1Q + β2Q2 + ε
выбрать линейную модель МС=β0+β1Q+ε, то
совершается ошибка спецификации.
Инерция
• Многие экономические показатели (например, инфляция, безработица, ВНП и т. п.) обладают
определенной цикличностью, связанной с
волнообразностью деловой активности.
Действительно, экономический подъем приводит к
росту занятости, сокращению инфляции,
увеличению ВНП и т.д. Этот рост продолжается до
тех пор, пока изменение конъюнктуры рынка ряда
экономических характеристик не приведет к
замедлению роста, затем остановке и движению
вспять рассматриваемых показателей. В любом
случае эта трансформация происходит не
мгновенно, а обладает определенной инертностью.
Эффект паутины
• Во многих производственных и других сферах
экономические показатели реагируют на
изменение экономических условий с
запаздыванием (временным лагом). Например,
предложение сельскохозяйственной продукции
реагирует на изменение цены с запаздыванием
(равным периоду созревания урожая). Большая
цена сельскохозяйственной продукции в
прошедшем году вызовет (скорее всего) ее
перепроизводство в текущем году, а,
следовательно, цена на нее может снизится и
т.д.
Сглаживание данных
• Зачастую данные по некоторому продолжительному временному периоду
получают усреднением данных по
составляющим его подынтервалам. Это
может привести к определенному
сглаживанию колебаний, которые имелись
внутри рассматриваемого периода, что в
свою очередь может послужить причиной
автокорреляции.
Последствия автокорреляции
1. Оценки параметров, оставаясь линейными и
несмещенными, перестают быть эффективными.
Следовательно, они перестают обладать свойствами
наилучших линейных несмещенных оценок.
2. Дисперсии оценок являются смещенными. Часто
дисперсии, вычисляемые по стандартным формулам,
являются заниженными, что влечет за собой
увеличение t-статистик. Это может привести к
признанию статистически значимыми объясняющие
переменные, которые в действительности таковыми
могут и не являться.
3. Оценка дисперсии регрессии является
смещенной оценкой истинного значения σ2 ,
во многих случаях занижая его.
4. В силу вышесказанного выводы по t- и Fстатистикам, определяющим значимость
коэффициентов регрессий и коэффициента
детерминации, возможно, будут неверными.
Вследствие этого ухудшаются прогнозные
качества модели.
Обнаружение автокорреляции
• В силу неизвестности значений параметров
уравнения регрессии неизвестными будут
также и истинные значения отклонений εt.
Поэтому выводы об их независимости
осуществляются на основе оценок et, t = 1,
2, ..., Т, полученных из эмпирического
уравнения регрессии.
Методы определения
автокорреляции:
• графический метод;
• метод рядов;
• критерий Дарбина—Уотсона;
Графический метод
• Необходимо увязать отклонения et с
моментами t их получения (их порядковыми
номерами i). Для этой цели строятся так
называемые последовательно-временные
графики: по оси абсцисс обычно откладываются либо время (момент) получения
статистических данных, либо порядковый
номер наблюдения, а по оси ординат —
отклонения εt (либо оценки отклонений et).
Пример применения графического
метода
Вывод
• На рис. а—г имеются определенные связи между
отклонениями, т.е. автокорреляция имеет место.
Отсутствие зависимости на рис. д скорее всего
свидетельствует об отсутствии автокорреляции.
• Например, на рис. 4, б отклонения вначале в
основном отрицательные, затем положительные,
потом снова отрицательные. Это свидетельствует о
наличии между отклонениями определенной
зависимости. Более того, можно утверждать, что в
этом случае имеет место положительная
автокорреляция остатков. Она становится весьма
наглядной, если график на рис. б дополнить
графиком зависимости et от et-1.
Зависимость et от et-1 для случая,
приведенного на рис. б
• Подавляющее большинство точек на этом
графике расположено в I и III четвертях
декартовой системы координат,
подтверждая положительную зависимость
между соседними отклонениями.
Метод рядов
• Необходимо последовательно определлить
знаки отклонений et, t = 1, 2, ..., Т. Например,
(– – – – –) (+ + + + + + +) (– – –) (+ + + +) (–),
т.е. 5 «–», 7 «+», 3 «–», 4 «+», 1 «–» при 20
наблюдениях.
• Ряд определяется – как непрерывная
последовательность одинаковых знаков.
Количество знаков в ряду называется длиной
ряда.
Визуальное распределение знаков свидетельствует о
неслучайном характере связей между отклонениями. Если
рядов слишком мало по сравнению с количеством
наблюдений n, то вполне вероятна положительная
автокорреляция. Если же рядов слишком много, то
вероятна отрицательная автокорреляция.
• Для более детального анализа предлагается следующая
процедура. Пусть
• п — объем выборки;
• п1 — общее количество знаков «+» при п наблюдениях
(количество положительных отклонений et);
• п2 — общее количество знаков «-» при п наблюдениях
(количество отрицательных отклонений et);
• k — количество рядов.
При достаточно большом количестве наблюдений
(n1 > 10, п2 > 10) и отсутствии автокорреляции СВ k
имеет асимптотически нормальное
распределение с
Тогда, если
M(k) – uα/2 D(k) < k < M(k) + uα/2 D(k),
то гипотеза об отсутствии автокорреляции не
отклоняется.
Для небольшого числа наблюдений (п1 < 20, п2 < 20), были
разработаны таблицы критических значений количества
рядов при n наблюдениях. Суть таблиц в следующем.
• На пересечении строки n1 и столбца n2 определяются
нижнее k1 и верхнее k2 значения при уровне значимости
α = 0,05.
• Если k1<k< k2,то говорят об отсутствии автокорреляции.
• Если k ≤ k1, то говорят о положительной автокорреляции
остатков.
• Если k ≥ k2 , то говорят об отрицательной автокорреляции
остатков.
• В нашем примере n = 20, n1 = 11, п2 =9, k = 5. По таблицам
определяем k1 = 6, k2= 16. Поскольку k = 5 < 6 = k1, то
принимается предположение о наличии положительной
автокорреляции при уровне значимости α = 0,05.
Критерий Дарбина—Уотсона
• Метод определения автокорреляции на
основе статистики Дарбина—Уотсона (DW)
состоит в том, что на основе вычисленной
статистики DW Дарбина—Уотсона делается
вывод об автокорреляции.
• Статистика Дарбина—Уотсона тесно связана с
выборочным коэффициентом корреляции
:
• Таким образом, 0 ≤ DW ≤ 4, и ее значения могут
указать на наличие либо отсутствие
автокорреляции. Действительно, если
≈0
(автокорреляция отсутствует), то DW ≈2. Если ≈ 1
(положительная автокорреляция), то DW ≈ 0.
Если ≈ –1 (отрицательная автокорреляция), то
DW ≈ 4.
Общая схема критерия Дарбина—
Уотсона
1. По построенному эмпирическому уравнению
регрессии
yt =b0 +b1хt1+...+bтхtm
определяются значения отклонений et = yt – для
каждого наблюдения t, t = 1, 2, ..., Т.
2. Рассчитывается статистика DW.
3. По таблице критических точек Дарбина—
Уотсона определяются два числа d1 и du и
осуществляют выводы по правилу:
• 0 ≤ DW < d1 — существует положительная
автокорреляция,
• d1 ≤ DW < du — вывод о наличии
автокорреляции не определен,
• du ≤ DW ≤ 4 – du — автокорреляция отсутствует,
• 4 – du < DW < 4 – d1 — вывод о наличии
автокорреляции не определен,
• 4 – d1 ≤ DW ≤ 4 — существует отрицательная
автокорреляция.
При использовании критерия Дарбина—Уотсона
необходимо учитывать следующие ограничения:
1. Критерий DW применяется лишь для тех
моделей, которые содержат свободный член.
2. Предполагается, что случайные отклонения εt
определяются по итерационной схеме: εt =ρεt-1 +
vt, называемой авторегрессионной схемой
первого порядка АЕ(1). Здесь vt — случайный
член.
3. Статистические данные должны иметь
одинаковую периодичность (т.е. не должно быть
пропусков в наблюдениях).,
4. Критерий Дарбина—Уотсона не применим для
регрессионных моделей, содержащих в составе
объясняющих переменных зависимую
переменную с временным лагом в один период,
т.е. для так называемых авторегрессионных
моделей вида:
yt =β0 + β 1хt1+...+ β тхtm+γ yt-1+ εt .
Для авторегрессионных моделей разработаны
специальные тесты обнаружения
автокорреляции, в частности h-статистика
Дарбина, которая определяется по формуле
~
h
n
1  nDg 
где — оценка ρ авторегрессии первого порядка,
D(g) — выборочная дисперсия коэффициента при
лаговой переменной yt-1 , n — число наблюдений.
При большом объеме выборки n и справедливости нулевой
гипотезы Н0: ρ = 0 статистика h имеет стандартизированное
нормальное распределение. Поэтому по заданному
уровню значимости α определяется критическая точка uα/2
из условия Ф(uα/2) = (1- α)/2 и сравнивается h с uα/2. Если >
uα/2 , то нулевая гипотеза об отсутствии автокорреляции
должна быть отклонена. В противном случае она не
отклоняется.
• Отметим, что обычно значение рассчитывается по
формуле = 1- 0,5DW, a D(g) равна квадрату стандартной
ошибки оценки g коэффициента γ. Поэтому h легко
вычисляется на основе данных оцененной регрессии.
• Основная проблема при использовании этого теста
заключается в невозможности вычисления h при nD(g) >
1.
Методы устранения
автокорреляции
• Используется авторегрессионное
преобразование.
• В линейной регрессионной модели
наиболее целесообразным и простым
преобразованием является
авторегрессионная схема первого порядка
AR(1).
Рассмотрим модель парной линейной регрессии
Y = β0 + β1x+ ε.
• Тогда наблюдениям t и (t -1) соответствуют :
yt = β0 + β1 xt +et,
yt-1 = β0 + β1xt-1 +et-1.
Пусть случайные отклонения подвержены
воздействию авторегрессии первого порядка:
εt =ρεt-1 + vt,
где vt , t = 2, 3, ... , Т— случайные отклонения,
удовлетворяющие всем предпосылкам МНК, а
коэффициент ρ известен.
После преобразований получим:
yt – ρyt-1 = β0 (1–ρ)+ β1 (xt – xt-1) +(εt – εt-1)
Положив
y  yt  yt 1 , x  xt  xt 1 ,    0 1   
*
t
*
t
*
0
получим:
y     x  vt
*
t
*
0
*
1 t
• Так как по предположению коэффициент ρ
известен, то очевидно, yt* , xt*, vt
вычисляются достаточно просто. В силу того
что случайные отклонения vt
удовлетворяют предпосылкам МНК, оценки
β0* и β1 будут обладать свойствами
наилучших линейных несмещенных
оценок.
Недостатки
1) На практике значение коэффициента ρ
обычно неизвестно и его необходимо
оценивать.
2) Данный способ вычисления уt*, хt*
приводит к потере первого наблюдения
(если мы не обладаем предшествующим
ему наблюдением). Число степеней свободы
уменьшится на единицу, что при больших
выборках не так существенно, но при малых
выборках может привести к потере
эффективности.
Поправка Прайса-Винстена
x  1    x1 , y  1    y1
*
1
2
*
1
2
• Авторегрессионное преобразование может
быть обобщено на произвольное число
объясняющих переменных, т.е. использовано
для уравнения множественной регрессии.
• Авторегрессионное преобразование первого
порядка AR(1) может быть обобщено на
преобразования более высоких порядков AR(2),
AR(3) и т.д.
Определение ρ на основе
статистики Дарбина—Уотсона
• Статистика Дарбина—Уотсона тесно связана
с коэффициентом корреляции между
соседними отклонениями через
соотношение (2):

DW  2 1  ret et 1

• В качестве оценки коэффициента ρ может
быть взят коэффициент r = ret,e(t-1)
DW
r  1
2
• Этот метод оценивания весьма неплох при
большом числе наблюдений. В этом случае
оценка r параметра ρ будет достаточно
точной.
Метод Кохрана—Оркатта
1. Оценивается по МНК линейная регрессия и
для нее определяются оценки et отклонений εt, t
= 1, 2, ..., Т.
2. С использованием авторегрессионной схемы
первого порядка оценивается регрессионная
зависимость
et =ρ1 et-1 + vt,
• где ρ1 — оценка коэффициента ρ.
3. На основе данной оценки строится
уравнение:
yt – ρ1 yt-1 = α (1–ρ1)+ β(xt – ρ1xt-1) +(εt – ρ1 εt-1)
с помощью которого оцениваются
коэффициенты α и β (в этом случае значение
ρ1 известно).
4. Значения β0 = α (1 – ρ1) и β1 = β подставляются
в уравнение регрессии. Вновь вычисляются
оценки et отклонений и процесс возвращается
к этапу 2.
• Чередование этапов осуществляется до тех
пор, пока не будет достигнута требуемая
точность, т.е. пока разность между
предыдущей и последующей оценками ρ не
станет меньше любого наперед заданного
числа.
Метод Хилдрета—Лу
По данному методу регрессия
yt – ρyt-1 = β0 (1–ρ)+ β1 (xt – xt-1) +(εt – ε t-1)
оценивается для каждого возможного значения ρ из
отрезка [-1, 1] с любым шагом (например, 0,001;
0,01 и т.д.). Величина ρ1, дающая наименьшую
стандартную ошибку регрессии, принимается в
качестве оценки коэффициента ρ. И значения β0 и
β1 оцениваются из уравнения регрессии именно с
данным значением ρ1.
Этот итерационный метод широко используется в
пакетах прикладных программ.
Метод первых разностей
В случае, когда есть основание считать, что
автокорреляция отклонений очень велика,
можно использовать метод первых разностей.
Для временных рядов характерна
положительная автокорреляция остатков.
Поэтому при высокой автокорреляции
полагают р = 1, и, следовательно, уравнение
принимает вид
yt – yt-1 = β1 (xt – xt-1) +(εt – ε t-1) или
yt – yt-1 = β1 (xt – xt-1) + vt
Обозначив
Δyt = yt – yt-1, Δxt = xt – xt-1,
получим
Δyt = β1 Δxt + vt.
Из этого уравнения по МНК оценивается коэффициент
β1. Заметим, что коэффициент β0 в данном случае не
определяется непосредственно. Однако из МНК
известно, что β0 = у – β1x.
В случае ρ = –1, можно получить следующее уравнение
регрессии:
yt + yt-1 =2 β0 + β1 (xt – xt-1) + vt
или
0,5(yt + yt-1) =β0 + 0,5β1 (xt – xt-1) + vt
Однако метод первых разностей
предполагает слишком сильное упрощение
(ρ = ±1).
Поэтому более предпочтительными являются
приведенные выше итерационные методы.
Вывод
• В силу ряда причин (ошибок спецификации,
инерционности рассматриваемых
зависимостей и др.) в регрессионных моделях
может иметь место корреляционная
зависимость между соседними случайными
отклонениями. Это нарушает одну из
фундаментальных предпосылок МНК.
Вследствие этого оценки, полученные на
основе МНК, перестают быть эффективными.
• Это делает ненадежными выводы по значимости коэффициентов регрессии и по
качеству самого уравнения.
• Поэтому достаточно важным является умение
определить наличие автокорреляции и
устранить это нежелательное явление.
Существует несколько методов определения
автокорреляции, среди которых были
выделены графический, метод рядов,
критерий Дарбина—Уотсона.
• При установлении автокорреляции
необходимо в первую очередь
проанализировать правильность
спецификации модели. Если после ряда
возможных усовершенствований регрессии
(уточнения состава объясняющих переменных
либо изменения формы зависимости)
автокорреляция по-прежнему имеет место, то,
возможно, это связано с внутренними
свойствами ряда отклонений. В этом случае
возможны определенные преобразования,
устраняющие автокорреляцию.
• Среди них выделяется авторегрессионная
схема первого порядка AR(1), которая, в
принципе, может быть обобщена которая
может быть обобщена и на схемы более
высоких порядков вторая третья и т.д. Для
применения указанных схем необходимо
оценить коэффициент корреляции между
отклонениями.
• Это может быть сделано различными
методами: на основе статистики Дарбина—
Уотсона, Кохрана-Оркатта, Хилдрета-Лу и др.
• В случае наличия среди объясняющих
переменных лаговой зависимой переменной
наличие автокорреляции устанавливается с
помощью h-статистики Дарбина. А для ее
устранения в этом случае предпочтителен метод Хилдрета—Лу.
ПРИМЕР ПОСТРОЕНИя МОДЕЛИ
ПАРНОЙ КОРРЕЛЯЦИИ
• Рассмотрим построение аналитической
зависимость выработки, приходящейся на
одного рабочего от коэффициента текучести
кадров. Статистические данные приведены в
табл.
Наблюдение
i
Результативны
й признак
y
Фактор
x
1
10,3
0,15
2
9,6
3
Наблюдение
i
Результативны
й признак
y
Фактор
x
10
5,3
0,26
0,18
11
5,8
0,23
8,9
0,19
12
5
0,37
4
4,7
0,44
13
5,1
0,57
5
6,3
0,35
14
4,3
0,37
6
5,4
0,28
15
4,6
0,28
7
6,5
0,23
16
6,3
0,24
8
5,1
0,36
17
7,7
0,28
9
6,2
0,42
18
7
0,26
12
Выработка
10
8
6
4
2
0
0
0,1
0,2
0,3
0,4
Коэффициент текучести
0,5
0,6
• Анализируя поле корреляций, задаемся
гипотезой о существовании между
рассматриваемыми величинами линейной
зависимости вида
y=a+bx.
Для вычисления коэффициентов регрессии
предварительно вычислим величины:
N
 y i 114,1
i 1
N
 x i 5,41
i 1
N
 x i y i 32,52
i 1
N
y
i 1
N
2
x
i 1
2
 775,47
 1,8456
b
N xy   x y
N  x 2    x
2

18  32,52  5,46  114,1
18  1,8456  5,46
2
 11,03661,
y
x 114,1
5,46


a  y  bx 
b

 11,03661
 9,68666.
N
N
118
18
Таким образом, линейная зависимость будет
описываться зависимостью вида
y=9,68666-11,03661x.
• Находим коэффициент корреляции между
изучаемыми величинами
r
N
N
N
i 1
i 1
i 1
N x i  yi   x i   yi
N
N
N
N   x i  ( x i )   N  
i 1
2
i 1
2
i 1
y 2i
N
 ( y i )
i 1

2
18  32,52  5,46  1141
,
18  18456
,
 5,46 2  18  775,47  1141
,2
 0,66
r
N
N
N
i 1
i 1
i 1
N x i  yi   x i   yi
N
N
N
N   x i  ( x i )   N  
i 1
2
i 1
2
i 1
y 2i
N
 ( y i )
i 1

2
18  32,52  5,46  1141,
18  18456
,
 5,46 2  18  775,47  1141, 2
 0,66
• Знак минус у коэффициента корреляции
показывает на обратно пропорциональную
связь между изучаемыми величинами.
Исследование модели
• Оценим значимость полученного коэффициента
корреляции, проверив справедливость нулевой
гипотезы. В качестве которой используется
предположение о равенстве нулю
коэффициента корреляции
xP
1,96

 0,475  r  0,66.
N 1
18  1
• Вывод: нулевая гипотеза не подтвердилась и
связь между рассматриваемыми величинами
существует.
• Проведем проверку значимости коэффициентов
регрессии по формулам
t a  2,3339,
t b  2,6591.
• Находим табличное значение критерия
Стьюдента. Для вероятности 5 % и числе
степеней свободы f=N-2=16 (число наблюдений
минус число коэффициентов уравнения
регрессии) t=2,12, а с вероятностью 2 % t=2,567. Таким образом, полученные
результаты свидетельствуют о том, что
коэффициенты линейного уравнения регрессии
a и b с вероятностью 95 % будут отличны от
нуля
• Если же требуется повышенная степень
вероятности (это характерно для особо
ответственных расчетов), то полученная модель
не отвечает этим требованиям, так как гипотеза
об отличии коэффициентов регрессии от нуля не
подтвердилась, то есть , и, следовательно, с
вероятностью 2 % коэффициент «a»уравнения
регрессии будет равняться нулю.
• Найдем оценку значимости уравнения
регрессии с помощью критерия Фишера. С этой
целью определим по формуле
DY
F
Dм „Т.
где
- дисперсия фактических
значений зависимого переменного; N-n-1=f1 ; N1=f2 - число степеней свободы.
• По числу степеней свободы, задавшись
вероятностью, можно определить
табличное значение критерия Фишера. Если
F ≥ Fтабл, то уравнение регрессии считается
значимым, т.е. уравнение будет давать
достаточно надежные прогнозы и может
быть использовано.
• Значение критерия Фишера
Fрасчетное=1,5811
для степеней свободы
Таким образом,
Fрасчетное<Fтабл
Следовательно, гипотеза о значимости уравнения
регрессии не подтверждается, а это означает, что
предсказательная сила среднего значения
изучаемой величины выше, чем у полученного
уравнения регрессии.
• Анализируя все полученные оценки, можно
сделать вывод о том, что использование
линейной аппроксимации при решении
поставленной задачи не оправдано.
• Рассмотрим аппроксимацию изучаемых
величин при помощи степенной зависимости
вида
• Находя коэффициенты уравнения регрессии
«a» и «b», получаем
• Тесноту связи оценим по корреляционному
соотношению
  0,79
• Оценим
значимость
полученного
коэффициента
корреляции,
проверив
справедливость нулевой гипотезы
• Таким образом, нулевая гипотеза не
подтвердилась и связь между
рассматриваемыми величинами существует.
• Проведем проверку значимости
коэффициентов регрессии. Для использования
формулы, справедливой только для линейных
соотношений, проведем предварительную
линеаризацию уравнения, в результате
получим
• Применяя к этому линеаризованному
соотношению формулу, получим
• Находим табличное значение критерия
СтьюдентаI. При вероятности 5 % и числе
степеней свободы f=N-2=16 (число наблюдений
минус число коэффициентов уравнения
регрессии) t=2,12, а с вероятностью 2 % t=2,567.
• Таким образом, полученные результаты
свидетельствуют о том, что коэффициенты
степенного уравнения регрессии a и b с
вероятностью 95 % будут отличны от нуля
t табл  t р ас 2,12  2,5764 и 2,12  3,0011
• Полученная модель и при повышенном
значении вероятности (98 %) сохраняет
значимость коэффициентов регрессии
и, следовательно, является более
предпочтительной по сравнению с линейной.
• Найдем оценку значимости уравнения
регрессии с помощью критерия Фишера. С
этой целью определим значение критерия
для степеней свободы
Таким образом, Fрасчетное ≥ Fтабл
• Следовательно, гипотеза о значимости
уравнения регрессии подтверждается, а это
означает, что предсказательная сила
среднего значения изучаемой величины
ниже, чем у полученного уравнения
регрессии
ПОСТРОЕНИЕ МНОЖЕСТВЕННОЙ
КОРРЕЛЯЦИОННОЙ МОДЕЛИ
• Рассмотрим совокупное влияние на
уровень производительности труда двух
факторов: текучести рабочих кадров и
уровня механизации строительномонтажных работ.
• Введем следующие обозначения:
y - производительность труда на одного
работающего, тыс. руб. / год;
x1 - текучесть рабочих кадров, % ;
x2 - уровень механизации строительномонтажных работ, % .
Исходные статистические данные приведены в
таблице
№ п/п
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Сумма
x1
x2
0,15 95
0,18 97
0,19 94
0,44 61
0,35 60
0,28 65
0,23 57
0,36 58
0,42 60
0,26 65
0,23 53
0,37 65
0,57 50
0,37 55
0,28 55
0,24 75
0,28 80
5,2 1145
y
10,3
9,6
8,6
4,7
6,3
5,4
6,5
5,1
6,2
5,3
5,8
5
5,1
4,3
4,6
6,3
7,7
107
x1*x1 x2*x2
y*y
x1*y
0,0225 9025 106,09 1,545
0,0324 9409 92,16 1,728
0,0361 8836 73,96 1,634
0,1936 3721 22,09 2,068
0,1225 3600 39,69 2,205
0,0784 4225 29,16 1,512
0,0529 3249 42,25 1,495
0,1296 3364 26,01 1,836
0,1764 3600 38,44 2,604
0,0676 4225 28,09 1,378
0,0529 2809 33,64 1,334
0,1369 4225
25
1,85
0,3249 2500 26,01 2,907
0,1369 3025 18,49 1,591
0,0784 3025 21,16 1,288
0,0576 5625 39,69 1,512
0,0784 6400 59,29 2,156
1,778 80863 721,22 30,643
x2*y
978,5
931,2
808,4
286,7
378
351
370,5
295,8
372
344,5
307,4
325
255
236,5
253
472,5
616
7582
x1*x2
14,25
17,46
17,86
26,84
21
18,2
13,11
20,88
25,2
16,9
12,19
24,05
28,5
20,35
15,4
18
22,4
332,59
• С целью определения тесноты связи между
изучаемыми явлениями и исключения
мультиколлинеарности, находим коэффициенты
парной корреляции и записываем их в виде
матрицы
• Анализируя тесноту связи между изучаемыми
величинами, можно сделать вывод, что связь
достаточно обусловлена, так как парные
коэффициенты корреляции между
результативной величиной y и факторными
признаками равны -0,66 и 0,896 соответственно.
• Парный коэффициент корреляции между
факторными признаками равен -0,666, что ниже
0,85 и, следовательно, эти показатели можно
включать в модель, так как принято считать, что
явление мультколлинеарности в данном случае
отсутствует, хотя этот вопрос и нуждается в
дополнительном исследовании.
• Как правило, парные коэффициенты проверяют
на значимость с помощью нулевой гипотезы по
критерию Стьюдента. Осуществив проверку
нулевой гипотезы, приходим к выводу, что
нулевая гипотеза не подтверждается для всех
трех парных коэффициентов с вероятностью 90
% и даже 95 %. Это свидетельствует о том, что
все коэффициенты значимы и рассматриваемые
корреляционные связи существуют.
Отдельным вопросом стоит связь между
факторными признаками, которая в данном
случае достаточно высока, но все-таки меньше
рекомендованного порога 0,85, так что включение
этих факторов в целом будет обосновано.
Будем аппроксимировать результативный признак
в линейном виде, то есть уравнение регрессии
примет вид:
где a0, a1, a2 - коэффициенты уравнения регрессии,
определяемые по методу наименьших квадратов.
• Система алгебраических уравнений для
определения коэффициентов регрессии
Решая эту систему находим
a 0  1,444, a1  3,049, a 2  0,089 и
тогда уравнение регрессии запишется в виде
Находим множественный коэффициент
корреляции, получаем R=0,9.
Исследование модели
Download