Множественная регрессия и корреляция.

advertisement
Лекция № 5
множественная
регрессия и
корреляция.
• Уравнение множественной регрессии
y  a  b1 x1  b2 x2  ...  b p x p  

Основная
регрессии
цель
множественной
– построить модель с большим числом
факторов, определив при этом влияние
каждого из них в отдельности, а также
совокупное
их
воздействие
на
моделируемый показатель.
например
• Современная потребительская функция
чаще всего рассматривается как модель
вида
С  f ( y , P, M , Z ) ,
•
•
•
•
•
С – потребление;
у – доход;
P – цена,
M – наличные деньги;
Z – ликвидные активы;

Построение
уравнения
множественной
регрессии
начинается с решения вопроса о
спецификации модели.
Условия включения факторов при
построении множественной регрессии.
• 1. факторы должны быть
количественно измеримы.
• 2. Факторы не должны быть
интеркоррелированы.
• Если между факторами существует высокая
корреляция, то параметры уравнения
регрессии оказываются
неинтерпретируемыми.
• Пусть в уравнении
y  a  b1 х1  b2  х 2
rx1x 2  0.
Если же rx1x 2  1
то b1 , b2 нельзя интерпретировать как
показатели раздельного влияния x1 и x 2
на у .
Пример.
• Рассмотрим регрессию себестоимости:
единицы
продукции
(руб.,у)
от
заработной платы работника (руб., x) и
производительности его труда (единиц в
час, z ):
y  22600 5  x 10  z
•
rxz
= 0,95
Отбор факторов при построении
множественной регрессии.
• 2 этапа отбора факторов:
– факторы подбираются исходя из сущности проблемы;
– на основе корреляционной матрицы производится
исключение части факторов
• 1) проверка парной корреляции,
• 2) оценка мультиколлинеарности факторов:
– Проверка гипотезы H0: Det R=1
Пути преодоления сильной
межфакторной корреляции
• Исключение одного или нескольких факторов
• Преобразование факторов для уменьшения
корреляции между ними
– Переход к первым разностям
– Переход к линейным комбинациям (метод главных
компонент)
• Переход к совмещенным уравнениям
регрессии
• Переход к уравнениям приведенной формы
• Предпочтение отдается не фактору,
более тесно связанному с
результатом, а тому фактору,
который при достаточной тесной
связи с результатом имеет
наименьшую тесноту связи с
другими факторами.
• Пусть,
например,
при
изучении
зависимости
матрица парных
коэффициентов корреляции оказалась
следующей:
y
y
x
z
v
1
x
0,8
1
z
v
0,7
0,8
1
0,6
0,5
0,2
1
пример
y
y
x
z
v
1
x
0,3
1
z
v
0,7
0,75
1
0,6
0,5
0,8
1
• Для оценки мультиколлинеарности
факторов
может
использоваться
определитель
матрицы
парных
коэффициентов
корреляции между
факторами.
• Если бы факторы не коррелировали между
собой, то матрица парных коэффициентов
корреляции была бы единичной матрицей т.е.
rx1x1
rx2 x1
rx3 x1
1 0 0
0 0 1
Det R  rx1x2
rx 2 x 2
rx3 x2  0 1 0  1,
rx1x3
rx2 x3
rx3 x3
• Если же, наоборот, между факторами
существует полная линейная
зависимость и все коэффициенты
корреляции равны единице, то
определитель такой матрицы равен нулю:
1
1
1
Det R  1
1
1
1
1  0.
1
• Таким образом,
• чем ближе к нулю определитель
матрицы межфакторной корреляции,
тем сильнее мультиколлинеарность
факторов и ненадежнее результаты
множественной регрессии.
• Через коэффициенты множественной
детерминации можно найти
переменные, ответственные за
мультиколлинеарность факторов.
• Сравнивая между собой
коэффициенты множественной
детерминации факторов
2
R x x , x ... x
1 2 3
p
2
; R x x x ... x
2 1 3
p
;
• оставляем в уравнении факторы с
минимальной величиной
коэффициента множественной
детерминации.
• При дополнительном включении в
регрессию р+1 фактора коэффициент
детерминации должен возрастать, а
остаточная дисперсия уменьшаться;
R
2
p 1
R
2
p
и S p21  S p2 .
• Пусть для регрессии, включающих пять
факторов, коэффициент детерминации
составил 0,857
включение шестого фактора дало
коэффициент детерминации
0,855,
вряд ли целесообразно дополнительно
включать в модель этот фактор.
Оценка параметров уравнения
множественной регрессии
• Метод:
– а) метод наименьших квадратов (МНК)
– б) метод наименьших квадратов (МНК) для
стандартизованного уравнения
• В линейной множественной регрессии

y x  a  b1  x1  b2  x2  ...  b p  x p
параметры при переменной x называются
коэффициентами «чистой» регрессии.
Они характеризуют среднее изменение
результата с изменением соответствующего
фактора на единицу при неизменном
значении других факторов, закрепленном на
среднем уровне.
• уравнение регрессии в стандартизованном
виде:
t y  1  t x1   2  t x2    b p  t x p
Где t y , yx ,, t x
переменные
1
t xi 
xi  xi
x
-стандартизованные
p
ty 
,
i
Свойства:
yy
y
t y  t xi  0,
 t   t  1;
y
x
 i -стандартизованные коэффициенты
регрессии.
• Стандартизованные коэффициенты регрессии
показывают, на сколько % изменится в среднем
результат, если соответствующий фактор xi
изменится на 1 % при неизменном среднем
уровне других факторов.
• Стандартизованные коэффициенты регрессии i
сравнимы между собой.
• Связь между «чистыми» и
«стандартизованными» коэффициентами
регрессии
y
bi   i
x
i
• Пример. Пусть функция издержек
производства y(тыс. руб.)
характеризуется уравнением вида
y  200  1,2  x1  1,1 x2  
• x1 - основные производственные
фонды(тыс.руб.)
• х2 - численность занятых в
производстве(чел.)
• уравнение регрессии в стандартизованном
виде выглядит так
t y  0,5  t x1  0,8  t x 2 .
• Вывод:
• Достоинство стандартизованных
коэффициентов регрессии:
использовать при отсеве факторов – из
модели исключаются факторы с
наименьшим значением  j
Download