Лекция 2. Модель парной линейной регрессии Файл

advertisement
ЛЕКЦИЯ 2
ТЕМА: НАЧАЛА РЕГРЕССИОННОГО
АНАЛИЗА. МЕТОД НАИМЕНЬШИХ
КВАДРАТОВ. МОДЕЛЬ ПАРНОЙ
ЛИНЕЙНОЙ РЕГРЕССИИ. УСЛОВИЯ
ГАУССА-МАРКОВА
Понятие регрессии
Регрессией в теории вероятностей и математической статистике
называется зависимость среднего значения величины Y от значения
другой величины X (или нескольких величин).
Пусть изучается взаимозависимость двух количественных признаков. В
результате n опытов или наблюдений получены пары чисел:
(xi, yi), где i = 1, 2, ..., n.
На основе предварительного анализа этих данных и с учётом самой
природы признаков мы можем сделать предположение о некоторой
линии связи
y x  f ( x,  )
где под y x подразумевается среднее значение признака Y,
соответствующее значению X = x, а под  – совокупность
варьируемых параметров.
Например, если диаграмма рассеивания свидетельствует о линейной
форме корреляции, то в качестве линии связи можно выбрать прямую
y x  ax  b
Вопрос состоит в том, как получить оценки коэффициентов a и b.
2
Метод наименьших квадратов
Метод наименьших квадратов (МНК)
состоит в минимизации суммы
квадратов отклонений
наблюдаемых значений
количественного признака от
теоретических значений того же
признака, соответствующих
некоторой гипотетической формуле.
Например, для случая, когда в качестве
линии связи выбирается прямая,
минимизируется функция двух
переменных:
y
y x  ax  b
yi
ax i  b
x
n
S (a, b)   ( y i  axi  b) 2  min
i 1
xi
3
Уравнение парной линейной регрессии
Уравнение вида
y x  a * x  b*
в котором оценки коэффициентов a* и b* вычислены по
статистическим данным методом наименьших квадратов,
называется выборочным уравнением линейной регрессии
Y по X. Эти оценки определяются формулами
a* 
или
xy  x y
x 2  ( x) 2
, b* 
y x 2  x xy
x 2  ( x) 2
b*  y  a* x
4
Связь между коэффициентами корреляции и регрессии
Сравнивая формулы для выборочных коэффициентов корреляции
и регрессии, нетрудно убедиться, что
a 
*
xy  x y

2
x

y
x
rxy
!!! Легко показать, что
yx  y 
y
x
rxy ( x  x)
Таким образом, линия регрессии проходит через точку ( x, y )
с угловым коэффициентом (коэффициентом регрессии), прямо
пропорциональным коэффициенту корреляции.
5
Модель парной линейной регрессии
Модель парной линейной регрессии имеет вид
y i  ax i  b   i
(i  1, ..., n)
где
xi – детерминированная (неслучайная)
величина;
 i – случайная величина (ошибка регрессии),
вызывающая отклонение значения yi от
точной линейной функции;
a и b – неизвестные параметры линейной
функции регрессии.
6
Предположения относительно ошибки регрессии
1-ое условие Гаусса-Маркова
Относительно ошибки регрессии  i принимаются
следующие допущения.
Во-первых, считается, что эта величина имеет
нормальное распределение, причём её
математическое ожидание равно нулю:
M ( i )  0
Иначе говоря, ошибка регрессии считается
случайной (не систематической) ошибкой.
7
2-ое условие Гаусса-Маркова
Дисперсия ошибки во всех
наблюдениях считается
одинаковой:
Y
D ( i )  M ( i2 )   2
Это свойство называется
гомоскедастичностью.
(верхний рисунок)
Противоположное свойство
называется
гетероскедастичностью
(нижний рисунок)
X
Рис.3 а
Y
X
Рис.3 б
8
3-е условие Гаусса-Маркова
Считается, что ошибки разных наблюдений некоррелированы:
 ( i ,  j )  M ( i  j )  M ( i )M ( j )  M ( i  j )  0, i  j
Если свойство некоррелированности ошибок не выполняется,
то говорят об автокорреляции остатков.
Y
X
Рис.3 в
На рисунке представлен
случай автокорреляции
остатков. Здесь ковариация
 ( i ,  i 1 )  0
и ошибки регрессии в
соседних (по Х) точках, как
правило, имеют
одинаковый знак.
9
Свойства оценок МНК
Выборочные коэффициенты a* и b*, получаемые методом
наименьших квадратов, являются несмещёнными,
состоятельными и эффективными оценками
параметров линейной регрессии (при выполнении
условий Гаусса-Маркова).
Несмещённая оценка имеет такое же математическое
ожидание, как и сама оцениваемая величина.
Состоятельная оценка улучшает свою точность с
увеличением объёма выборки.
Эффективной считается оценка, имеющая наименьшую
дисперсию.
10
Download