ЛАБОРАТОРНАЯ РАБОТА № 4 В.Н. Демидов Тема работы: Линейная парная регрессия.

advertisement
ЛАБОРАТОРНАЯ РАБОТА № 4
В.Н. Демидов
Тема работы: Линейная парная регрессия.
Цель работы: Вычисление коэффициентов линейной регрессионной зависимости и
статистический анализ полученного уравнения.
Задание: Имеются результаты серии экспериментальных измерений
x1 , y1 , x2 , y2 , , xn , yn  ,
причем обе величины x и y измерены в одних и тех же экспериментах; известно,
что ошибки измерений – независимые нормально распределенные случайные
величины
с
одинаковыми
дисперсиями
и
нулевыми
математическими
ожиданиями.
Восстановить линейную регрессионную зависимость по результатам измерений;
вычислить методом наименьших квадратов параметры эмпирической регрессии
(вычисления провести, используя явные формулы и различные возможности пакета
Mathcad; сравнить результаты); построить доверительные интервалы для коэффициентов
регрессии и доверительную область для всей линии регрессии; используя критерий
Фишера проверить адекватность уравнения регрессии.
Теоретическая часть
Задача линейного регрессионного анализа состоит в восстановлении функциональной
зависимости
yx   M Y / X  x   a0  a1x
по результатам измерений
x1 , y1 , x2 , y2 , , xn , yn  .
Уравнение (эмпирическая регрессия)
  
y  a0  a1x ,
определяет прямую, которая является оценкой истинной линии регрессии. Необходимо
 
вычислить точечные и интервальные оценки a0 , a1 для параметров a0 , a1 по результатам
эксперимента и проверить значимость полученного уравнения регрессии.
 
a0 , a1 всегда производится с использованием
Вычисление коэффициентов
метода наименьших квадратов, но этот метод фиксирует лишь «стратегию» получения
эмпирических оценок, допуская различные «тактические приемы», что приводит к
большому разнообразию конкретных математических постановок задач, методов и
 
формул получения оценок a0 , a1 даже в рассматриваемом здесь простейшем случае
линейной регрессии. Отметим некоторые из них.
Коэффициенты регрессии можно вычислить
 минимизируя сумму квадратов отклонений:
 
E a0 , a1  
n
 a
i 1
 численно решая систему уравнений:
0

2
 a1 xi  yi  ;
 
 
E a0 , a1 
E a0 , a1 
 0,
 0;


a0
a1
 решая (с использованием точных или итерационных методов) систему
нормальных уравнений, предварительно сформировав ее в явном виде:
n


 n

 n


xi
yi 

 a


 0   i 1
i 1
 n

;




n
n
 a1  


2
xi
xi 
xi y i 






i 1
 i 1

 i 1

 решая систему нормальных уравнений аналитически:

n

a0 
n




n
n
n
 y   x y  x
xi2
i
i 1
i i
i 1
i 1
n
n

i 1

xi2 



xi 


n

i 1
n
i
i 1
2

a1 
,
n
n
x y x  y
i i
i
i 1
i 1
n
n

i 1

xi2  


n

i 1
i
i 1
2

xi 


,
или
n

a1 
n
 x  x  y  y   x y  nxy
i
i
i
i 1

n
 x  x 
2
i
i 1


a0  y  a1 x ,
1
x
n
i
i 1
n
x
,
2
i
 nx 2
i 1
n
x ,
i
i 1
1
y
n
n
y ,
i
i 1
или, если предварительно вычислены оценки дисперсий s X2 , sY2 и коэффициента

корреляции 
1

n 1
s X2
n
 x  x 
2
i
i 1
,
sY2
1

n 1
n
y  y ,
2
i
i 1
n


 x  x  y  y 
i
i
i 1
n
n
 x  x    y  y 
2
2
i
1

n  1s X sY
n
 x  x  y  y  ,
i
i
i 1
i
i 1
i 1
то


 s
a1   Y , a0  y  a1 x .
sX
 
Доверительные интервалы для коэффициентов регрессии a0 , a1 , соответствующие
доверительной вероятности p  1   , имеют вид:
1

a0  t ,n  2 s

n
x2
n
 x  x 
2
i
i 1
1

 a0  a0  t ,n  2 s

n
x2
n
 x  x 
2
i
i 1
,

a1 
t ,n  2 s

 a1  a1 
n
 x  x 
2
t ,n  2 s
,
n
 x  x 
2
i
i
i 1
i 1
или
1
x2

a0  t  ,n2  
2
 n n  1s X
где t ,n  2
 n 1 2
1
 n 1 2
x2
2





s
1



a

a

t

sY 1   2 ,
0
0
 ,n  2 
2 
n2 Y

 n n  1s X  n  2


sY 1   2
sY 1   2


,
a1  t  ,n2
 a1  a1  t  ,n2
sX n  2
sX n  2
- квантиль распределения Стьюдента, определяемый как корень уравнения
F n2 t  ,n2   1   / 2 ,




F n2 t  - функция распределения Стьюдента с n  2 степенями свободы.
Доверительная область для всей линии регрессии определяется с помощью
уравнений
1


y x   a0  a1 x  s 2 f  ,2 ,n2

n
x  x 2
,
n
 x  x 
2
i
i 1
1


y x   a0  a1 x  s 2 f  ,2 ,n2

n
x  x 2
n
 x  x 
,
2
i
i 1
описывающих соответственно нижнюю и верхнюю границы области («полосы»), в
которой с доверительной вероятностью p  1   лежит истинная линия регрессии. Здесь
f  ,2 ,n2 - квантиль распределения Фишера, определяемый как решение уравнения
F2 ,n2  f  ,2 ,n2   1   ;
F2 ,n  2 x  - функция распределения Фишера с 2 и n  2 степенями свободы, s 2 «остаточная» дисперсия, характеризующая рассеяние экспериментальных точек
относительно линии регрессии
1
s 
n2
2
n

 yi  yi 2 .
i 1
Для проверки значимости уравнения регрессии в целом используется критерий
Фишера: если
sY2
 f  ,n1,n2 ,
s2
то уравнение регрессии адекватно (статистически значимо) описывает результаты
эксперимента при (   100 )- процентном уровне значимости.
Отношение (полной и остаточной дисперсий) sY2 / s 2 показывает, во сколько раз
уравнение регрессии предсказывает результаты опыта лучше, чем среднее y .
Необходимо помнить, что доверительная оценка отклонения эмпирической линии
регрессии от теоретической существенно ухудшается по мере удаления от среднего
значения x . В частности, по этой причине опасна экстраполяция эмпирической
регрессионной зависимости за пределы интервала x1 , x n  , для которого она получена.
Порядок выполнения задания
1. Присвойте переменной ORIGIN значение равное единице.
2. Из файлов Lab4 kx и Lab4 ky (k – номер варианта задания) введите исходные данные и
разместите их в массивах (x) и (y).
3. Вычислите коэффициенты регрессии, используя для этой цели встроенные функции
пакета Mathcad.
4. Вычислите коэффициенты регрессии, определив минимум функции
E a0 , a1  
n
 a
0
2
 a1 xi  yi  .
i 1
5. Вычислите коэффициенты регрессии с помощью блока численного решения «Given –
Find», приравняв нулю частные производные от функции E a0 , a1  .
6. Вычислите коэффициенты регрессии, сформировав в явном виде систему нормальных
уравнений.
7. Вычислите коэффициенты регрессии, используя приведенные в теоретической части
формулы.
8. Сравните значения коэффициентов регрессии, полученные различными способами.
9. Найдите доверительные интервалы для коэффициентов a 0 и a1 .
10. Постройте доверительную область для всей линии регрессии.
11. Постройте график линии регрессии и изобразите на нем исходные экспериментальные
точки.
12. Изобразите на одном графике линию регрессии и границы доверительной области для
нее.
13. Проверьте адекватность полученного уравнения регрессии по критерию Фишера.
14. Сохраните рабочий документ.
Related documents
Download