ЛАБОРАТОРНАЯ РАБОТА № 4 В.Н. Демидов Тема работы: Линейная парная регрессия. Цель работы: Вычисление коэффициентов линейной регрессионной зависимости и статистический анализ полученного уравнения. Задание: Имеются результаты серии экспериментальных измерений x1 , y1 , x2 , y2 , , xn , yn , причем обе величины x и y измерены в одних и тех же экспериментах; известно, что ошибки измерений – независимые нормально распределенные случайные величины с одинаковыми дисперсиями и нулевыми математическими ожиданиями. Восстановить линейную регрессионную зависимость по результатам измерений; вычислить методом наименьших квадратов параметры эмпирической регрессии (вычисления провести, используя явные формулы и различные возможности пакета Mathcad; сравнить результаты); построить доверительные интервалы для коэффициентов регрессии и доверительную область для всей линии регрессии; используя критерий Фишера проверить адекватность уравнения регрессии. Теоретическая часть Задача линейного регрессионного анализа состоит в восстановлении функциональной зависимости yx M Y / X x a0 a1x по результатам измерений x1 , y1 , x2 , y2 , , xn , yn . Уравнение (эмпирическая регрессия) y a0 a1x , определяет прямую, которая является оценкой истинной линии регрессии. Необходимо вычислить точечные и интервальные оценки a0 , a1 для параметров a0 , a1 по результатам эксперимента и проверить значимость полученного уравнения регрессии. a0 , a1 всегда производится с использованием Вычисление коэффициентов метода наименьших квадратов, но этот метод фиксирует лишь «стратегию» получения эмпирических оценок, допуская различные «тактические приемы», что приводит к большому разнообразию конкретных математических постановок задач, методов и формул получения оценок a0 , a1 даже в рассматриваемом здесь простейшем случае линейной регрессии. Отметим некоторые из них. Коэффициенты регрессии можно вычислить минимизируя сумму квадратов отклонений: E a0 , a1 n a i 1 численно решая систему уравнений: 0 2 a1 xi yi ; E a0 , a1 E a0 , a1 0, 0; a0 a1 решая (с использованием точных или итерационных методов) систему нормальных уравнений, предварительно сформировав ее в явном виде: n n n xi yi a 0 i 1 i 1 n ; n n a1 2 xi xi xi y i i 1 i 1 i 1 решая систему нормальных уравнений аналитически: n a0 n n n n y x y x xi2 i i 1 i i i 1 i 1 n n i 1 xi2 xi n i 1 n i i 1 2 a1 , n n x y x y i i i i 1 i 1 n n i 1 xi2 n i 1 i i 1 2 xi , или n a1 n x x y y x y nxy i i i i 1 n x x 2 i i 1 a0 y a1 x , 1 x n i i 1 n x , 2 i nx 2 i 1 n x , i i 1 1 y n n y , i i 1 или, если предварительно вычислены оценки дисперсий s X2 , sY2 и коэффициента корреляции 1 n 1 s X2 n x x 2 i i 1 , sY2 1 n 1 n y y , 2 i i 1 n x x y y i i i 1 n n x x y y 2 2 i 1 n 1s X sY n x x y y , i i i 1 i i 1 i 1 то s a1 Y , a0 y a1 x . sX Доверительные интервалы для коэффициентов регрессии a0 , a1 , соответствующие доверительной вероятности p 1 , имеют вид: 1 a0 t ,n 2 s n x2 n x x 2 i i 1 1 a0 a0 t ,n 2 s n x2 n x x 2 i i 1 , a1 t ,n 2 s a1 a1 n x x 2 t ,n 2 s , n x x 2 i i i 1 i 1 или 1 x2 a0 t ,n2 2 n n 1s X где t ,n 2 n 1 2 1 n 1 2 x2 2 s 1 a a t sY 1 2 , 0 0 ,n 2 2 n2 Y n n 1s X n 2 sY 1 2 sY 1 2 , a1 t ,n2 a1 a1 t ,n2 sX n 2 sX n 2 - квантиль распределения Стьюдента, определяемый как корень уравнения F n2 t ,n2 1 / 2 , F n2 t - функция распределения Стьюдента с n 2 степенями свободы. Доверительная область для всей линии регрессии определяется с помощью уравнений 1 y x a0 a1 x s 2 f ,2 ,n2 n x x 2 , n x x 2 i i 1 1 y x a0 a1 x s 2 f ,2 ,n2 n x x 2 n x x , 2 i i 1 описывающих соответственно нижнюю и верхнюю границы области («полосы»), в которой с доверительной вероятностью p 1 лежит истинная линия регрессии. Здесь f ,2 ,n2 - квантиль распределения Фишера, определяемый как решение уравнения F2 ,n2 f ,2 ,n2 1 ; F2 ,n 2 x - функция распределения Фишера с 2 и n 2 степенями свободы, s 2 «остаточная» дисперсия, характеризующая рассеяние экспериментальных точек относительно линии регрессии 1 s n2 2 n yi yi 2 . i 1 Для проверки значимости уравнения регрессии в целом используется критерий Фишера: если sY2 f ,n1,n2 , s2 то уравнение регрессии адекватно (статистически значимо) описывает результаты эксперимента при ( 100 )- процентном уровне значимости. Отношение (полной и остаточной дисперсий) sY2 / s 2 показывает, во сколько раз уравнение регрессии предсказывает результаты опыта лучше, чем среднее y . Необходимо помнить, что доверительная оценка отклонения эмпирической линии регрессии от теоретической существенно ухудшается по мере удаления от среднего значения x . В частности, по этой причине опасна экстраполяция эмпирической регрессионной зависимости за пределы интервала x1 , x n , для которого она получена. Порядок выполнения задания 1. Присвойте переменной ORIGIN значение равное единице. 2. Из файлов Lab4 kx и Lab4 ky (k – номер варианта задания) введите исходные данные и разместите их в массивах (x) и (y). 3. Вычислите коэффициенты регрессии, используя для этой цели встроенные функции пакета Mathcad. 4. Вычислите коэффициенты регрессии, определив минимум функции E a0 , a1 n a 0 2 a1 xi yi . i 1 5. Вычислите коэффициенты регрессии с помощью блока численного решения «Given – Find», приравняв нулю частные производные от функции E a0 , a1 . 6. Вычислите коэффициенты регрессии, сформировав в явном виде систему нормальных уравнений. 7. Вычислите коэффициенты регрессии, используя приведенные в теоретической части формулы. 8. Сравните значения коэффициентов регрессии, полученные различными способами. 9. Найдите доверительные интервалы для коэффициентов a 0 и a1 . 10. Постройте доверительную область для всей линии регрессии. 11. Постройте график линии регрессии и изобразите на нем исходные экспериментальные точки. 12. Изобразите на одном графике линию регрессии и границы доверительной области для нее. 13. Проверьте адекватность полученного уравнения регрессии по критерию Фишера. 14. Сохраните рабочий документ.