Практическая работа №2 РЕГРЕССИОННЫЙ АНАЛИЗ

advertisement
Практическая работа №2
РЕГРЕССИОННЫЙ АНАЛИЗ
Основные понятия и формулы
Форма связи
линейная положительная
линейная отрицательная
отсутствует
Метод наименьших квадратов (МНК)
нелинейная
Регрессионный анализ
– факторы
- коэффициенты
линейная регрессия
нелинейная регрессия
множественная регрессия
Уравнение регрессии
Основная цель регрессионного анализа состоит в определении связи между
некоторой характеристикой Y наблюдаемого явления или объекта и величинами х1, х2, …,
хn, которые обусловливают, объясняют изменения Y. Переменная Y называется зависимой
переменной (откликом), влияющие переменные х1, х2, …, хn называются факторами
(регрессорами). Установление формы зависимости, подбор модели (уравнения) регрессии
и оценка ее параметров являются задачами регрессионного анализа.
В регрессионном анализе изучаются модели вида Y = φ(X) + ε, где Y результирующий признак (отклик, случайная зависимая переменная); X – фактор
(неслучайная независимая переменная); ε – случайная переменная, характеризующая
отклонение фактора Х от линии регрессии (остаточная переменная). Уравнение регрессии
записывается в виде: yx = φ(x, b0, b1, …, bp), где х – значения величины Х; yx = Mх(Y); b0, b1,
…, bp – параметры функции регрессии φ. Таким образом, задача регрессионного анализа
состоит в определении функции и ее параметров и последующего статистического
исследования уравнения.
В зависимости от типа выбранного уравнения различают линейную и нелинейную
регрессию (в последнем случае возможно дальнейшее уточнение: квадратичная,
экспоненциальная, логарифмическая и т.д.). В зависимости от числа взаимосвязанных
признаков различают парную и множественную регрессию. Если исследуется связь
между двумя признаками (результативным и факторным), то регрессия называется
парной, если между тремя и более признаками – множественной (многофакторной)
регрессией.
На первом этапе регрессионного анализа данные наблюдений или эксперимента
представляют графически.
Зависимость между переменными Х и Y изображают точками на
координатной плоскости (х, y) и соединяют их ломаной линией. Этот
ломаный график называется эмпирической линией регрессии Y по Х.
По виду эмпирической линии регрессии делают предположение о
виде (форме) зависимости переменной Y от Х. В данном случае
Рис. 1.
логично предположить линейную зависимость.
Если вид функции φ в уравнении регрессии выбран, то для оценки неизвестных
параметров b0, b1, …, bp используется метод наименьших квадратов (МНК). Согласно
методу неизвестные параметры функции выбираются таким образом, чтобы сумма
квадратов отклонений экспериментальных (эмпирических) значений yi от их расчетных
(теоретических) значений была минимальной, т.е.
где
– значение, вычисленное по уравнению регрессии;
– отклонение
(ошибка, остаток); n – количество пар исходных данных.
Вывод основных уравнений
Если в качестве уравнения регрессии выбран полином степени m:
Y = А + ВХ + СХ2 + ... + КХm.
При m = 1:
Y = А + ВХ.
Определим параметры уравнения регрессии по методу наименьших квадратов. Для
этого необходимо:
- составить систему уравнений по числу рассчитываемых параметров:




 0;
 0; …
 0;
 0;
B
C
A
K
n
где

   Yi  A  BX  CX  ...  KX
2
2
m
;
1
например, для линейного уравнения регрессии система уравнений имеет вид:
n
n
n
1
1
B X i  A X i   X i Yi
2
1
n
n
1
1
B X i  nA   Yi
- решить систему уравнений и определить неизвестные например, для линейного
уравнения регрессии решение имеет вид:
B
n X i Yi   X i  Yi
n X i2   X i 
2
 X Y   X  X Y
A
n X   X 
2
;
i
i
2
i
i
i i
2
;
i
Проверим правильность выбора вида уравнения регрессии. Для этого необходимо:
- рассчитать отклонения экспериментальных значений Yi от соответствующих значений
Ypi, рассчитанных для того же аргумента Xi по полученному уравнению регрессии  Yi =
Yi - Ypi ;
- построить в осях координат X, Y полученные значения Yi для соответствующих Xi;
- записать последовательность значений Yj по мере возрастания Xj, Xj  (l,n);
Можно увеличить степень полинома m на единицу и повторить вычисления по п. п.
2-3. например, для полинома второй степени: Y = А + ВХ + СХ2
С целью определения параметров уравнения регрессии в данном случае необходимо
решить систему уравнений:
n
n
n
n
C  X i  B  X i  A X i   X i Yi ;
4
3
2
1
1
1
n
n
n
n
1
1
2
1
C  X i  B  X i  A X i   X iYi ;
3
1
n
1
2
n
n
1
1
C  X i  B  X i  nA   Yi
2
1
Парная линейная регрессионная модель
Рассмотрим парную линейную регрессионную модель взаимосвязи двух
переменных, для которой функция регрессии φ(х) линейна. Обозначим через yx условную
среднюю признака Y в генеральной совокупности при фиксированном значении x
переменной Х. Тогда уравнение регрессии будет иметь вид:
yx = ax + b, где a – коэффициент регрессии (показатель наклона линии линейной
регрессии). Коэффициент регрессии показывает, на сколько единиц в среднем изменяется
переменная Y при изменении переменной Х на одну единицу. С помощью метода
наименьших квадратов получают формулы, по которым можно вычислять параметры
линейной регрессии:
Таблица 1. Формулы для расчета параметров линейной регрессии
Свободный член b
Коэффициент регрессии a Коэффициент детерминации
Направление связи между переменными определяется на основании знака
коэффициента регрессии. Если знак при коэффициенте регрессии положительный, связь
зависимой переменной с независимой будет положительной. Если знак при коэффициенте
регрессии отрицательный, связь зависимой переменной с независимой является
отрицательной (обратной).
yx  f (x)
Y
yi
yiр
отклонение
yx  f (x)
Y
yi
р
 = yi  yi
y iр
Общая
Необъясненная вариация
вариация Объясненная вариация
y
0
xi
Рис. 2. Понятие отклонения
(линейная регрессия)
X
0
xi
X
Рис. 3. Графическая интерпретация
коэффициента детерминации (линейная
регрессия)
Для анализа общего качества уравнения регрессии используют коэффициент
детерминации R2, называемый также квадратом коэффициента множественной
корреляции. Коэффициент детерминации (мера определенности) всегда находится в
пределах интервала [0;1]. Если значение R2 близко к единице, это означает, что
построенная модель объясняет почти всю изменчивость соответствующих переменных. И
наоборот, значение R2 близкое к нулю, означает плохое качество построенной модели.
Коэффициент детерминации R2 показывает, на сколько процентов
найденная функция регрессии описывает связь между исходными значениями Y и Х. На
рис. 3 показана
– объясненная регрессионной моделью вариация и
общая вариация. Соответственно, величина
показывает, сколько
процентов вариации параметра Y обусловлены факторами, не включенными в
регрессионную модель.
При высоком значении коэффициента детерминации
75%) можно делать
прогноз
для конкретного значения
в пределах диапазона исходных данных.
При прогнозах значений, не входящих в диапазон исходных данных, справедливость
полученной модели гарантировать нельзя. Это объясняется тем, что может проявиться
влияние новых факторов, которые модель не учитывает.
Пример 1. В механическом цехе анализируется структура себестоимости продукции и доля
покупных комплектующих. Было отмечено, что стоимость комплектующих зависит от времени
их поставки. В качестве наиболее важного фактора, влияющего на время поставки, выбрано
пройденное расстояние. Провести регрессионный анализ данных о поставках:
Расстояние, миль
3,5
2,4
4,9
4,2
3,0
1,3
1,0
3,0
1,5
4,1
Время, мин
16
13
19
18
12
11
8
14
9
16
Для проведения регрессионного анализа:
1. построить график исходных данных, приближенно определить характер зависимости;
2. выбрать вид функции регрессии и определить численные коэффициенты модели методом
наименьших квадратов и направление связи;
3. оценить силу регрессионной зависимости с помощью коэффициента детерминации;
4. оценить значимость уравнения регрессии;
5. сделать прогноз (или вывод о невозможности прогнозирования) по принятой модели для
расстояния 2 мили.
1. Построенные точки не находятся точно на линии: помимо
расстояния на время поставки влияют пробки на дорогах, время
суток, дорожные работы, погода, квалификация водителя, вид
транспорта. Но эти точки собраны вдоль прямой линии, поэтому
можно предположить линейную положительную связь между
параметрами.
2. Вычислим суммы, необходимые для расчета коэффициентов уравнения линейной регрессии и
коэффициента детерминации R2:
№
Y, мин.
19
18
17
16
15
14
y  a 0  a1x
13
12
11
10
9
8
a0
a1  tg

1
1
2
3
4
5
6
7
8
9
10
Σ
2
3
5
4
3,5
2,4
4,9
4,2
3,0
1,3
1,0
3,0
1,5
4,1
28,9
;
X, миль
16
13
19
18
12
11
8
14
9
16
136
12,25
5,76
24,01
17,64
9,00
1,69
1,00
9,00
2,25
16,81
99,41
56,00
31,20
93,10
75,60
36,00
14,30
8,00
42,00
13,50
65,60
435,30
15,22
12,30
18,95
17,09
13,89
9,37
8,57
13,89
9,90
16,82
–
;
Искомая регрессионная зависимость имеет вид:
2,63
1,70
28,59
12,15
0,08
17,88
25,27
0,09
13,67
10,36
112,42
;
5,76
0,36
29,16
19,36
2,56
6,76
31,36
0,16
21,16
5,76
122,40
.
. Определяем
направление связи между переменными: знак коэффициента регрессии положительный,
следовательно, связь также является положительной, что подтверждает графическое
предположение.
3. Вычислим коэффициент детерминации:
или 92%. Таким образом,
линейная модель объясняет 92% вариации времени поставки, что означает правильность выбора
фактора (расстояния). Не объясняется 8% вариации времени, которые обусловлены остальными
факторами, влияющими на время поставки, но не включенными в линейную модель регрессии.
Регрессионный анализ удобно проводить с помощью возможностей Exel. Режим
работы "Регрессия" служит для расчета параметров уравнения линейной регрессии и
проверки его адекватности исследуемому процессу. В диалоговом окне следует заполнить
следующие параметры:
 Входной интервал Y - это диапазон данных по результативному признаку, он
должен состоять из одного столбца.
 Входной интервал X - это диапазон ячеек, содержащих значения факторов
(независимых переменных). Число входных диапазонов (столбцов) 16.
 Флажок Метки, устанавливается в том случае, если в первой строке диапазона
стоит заголовок.
 Флажок Уровень надежности активизируется, если в поле, находящееся рядом с
ним необходимо ввести уровень надежности, отличный от установленного по
умолчанию (95%).
 Константа ноль. Данный флажок необходимо установить, если линия регрессии
должна пройти через начало координат (b = 0).
 Флажки в группе Остатки
и График остатков устанавливаются, если
необходимо включить в выходной диапазон соответствующие столбцы или
графики.
Пример 2. Выполнить задание примера 1 с помощью режима "Регрессия" Exel.
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,958275757
R-квадрат
0,918292427
Нормированный R-квадрат
0,90807898
Стандартная ошибка
1,11809028
Наблюдения
10
Коэффициенты
Стандартная ошибка t-статистика P-Значение
Y-пересечение
5,913462144
0,884389599
6,686489927 0,00015485
Переменная X 1
2,65970168
0,280497238
9,482095791 1,26072E-05
Рассмотрим представленные в таблице результаты регрессионного анализа.
Величина R-квадрат, называемая также мерой определенности, характеризует качество
полученной регрессионной прямой. Это качество выражается степенью соответствия между
исходными данными и регрессионной моделью (расчетными данными). В нашем примере мера
определенности равна 0,91829, что говорит об очень хорошей подгонке регрессионной прямой к
исходным данным и совпадает с коэффициентом детерминации R2, вычисленным по формуле.
Множественный R - коэффициент множественной корреляции R - выражает степень
зависимости независимых переменных (X) и зависимой переменной (Y) и равен квадратному корню
из коэффициента детерминации. В простом линейном регрессионном анализе множественный
коэффициент R равен линейному коэффициенту корреляции (r = 0,958).
Коэффициенты линейной модели: Y-пересечение выводит значение свободного члена b, а
переменная Х1 – коэффициента регрессии а. Тогда уравнение линейной регрессии:
у = 2,6597x + 5,9135 (что хорошо согласуется с результатами расчета в примере 1).
Далее проверим значимость коэффициентов регрессии: a и b. Сравнивая попарно значения
столбцов Коэффициенты и Стандартная ошибка в таблице, видим, что абсолютные значения
коэффициентов больше, чем их стандартные ошибки. К тому же эти коэффициенты являются
значимыми, о чем можно судить по значениям показателя Р-значение, которые меньше
заданного уровня значимости α=0,05.
Наблюдение
1
2
3
4
5
6
7
8
9
10
Предсказанное
Y
15,22241803
12,29674618
18,94600038
17,0842092
13,89256718
9,371074328
8,573163824
13,89256718
9,903014664
16,81823903
Остатки
0,777581975
0,703253823
0,053999622
0,915790799
-1,892567185
1,628925672
-0,573163824
0,107432815
-0,903014664
-0,818239033
Стандартные
остатки
0,737641894
0,667131568
0,051225961
0,868751695
-1,795356486
1,545256778
-0,543723571
0,101914586
-0,8566318
-0,776210624
В таблице представлены результаты вывода остатков. При помощи этой части отчета
мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее
абсолютное значение остатка в данном случае - 1,89256, наименьшее - 0,05399. Для лучшей
интерпретации этих данных строят график исходных данных и построенной линией регрессии.
Как видно из построения, линия регрессии хорошо "подогнана" под значения исходных данных, а
отклонения носят случайный характер.
Нелинейная регрессия
Нелинейные уравнения регрессии предварительно приводят к линейному виду с
помощью преобразования переменных, а затем к преобразованным переменным
применяют метод наименьших квадратов. В Exel для построения нелинейных моделей
можно использовать команду "Добавить линию тренда". Эта команда используется для
выделения тренда при анализе временных рядов. Однако эту команду можно использовать
и для построения уравнения нелинейной регрессии, рассматривая в качестве времени
независимую переменную X.
Команда "Добавить линию тренда" позволяет построить следующие уравнения
регрессии:
линейную,
полиномиальную,
логарифмическую,
степенную,
экспоненциальную.
Для построения нелинейных моделей в Exel необходимо ввести по столбцам
исходные данные (массивы Х и Y), по ним построить график в декартовой системе
координат. Затем установить курсор на построенном графике, сделать щелчок правой
кнопкой и в появившемся контекстном меню выполнить команду Добавить линию тренда
(см. рис. примера 3). В появившемся диалоговом окне активизировать закладку Тип и
выбрать нужное уравнение регрессии. При этом необходимо задать опции (поставить
галочки): Показать уравнение на диаграмме и Поместить на диаграмму величину
достоверности аппроксимации (R^2).
Пример 3. Для массива экспериментальных данных построить возможные уравнения
нелинейной регрессии с помощью команды Добавить линию тренда" и по максимальному
коэффициенту детерминации найти наилучшее уравнение нелинейной регрессии.
№
1
Уравнение
y = 9,28 + 1,777x
Коэффициент детерминации
0,949
2
3
4
5
6
y = 9,8759 + 5,1289∙ln x
y = 6,93 + 3,5396x – 0,2518x2
y = 5,8333 +4,9192x – 0,7087x2 – 0,0435x3
y = 10,18x0,3626
y = 9,8675e0,1225x
0,9916
0,9896
0,9917
0,9921
0,9029
Вывод: в качестве наилучшего уравнения регрессии выбираем степенную функцию y = 10,18x0,3626.
http://www.excelworld.ru/
Задачи для самостоятельной работы
Задача 1. Экспериментальные данные приведены в таблице:
Х
50
75
100
125
150
Y
0,60
0,54
0,47
0,40
0,31
Для проведения регрессионного анализа:
1. построить график исходных данных, приближенно определить характер зависимости;
2. выбрать вид функции регрессии и определить численные коэффициенты модели
методом наименьших квадратов и направление связи;
3. оценить силу регрессионной зависимости с помощью коэффициента детерминации;
4. оценить значимость уравнения регрессии;
Задача 2. Для массива экспериментальных данных построить возможные уравнения
регрессии с помощью команды Добавить линию тренда и по максимальному
коэффициенту детерминации найти наилучшее уравнение регрессии.
X
3
8
5
10
7
6
4
9
1
2
Y
6
5
9
1
8
9
8
4
2
4
Download