Парная регрессия и корреляция

advertisement
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
Государственное образовательное учреждение высшего профессионального
образования
«Санкт-Петербургский государственный университет аэрокосмического
приборостроения»
ЭКОНОМЕТРИКА
Методические указания
по выполнению контрольной работы
для студентов заочной формы обучения
Санкт-Петербург
2010
1. Введение
Моделирование экономических процессов сопряжено с рядом трудностей. Это и многообразие экономической жизни и конфликт интересов
различных социальных групп и внешний фактор в силу открытости
современной экономики. Возникает определенный пессимизм по отношению
к возможностям и полезности количественного моделирования, стремление к
качественному описанию взаимосвязей экономических величин. Тем не
менее, конкретные решения, влекущие материальную ответственность, не
могут опираться на качественные рассуждения и требуют
точных
вычислений. Востребованные практикой средства анализа данных, на
которые можно опираться в процессе принятия решений, предоставляет
эконометрика. В этой науке соединились возможности экономической
теории и математики.
Данные методические указания включают теоретические выкладки,
пример решения эконометрической задачи и задания к контрольной работе. В
конце методических указаний приведен пример оформления контрольной
работы и правила выбора варианта. Уровень сложности предлагаемых
заданий и относительно небольшое количество наблюдений позволяют
выполнить предлагаемую работу с помощью обычного калькулятора. Однако
предполагается, что при выполнении работы студенты будут использовать
оболочку Excel.
Выполнение работы следует начинать с проработки методических
указаний, параллельно изучая теорию в соответствии со стандартом и
рабочей программой курса. Затем выполняются задания своего варианта.
2. Парная регрессия и корреляция.
2.1 Постановка задачи.
По имеющимся данным n наблюдений за совместным изменением двух
параметров x и y необходимо определить аналитическую зависимость
yˆ  f ( x) , наилучшим образом описывающую данные наблюдений.
2.2 Понятие линейной регрессии.
Функция yˆ x  a  bx , задающая среднее значение переменной y , при
условии, что независимая переменная x приняла фиксированное значение,
называется функцией (линейной) регрессии.
2.3 Оценка параметров модели.
Для
оценки
параметров
линейной
регрессии
используется
метод
наименьших квадратов (МНК). МНК позволяет получить такие оценки
параметров, при
которых
сумма отклонений
фактических
значений
результативного признака y от теоретических значений y i при тех же
значениях фактора x i минимальна, т.е.
  y  y   min .
n
2
i
i 1
В случае линейной регрессии параметры a и b находятся из следующей
системы нормальных уравнений МНК:
na  b  x   y
i
i

i 1
i 1
 n
n
n
a  xi  b  xi2   xi yi
 i 1
i 1
i 1
n
n
Можно воспользоваться готовыми формулами, которые вытекают из этой
системы:
 a  y  bx

b  x y  x  y
___


x2  x 2
2.4 Интерпретация коэффициентов уравнения регрессии.
Коэффициент
b при факторной переменной
x
имеет следующую
интерпретацию: он показывает, на сколько изменится в среднем величина y
при изменении фактора x на 1 единицу измерения.
Коэффициент a – свободный член в уравнении регрессии показывает
значения переменной y при x  0 . Этот коэффициент не всегда имеет
экономическую интерпретацию.
2.5 Оценка тесноты связи.
В качестве меры для тесноты линейной связи между переменными
используется коэффициент корреляции. Приведем формулу выборочного
коэффициента корреляции переменных x и y :
rXY 
1 n
   xi  x  yi  y 
n i 1
.
n
n
1
1
2
2
   xi  x 
   yi  y 
n i 1
n i 1
Коэффициент корреляции будет положителен, если отклонения переменных
x и y от своих средних значений, как правило, имеют одинаковый знак, и
отрицательным – если разные знаки. Коэффициент корреляции является
безразмерной величиной. Его величина меняется от -1 в случае строгой
линейной отрицательной связи до +1 в случае строгой линейной
положительной связи. Близкая к 0 величина коэффициента корреляции
говорит об отсутствии линейной связи между переменными, но не об
отсутствии связи между ними вообще.
2.6 Оценка качества построенной модели (адекватности эмпирическим
данным).
2.6.1 Коэффициент детерминации.
Для оценки качества построенной
модели регрессии можно использовать коэффициент детерминации R 2 .
Коэффициент детерминации может быть вычислен по формуле:
 y  y
n
R2  1 
i 1
n
i

2
xi
y  y
i 1
2
.
i
С другой стороны, для парной линейной регрессии верно равенство:
R 2  rXY2 .
При близости значения коэффициента детерминации к 1 говорят, что
уравнение регрессии статистически значимо и фактор x оказывает сильное
воздействие на результирующий признак y .
При анализе модели парной линейной регрессии по значению
коэффициента детерминации можно сделать следующие предварительные
выводы о качестве модели:
 Если
R 2  0;0,09, то будем считать, что использование
регрессионной модели для аппроксимации зависимости между
переменными y и x статистически необоснованно.
 Если R  0,09;0,49, то использование регрессионной модели
2
возможно, но после оценивания параметров модель подлежит
дальнейшему многостороннему статистическому анализу.
 Если R  0,49;1, то будем. считать, что у нас есть основания
2
для использования регрессионной модели при анализе поведения
переменной y .
2.6.2 Средняя ошибка аппроксимации.
Другой показатель качества построенной модели –– среднее относительное
отклонение расчетных значений от фактических или средняя ошибка
аппроксимации:
A
1 n yi  yi

100% .
n i1 yi
Построенное уравнение регрессии считается удовлетворительным, если
значение A не превышает 10% – 12% .
3. Пример.
По
21
региону страны изучается зависимость розничной продажи
телевизоров ( y ) от среднедушевого денежного дохода в месяц ( x ).
Номер
региона
Среднедушевой
денежный доход в
месяц, тыс. руб., x
Объем розничной
продажи
телевизоров, тыс.
шт., y
1
2
28
2
2,4
21,3
3
2,1
21
4
2,6
23,3
5
1,7
15,8
6
2,5
21,9
7
2,4
20
8
2,6
22
9
2,8
23,9
10
2,6
26
11
2,6
24,6
12
2,5
21
13
2,9
27
14
2,6
21
15
2,2
24
16
2,6
24
17
3,3
31,9
18
3,9
33
19
4
35,4
20
3,7
34
21
3,4
31
Необходимо найти зависимость, наилучшим образом отражающую связь
между переменными x и y .
Рассмотрим вопрос применения модели линейной регрессии в этой
задаче.
Построим поле корреляции, т.е. нанесем исходные данные на
координатную
плоскость.
Для
этого
возможностями MS Excel 2003.
Подготовим таблицу исходных данных.
воспользуемся,
например,
Нанесем на координатную плоскость исходные данные:
Характер расположения точек на графике дает нам основание
предположить, что искомая функция регрессии линейная: yˆ  a  bx . Для
оценки коэффициентов уравнения регрессии необходимо составить и решить
систему нормальных уравнений (
).
По исходным данным рассчитываем необходимые суммы:
x
y
xy
x2
y2
1
2
28
56
4
784
2
2,4
21,3
51,12
5,76
453,69
3
2,1
21
44,1
4,41
441
4
2,6
23,3
60,58
6,76
542,89
5
1,7
15,8
26,86
2,89
249,64
6
2,5
21,9
54,75
6,25
479,61
7
2,4
20
48
5,76
400
8
2,6
22
57,2
6,76
484
9
2,8
23,9
66,92
7,84
571,21
Номер
региона
10
2,6
26
67,6
6,76
676
11
2,6
24,6
63,96
6,76
605,16
12
2,5
21
52,5
6,25
441
13
2,9
27
78,3
8,41
729
14
2,6
21
54,6
6,76
441
15
2,2
24
52,8
4,84
576
16
2,6
24
62,4
6,76
576
17
3,3
31,9
105,27
10,89
1017,61
18
3,9
33
128,7
15,21
1089
19
4
35,4
141,6
16
1253,16
20
3,7
34
125,8
13,69
1156
21
3,4
31
105,4
11,56
961
Сумма
57,4
530,1
1504,46
164,32
13926,97
Составляем систему уравнений:
21a  57,4b  530,1

57,4a  164,32b  1504,46
Имеем систему линейных алгебраических уравнений, которая может быть
решена, например, по формулам Крамера. Для этого вычислим следующие
определители:

21
57,4
57,4 164,32
a 
b 
530,1
 21  164,32  57,4  57,4  155,96;
57,4
1504,46 164,32
21
530,1
57,4 1504,46
 750,028;
 1176,42.
Тогда, согласно теореме Крамера,
a
 a 750,03
 1176,42

 4,81; b  b 
 7,54.
 155,96

155,96
Получаем уравнение регрессии:
yˆ  4,81  7,54x.
Величина коэффициента регрессии b  7,54 означает, что увеличение
среднедушевого месячного дохода на 1 тыс. руб. приведет к увеличение
объема розничной продажи в среднем на 7 540 телевизоров. Коэффициент a
в данном случае не имеет содержательной интерпретации.
Оценим
тесноту
линейной
связи
между
переменными
и
качество
построенной модели в целом.
Для оценки тесноты линейной зависимости рассчитаем коэффициент
детерминации. Для этого необходимо провести ряд дополнительных
вычислений.
Прежде всего, найдем выборочное среднее y по формуле:
y
1 n
  yi .
n i 1
Для рассматриваемого примера имеем:
y
1
28  21,3  21  ...  34  31  25,24.
21
Теперь произведем расчет остальных вспомогательных величин:
Номер
x
y
ŷ
y  yˆ
 y  ŷ 
y y
y  y
1
2
28
19,76
8,24
67,89
2,76
7,60
2
2,4
21,3
22,75
-1,45
2,11
-3,94
15,55
3
2,1
21
20,51
0,49
0,24
-4,24
18,00
4
2,6
23,3
24,25
-0,95
0,90
-1,94
3,77
5
1,7
15,8
17,52
-1,72
2,95
-9,44
89,17
6
2,5
21,9
23,50
-1,60
2,56
-3,34
11,17
7
2,4
20
22,75
-2,75
7,57
-5,24
27,49
8
2,6
22
24,25
-2,25
5,04
-3,24
10,52
региона
2
2
9
2,8
23,9
25,74
-1,84
3,39
-1,34
1,80
10
2,6
26
24,25
1,75
3,08
0,76
0,57
11
2,6
24,6
24,25
0,35
0,13
-0,64
0,41
12
2,5
21
23,50
-2,50
6,24
-4,24
18,00
13
2,9
27
26,49
0,51
0,26
1,76
3,09
14
2,6
21
24,25
-3,25
10,54
-4,24
18,00
15
2,2
24
21,26
2,74
7,53
-1,24
1,54
16
2,6
24
24,25
-0,25
0,06
-1,24
1,54
17
3,3
31,9
29,48
2,42
5,86
6,66
44,32
18
3,9
33
33,96
-0,96
0,93
7,76
60,17
19
4
35,4
34,71
0,69
0,47
10,16
103,17
20
3,7
34
32,47
1,53
2,34
8,76
76,69
21
3,4
31
30,23
0,77
0,60
5,76
33,14
57,4
530,1
Сумма
130,68
545,73
Здесь столбец « ŷ » – это значения yi , i  1,..., 21, рассчитанные с помощью
построенного уравнения регрессии, столбцы « y  yˆ » и
 y  ŷ 
2
– это
столбцы, так называемых, «остатков»: разностей между исходными
значениями
yi , i  1,..., 21, и рассчитанными с помощью уравнения
регрессии ŷ i , а также их квадратов, а в последних двух столбцах – разности
между исходными значениями y i , выборочным средним y , а также их
квадраты.
Для вычисления коэффициента детерминации воспользуемся формулой ( ):
R2  1 
130,68
 0,76.
545,73
Значение коэффициента детерминации позволяет сделать предварительный
вывод о том, что у нас имеются основания использовать модель линейной
регрессии в данной задаче, поскольку R  0,49;1.
2
Построим линию регрессии на корреляционном поле, для чего добавим на
координатной плоскости точки, соответствующие уравнению регрессии ( ŷ i ).
Нанесем теперь уравнение регрессии на диаграмму, используя специальные
средства Excel. Для этого необходимо выделить правой кнопкой мыши
исходные точки и выбрать опцию Добавить линию тренда.
В открывшемся меню Параметры линии тренда выбрать Линейную
аппроксимацию. Далее поставить флажок напротив полей
уравнение
на
диаграмме
достоверности аппроксимации
и
Поместить
на
Показывать
диаграмму
величину
.
Нажав на ОК, получаем еще одну прямую на диаграмме, которая совпадает с
построенными ранее точками линии регрессии:
Сплошная черная линия на диаграмме – это линия регрессии, рассчитанная
средствами Excel. Линия регрессии, построенная нами ранее, совпала с
данной линией регрессии. Нетрудно убедиться, что уравнение регрессии и
коэффициент детерминации тоже совпадают с полученными ранее вручную.
Найдем теперь среднюю ошибку аппроксимации для оценки погрешности
модели. Для этого нам потребуется вычислить еще ряд промежуточных
величин:
x
y
ŷ
y  yˆ
y  yˆ
y
1
2
28
19,76
8,24
0,29
2
2,4
21,3
22,75
-1,45
0,07
3
2,1
21
20,51
0,49
0,02
4
2,6
23,3
24,25
-0,95
0,04
5
1,7
15,8
17,52
-1,72
0,11
6
2,5
21,9
23,50
-1,60
0,07
7
2,4
20
22,75
-2,75
0,14
8
2,6
22
24,25
-2,25
0,10
9
2,8
23,9
25,74
-1,84
0,08
10
2,6
26
24,25
1,75
0,07
11
2,6
24,6
24,25
0,35
0,01
12
2,5
21
23,50
-2,50
0,12
13
2,9
27
26,49
0,51
0,02
14
2,6
21
24,25
-3,25
0,15
15
2,2
24
21,26
2,74
0,11
16
2,6
24
24,25
-0,25
0,01
17
3,3
31,9
29,48
2,42
0,08
18
3,9
33
33,96
-0,97
0,03
19
4
35,4
34,71
0,69
0,02
20
3,7
34
32,47
1,53
0,05
21
3,4
31
30,23
0,77
0,02
Номер
региона
Здесь столбец « ŷ » – это значения yi , i  1,..., 21, рассчитанные с помощью
построенного уравнения регрессии, столбец « y  yˆ » – это столбец так
называемых «остатков»: разностей между исходными значениями y i , и
рассчитанными с помощью уравнения регрессии ŷ i , i  1,..., 21, и, наконец,
последний столбец «
y  yˆ
» – это вспомогательный столбец для вычисления
y
элементов суммы по формуле (
). Просуммируем теперь элементы
последнего столбца и разделим полученную сумму на 21 – общее количество
исходных данных:
0,29  0,07  ...  0,02 1,62

 0,0771.
21
21
Переведем это число в проценты и запишем окончательное выражение для
средней ошибки аппроксимации:
A  0,0771100%  7,71% .
Итак, средняя ошибка аппроксимации оказалась около 8%, что говорит о
небольшой погрешности построенной модели. Данную модель, с учетом
неплохих характеристик ее качества, вполне можно использовать для
прогноза
–
одной
из
основных
целей
эконометрического
анализа.
Предположим, что среднедушевой месячный доход в одном из регионов
составит 4,1 тыс. руб. Оценим, каков будет уровень продаж телевизоров в
этом регионе согласно построенной модели? Для этого необходимо
выбранное значение фактора x подставить в уравнение регрессии (
):
yˆ  4,81  7,48  4,1  35,48 (тыс. руб.),
т.е. при таком уровне дохода, розничная продажа телевизоров составит, в
среднем, 35 480 телевизоров.
4. Контрольная работа по эконометрике «Построение
парной линейной регрессии».
4.1 Задание:
Исходные данные (см. Приложение 1) представляют собой
двумерную выборку  xi , yi  , i  1,..., n . По выборке необходимо
построить парную линейную регрессию и оценить качество
построенной модели.
4.2 Порядок выполнения работы:
1. Для заданных исходных данных постройте поле корреляции —
диаграмму зависимости показателя y от фактора x . При построении
выберите тип диаграммы «Точечная» (без отрезков, соединяющих
точки).
Вычислите коэффициенты выборочной линейной регрессии вручную.
2. Запишите найденное уравнение эмпирической регрессии. Дайте
интерпретацию коэффициенту b в рамках Вашей задачи. Вычислите по
уравнению эмпирической регрессии значения yˆ i  a  bxi , i  1,..., n .
3. Постройте на корреляционном поле прямую выборочной линейной
регрессии по точкам
yˆ i  a  bxi , i  1,..., n . (При построении
выберите тип диаграммы «Точечная», на которой значения соединены
отрезками.)
4. Найдите
A
величину
средней
ошибки
аппроксимации
1 n yi  yi
100% . Прокомментируйте полученное значение.

n i 1 yi
5. Вычислите коэффициент детерминации
формуле:
R2
непосредственно по
 y  y
n
R2  1 
i 1
n
i

2
xi
 y  y
i 1
2
i
6. Используя построенную модель, рассчитайте значение зависимой
переменной y p при значении фактора x * , на 10% превышающего
среднее значение x .
7. На основании проведенного выше анализа адекватности модели
сделайте вывод о правдоподобности прогноза.
8. Используя опцию Excel «Добавить линию тренда», проверьте свои
вычисления и построение графика прямой регрессии.
4.3 Требования к оформлению контрольной работы. Выбор варианта.
Задания могут выполняться с применением компьютера. Вычисления производятся с точностью до двух знаков после запятой.
При
выполнении
контрольной
работы
необходимо
придерживаться
указанных ниже правил. Работы, выполненные без соблюдения этих правил,
не зачитываются и возвращаются студенту для переработки.
1. Студент должен выполнять контрольные задания по варианту, номер
которого совпадает с последней цифрой номера его зачетной книжки.
Контрольные работы, выполненные не по своему варианту, НЕ
ЗАСЧИТЫВАЮТСЯ.
2. Работа сдается на бумажном носителе в печатном виде. Образец
оформления работы дан в Приложении 2 настоящих методических
указаний.
Приложение 1. Варианты заданий.
Вариант №1
В таблице представлены статистические данные о размере товарооборота Х и суммы
издержек обращения Y по десяти магазинам.
Товарооборот Х
Издержки
обращения Y
480
510
530
540
570
590
680
640
650
660
31
25
31
28
29
32
36
36
37
36
Вариант №2
Образцы некоторого сплава были изготовлены при различных температурах, после чего
была измерена прочность каждого образца. Обозначим через Х температуру изготовления
сплава, через Y – величину прочности образца. В таблице приведены результаты
измерений.
Х
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
Y
40
41
43
42
44
42
43
42
42
43
Вариант №3
Обозначим через Х цену оптовой продажи некоторого товара, через Y—цену его
розничной продажи.
Х
80
79
77
76
76
76
74
72
70
71
69
70
Y
84
82
81
82
81
86
83
82
82
82
82
81
Вариант №4
Таблица содержит данные о росте (Х) и массе (Y) 25 выбранных наугад студентов.
Х
175 188
178 165
175 185
183
175
183
193
188
183
185
Y
63
67
83
70
77
79
70
84
84
77
95
66
75
Вариант №5
Приведены данные о годовой производительности труда в расчете на одного рабочего (Y)
и энерговооруженности труда (Х) на предприятиях одной отрасли.
Х 6,7
6,9
7,2
7,3
8,4
8,8
9,1
9,8
10,6
10,7
11,1
11,8
12,1
12,4
Y 2,8
2,2
3,0
3,5
3,2
3,7
4,0
4,8
6,0
5,4
5,2
5,4
6,0
9,0
Вариант №6
На 10 территориях были измерены процентный показатель перенаселенности (Х) и
показатель детской смертности (Y).
Х
13
33
12
40
12
7
20
4
15
26
Y
124
151
124
156
128
78
127
104
127
144
Вариант №7
Имеются данные о фондоотдаче оборудования (Х) и удельном весе продукции высшей
категории качества (Y):
Х
1,47
Y
34,08 35,89 36,93 32,31 34,91 30,20 31,23 48,13 30,08 42,86
1,25
1,82
1,45
1,75
1,37
1,61
1,93
1,68
1,66
Вариант №8
В таблице содержатся данные, показывающие связь между количеством дней (Х),
проведенных
пациентами
в
больнице,
и
затратами
больницы
(Y),
которые
компенсируются страховой компанией.
Х
1
3
6
7
2
4
12
15
5
9
8
10
11
13
14
Y
50
175
180
200
60
140
420
540
170
300
350
360
400
410
450
Вариант №9
Следующие данные были получены при изучении объема продаж (Y) фирмы в
зависимости от количества контактов (Х) с клиентами фирмы за месяц.
Х
10
15
17
20
23
46
53
48
59
65
Y
15
26
28
30
32
86
109
95
130
160
Вариант №10
В таблице представлены данные, собранные по 15 однотипным предприятиям отрасли,
показывающие взаимосвязь между объемом продукции (Х) и себестоимостью продукции
(Y).
Х
200
200
300
300
400
450
500
550
600
600
Y
170
160
150
160
140
140
150
140
140
150
Приложение 2. Образец оформления контрольной работы.
Государственное образовательное учреждение высшего профессионального образования
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
ПРЕПОДАВАТЕЛЬ
должность, уч. степень, звание
подпись, дата
инициалы, фамилия
КОНТРОЛЬНАЯ РАБОТА
по дисциплине: эконометрика
РАБОТУ ВЫПОЛНИЛА
СТУДЕНТ(КА) ГР.
подпись, дата
инициалы, фамилия
Санкт-Петербург
2010
21
Задача.
По
21
региону страны изучается зависимость розничной продажи
телевизоров ( y ) от среднедушевого денежного дохода в месяц ( x ).
Номер
региона
Среднедушевой
денежный доход в
месяц, тыс. руб., x
Объем розничной
продажи
телевизоров, тыс.
шт., y
1
2
28
2
2,4
21,3
3
2,1
21
4
2,6
23,3
5
1,7
15,8
6
2,5
21,9
7
2,4
20
8
2,6
22
9
2,8
23,9
10
2,6
26
11
2,6
24,6
12
2,5
21
13
2,9
27
14
2,6
21
15
2,2
24
16
2,6
24
17
3,3
31,9
18
3,9
33
19
4
35,4
20
3,7
34
21
3,4
31
22
Решение.
1. Построим поле корреляции.
Объем продаж, тыс. шт.
Поле корреляции
40
35
30
25
Исходные данные
20
15
10
5
0
0
1
2
3
4
5
Среднедушевой доход, тыс. руб.
Расположение точек на диаграмме дает нам право предположить, что
переменные связаны линейной зависимостью. Рассчитаем выборочные
коэффициенты корреляции. Для этого проведем промежуточные вычисления,
по формулам (
) и поместим результаты вычислений в таблицу:
x
y
xy
x2
y2
1
2
28
56
4
784
2
2,4
21,3
51,12
5,76
453,69
3
2,1
21
44,1
4,41
441
4
2,6
23,3
60,58
6,76
542,89
5
1,7
15,8
26,86
2,89
249,64
6
2,5
21,9
54,75
6,25
479,61
7
2,4
20
48
5,76
400
8
2,6
22
57,2
6,76
484
Номер
региона
23
9
2,8
23,9
66,92
7,84
571,21
10
2,6
26
67,6
6,76
676
11
2,6
24,6
63,96
6,76
605,16
12
2,5
21
52,5
6,25
441
13
2,9
27
78,3
8,41
729
14
2,6
21
54,6
6,76
441
15
2,2
24
52,8
4,84
576
16
2,6
24
62,4
6,76
576
17
3,3
31,9
105,27
10,89
1017,61
18
3,9
33
128,7
15,21
1089
19
4
35,4
141,6
16
1253,16
20
3,7
34
125,8
13,69
1156
21
3,4
31
105,4
11,56
961
Сумма
57,4
530,1
1504,46
164,32
13926,97
Составляем систему уравнений:
21a  57,4b  530,1

57,4a  164,32b  1504,46
и решаем ее по формулам Крамера:

21
57,4
57,4 164,32
a 
b 
530,1
 21  164,32  57,4  57,4  155,96;
57,4
1504,46 164,32
21
530,1
57,4 1504,46
 750,028;
 1176,42.
Тогда, согласно теореме Крамера,
a
 a 750,03
 1176,42

 4,81; b  b 
 7,54.
 155,96

155,96
2. Получаем уравнение регрессии:
24
yˆ  4,81  7,54x.
Величина коэффициента регрессии b  7,54 означает, что увеличение
среднедушевого месячного дохода на 1 тыс. руб. приведет к увеличение
объема розничной продажи в среднем на 7 540 телевизоров. Коэффициент a
в данном случае не имеет содержательной интерпретации.
3. Нанесем построенную линию регрессии на диаграмму. Для этого
рассчитаем значения ŷ i , i  1,..., 21, по формуле:
yˆ i  4,81  7,54 xi .
Результаты вычислений запишем в таблицу:
Номер
x
y
ŷ
1
2
28
19,76
2
2,4
21,3
22,75
3
2,1
21
20,51
4
2,6
23,3
24,25
5
1,7
15,8
17,52
6
2,5
21,9
23,50
7
2,4
20
22,75
8
2,6
22
24,25
9
2,8
23,9
25,74
10
2,6
26
24,25
11
2,6
24,6
24,25
12
2,5
21
23,50
13
2,9
27
26,49
14
2,6
21
24,25
15
2,2
24
21,26
16
2,6
24
24,25
17
3,3
31,9
29,48
региона
25
18
3,9
33
33,96
19
4
35,4
34,71
20
3,7
34
32,47
21
3,4
31
30,23
Наносим на диаграмму точки из последнего столбца таблицы (Линия
регрессии):
4. Для оценки тесноты линейной зависимости рассчитаем коэффициент
детерминации. Для этого необходимо провести ряд дополнительных
вычислений.
Прежде всего, найдем выборочное среднее y по формуле:
y
1
28  21,3  21  ...  34  31  25,24.
21
Теперь произведем расчет остальных вспомогательных величин:
Номер
x
y
ŷ
y  yˆ
 y  ŷ 
y y
y  y
1
2
28
19,76
8,24
67,89
2,76
7,60
2
2,4
21,3
22,75
-1,45
2,11
-3,94
15,55
3
2,1
21
20,51
0,49
0,24
-4,24
18,00
региона
2
2
26
4
2,6
23,3
24,25
-0,95
0,90
-1,94
3,77
5
1,7
15,8
17,52
-1,72
2,95
-9,44
89,17
6
2,5
21,9
23,50
-1,60
2,56
-3,34
11,17
7
2,4
20
22,75
-2,75
7,57
-5,24
27,49
8
2,6
22
24,25
-2,25
5,04
-3,24
10,52
9
2,8
23,9
25,74
-1,84
3,39
-1,34
1,80
10
2,6
26
24,25
1,75
3,08
0,76
0,57
11
2,6
24,6
24,25
0,35
0,13
-0,64
0,41
12
2,5
21
23,50
-2,50
6,24
-4,24
18,00
13
2,9
27
26,49
0,51
0,26
1,76
3,09
14
2,6
21
24,25
-3,25
10,54
-4,24
18,00
15
2,2
24
21,26
2,74
7,53
-1,24
1,54
16
2,6
24
24,25
-0,25
0,06
-1,24
1,54
17
3,3
31,9
29,48
2,42
5,86
6,66
44,32
18
3,9
33
33,96
-0,96
0,93
7,76
60,17
19
4
35,4
34,71
0,69
0,47
10,16
103,17
20
3,7
34
32,47
1,53
2,34
8,76
76,69
21
3,4
31
30,23
0,77
0,60
5,76
33,14
57,4
530,1
Сумма
130,68
545,73
Для вычисления коэффициента детерминации воспользуемся формулой ( ):
R2  1 
130,68
 0,76.
545,73
Значение коэффициента детерминации позволяет сделать предварительный
вывод о том, что у нас имеются основания использовать модель линейной
регрессии в данной задаче, поскольку R  0,49;1.
2
5.
Нанесем
теперь
уравнение
регрессии
на
диаграмму,
используя
специальные средства Excel («Добавить линию тренда»).
27
Линия регрессии, построенная нами ранее, совпала с данной линией
регрессии. Нетрудно убедиться, что уравнение регрессии и коэффициент
детерминации тоже совпадают с полученными ранее вручную.
6. Найдем теперь среднюю ошибку аппроксимации для оценки погрешности
модели. Для этого нам потребуется вычислить еще ряд промежуточных
величин:
x
y
ŷ
y  yˆ
y  yˆ
y
1
2
28
19,76
8,24
0,29
2
2,4
21,3
22,75
-1,45
0,07
3
2,1
21
20,51
0,49
0,02
4
2,6
23,3
24,25
-0,95
0,04
5
1,7
15,8
17,52
-1,72
0,11
6
2,5
21,9
23,50
-1,60
0,07
7
2,4
20
22,75
-2,75
0,14
8
2,6
22
24,25
-2,25
0,10
9
2,8
23,9
25,74
-1,84
0,08
10
2,6
26
24,25
1,75
0,07
Номер
региона
28
11
2,6
24,6
24,25
0,35
0,01
12
2,5
21
23,50
-2,50
0,12
13
2,9
27
26,49
0,51
0,02
14
2,6
21
24,25
-3,25
0,15
15
2,2
24
21,26
2,74
0,11
16
2,6
24
24,25
-0,25
0,01
17
3,3
31,9
29,48
2,42
0,08
18
3,9
33
33,96
-0,97
0,03
19
4
35,4
34,71
0,69
0,02
20
3,7
34
32,47
1,53
0,05
21
3,4
31
30,23
0,77
0,02
Просуммируем теперь элементы последнего столбца и разделим полученную
сумму на 21 – общее количество исходных данных:
0,29  0,07  ...  0,02 1,62

 0,0771.
21
21
Итак,
средняя
ошибка
аппроксимации
A  0,0771100%  7,71% .
Величина ошибки оказалась около 8%, что говорит о небольшой
погрешности построенной модели. Данную модель, с учетом неплохих
характеристик ее качества, вполне можно использовать для прогноза – одной
из основных целей эконометрического анализа.
7. Рассчитаем значение фактора, для которого необходимо построить
прогноз. Для этого необходимо вычислить выборочное среднее значение x
по формуле:
1 n
x    xi .
n i 1
Для нашей задачи среднее значение среднедушевого месячного дохода:
x
1
2  2,4  2,1  ...  3,7  3,4  2,73 .
21
Рассчитаем теперь значение x  x  0,1 x  2,73  2,73  0,1  3,003.
*
29
Подставим теперь полученное значение фактора x*  3,003 в уравнение
регрессии и найдем прогнозируемое значение:
yˆ  4,81  7,54  3,003  27,45.
Таким образом, если среднедушевой месячный доход в некотором регионе
составит 3 003 руб., количество продаваемых телевизоров составит в среднем
27 450 шт. в месяц.
30
Download