Задача 1 Составить уравнение линейной регрессии (данные в

advertisement
Задача 1
Составить уравнение линейной регрессии (данные в табл.1). Также вычислить параметры
и рассчитать линейный коэффициент корреляции и корреляционное отношение. Сравнить
величину коэффициента корреляции и корреляционного отношения. Сформулировать
выводы.
Таблица 1
Исходные данные для задачи 1
Произведено,
Месяц
Цена за 1 т, тыс.руб
млн.т.
январь
82.46
279.7
февраль
80.13
71.4
март
63.42
242.8
апрель
76.17
76.3
май
75.13
74.7
июнь
74.84
210.7
июль
73.03
75.1
август
73.41
75.5
сентябрь
71.34
335.3
Решение
1) Требуется построить уравнение линейной регрессии, которое показывает зависимость
объема произведенной продукций от цены за единицу продукции. Значит:
Х – цена за 1 т, тыс.руб.;
Y – объем произведенной продукции, млн.т.
2) Чтобы найти параметры уравнения линейной регрессии решается следующая система
уравнений:
Поэтому строим вспомогательную таблицу и находим коэффициенты при параметрах a и
b, а также свободные члены уравнений.
Таблица 2
Месяц
январь
февраль
март
апрель
май
июнь
июль
август
сентябрь
Сумма
Вспомогательная расчетная таблица для построения линии регрессии
Х
Y
X2
Y2
X*Y
82.46
279.7
6799.652
78232.090
23064.062
80.13
71.4
6420.817
5097.960
5721.282
63.42
242.8
4022.096
58951.840
15398.376
76.17
76.3
5801.869
5821.690
5811.771
75.13
74.7
5644.517
5580.090
5612.211
74.84
210.7
5601.026
44394.490
15768.788
73.03
75.1
5333.381
5640.010
5484.553
73.41
75.5
5389.028
5700.250
5542.455
71.34
335.3
5089.396
112426.090
23920.302
669.93
1441.5
448806.205
2077922.250 2077922.250
Получаем систему уравнений:
9𝑎 + 669.93𝑏 = 1441.5
669.93𝑎 + 448806.205𝑏 = 2077922.25
{
Умножаем левую и правую стороны первого уравнения на −
669.93
9
В итоге имеем систему уравнений, которую решаем методом сложения:
−669.93𝑎 − 49867.4𝑏 = −107300.46
669.93𝑎 + 448806.205𝑏 = 2077922.25
{
388938.849*b = 1970621.795
b=
1970621.795
388938.849
= 4.94
9𝑎 + 669.93𝑏 = 1441.5, откуда:
1441.5 − 669.93𝑏 1441.5 − 669.93 × 4.94
=
= −207.55
9
9
Записываем уравнение линейной регрессии:
𝑎=
Y = -207.55 + 4.94*X
3) Линейный коэффициент корреляции находим по формуле:
𝑟=
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅) (𝑌𝑖 − 𝑌̅)
√∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2
Cтроим вспомагательную таблицу и находим необходимые суммы, предварительно
рассчитав средние значения:
∑𝑛 𝑋
̅ = 𝑖=1 𝑖
𝑋
𝑛
∑𝑛𝑖=1 𝑌𝑖
̅=
𝑌
𝑛
669.93
̅
𝑋=
= 74.437
9
1441.5
̅=
𝑌
= 160.167
9
Таблица 3
Вспомогательная расчетная таблица для вычисления линейного коэффициента
корреляции
(𝑌 − 𝑌̅)
119.533
(𝑋 − 𝑋̅ ) (𝑌 − 𝑌̅)
январь
82.46
279.7
(𝑋 − 𝑋̅)
8.023
февраль
80.13
71.4
5.693
-88.767
-505.378
32.414
7879.521
март
63.42
242.8
-11.017
82.633
-910.344
121.367
6828.268
апрель
76.17
76.3
1.733
-83.867
-145.369
3.004
7033.618
май
75.13
74.7
0.693
-85.467
-59.257
0.481
7304.551
июнь
74.84
210.7
0.403
50.533
20.382
0.163
2553.618
июль
73.03
75.1
-1.407
-85.067
119.660
1.979
7236.338
август
73.41
75.5
-1.027
-84.667
86.924
1.054
7168.444
сентябрь
71.34
335.3
-3.097
175.133
-542.330
9.589 30671.684
Сумма
669.93
1441.5
-976.655
234.425 90964.260
Месяц
Х
𝑟=
Y
−976.655
√234.425 × 90964.260
959.056
(𝑋 − 𝑋̅)2 (𝑌 − 𝑌̅)2
64.374 14288.218
= −0.21
По шкале Чеддока выясняем, что между объемом произведенной продукции и ценой за
1 т. существует слабая обратная статистическая связь.
4) Корреляционное отношение находим по формуле:
𝜎𝑥2
𝜌=√ 2
𝜎𝑦
𝜎𝑥2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 234.425
=
=
= 26.047
𝑛
9
𝜎𝑦2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 90964.260
=
=
= 10107.14
𝑛
9
𝜌=√
26.047
= 0,05
10107.14
Если сравнивать коэффициент корреляции и корреляционное соотношение, то очевидно,
что 𝜌 ≈ 𝑟 2
Выводы: Мы построили уравнение регрессии, которое показывает зависимость между
объемом произведенной продукции и ценой за 1 т. Оно имеет вид: Y = -207.55 + 4.94*X.
Также мы выяснили, что между факторной и зависимой переменной существует слабая
обратная статистическая связь (линейный коэффициент корреляции = -0.21). Также мы
нашли корреляционное соотношение и выяснили, что квадрат коэффициента корреляции
приблизительно равен величине корреляционного соотношения.
Задача 2
Составить уравнение регрессии по данным таблицы:
Таблица 4
Исходные данные для задачи 2
№ п/п.
1
2
3
4
5
6
Прибыль, тыс.руб
1200
2400
2480
1600
1750
1800
Затраты на 1 руб, руб
0.96
0.77
0.77
0.89
0.82
0.81
Решение
1) Требуется построить уравнение линейной регрессии, которое показывает зависимость
объема произведенной продукций от цены за единицу продукции. Значит:
Х – затраты за 1 руб, руб.;
Y – прибыль, тыс.руб.
2) Чтобы найти параметры уравнения линейной регрессии решается следующая система
уравнений:
Поэтому строим вспомагательную таблицу и находим коэффициенты при параметрах a и
b, а также свободные члены уравнений.
Таблица 5
Вспомогательная расчетная таблица для построения линии регрессии
№ п/п.
1
2
3
4
5
6
Сумма
Х
0.96
0.77
0.77
0.89
0.82
0.81
5.02
Y
1200
2400
2480
1600
1750
1800
11230
X2
0.9216
0.5929
0.5929
0.7921
0.6724
0.6561
4.228
Y2
1440000
5760000
6150400
2560000
3062500
3240000
22212900
X*Y
1152
1848
1909.6
1424
1435
1458
9226.6
Получаем систему уравнений:
6𝑎 + 5.02𝑏 = 11230
5.02𝑎 + 4.228𝑏 = 9226.6
{
Умножаем левую и правую стороны первого уравнения на −
5.02
6
В итоге имеем систему уравнений, которую решаем методом сложения:
−5.02𝑎 − 4.2𝑏 = −9395.77
5.02𝑎 + 4.228𝑏 = 9226.6
{
0.028*b = -169.167
b=
−169.167
0.028
= -6056.1
6𝑎 + 5.02𝑏 = 11230 ,откуда:
11230 − 5.02𝑏 11230 − 5.02 × (−6056.1)
=
= 6938.6
6
6
Записываем уравнение линейной регрессии:
𝑎=
Y = 6938.6 – 6056.1*X
Вывод: Мы построили уравнение линейной регрессии, которое показывает нам
зависимость прибыли от затрат в расчёте на 1 рубль.
Если затраты в расчёте на 1 рубль будут равны 0.96, то Yрасч = 1124,4, а на самом деле
они равны 1200, то есть отклонение от фактического результата составит всего 75 руб, что
косвенно указывает на то, что модель пригодна для того, чтобы по ней производились
расчёты, от которых зависит принятие некоторых важных решений.
Задача 3
Зависимость между объемом произведенной продукции и балансовой прибылью по 10
предприятиям одной из отраслей промышленности характеризуется следующими
данными:
Объем реализованной
продукции,
Балансовая прибыль,
млн.руб
млн.руб
1
491.8
133.8
2
483
124.1
3
481.7
62.4
4
478.7
62.9
5
476.9
51.4
6
475.2
72.4
7
474.4
99.3
8
459.5
40.9
9
452.9
104
10
446.5
116.1
№
предприятия
Определите вид корреляционной зависимости, постройте уравнение регрессии,
предварительно рассчитав его параметры, а также вычислите тесноту связи между
показателями. Объясните полученные статистические характеристики.
Решение
1) Для того чтобы определить вид корреляционной зависимости нужно построить диаграму
рассеивания (корреляционное поле точок), по виду которого можно определить характер
зависимости между факторной и зависимой переменными.
В нашей задаче эта зависимость имеет такой вид:
160
140
Y
120
100
80
60
40
20
0
440
450
460
470
X
480
490
500
Разброс точек напоминает параболу. Аппроксимация всех точек на прямую невозможна,
поэтому отсюда следует, что корреляционная зависимость нелинейная и представляет
собой квадратическую функцию.
2) Строим уравнение квадратичной регрессии и рассчитываем ее параметры.
Параметры квадратической регрессии находятся со следующей системы уравнений:
𝑛
𝑛
𝑛
𝑛𝑐 + 𝑏 ∑ 𝑥𝑖 + 𝑎 ∑ 𝑥𝑖 2 − ∑ 𝑦𝑖 = 0
𝑖=1
𝑛
𝑛
𝑖=1
𝑛
𝑖=1
𝑛
𝑐 ∑ 𝑥𝑖 + 𝑏 ∑ 𝑥𝑖 2 + 𝑎 ∑ 𝑥𝑖 3 − ∑ 𝑥𝑖 𝑦𝑖 = 0
𝑖=1
𝑛
𝑖=1
𝑛
𝑖=1
𝑛
𝑖=1
𝑛
𝑐 ∑ 𝑥𝑖 2 + 𝑏 ∑ 𝑥𝑖 3 + 𝑎 ∑ 𝑥𝑖 4 − ∑ 𝑥𝑖 2 𝑦𝑖 = 0
{ 𝑖=1
𝑖=1
𝑖=1
𝑖=1
Поэтому строим вспомогательную таблицу и находим коэффициенты при параметрах a и
b, а также свободные члены уравнений.
Таблица 6
Вспомогательная расчетная таблица для построения квадратичной регрессии
№ предприятия
X
Y
X2
X3
X4
X*Y
X2*Y
1
491.8
133.8
241867.24
118950308.6
58499761785
65802.84
32361836.71
2
483
124.1
233289
112678587
54423757521
59940.3
28951164.9
3
481.7
62.4
232034.89
111771206.5
53840190177
30058.08
14478977.14
4
478.7
62.9
229153.69
109695871.4
52511413641
30110.23
14413767.1
5
476.9
51.4
227433.61
108463088.6
51726046958
24512.66
11690087.55
6
475.2
72.4
225815.04
107307307
50992432290
34404.48
16349008.9
7
474.4
99.3
225055.36
106766262.8
50649915065
47107.92
22347997.25
8
459.5
40.9
211140.25
97018944.88
44580205170
18793.55
8635636.225
9
452.9
104
205118.41
92898127.89
42073562121
47101.6
21332314.64
10
446.5
116.1
199362.25
89015244.63
39745306725
51838.65
23145957.23
Сумма
4720.6
867.3
2230269.74
1054564949
499042591452.76
409670.31
193706747.6
Записываем систему уравнений:
{
10𝑐 + 4720.6𝑏 + 2230269.74a = 867.3
4720.6𝑐 + 2230269.74𝑏 + 1054564949a = 409670.31
2230269.74c + 1054564949b + 499042591452.7a = 193706747.6
Решим эту систему уравнений матричным методом.
A*X = B
X = A-1*В
10
𝐴 = ( 4720.6
2230269.74
4720.6
2230269.74
1054564949
2230269.74
1054564949 )
499042591452.7
Сразу запишем обратную матрицу не расписывая этапов ее вычислений:
−1
𝐴
165157.64712
= ( −706.29510
0.75442
−706.29510
3.02102
−0.00323
0.75442
−0.00323)
0.000003
867.3
В = ( 409670.31 )
193706747.6
165157.64712
Х = ( −706.29510
0.75442
−706.29510
3.02102
−0.00323
867.3
29433.19
0.75442
−0.00323) × ( 409670.31 ) = ( −125.68 )
193706747.6
0.134
0.000003
с = 29433.19
b = −125.68
a = 0.134
Модель квадратической регрессии запишется таким образом:
Y = 0.134*X2 – 125.68*X + 29433.19
3) Тесноту связи (коэффициент корреляции для нелинейной параболической зависимости)
между показателями Х и Y определим по такой формуле:
𝑌̂𝑥 – рассчётное значение Y по модели квадратичной регрессии:
Y = 0.134*X2 – 125.68*X + 29433.19
Строим вспомогательную таблицу, предварительно находим значение величины Y.
̅=
𝑌
∑𝑛𝑖=1 𝑌𝑖
𝑛
867.3
̅=
𝑌
= 86.73
10
Таблица 7
Вспомогательная расчетная таблица для вычисления коэффициента корреляции для
нелинейной параболической зависимости
𝑌̂𝑥
124.1
(𝑌 − 𝑌̅)2
2215.5849
1396.5169
138.630
91.383
(𝑌 − 𝑌̂𝑥 )2
23.330
1070.400
481.7
62.4
591.9489
86.169
564.944
4
478.7
62.9
567.8689
75.869
168.206
5
476.9
51.4
1248.2089
70.852
378.362
6
475.2
72.4
205.3489
66.912
30.115
7
474.4
99.3
158.0049
8
459.5
40.9
2100.3889
65.327
67.259
1154.133
694.807
9
452.9
104
298.2529
87.192
282.508
10
446.5
116.1
862.5969
117.706
2.580
Сумма
4720.6
867.3
867.300
4369.386
№ предприятия
X
Y
1
491.8
133.8
2
483
3
𝑅 = √1 −
4369.386
9644.721
9644.721
= 0.74
Коэффициент корреляции для модели квадратичной регрессии высокий, что говорит о
достаточно тесной связи между Х и Y.
Вывод: мы построили квадратичную регрессию – один из видов нелинейной регрессии.
Сначала мы выяснили по виду корреляционного поля точек, что лучше корреляционное
отношение описывает квадратическая зависимость. Затем нашли коэффициенты
уравнения квадратической регрессии и нашли уравнение этой нелинейной регрессии, его
вид: Y = 0.134*X2 – 125.68*X + 29433.19. Связь между Х и Y тесная, о чем
свидетельствует высокое значение коэффициента корреляции для нелинейной
зависимости (он намного ближе к 1, чем к 0).
Объяснение полученных статистических характеристик: Коэффициенты регрессии
показывают вклад фактора в общую дисперсию, сама кривая регрессии (парабола) –
показывает нам уравнение, которое лучше всего аппроксимирует точки, которые
представлены корреляционным полем. Коэффициент корреляции показывает тесноту
связи между фактором и зависимой переменной, в нашем случае между балансовой
прибылью и объемом реализованной продукции.
Download