Адекват_14

advertisement
Адекватность модели
Цель лабораторной работы. Ознакомить студента с процессом проверки модели на адекватность.
Теория
Опр. Модель является адекватной, если она соответствует экспериментальным данным, т.е. предсказанные по ней значения переменной y согласуются
с результатами наблюдений. Слово "соответствует" означает, что выбор более сложной модели не приводит к улучшению её прогнозирующих свойств:
существующая модель достаточна. При увеличении количества экспериментальных данных может случиться так, что модель утратит адекватность и
возникнет необходимость её усложнения. Грубая оценка адекватности модели может быть проведена непосредственно по графику остатков, т.е. разностей между наблюдаемыми значениями yi и вычисленными значениями ~y i ,
i=1, 2, . . . , n. Если модель адекватна, остатки являются реализациями случайных ошибок наблюдений, которые в силу предположений должны быть
независимыми нормально распределёнными случайными величинами с нулевым средним и одинаковыми дисперсиями 2.
Порядок выполнения лабораторной работы
1. Получить данные у преподавателя или через Интернет.
2. Проверить данные на воспроизводимость (однородность), используя
критерий Кохрена. Проверить однородность данных, используя диаграммы рассеяния.
3. Определить коэффициенты уравнения регрессии y=b0+b1x (использовать матричный подход).
4. Проверить значимость коэффициентов и уравнения регрессии.
5. Проверить адекватность модели.
Рассмотрим пример.
x
y1
y2
1,3
88,7
87,7
2,5
66,3
65,8
4,6
55,4
56,1
7,0
43,2
44,2
9,7
34,1
35,2
Уравнение регрессии y=b0+b1x. Вычисления проводим в Excel.
1. Вводим данные
В первой строке даны значения фиктивной переменной xf (свободный член в
уравнении регрессии)
Определяем параметры эксперимента:
число независимых измерений x, n
5
число параллельных измерений, m
2
число неизвестных коэффициентов, k
2
0,05
уровень значимости, 
Степени свободы для критерия Кохрена
f1=m-1
1
f2=n
5
Преобразуем:
Находим матрицу плана X и транспонированную XT.
матрица плана X
Транспонированная матрица XT
Так как матрица XT задана, то находим X, используя функцию
ТРАНСП(). Правило использования функций для работы с матрицами смотри Приложение 1 в конце документа.
1. Проверяем воспроизводимость (однородность) данных, используя критерий Кохрена:
𝐺экс. =
𝑆𝑗2 (max)
2
∑𝑛
𝑗 𝑆𝑗
(1)
2. Проверяем однородность данных
Находим среднее и дисперсии параллельных измерений:
Определяем максимальное значение среди вычисленных дисперсий и сумму
дисперсий:
Согласно формуле (1) находим экспериментальное значение критерия Кохрена:
Gэкс=0,605/1,975=0,3063290,31.
Используя таблицы распределения Кохрена, находим теоретическое значение
Gт(;f1;f2)=G(0,05;1;5)=0,841.
Так Gэкс<Gтер, то выборка однородна.
Окончательный результат вычислений:
Если дисперсии неоднородны, то определяют источник неоднородности дисперсий. Это может быть отклонение от допущений, принятых для
дисперсионного анализа. Однако, чаще всего причиной неоднородности дисперсий являются грубые "промахи" в параллельных измерениях.
Как было сказано на предыдущих занятиях для определения грубых
"промахов" можно воспользоваться диаграммой рассеяния.
Можно воспользоваться другим способом. Для этого используют критерий Стьюдента. Рассчитывают экспериментальное значение критерия по
формуле:
𝑡экс =
(𝑦груб − 𝑦̅)
𝑠
Находят табличное значение критерия Стьюдента для выбранного
уровня значимости и числа степеней свободы f=m-1, где m – число параллельны измерений. Если tэкс> tтабл, то это результат является грубым и его отбрасывают. Далее заново пересчитывают дисперсии и осуществляют проверку однородности дисперсий. В случае их однородности вычисляют дисперсию воспроизводимости.
Построим графики (диаграммы рассеяния)
см. файл Адекв_задан_14.xlsx
Диаграмма рассеяния, y2
100
80
60
y2
40
y = -12.66x + 95.78
R² = 0.9675
20
Linear (y2)
0
1.3
2.5
4.6
7
9.7
X
3. Вычисляем коэффициенты уравнения регрессии по формуле
B=(XTX)-1XTY (вывод формулы см. в Приложении 2).
Для вычисления коэффициентов используем функции МОБР(), МУМНОЖ()
(см. Приложение 1).
Формула
Порядок вычислений
Результат
5
25,1
25,1
172,19
T
X X
0,745605 -0,10869
T
(X X)
-1
-0,10869 0,021651
Замечания
матрица 2×2, определяется числом неизвестных
коэффициентов модели
матрица 2×2, определяется числом неизвестных
коэффициентов модели
288,35
XTY
1178,24
86,9367
B
-5,83002
вектор-столбец 1×2, число строк равно числу неизвестных коэффициентов модели
вектор-столбец 1×2, число строк равно числу неизвестных коэффициентов модели
Запишем уравнение регрессии y=86,94-5,83x.
4. Проверяем значимость коэффициентов модели
Оценку значимости коэффициентов и модели проведём, используя пакет
Статграф или Excel
Так уровень значимости =0,05, то коэффициенты и модель значимы.
5. Проверка адекватности модели
Если модель адекватна наблюдаемым данным, то средние наблюдений,
1 ni
т.е. y i   yij , должны быть близки к вычисленным значениям ~yi . Следоваni j 1
n
yi ) 2 является мерой неадекватности
тельно, сумма квадратов SSад   ni ( y i  ~
i 1
2
модели. Дисперсия 𝑆ад
=
𝑆𝑆ад
𝑛−𝑘
. Если число параллельных опытов в каждой
2
точке xi одинаково и равно m, то 𝑆ад
=
̅ 𝑖 −𝑦̃𝑖 )2
𝑚 ∑𝑛
𝑖=1(𝑦
𝑛−𝑘
. где k – число неизвест-
ных коэффициентов модели. Для нашей задачи k=2.
Вычисляем дисперсию воспроизводимости 𝑆𝑦2 .
n nj
SS y    ( yij  y i ) 2 . 𝑆𝑦2 =
i 1 j 1
где 𝑆𝑖2 =
1
𝑚−1
𝑚
∑𝑛
̅ 𝑖 )2 1
𝑖=1 ∑𝑗=1(𝑦𝑖𝑗 −𝑦
𝑛(𝑚−1)
= ∑𝑛𝑖=1 𝑆𝑖2 ,
𝑛
∑𝑚
̅𝑖 )2 дисперсия, вычисленная в точке xj, j=1, 2, …, m.
𝑗=1(𝑦𝑖𝑗 − 𝑦
2
Если линейная модель адекватна данным, то статистики 𝑆𝑦2 и 𝑆ад
независимы и имеют распределение хи-квадрат соответственно с n(m-1) и n-2
степенями свободы. Отметим, что n(m-1)=nm-n=N-n, где N объём выборки.
Отношение этих статистик имеет распределение Фишера
(2)
2
𝑆𝑦2 = 𝑆вос
в литературе встречаются оба обозначения
2
𝑆ад
Данная статистика используется для проверки адекватности линейной
регрессии. Если выборочное значение статистики удовлетворяет условию
Fрасч.<F1-(n-2, N-n)=Fт, то гипотеза об адекватности линейной регрессии
принимается. Теоретическое значение F1-(n-2, N-n) находим по таблице распределения Фишера (см., например, [5, с. 416].
Если выборочное значение статистики удовлетворяет условию
Fв<F1-(m-2, n-m), то гипотеза об адекватности линейной регрессии принимается и остаточную дисперсию s2 
Qe
можно использовать в качестве оценn2
ки дисперсии 2, найти доверительные интервалы для параметров линейной
регрессии и проверить гипотезы о параметрах.
Сразу отметим, что дисперсии 𝑆𝑖2 и сумму этих дисперсий мы уже
находили при проверке однородности выборки. Поэтому начнём вычислять
дисперсию неадекватности (адекватности).
Порядок вычислений.
Вычисляем разности между наблюдаемыми значениями y i и вычисленными значениями ~y , i=1, 2, . . . , n. Возводим эти разности в квадрат.
i
Далее находим сумму квадратов и умножаем её на m (число параллельных измерений в одной точке).
2
Теперь приступаем к вычислению дисперсий 𝑆ад
и 𝑆𝑦2 .
2
𝑆ад
=
̅ 𝑖 −𝑦̃𝑖 )2
𝑚 ∑𝑛
𝑖=1(𝑦
𝑛−𝑘
=322,365/(5-3)=107,455;
1
𝑆𝑦2 = ∑𝑛𝑖=1 𝑆𝑖2 =1,975/5=0,395.
𝑛
Вычисляем значение критерия Фишера расчётное (экспериментальное):
Fрасч=107,455/0,395=272,038.
Находим F табличное. Для этого нам потребуется уровень значимости  и
степени свободы для числителя и знаменателя.
0,05
уровень значимости, 
Степени свободы для критерия Фишера
f1=n-k
3
f2=n(m-1)=N-n
5
Открываем таблицу распределения Фишера и по входным данным определяем FT, которое равно 5,41 [см. 5, с. 416].
Так как расчётное значение больше теоретического (табличного), то гипотеза
об адекватности отклоняется: Fрасч> FT→272,038>5,41.
Что следует предпринять? Первое перейти к полиному более высокого
порядка. Хотя там может быть другая функциональная зависимость. В нашем
случае это можно объяснить малым объёмом выборки. Теоретически
наименьший объём должен быть не менее 5, т.е. пять и более.
Замечание. Для линейной регрессионной модели общего вида (криволинейная регрессия), т.е. рассматривают линейную (по параметрам) регрессионную
модель. Адекватность определяется аналогично, но дисперсия адекватности
2
будет определяться по формуле 𝑆ад
=
̅ 𝑖 −𝑦̃𝑖 )2
𝑚 ∑𝑛
𝑖=1(𝑦
𝑛−𝑘
. где k – число неизвестных
коэффициентов модели. Теоретическое значение критерия FT=F1-(n-k, N-n).
Задания
Оценить адекватность модели и значимость полученных коэффициентов. Результаты двух параллельных опытов представлены в таблице. Уравнение регрессии: y=a+bx.
Таблица 1
x
y1
y2
0,0
32
33
2,0
25
24
3,3
15
16
4,3
8
7
5,1
2
3
Таблица 2
x
y1
y2
0,5
12
11
1,5
10
9
2,5
8
7
2,9
6
5
3,7
2
1
Таблица 3
x
y1
y2
5,5
55
53
10,1
43
44
20,3
36
34
35,5
23
22
44,14
11
10
Таблица 4
x
y1
y2
4,5
2,0
2,1
3,1
2,5
2,4
2,2
3,5
3,3
1,1
4,8
4,6
0,1
5,2
5,0
Таблица 5
x
y1
y2
5,5
32
33
10,1
25
24
30,4
15
16
40,4
8
7
59,3
2
3
Таблица 6
x
y1
y2
0,5
12
11
12,0
10
9
23,3
8
7
34,3
6
5
45,1
2
1
Таблица 7
x
y1
y2
5,0
54
53
15,4
43
44
20,4
32
36
31,3
26
27
47,8
12
13
Таблица 8
x
y1
y2
34
3,5
3,3
28
3,9
3,4
18
4,9
4,6
14
5,7
5,7
11
6,1
6,3
Таблица 9
x
y1
y2
67
1,1
1,2
53
11,4
12,1
32
23,3
22,1
21
34,4
33,2
11
41,2
41,1
Таблица 10
x
y1
y2
5
54,3
55,5
10
43,2
44,4
15
37,6
33,5
20
24,4
22,2
25
15,4
17,5
Таблица 11
x
y1
y2
0,0
32
33
2,0
25
24
3,3
15
16
4,3
8
7
5,1
2
3
Таблица 12
x
y1
y2
6,7
51,5
51,2
8,3
42,4
42,1
13,2
33,3
32,1
22,1
24,4
23,2
32,1
21,2
21,1
Таблица 13
x
y1
y2
0
76
77
2
65
67
4
57
56
6
49
50
10
32
31
Таблица 14
x
y1
y2
0
7,6
7,7
3
5,4
5,3
7
3,2
3,7
9
2,3
2,4
14
1,1
1,4
Таблица 15
x
y1
y2
4
45
44
8
34
32
10
27
29
14
22
21
18
13
11
Таблица 16
X*
1
0,28
0,55
0,76
0,85
0,95
1,48
1,15
1,30
0,95
1,10
0,3
1,8
3,3
4,8
6,3
7,8
9,3
10,8
12,3
13,8
Размеры структурных блоков по замерам, Y m2
2
3
4
5
6
7
8
0,27
0,22
0,25
0,29
0,26
0,2
0,37
0,48
0,67
0,30
0,44
0,86
0,42
0,54
0,65
0,57
0,68
0,65
0,95
0,69
0,76
0,70
0,65
0,85
0,73
0,75
0,76
0,83
1,02
0,71
1,09
0,86
1,02
1,05
1,50
1,40
0,86
1,10
1,45
1,19
1,25
1,05
0,96
1,42
1,05
1,20
1,30
1,10
1,25
1,20
1,15
1,35
1,25
1,36
1,20
Число
замеров
7
8
7
8
7
5
6
6
5
6
Приложение 1
Функции для работы с матрицами
Имя функции
МОБР()
МОПРД()
МУМНОЖ()
ТРАНСП()
Действие
Примечание
Где искать
-1
нахождение обратной
А
Формулы/
матрицы
Математические
нахождение определи|A|
Формулы/
теля матрицы
Математические
умножение матриц А
AB
Формулы/
иВ
Математические
Т
нахождение транспоА
Формулы/
нированной матрицы
Ссылки и массивы
Алгоритм работы с матричными функциями:
 щелкаем мышкой по ячейке, где будет находиться функция;
 вызов функции и ввод аргумента;
 выделение диапазона ячеек для вывода результата;
 нажимаем клавишу F2, потом – CTRL/SHIFT/ENTER.
Приложение 2
Матричное определение коэффициентов уравнения модели
Рассмотрим уравнение y=b0+b1x1+…+bkxk.
(1)
В матричной форме уравнение (1) можно записать в виде
Y=XB,
где X – матрица условий эксперимента:
(2)
𝑥01 ⋯ 𝑥𝑘1
⋱
⋮ ), k – число факторов; N – число опытов; B – вектор неизX=( ⋮
𝑥0𝑁 ⋯ 𝑥𝑘𝑁
вестных коэффициентов регрессии: BT=(b0, b1, …, bk); Y – матрица результатов наблюдений: YT=(y1, y2, …,yN).
Умножим равенство (2) на транспонированную матрицу XT;
XTXB=XTY,
затем обратную (XTX)-1. Получили
(XTX)-1(XTX)B=(XTX)-1(XTY), (XTX)-1(XTX)=E,
где E – единичная матрица. Следовательно,
B=(XTX)-1(XTY)
(3).
и матрица коэффициентов уравнения регрессии найдена.
Литература
1. Е.И. Короткова. Практикум по планированию и организации эксперимента: Индивидуальные контрольные задания. – Томск: Изд-во ТПУ, 2003. –
97 с.
2. Е.И. Короткова. Планирование и организация эксперимента: учебное пособие/Е.И. Короткова; ТПУ. – Томск: Изд-во ТПУ. 2010. – 122 с.
3. Е.И. Короткова. Планирование и организация эксперимента [Электронный
ресурс]: учебное пособие / Е. И. Короткова; Национальный исследовательский Томский политехнический университет (ТПУ). — 1 компьютерный файл (pdf; 585 KB). — Томск: Изд-во ТПУ, 2010. Схема доступа:
http://www.lib.tpu.ru/fulltext2/m/2011/m242.pdf
4. А.М. Кориков. Математические методы планирования эксперимента.
Учебное пособие. – Томск, Издательство Томского университета, 1973. с.
282.
5. Сборник задач по математике для втузов. Ч. 3. Теория вероятностей и математическая статистика: Учеб. пособие для втузов /Под ред. А.В. Ефимова. – 2-е изд., перераб. и доп. – М.: Наука. Гл. ред. физ.-мат. лит., 1990.
– 428 с.
Download