МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РФ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Национальный исследовательский Томский политехнический университет Утверждаю Директор ИШПР _______________А.С.Боев «_____» _______________2024г. Статистический анализ уравнения регрессии в полном факторном эксперименте Методические указания к выполнению лабораторной работы по дисциплине «Моделирование ХТП 18.03.01 «Химическая технология» Томск 2024 г. УДК 681.5 «Статистический анализ уравнения регрессии в полном факторном эксперименте». Томск: изд. ТПУ, 2018. – 13с. Составитель: О.Е.Мойзес Рецензент, к.х.н. Н.В.Ушева 2 1.ЦЕЛЬ РАБОТЫ Целью данной работы является: освоить методы планирования эксперимента; на основании имеющейся входной информации о химико-технологическом процессе получить статистическую модель и проверить модель на адекватность данному процессу В результате исследований , предусмотренных ходом выполнения лабораторной работы, студент должен решить следующие задачи: 1. Разработать алгоритм и программу расчета коэффициентов уравнения регрессии и полного статистического анализа полученного уравнения регрессии. 2. Выполнить проверку модели на адекватность процессу. 2.ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ Экспериментально-статистические модели на основе активного эксперимента (методы планирования экстремальных экспериментов). С помощью математических методов оптимального планирования эксперимента можно получить математическую модель процесса даже при отсутствии сведений о его механизме. Ценность математического описания заключается в том, что оно: дает информацию о влиянии факторов; позволяет количественно определить значения функций отклика при заданном режиме ведения процесса; может служить основой для оптимизации. Активный эксперимент ставится по заранее составленному плану и обрабатывается по некоторому оптимальному алгоритму с целью составления математической модели. Одним из основных методов теории активного эксперимента является статистическое планирование эксперимента. Планы первого порядка. Полный факторный эксперимент. При планировании по схеме полного факторного эксперимента (ПФЭ) реализуются все возможные комбинации факторов на всех выбранных для исследования уровнях. Суть факторного эксперимента: 1. Одновременное варьирование всех факторов на всех выбранных для исследования уровнях . 2. Представление математической модели в виде линейного полинома. 3. Исследование полученного полинома методами математической статистики. Необходимое количество опытов N при ПФЭ определяется по формуле: N=ln n – число факторов; l – число уровней, на которых варьируются факторы. Уровни факторов – это границы исследуемой области по данному технологическому параметру. 3 В основном применяется планирование на двух уровнях, т.е. l=2, тогда при n=2, N=2 =4. Нулевой (основной) уровень (центр плана эксперимента) – это некоторое начальное значение фактора при составлении математической модели. Это точка с координатами ( x0 ,...x0 ) 1 n Интервал варьирования – часть области определения фактора, симметричная относительно его нулевого уровня. Рассмотрим эти понятия на примере. Пример. Объект исследования – реактор, в котором выход продукта Y зависит от двух факторов: температуры в реакторе (x1) и давления (x2). Известно априори, что Т=100-200; Р=10-20а, тогда 100 и 200, 10 и 20 – это два уровня, на которых варьируются факторы. Верхний – 2000 и 20а Нижний – 1000 и 10а Основной нулевой уровень: 150 15 2 x min x1max Основной уровень: x10 1 ; 2 min x2 x2max 0 x2 ; 2 Интервалы варьирования: x max x min 200 100 1 X 1 50; 1 2 2 x max x min 20 10 2 X 2 5; 2 2 2 При ПФЭ эксперимент ставится только на границе области. В большинстве случаев эксперимент задается в виде матрицы планирования – это план (таблица), каждая строчка который представляет собой условия опыта, а каждый столбец матрицы соответствует значениям переменных в различных опытах. Матрица планирования для предыдущего примера. N=2n=4. Таблица 1 Матрица планирования ПФЭ 22 N 1 2 3 4 X1 100 min 100 min 200 max 200 max X2 10 min 20 max 10 min 20 max y Y1 Y2 Y3 Y4 Это матрица планирования в натуральном масштабе. Матрица планирования составляется для того, чтобы эксперимент провести по определенному плану, определить значения выходного параметра в каждом опыте и построить статистическую модель. При планировании первого порядка получают математическую модель вида: yˆ b b x b x ... b x - линейное уравнение. 0 11 2 2 n n Кодирование переменных 4 Для удобства расчетов, переходят от натуральных координат (натуральных единиц измерения) к безразмерным. Формула перехода или кодирования имеет вид: x x0 i , (1) X i i x i xi – значения (верхний или нижний уровень) натуральной переменной. x0 - основной уровень натуральной переменной. i x - интервал варьирования натуральной переменной. i Xi – кодированное значение i-го фактора (на верхнем или на нижнем уровне). Перейдем от натуральных переменных к кодированным: 200 150 Xb 1; 1 50 Для температуры: 100 150 XH 1; 1 50 20 15 Xb 1; 2 5 Для давления: 10 15 XH 1; 2 5 Фактически мы обозначили значения факторов на верхнем уровне +1, (200,20), а на нижнем (100, 10) - -1; Таблица 2 N 1 2 3 4 Матрица планирования в безразмерном масштабе x0 x1 x2 +1 +1 +1 +1 +1 -1 +1 -1 +1 +1 -1 -1 x0 – фиктивная переменная (+1), необходимая для вычисления свободного члена полинома. Свойства матрицы планирования Матрица планирования (таблица выше) обладает следующими свойствами: N 1. x x 0; uj; u, j=1,…n, n – факторы (2) ui ji i 1 Равенство нулю скалярных произведений всех векторов-столбцов – это свойство называется свойством ортогональности. N 2. x 0 , u=1,…,n (3) iu i 1 N 3. x 2 N , u=1,…,n iu i 1 4. Свойствo ротатабельности: дисперсия предсказанного значения выходного параметра в любой точке факторного пространства при ПФЭ минимальна. 5 На основании всех перечисленных выше свойств, в частности ортогональности и ротатабельности значительно упрощается расчет коэффициентов регрессии. Расчет коэффициентов регрессии После того, как составлен план (матрица планирования), проводят эксперименты (дублируя опыты) и на основании результатов рассчитывают коэффициенты в уравнении регрессии по формулам: 1 N b x y ; 0 N 0i i i 1 1 N b x y ; u=1,…, n (факторы) (4) i N iu i i 1 1 N b x x y; ij N iu ij i i 1 Эти простые формулы получены благодаря свойству ортогональности на основании метода наименьших квадратов. Здесь b - коэффициенты регрессии, характеризующие взаимодействие ij факторов. После вычисления коэффициентов регрессии приступают к статистическому анализу уравнения регрессии. Статистический анализ уравнения регрессии Регрессионный анализ состоит из трех основных этапов: 1. Оценка дисперсии воспроизводимости (оценка ошибки опыта) a) определяется среднее по результатам опыта m y iu yi u 1 m i 1,... N ; (5) m – число параллельных опытов. b) рассчитываются выборочные (построчные) дисперсии. m Si 2 N c) y iu y i 2 u 1 m 1 ; (6) Si ; 2 i 1 S max 2 ; (7) S 2i S2max - максимальное значение выборочной дисперсии. По критерию Кохрена проверяется дисперсия на однородность. Если G<Gтабл.(q,f1,f2), при f1=m-1; и f2= N , то дисперсия однородна. e) Рассчитывается дисперсия воспроизводимости. d) G S воспр. 2 S2i ; N 6 (8) 2. Оценка значимости коэффициентов проводится по критерию Стьюдента. tbi bi , Sbi b i - абсолютное значение коэффициента регрессии. Sb i - средне квадратичное отклонение i – го коэффициента. S bi 2 S воспр. 2 N ; (9) Если tbi tтабл. (q, f ), f N m 1 , то коэффициент значим. Если нет, то коэффициент приравнивается к 0 и из уравнения исключается. 3. Проверка модели на адекватность по критерию Фишера 2 Sост. F ; 2 Sвоспр. (10) 2 э yi yi 2 . Sост N l (11) l n 1 Если F<Fтабл.(q,f1,f2), то линейное уравнение регрессии адекватно описывает процесс. f1=N-l; f2=N(m-1). 3. ПРИМЕР РАЗРАБОТКИ СТАТИСТИЧЕСКОЙ МОДЕЛИ И ПРОВЕРКИ ЕЕ НА АДЕКВАТНОСТЬ В химическом процессе выход продукта реакции Y зависит от температуры x1 и концентрации реагента x2. Требуется с помощью ПФЭ найти математическое описание этого процесса. Таблица 3 Основные характеристики ПФЭ Характеристика Основной уровень Интервал варьирования Верхний уровень Нижний уровень X1, 0 С X2, % 50 5 55 45 25 1 26 24 Матрица планирования и результаты исследования приведены в табл.4. Таблица 4 2 ПФЭ 2 Номер Х1 Х1 Y1 Y2 Yср. опыта код. нат. код нат. 1 45 24 35,4 35,2 35,3 2 + 55 24 38,7 38,7 38,7 3 45 + 26 32,2 32,6 32,4 4 + 55 + 26 36,25 36,15 36,2 7 На основании результатов ПФЭ рассчитываем коэффициенты регрессии, пользуясь формулами (4): b0 = 1/4*(35.3+38.7+32.4+36.2) = 35.6; b1 = 1/4*(-35.3+38.7-32.4+36.2) = 1.95; b2 = 1/4*(-35.3-38.7+32.6+36.2) = -1.35. Получаем уравнение регрессии следующего вида: Y 35.6 1.95 X1- 1.35 X2 ; Выполним регрессионный анализ в соответствии с приведенной выше последовательностью- формулы (5)-(11) Выборочные (построчные) дисперсии (6): S21 = (35.3-35.4)2 + (35.2-35.3)2 =0.02; S22 =0; S23 =0.08; S24 =0.005; Si =0.105; Smax =0.08; По формуле (7) рассчитываем отношение G = 0.08/0.105 = 0.76. Табличное значение критерия Кохрена при q=0.05 при f1= 1; f2= 4 равно Gт = 0.9065. 0.76 < 0.9065, следовательно дисперсия однородна. Рассчитываем значение дисперсии воспроизводимости по формуле (8) S2воспр. = 0.105/4 = 0.026; Для оценки значимости коэффициентов регрессии вычислим ошибку в определении коэффициентов: 2 Sb = Sвоспр /N = 0.081; t0 = b0 /Sb = 35.6/0.081 = 439.5; t1 = b1 /Sb = 1.95/0.081 = 24.07; t2 = b2 /Sb = 1.35/0.081 = 16.70; Табличное значение t-критерия для q=0.05 и f=N(m-1)=4(2-1) tт = 2.78. Таким образом, все значения ti , больше табличного, а следовательно все коэффициенты регрессии значимы. Следовательно, искомое уравнение имеет вид Y 35.6 1.95 X1- 1.35 X2 . Для проверки адекватности уравнения найдем расчетные значения функции отклика ( Y ): Y 1 =35.6 +1.95 (-1) –1.35(-1) =35.0; Y 2 =35.6 +1.95 (+1) –1.35(-1) =38.9; Y 3 =35.6 +1.95 (-1) –1.35(+1) =32.3; Y 4 =35.6 +1.95 (+1) –1.35(+1) =36.2. По формуле (11 ) вычислим S2ост S2ост = 1 ((35.3-35.0)2 + (38.7-38.9)2 + (32.4-32.3)2 + (36.2-36.2)2 ) =0.14 43 8 Расчетное значение критерия Фишера находим по формуле (10 ) 2 S F ост. 2 ; Sвоспр. F= 0.14/ 0.026 = 5.38 ; Значение критерия Фишера , приведенное в таблице при q = 0.05; f1=1; f2= 4, равно Fт = 7.71. Таким образом, 5.38 < 7.71 . Следовательно, полученное уравнение регрессии адекватно. Вариант 8 Матрица планирования № 1 2 3 4 X0 + + + + X1(P) + + - X2(T) + + - X3(U) + + + + Y1 32,29 25,8 38,24 19,50 Y2 32,34 26,0 38,35 19,52 5 + + + - 37,42 37,69 6 + - + - 42,54 42,94 7 + + - - 31,2 29,85 8 + - - - 46,7 46,1 Факторы: Т (x1)= 523-553 о KCKRK C (X2)= 0,4-1,2 моль/л τ (X3)=6-12 c 4. ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ 1. 2. 3. 4. 5. 6. 7. На основании экспериментальных данных и методики ПФЭ разработать алгоритм и программу расчета коэффициентов уравнения и регрессионного анализа. Рассчитать значения коэффициентов регрессии. Выполнить проверку дисперсии на однородность по критерию Кохрена. Оценить значимость коэффициентов регрессии по критерию Стьюдента. Проверить полученную модель на адекватность по критерию Фишера. Полученные результаты оформить в виде таблиц. Составить отчет о проделанной работе. 9 Приложение А X0 = [+1, +1, +1, +1, +1, +1, +1, +1] X1 = [+1, -1, +1, -1, +1, -1, +1, -1] X2 = [+1, +1, -1, -1, +1, +1, -1, -1] X3 = [+1, +1, +1, +1, -1, -1, -1, -1] Y1 = [32.29, 25.8, 38.24, 19.5, 37.42, 42.54, 31.2, 46.7] Y2 = [32.34, 26, 38.35, 19.52, 37.69, 42.94, 29.85, 46.1] b0 = 0 b1 = 0 b2 = 0 b3 = 0 n = 3 l = 2 numbers = l**n 10 L = n + 1 print("Расчет коэффициентов регрессии:") Ysr = [i for i in range(numbers)] for i in range(numbers): Ysr[i] = (Y1[i] + Y2[i])/2 print(f"Ysr : [Ysr1 = {Ysr[0]:.3f}, Ysr2 = {Ysr[1]:.3f}, Ysr3 = {Ysr[2]:.3f}, Ysr4 = {Ysr[3]:.3f}, Ysr5 = {Ysr[4]:.3f}, Ysr6 = {Ysr[5]:.3f}, Ysr7 = {Ysr[6]:.3f}, Ysr8 = {Ysr[7]:.3f}]") for i in range(numbers): b0 = b0 + Ysr[i]/numbers b1 = b1 + Ysr[i] *X1[i]/numbers b2 = b2 + Ysr[i] *X2[i]/numbers b3 = b3 + Ysr[i] *X3[i]/numbers print(f"b0 = {b0:.3f}, b1 = {b1:.3f}, b2 = {b2:.3f}, b3 = {b3:.3f}") Yr = [i for i in range(numbers)] for i in range(numbers): Yr[i] = b0 + b1 * X1[i] + b2 * X2[i] + b3 * X3[i] print(f"Yr : [Yr1 = {Yr[0]:.3f}, Yr2 = {Yr[1]:.3f}, Yr3 = {Yr[2]:.3f}, Yr4 = {Yr[3]:.3f}, Yr5 = {Yr[4]:.3f}, Yr6 = {Yr[5]:.3f}, Yr7 = {Yr[6]:.3f}, Yr8 = {Yr[7]:.3f}]") print("Уравнение регрессии:") print(f"Y^ = {b0:.3f} + {b1:.3f} * X1 + {b2:.3f} * X2 + {b3:.3f} * X3", end='\n\n') # Регрессионный анализ print("1. Оценка дисперсии воспроизводимости (оценка ошибки опыта)") S2 = [i for i in range(numbers)] for i in range(numbers): S2[i] = (Y1[i]-Ysr[i])**2 + (Y2[i]-Ysr[i])**2 print(f"S2 : [S2_1 = {S2[0]:.3f}, S2_2 = {S2[1]:.3f}, S2_3 = {S2[2]:.3f}, S2_4 = {S2[3]:.3f}, S2_5 = {S2[4]:.3f}, S2_6 = {S2[5]:.3f}, S2_7 = {S2[6]:.3f}, S2_8 = {S2[7]:.3f}]") S2_sum = sum(S2) print(f"sum_S2 = {S2_sum:.3f}") print("Критерий Кохрена:") G = max(S2)/S2_sum print(f"G = {G:.4f}") Gt = 0.6798 if G < Gt: print(f"Так как {G:.4f} < {Gt}, то дисперсия однородна", end='\n\n') else: print(f"Так как {G:.4f} > {Gt}, то дисперсия не однородна", end='\n\n') print("2. Оценка значимости коэффициентов по критерию Стьюдента") S_vospr2 = sum(S2)/numbers 11 print(f"S_vospr2 = {S_vospr2:.4f}") Sb2 = S_vospr2/numbers tb = [j for j in range(4)] b = [b0, b1, b2, b3] for j in range(4): tb[j] = abs(b[j])/Sb2**0.5 print(f"tb0 = {tb[0]:.3f}, tb1 = {tb[1]:.3f}, tb2 = {tb[2]:.3f}, tb3 = {tb[3]:.3f}" ) tt = 2.31 Y = [i for i in range(numbers)] for j in range(4): if tb[j] > tt: print(f"Коэффициент регрессии b{j} значим так как {tb[j]:.3f} > {tt}") elif tb[j] < tt: print(f"Коэффициент регрессии b{j} не значим, так как {tb[j]:.3f} < {tt}, поэтому b{j} приравнивается к 0 и исключается из уравнения") b[j] = 0 print(f"Уравнение будет иметь вид: Y^ = {b[0]:.3f} + {b[1]:.3f} * X1 + {b[2]:.3f} * X2 + {b[3]:.3f} * X3", end='\n\n') print("3. Проверка модели на адекватность по критерию Фишера") for i in range(numbers): Y[i] = b[0] + b[1] * X1[i] + b[2] * X2[i] + b[3] * X3[i] print(f"Y = {Y[0]:.3f}, {Y[1]:.3f}, {Y[2]:.3f}, {Y[3]:.3f}, {Y[4]:.3f}, {Y[5]:.3f}, {Y[6]:.3f}, {Y[7]:.3f}") S_ost2 = 0 for i in range (numbers): S_ost2 += ((Ysr[i] - Y[i])**2) * 1/(numbers-L) print(f"S_ost2 = {S_ost2:.3f}") F = S_ost2/S_vospr2 print(f"F = {F:.3f}") Ft = 3.8 if F < Ft: print(f"Так как {F:.3f} < {Ft}, уравнение регрессии адекватно") elif F > Ft: print(f"Так как {F:.3f} > {Ft}, уравнение регрессии неадекватно") Приложение Б Расчет коэффициентов регрессии: Ysr : [Ysr1 = 32.315, Ysr2 = 25.900, Ysr3 = 38.295, Ysr4 = 19.510, Ysr5 = 37.555, Ysr6 = 42.740, Ysr7 = 30.525, Ysr8 = 46.400] b0 = 34.155, b1 = 0.518, b2 = 0.472, b3 = -5.150 Yr : [Yr1 = 29.995, Yr2 = 28.960, Yr3 = 29.050, Yr4 = 28.015, Yr5 = 40.295, Yr6 = 39.260, Yr7 = 39.350, Yr8 = 38.315] Уравнение регрессии: Y^ = 34.155 + 0.518 * X1 + 0.472 * X2 + -5.150 * X3 12 1. Оценка дисперсии воспроизводимости (оценка ошибки опыта) S2 : [S2_1 = 0.001, S2_2 = 0.020, S2_3 = 0.006, S2_4 = 0.000, S2_5 = 0.036, S2_6 = 0.080, S2_7 = 0.911, S2_8 = 0.180] sum_S2 = 1.235 Критерий Кохрена: G = 0.7377 Так как 0.7377 > 0.6798, то дисперсия не однородна 2. Оценка значимости коэффициентов по критерию Стьюдента S_vospr2 = 0.1544 tb0 = 245.853, tb1 = 3.725, tb2 = 3.401, tb3 = 37.071 Коэффициент регрессии b0 значим так как 245.853 > 2.31 Коэффициент регрессии b1 значим так как 3.725 > 2.31 Коэффициент регрессии b2 значим так как 3.401 > 2.31 Коэффициент регрессии b3 значим так как 37.071 > 2.31 Уравнение будет иметь вид: Y^ = 34.155 + 0.518 * X1 + 0.472 * X2 + 5.150 * X3 3. Проверка модели на адекватность по критерию Фишера Y = 29.995, 28.960, 29.050, 28.015, 40.295, 39.260, 39.350, 38.315 S_ost2 = 83.854 F = 543.097 Так как 543.097 > 3.8, уравнение регрессии неадекватно 13