СТАТИСТИЧЕСКИЕ МОДЕЛИ ОБЪЕКТОВ НА ОСНОВЕ ПАССИВНОГО ЭКСПЕРИМЕНТА. Национальный Исследовательский Томский Политехнический Университет

advertisement
Национальный Исследовательский Томский Политехнический
Университет
Институт природных ресурсов
Кафедра химической технологии топлива и химической кибернетики
СТАТИСТИЧЕСКИЕ МОДЕЛИ ОБЪЕКТОВ НА
ОСНОВЕ ПАССИВНОГО ЭКСПЕРИМЕНТА.
Активный эксперимент

Активный эксперимент ставится по заранее составленному плану и
обрабатывается по некоторому оптимальному алгоритму с целью
составления математической модели или нелинейного полинома.
Пассивный эксперимент


исследователь собирает некоторый объем экспериментальной
информации, т.е. значений факторов xi и выходного параметра yi.
Причем происходит это в режиме нормальной эксплуатации объекта.
Данные (выборка) берутся из каких–либо журналов (например,
оператора установки, регламента).
Для получения статистических моделей в виде полиномов на основе
данных используют методы корреляционного и регрессионного анализа.
ЭТАПЫ ПОСТРОЕНИЯ СТАТИСТИЧЕСКОЙ МОДЕЛИ
1.
Записывается уравнение модели в виде полинома n–ой степени.
2.
Рассчитываются коэффициенты этого полинома.
3.
Оценивается
наличие
линейной
связи
между факторами, т.е.
рассчитывается коэффициент парной корреляции.
4.
Оценивается значимость коэффициентов полинома по t – критерию.
5.
Устанавливается
адекватность
процессу (по критерию Фишера).
уравнения
регрессии
реальному
МЕТОДЫ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА
Методы
корреляционного
применяются
для
описания
и
регрессионного
зависимостей
анализа
между
величинами по экспериментальным данным и базируются
широко
случайными
на теории
вероятности и математической статистики.
Корреляционный анализ основывается на предпосылке о том, что
переменные величины y (выходной параметр) и xi (факторы) являются
случайными величинами и между ними может существовать так
называемая корреляционная связь, при которой с изменением одной
величины изменяется распределение другой. Для колличественной
оценки тесноты связи служит выборочный коэффициент корреляции.
ВИДЫ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ:
 Простой коэффициент корреляции или коэффициент парной корреляции
определяет величину (тесноту) зависимости между двумя переменными x
или y.
 Коэффициент частной корреляции измеряет линейную зависимость
между
двумя
переменными
после
устранения
части
зависимости,
обусловленный зависимостью этих переменных с другими переменными.
 Множественный
коэффициент
корреляции
зависимости одной переменной от нескольких.
определяет
величину


n
 xi  x yi  y
Коэффициент парной корреляции:
r  i 1
xy
n  1  S x  S y

Коэффициент частной корреляции:
Частный коэффициент корреляции
оценивает степень влияния фактора x1 на y при условии, что влияние x2 на y
исключено.
При исследовании зависимости y от x1 и x2 наличие корреляции между x1 и x2
и между y и x2 будет влиять на корреляцию между y и x1. Для того чтобы
устранить влияние x2 необходимо измерить корреляцию между y и x1, при
x2=const.
r
r
r
r
r
r
yx1
yx2 x2 x1
ryx  x 
1
1
1 2

2
2  2 1  r 2
1  ryx

 
x
x
2 
1 2

yx
2
yx
x x
1
2 1
r

yx  x
1
1
2 1

 
2
1  r 2  2 1  r 2


yx  
x x 
1 
1 2

Частный коэффициент оценивает степень влияния фактора x1 на y при
условии, что влияние x2 на y исключено.
РЕГРЕССИОННЫЙ
АНАЛИЗ
–
предполагает
связь
между
зависимой
(случайной) величиной Y и независимыми (неслучайными) переменными
переменными x1,….xi. и Эта связь представляется с помощью математической
модели, т.е. уравнения, которое связывает зависимую и независимые
переменные.
Предпосылки анализа:
1. Результаты наблюдений y1,y2,…,yn представляют собой независимые
нормально распределенные случайные величины;
2. Факторы x1,…,xn – независимы и ошибка в измерении этих факторов
пренебрежительно мала по сравнению с ошибкой при измерении y.
Sx<<Sy
3. Выборочные дисперсии S1,…Sn значения выходного параметра у,
полученных при одинаковых условиях (в параллельных опытах) должны
быть однородны.
ЗАДАЧА ставится следующим образом (постановка задачи):
По данной выборке объема n найти уравнение приближенной
регрессии и оценить допускаемую при этом ошибку. Эта
задача решается методами корреляционного и регрессионного
анализа.
yˆ  f ( x)
Т.е. нужно найти
По сгущениям точек можно найти определенную зависимость,
т.е. получить вид уравнения регрессии. При значительном
разбросе точек регрессии не будет
Вид уравнения регрессии зависит от выбираемого метода
приближения.
Обычно используется метод наименьших квадратов.

n
F   y  f (x )
i
i
i 1

2
 min
или


2
n
F   y  yˆ
 min
i
i
i 1
ЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ
При моделировании ХТП во многих случаях связь между X и Y можно
описать линейной зависимостью
yˆ  b  b x;
0
1
Связь между входными (x) и выходными (y) параметрами:
Для нахождения коэффициентов уравнения регрессии b0 и b1 применим
метод наименьших квадратов


n
F   yi  b0  b1xi 2  min
i 1
Необходимым условием min функции является равенство нулю частных
производных функции по искомым величинам (коэффициентам).




n
 F


2
 yi  b0  b1xi 1  0;

 b0
i 1

n
 F  2  y  b  b x  x  0
i
0 1 i i
 b
i

1
 1



  yi  b0  b1xi  0;
 y  b  b x  x  0;

 i 0 1 i i


 nb0  b1  xi   yi

2
b0  xi  b1  xi   xi yi
(2)
формулы для вычисления коэффициентов b0 и b1
b

0
 yi
 xi yi
n
 xi
 xi
2
x
i
 xi
2
 xi
2
 yi  xi   xi yi  xi
b 
;
0
N  x2   x 2
i
i
 
y
i
 xi  xi yi
b 
1
n
x
i
2
x
x
i
i
n
n
n
N  x y   x y
i i
i i
i

1
i

1
b 
;
2
1
N  x2   x
i
i
 
СТАТИСТИЧЕСКИЙ АНАЛИЗ РЕЗУЛЬТАТОВ
1. Для оценки тесноты линейной зависимости между факторами рассчитывают
N
коэффициенты парной корреляции r по формуле:



 xi  x1 yi  y
r  i 1
;
yx
N  1  S x  S y
-1r1;
2. Проверка однородности дисперсий.
1) Определяется среднее по результатам параллельных опытов (если есть
m
параллельные опыты):
 y
yi  u  1
m
iu
; i  1,... N
m – число параллельных опытов
N – количество опытов в выборке
m
 yiu  yi 2
2) Определяются выборочные дисперсии:
S2  u  1
; i  1, N
i
N 2
m 1
 Si ;
3) Суммируются дисперсии
i 1
4) Выбирается максимальная дисперсия, составляется отношение:
- максимальное значение выборочной дисперсии.
S2

max

S2
G  max ;
N 2
 Si
i 1
Проверяется однородность дисперсий по критерию Кохрена (при
одинаковом количестве параллельных опытов).
Если
, то дисперсии однородны.
GG
( q, f , f )
табл.
1 2
число степеней свободы f1=m-1; f2=N;
5) Определяется
дисперсия воспроизводимости
-для одинакового числа опытов:
N 2
 Si
S2
 i 1
воспр. N (m  1)
f= (N(m-1)).
3. Оценивается значимость коэффициентов полинома по
критерию Стьюдента (предпосылка – отсутствие корреляции между
факторами)
b
t  i ,
b
i Sb
i
где bi – i-ый коэффициент уравнения регрессии;
S
b - среднеквадратичное отклонение i-го коэффициента
i
Для случая линейного полинома y=b0+b1x1
следующим формулам
S
b
0

N
S2
x
воспр.  i
i 1
N
 N 
N  x2    i 

i 
i 1
 i 1 
S
2
S2
b
0
b
1

и
S2
b
1
вычисляются по
S2
N
воспр.
N 2  N


N  x   x 
i 
i
i 1
i  1 
2
t t
(q, f ),
Если
то коэффициент b1 значим (значимо отличается от 0). В
b
табл.
1
противном случае – незначим (0) и из уравнения может быть исключен.
4. Проверка модели на адекватность осуществляется по критерию
Фишера.
Если
S2
ост  F q, f , f
F 
T
1 2
2
S
воспр.


, то модель адекватна (т.е. линейное уравнение
регрессии адекватно описывает исследуемый объект).
для одинакового числа параллельных опытов m1=m2=…mn.
если опыты проведены без параллельных.



N
m  y  yˆ 2
i
i
2
i

1
S

ост
N l

N
f1 и f2 – число степеней свободы (f1 – для числителя,
 yi  yˆi 2
f2 – для знаменателя).
f1=N-l; (числ. );
S2  i  1
ост
N l
l=n+1 – число членов аппроксимирующего
полинома (число коэффициентов регрессии, включая свободный член).
f2=N(m-1), (знамен. ).
N – общее количество опытов.
n – количество факторов (x1,x2…)
Если не было параллельных опытов, то вместо проверки модели на адекватность
выполняется оценка качества аппроксимации достигается сравнением остаточной
дисперсии S 2
с дисперсией относительно среднего S 2
y
ост.
y – экспериментальное
значение выходного параметра.


N
 yi  y 2
S2  i  1
y
N l
i
y
1 N
 y
N i 1 i
- среднее значение выходного параметра.
Уравнение регрессии будет иметь смысл, если дисперсия относительно среднего существенно больше,
чем т.е. эти дисперсии должны отличаться значимо. Критерий Фишера в этом случае будет иметь вид:
S2
y
F
 1;
2
S
ост
и в этом случае, чем F>Fтабл(q,f1,f2), тем уравнение регрессии эффективнее.
f1=N-1;
f2=N-1;
для выбранного q.
СТАТИСТИЧЕСКИЕ МОДЕЛИ В ВИДЕ НЕЛИНЕЙНЫХ ПОЛИНОМОВ
метод регрессионного анализа для составления статистической модели в виде
полинома второй (или более высокой) степени:
n
yˆ  b   b x   b x x   b x 2  ...,...
0
i i
ij i j
ij i
i 1
i j
Коэффициенты регрессии определяют также по МНК, решая систему
линейных уравнений.
2
ˆ
Пусть дано уравнение y  b0  b1x  b2 x , требуется определить b0,b1,b2.
F    y  ŷ 2  min
2
N
F    y  b  b x  b x 2   min
i 0 1i 2 i 
i  1
 F

 2  y  b  b x  b x 2   1  0;
 i 0 1i 2 i 
 b0
 F

 2  y  b  b x  b x 2   x  0;

 i 0 1i 2 i  i
 b0
 F
 2  y  b  b x  b x 2   x 2  0;

 i 0 1i 2 i  i
 b0
 nb  b  x  b  x 2   y
0 1 i 2 i
i


2
3
 b0  xi  b1 xi  b2  xi   xi yi

2
3
4
2
b0  xi  b2  xi  b2  xi   yi xi

Решая систему уравнений, вычисляем коэффициенты b0,b1,b2.
ЗАКЛЮЧЕНИЕ
Пассивные
методы
сбора
экспериментальной
информации
имеют
определенные преимущества, которые заключаются в том, что информация
собирается в режиме нормальной эксплуатации объекта. Однако, полученные
на базе пассивного эксперимента модели во многих случаях оказываются
неэффективными. Причиной является невыполнение основных предпосылок
регрессионного анализа: факторы измеряются с большими ошибками, т.е. в
пассивном эксперименте, как правило, ошибка при измерении x соизмерима,
а то и больше ошибки при измерении y. Иногда ошибка измерения превышает
даже интервал измерения самих факторов.
Кроме того факторы (xi) или коэффициенты bi имеют между собой
корреляционную
связь.
интерпретацию результатов.
Это
затрудняет
статистический
анализ
и
СТАТИСТИЧЕСКИЕ МОДЕЛИ НА ОСНОВЕ АКТИВНОГО
ЭКСПЕРИМЕНТА
Активный эксперимент ставится по заранее составленному плану и обрабатывается по
некоторому оптимальному алгоритму с целью составления математической модели или
нелинейного полинома. Одним из основных методов теории активного эксперимента
является статистическое планирование эксперимента.
План эксперимента показывает расположение опытных точек в n-мерном факторном
пространстве.
ПЛАНЫ ПЕРВОГО ПОРЯДКА
Полный факторный эксперимент
При планировании по схеме полного факторного эксперимента (ПФЭ) реализуются все
возможные комбинации факторов на всех выбранных для исследования уровнях.
Суть факторного эксперимента:
1. Одновременное варьирование всех факторов при проведении эксперимента по
определенному плану.
2. Представление математической модели (функции отклика) в виде линейного
полинома.
3. Исследование полученного полинома методами математической статистики.
Необходимое количество опытов N при ПФЭ определяется по формуле:
N=ln
N – число факторов;
l – число уровней, на которых варьируются факторы.
Уровни факторов – это границы исследуемой области по данному технологическому
параметру.
В основном (обычно) применяется планирование на двух уровнях, т.е. l=2, тогда при
n=2, N=22=4.
Нулевой (основной) уровень (центр плана эксперимента) – это некоторое начальное
значение фактора при составлении математической модели.
Это точка с координатами
Интервал варьирования – часть области определения фактора, симметричная
относительно его нулевого уровня.
Пример. Объект исследования – реактор, в котором выход продукта y зависит от двух
факторов: температуры в реакторе (x1) и давления (x2). Известно априори, что Т=100-
200; Р=10-20а, тогда 100 и 200, 10 и 20 – это два уровня, на которых варьируются
факторы.
Верхний – 2000 и 20а
Нижний – 1000 и 10а
Основной нулевой уровень:150
Основной уровень:
15
max  x max
x
1
x0  1
1
2
Интервалы варьирования:
x max  x min
200  100
1
X  1

 50;
1
2
2
x max  x min
20  10
2
X  2

 5;
2
2
2
x min  x max
0
21 ;
x  2
2
2
В координатах на плоскости это можно представить следующим образом:
X2
План
X2
max
3
20
1
эксперимента
расположение
указывает
n – мерном пространстве
опытных точек независимых переменных
x0
2
150
или
А
условия
всех
опытов,
которые
необходимо провести
X2 min
10
4
X1
min
150
100
2
X1
200
X1
ma
x
При ПФЭ эксперимент ставится только на границе области, т.А – центр области. В
большинстве случаев эксперимент задается в виде матрицы планирования – это план
(таблица), каждая строчка который представляет собой условия опыта, а каждый
столбец матрицы соответствует значениям переменных в различных опытах.
Составим матрицу планирования для предыдущего примера.
X1-T=100-2000C имеем два фактора,
X2-P=10-20а, следовательно N=2n=4.
Это ПФЭ типа 22:
N
X1
X2
y
1
100 min
10 min
Y1
2
100 min
20 max
Y2
3
200 max
10 min
Y3
4
200 max
20 max
Y4
Матрица планирования для ПФЭ 22 – все возможные комбинации факторов на двух
уровнях. Это матрица планирования в натуральном масштабе.
Матрица планирования составляется для того, чтобы эксперимент провести по
определенному плану, определить значения выходного параметра в каждом опыте и
построить статистическую модель.
При планировании первого порядка получают математическую модель вида:
yˆ  b  b x  b x  ...  b x
0 11 2 2
n n
- Линейное уравнение
КОДИРОВАНИЕ ПЕРЕМЕННЫХ.
Для удобства расчетов, перейдем от натуральных координат (натуральных единиц
измерения) к безразмерным. Формула перехода или кодирования имеет вид:
x  x0
i ,
X  i
i
x
i
xi – значения (верхний или нижний уровень) натуральной переменной.
x 0 - основной уровень натуральной переменной.
i
x - интервал варьирования натуральной переменной.
i
Xi – кодированное значение i-го фактора (на верхнем или на нижнем уровне).
T=100-2000C
P=10-20a
Перейдем от натуральных переменных к кодированным:
Для температуры
200  150
 1;
50
100  150
X1н 
 1;
50
X1в 
Для давления
20  15
 1;
5
10  15
X 2н 
 1;
5
X 2в 
Фактически мы обозначили значения факторов на верхнем уровне +1, (200,20), а на
нижнем (100, 10) - -1;
Это матрица планирования в безразмерном масштабе.
x0 – фиктивная переменная (+1), необходимое для вычисления свободного члена
полинома.
N
x0
x1
x2
1
+1
+1
+1
2
+1
+1
-1
3
+1
-1
+1
4
+1
-1
-1
или
N
x0
x1
x2
1
+
+
+
2
+
+
-
3
+
-
+
4
+
-
-
Расположение опытных точек в факторном пространстве будет следующим:
X2
(-1,1)
+1
(-1,1,1)
(1,1,1)
X2
(1,1)
X3
(-1,1,-1)
X1
-1
(-1,-1)
+1
-1
(1,0,0)
X1
(-1,1,1)
(1,-1)
(-1-1,-1)
(1-1,-1)
СВОЙСТВА МАТРИЦЫ ПЛАНИРОВАНИЯ
Матрица планирования (таблица выше) обладает следующими свойствами:
1.
N
uj;
 xui x ji  0;
i 1
u,j=1,…n,
n – факторы
i =1 ,…,N (N- количество опытов)
Равенство нулю скалярных произведений всех векторов-столбцов – это свойство
называется свойством ортогональности.
2.
N
 xiu  0 u=1,…,n
i 1
3.
N
2  N
 x
iu
i 1
Все столбцы матрицы и план в целом ортогональны.
N
1
2
3
4
x1
+
+
-
x2
+
+
-
x1x2
+
+
u=1,…,n
4.
Свойство
ротатабельности:
дисперсия
предсказанного значения выходного параметра в
любой точке факторного пространства при ПФЭ
минимальна.
Это
означает,
что
ошибка
определения коэффициентов регрессии в любой
точке от центра плана одинакова и минимальна.
РАСЧЕТ КОЭФФИЦИЕНТОВ РЕГРЕССИИ.
После того, как составлен план, проводят эксперименты и на основании результатов
рассчитываю коэффициенты в уравнении регрессии по формулам:
1 N
b 
 x y ;
0 N
0i i
i 1
1 N
1 N
b 
 x y ; b 
 x x y;
i N
iu i
ij N
iu ij i
i 1
i 1
u=1,…,
n (факторы)
Эти простые формулы получены благодаря свойству ортогональности, также на
основании метода наименьших квадратов.
b 
0
2
 yi   x1i   x1i yi   xi


N  x2   x 2
1i
ii

yˆ  b  b x  b x  b x x
0
11
2 2
12 1 2
 yi  N  0   xi  yi
 yi

;
2
N
N 0
N x y   x  y
N x y 0 y
 xi yi
1
i
i
1
i
i
i
i
i
b 


;
1
2
2
2
N
N x   x
N 0
ii
1i

b
ij

- коэффициенты регрессии, характеризующие взаимодействие факторов.
Пример:
N
1
2
3
4
x0
+1
+1
+1
+1
b 
0
x1
1
1
-1
-1
x2
1
-1
-1
-1
Y
85
66
56
50
85  66  56  50
 64.25
4
b 
1
85  66  56  50
 11.25
4
b 
2
85  66  56  50
 6.25
4
b 
12
x1x2
1
-1
-1
1
85  66  56  50
 3.25
4
yˆ  64.25  11.25 x  6.25 x  3.25 x x
1
2
1 2
После вычисления коэффициентов регрессии приступают к статистическому анализу
уравнения регрессии
ПОРЯДОК СОСТАВЛЕНИЯ ПЛАНА
1.Выбирают центр плана (т.е. центр исследуемой области), в него переносится начало
координат (это точка с координатами x0 , x0 ,...x0
1
2
n
).
2. Выбирают интервал варьирования – это расстояние от центра плана по данным оси на
основе предварительного известных данных о процессе.
Требования к xi:
а) xi не должен быть слишком мал, т.к. в этом случае уровни факторов становятся
x0
i
неразличимы.
Н.у.
В.у.
б) xi не должен быть слишком большим , т.к. можно перешагнуть через оптимальное
x0
i
значение х (xmax или xmin.)
xmin
xmax
Первичная информация обычно представляется в виде таблицы.
N
X1
x0
i
x0
1
x
i
В.у.(
x 0  x
i
i
)
Н.у.( xi0  xi )
x
1
x
1
x
1
…
X2
x0
2
…
x
2
x
2
x0
n
x
n
…
…
x
2
xn
…
x
n
x
n
3. Производят кодирование переменных для упрощения расчетов и строят матрицу
планирования.
Download