Интервальный подход к решению задач линейной калибровки

advertisement
Интервальный подход к решению
задач линейной калибровки.
Метод простого интервального
оценивания.
Родионова Оксана Евгеньевна
rcs@chph.ras.ru
Институт химической физики РАН
1
Основной постулат ПИО метода
Все погрешности ограничены!
Никакая погрешность  не может превосходить по абсолютной
величине некоторую константу ,
Prob{|  | >  }= 0


+
2
Оценка содержания влаги в зерне
по данным БИК-спектроскопии
2
1
0
-1
-2
9058.
9290.
9521.
9753.
9984.
10216
10447
10679
X: спектры зерна 9058 10679 см-1 (118 длин волн)
y - содержание влаги
Исходный набор N=141 образцов
3
Почему погрешность ограничена?
40
141 образец
30
0.38
20
0.21
10
0.03
0
8
9
10
11
12
13
14
Гистограмма для Y (содержание влаги в зерне)
4
ПЛС регрессия. Исходный набор
5
ПЛС регрессия. Отмечены «выбросы»
6
ПЛС модель. «Выбросы» удалены
7
Гистограмма Y
после удаления выбросов
40
30
20
10
0
10
m-3s
12
m-2s
m-s
m
14
m+s
m+2s
m+3s
8
Простейший пример
7
T2
T2
Данные
y
Обучающий
C1
1.0
1.28
C2
2.0
1.68
C3
4.0
4.25
C4
5.0
5.32
Тестовый
T1
3.0
3.35
T2
4.5
6.19
T3
5.5
5.40
Распределение
погрешности
C4
C4
5
Отклик, y
x
6
T3
T3
4
T1
C3
C3
3
2
C1
C1
C2
C2
1
Переменная, x
0
0
1
2
3
4
5
6
Модель
=
=
y=ax+
a=1
9
Метод наименьших квадратов
7
T2
6
C4
Отклик, y
5
T3
4
T1
C3
3
2
C1
C1
C2
C2
1
Переменная, x
0
0
1
2
3
4
5
6
10
Простое интервальное оценивание
(ПИО метод)
||<
7
6
Максимальная погрешность
известна:
5
Отклик, y
 = 0.7 (=2.5s)
2
C4
C3 2
4
3
2
C2 2
2
C1
1
Переменная, x
0
0
1
2
3
4
5
6
11
ПИО метод, калибровка
7
6
C4
Отклик, y
5
C3
4
3
2
C2
C1
1
amin amax
Обучающий
x
y
C1
1.0
1.28
0.58
1.98
C2
2.0
1.68
0.49
1.19
C3
4.0
4.25
0.89
1.24
C4
5.0
5.32
0.92
1.20
Переменная, x
0
0
1
2
3
4
5
6
12
Область допустимых значений
параметров (ОДЗ)
amin amax
Обучающий
x
y
C1
1.0
1.28
0.58
1.98
C2
2.0
1.68
0.49
1.19
C3
4.0
4.25
0.89
1.24
C4
5.0
5.32
0.92
1.20
C4
C3
C2
C1
ОДЗ
a min=0.92
a max=1.19
a
13
ПИО предсказание
7
T2
6
T3
C4
Тест
x
y
v-
T1
3.0
3.35
2.77
3.57
T2
4.5
6.19
4.16
5.36
T3
5.5
5.40
5.08
6.55
v+
Отклик, y
5
C3
4
T1
3
2
C2
C1
1
Переменная, x
0
0
1
2
3
4
5
6
14
Статус образцов. Обучающий набор
amax
y
C1
1.0
1.28
0.58
1.98
C2
2.0
1.68
0.49
1.19
C3
4.0
4.25
0.89
1.24
C4
5.0
5.32
0.92
1.20
7
6
C4
C4
5
Отклик, y
Обучающий
x
amin
C3
4
3
2
C2
C2
Образцы C2 и C4 – граничные.
Они образуют ОДЗ
C1
1
Переменная,
Переменная, xx
0
Образцы C1 и C3 – внутренние.
0
1
2
3
44
55
66
Они не влияют на размер ОДЗ.
15
Статус образцов. Проверочный набор
7
Что происходит при
добавлении нового
образца в обучающий
набор ?
6
C4
Отклик, y
5
4
3
2
C2
1
C4
Переменная, x
C2
a
a min =0.92
ОДЗ
0
0
1
2
3
4
5
6
a max=1.19
16
Статус образцов. Внутренний образец
При добавлении образца T1,
ОДЗ не изменяется. Такой
образец называется
внутренним.
7
6
C4
Отклик, y
5
Интервал предсказания
лежит внутри интервала
калибровки
4
T1
3
2
C2
1
T1
Переменная, x
C4
0
C2
a
a min =0.92
ОДЗ
0
1
2
3
4
5
6
a max=1.19
17
Статус образцов. Выброс
7
При добавлении образца T2,
ОДЗ исчезает. Такой образец
называется выбросом.
T2
6
C4
Отклик, y
5
Интервал предсказания
лежит вне интервала
калибровки
4
3
2
C2
1
Переменная, х
0
0
T2
1
2
3
4
5
6
C4
C2
a
a min=0.92
a max=1.19
18
Статус образцов. Внешний образец
При добавлении образца
T3, ОДЗ уменьшается.
Такой образец называется
внешним.
7
6
T3
C4
5
Отклик. y
Интервал
предсказания
перекрывается с
интервалом калибровки
4
3
2
C2
1
Переменная, х
T3
0
C4
0
1
2
3
4
5
6
C2
a
a min =0.92
ОДЗ
a max=1.11
19
ПИО – остаток и ПИО - размах
Определение 1.
ПИО - остаток это -
v+
h
Характеристика смещения
Определение 2.
ПИО – размах это -
Характеристика
воспроизводимости
y–
v–
r
y
y+
20
Диаграмма статуса образцов
Утверждение 1
Образец (x, y) является
внутренним 
T2
B
| r (x, y) |  1 – h (x)
Утверждение 2
Образец (x, y) является
выбросом 
1
ПИО - остаток, r
( Треугольник BCD )
A
C1
C4 C
T1
C3
C2
-1
11
ПИО - размах, h
T3
D
| r (x, y) | > 1 + h (x)
( Прямые AB и DE )
E
21
Оценка , min
C4
C4
C4
C4
C4
0.6
0.5
0.4
0.3
==0.7
C3
C3
C3
C3
C3
C2C2C2C2C2
C1 C1 C1 C1 C1
RPV
RPV
RPV
RPV
a
 > bmin = 0.3
22
Оценка  с помощью регрессионных
остатков
e = ymeasured – ypredicted
bмнк= max {|e1|, |e2|, ... , |en |}
bмнк = 0.4
bSIC= bOLS C(n)
Prob{ < bSIC}=0.90
bSIC = 0.8
23
Правило1-2-3-4 Sigma
1s  RMSEC
RMSEC = 0.2 = 1s
2s  bmin
bmin
= 0.3 = 1.5s
3s  bмнк
bмнк
= 0.4 = 2s
4s  bSIC
bSIC
= 0.8 = 4s
24
Основные этапы метода ПИО

ОДЗ

+
V+
V—
25
Экспериментальные
данные
{X,Y}
ПЛС/РГК
модель
Фиксированное
число ГК
Блок-схема общей
процедуры
ПИО модель
Результаты
Результаты
yоценка
RMSEC
RMSEP
26
программа SIC
(Simple Interval Calculation)
Вывод
PCR
Min
Test
2
0.9
-0.21707
-0.04265
2.266062
3.000227
0.224148
2.328328
-0.50135
2.882659
-1.75168
-0.56146
-0.39703
1.960634
2.629629
0.19825
1.838605
-0.71523
1.921697
-2.41336
-0.96881
-0.81959
1.477542
1.971046
0.145111
1.244546
-0.89341
1.100055
-2.85773
-0.65416
-0.45416
1.945829
2.545835
-0.25416
2.145834
-0.65416
Prediction with
2 PCs
SIC
PCR
Test
4
3
2
Response 1
PCs
Error
Max
1
0
1
-1
2
3
4
5
6
7
8
9
-2
-3
Test Sam ples
-4
Status Plot for Responce 1 by 2 PCs
1.5
1
SIC-Residual
Ввод
0.5
7
0
0
-0.5
6
3 49
12
0.5
8
1
1.5
5
-1
27
-1.5
SIC-Leverage
Определение качества бензина по
ИК-спектру в ближней области
0.6
0.4
0.2
0
1100
1200
1300
1400
1500
1600
26 обучающих образца;
13 проверочных образцов
X : 1100 – 1550 nm, 226 длин волн
28
ПЛС декомпозиция
1
p
PLS
= y
n
b
p
n
2PC
1
1
1
= y – y0 1
n
a
n
n
T
2
X
1
29
Правило «1-2-3-4 Sigma»
RMSEC = 0.27 = 1s
bmin
= 0.48 = 1.8s
bмнк
= 0.58 = 2.2s
bSIC
= 0.88 = 3.3s
 = bSIC = 0.88
30
ОДЗ в двумерном случае
y1 – y0–   t11a1 + t12a2  y1 – y0 + 
y2 – y0–   t21a1 + t22a2  y2 – y0 + 
...
yn – y0–   tn1a1 + tn2a2  yn – y0 + 
Имеется система из 2n =48 неравенств
относительно 2-х неизвестных параметров
a1 и a2
31
Область допустимых значений
40
a2
35
30
25
RPV
20
15
10
5
5
a 11
0
0
0
0
5
5
10
10
15
15
20
20
25
25
30
30
35
35
40
40
32
ОДЗ и диаграмма статуса образцов
ОДЗ в пространстве параметров
a2
1
18+
3
24
23
4
9
–
12
RPV
9
20
13
SIC-Residual
28
Диаграмма статуса образцов
–
2
+
2
0
3
10
1
23
1
18
24
7+
6
5
12
14
6
22
4 20
11
14–
12
19
8 15
21
5 1617
0
1
16
14
16
18
20
Образцы
24
7 13
a1
SIC-Leverage
-1
22
Граничные образцы
C7
C9
C13
C14
C18
C23
—— —— —— —— —— ——
33
Проверочный набор.
Интервалы предсказания: ПИО & ПЛС
94
Диаграмма статуса образцов
Reference values
PLS 2RMSEP
SIC prediction
2
13
SIC-Residual
Octane Number
92
90
88
11
6
1
8
7 9
-1
1
5
10
4
3
0
12
2
1
2
3
SIC-Leverage
86
1
2
3
4
5
6
7
8
9 10 11 12 13
Test Samples
Опорные значения
ПЛС прогноз 2RMSEP
ПИО интервал
-2
34
Определение следовых
концентраций нефти в воде
Общее число образцов N =80
Число переменных P =1024
Y : 0, 2.5, 5, 10, 20, 50,
100, 300 ppm.
X (801024)
Hz
-20
-30
0
200
400
600
800
1000
-40
dBVms
-50
-60
-70
-80
-90
-100
-110
40 обучающих образцов
2.5 ppm
100 ppm
40 проверочных образцов
35
Нелинейность в ПЛС модели
3
U1
X=TPt + E
2
Ti – Ui
1
T1
0
-40
10
60
-1
2
Y=UQt + F
показывают
связь
X-Y
U1
T это X-счета
U это Y-счета
1
T1
0
-40
10
-1
-2
60
y = log (1+yraw)
36
Моделирование (ПИО)
Диаграмма статуса образцов
(ДСО)
График влиятельности ПЛС
модели
0.04
1
5
0.6
ПИО остаток
Остаток
0.03
0.02
34
0.2
37
-0.2
0
0.2
0.4
0.6
0.01
4
27
34
31
0
0
0.05
0.1
40
-0.6
0.8
27
1
1.2
40
5
37
38
0.15
31
4
38
0.2
0.25
Размах
 -внутренние образцы;
-1
ПИО размах
 -граничные образцы
Всего образцов в обучающем наборе 40,
из них граничных 8
37
Прогноз
Диаграмма статуса образцов
1.5
2.5
log(1+y)
T7
1
ПИО остаток
2
1.5
1
T40
0.5
T39
T12
0
0
0.2
T7
0.6
0.4
0.8
1
1.2
-0.5
0.5
T5
-1
0
T3
T5
T6
T7 T10 T11 T12 T26 T29 T35 T39 T40
ПИО размах
-1.5
20
t2
10
t1
0
-70
График
счетов
-35
0
35
70
-10
38
-20
Заключение
1. ПИО метод дополняет существующие методы
многомерной калибровки, позволяя оценить
неопределенность в прогнозе индивидуально для каждого
образца.
2. ПИО метод позволяет построить классификацию образов.
Для образцов из обучающего набора выявить наиболее
влиятельные, формирующие модель. Для новых образцов,
оценить взаимоотношение образца и модели
39
Download