Построение регрессионных моделей и решение задачи

advertisement
Построение
регрессионных моделей
и решение
задачи предсказания
Родионова Оксана Евгеньевна
rcs@chph.ras.ru
Институт химической физики РАН,
Российское хемометрическое общество
1
Два класса решаемых задач
X11
X21
.
.
.
…
Xn1
…
…
X12
X22
.
.
.
…
Y1
Y2
X
X1m
Метод- МГК
Задачи
.
.
.
.
.
.
…
Xnm
1.
Анализ структуры, поиск
латентных переменных
2.
Классификация и
дискриминация
Методы : РГК, РЛС
Задачи
Y
.
.
.
…
Yn
1.
Построение модели Y(X)
2.
Прогнозирование
Y = XA + E
2
Постановка задачи. Исходные
данные
Независимые наблюдения
- предикторы
X11
X21
.
.
.
…
Xn1
…
…
X12
X22
.
.
.
…
X
X1m
Зависимые переменные
- отклики
Y1
Y2
Y
.
.
.
.
.
.
…
Xnm
m -количество переменных
(факторов)
.
.
.
…
Yn
n –количество образцов
(наблюдений)
3
Экспериментальные данные
Обучающий набор
…
…
X11 X12
X21 X22
.
.
.
…
Xn1
.
.
.
…
X
.
.
.
X1p
.
.
.
…
Xnp
Y11
Y21
…
…
Y1k
Y
.
.
.
…
.
.
.
.
.
.
…
Проверочный Yнабор
Y
n1
nk
4
Цель исследования
1. Построить модель для известных наборов X и Y
2. Оценить возможности модели для предсказания
неизвестных значений Y по новым значениям X.
5
Множественная регрессия.
y=Xb+f
y=b 0 +b 1 x 1 +b 2 x 2 +..+b m x m +f
Проверка основных статистических гипотез об уравнении регрессии, его
коэффициентах и прогнозируемых значениях откликов.
Сложности
1. Количество
переменных больше,
чем количество
образцов
2. Наличие связей
между переменными в
X -матрице
6
Коллинеарность
Коллинеарность означает, что между
переменными, составляющими
матрицу X, существует взаимная
корреляция, т.е. они в некоторой
степени линейно зависимы между
собой, например X1=f (X2, X3, …,
Xn)
X2
X1
X2
X1
Y
X2
X3
X3
X4
X4
t1
Y
t2
7
Регрессия на главные компоненты
(РГК)
Для «нужного»
числа ГК
Двухэтапная процедура РГК
8
Моделирование – хемометрический
подход
(ycal , Xcal)
Построение модели
(ytest , Xtest)
Проверка качества
прогноза
9
Обучающий набор данных
Предикторы
Xcal
Отклики
Ycal
Измеренные
референтным
методом
1. Набор должен быть
достаточно большим
2. Должны охватывать всю
будущую совокупность
3. Измерения X, по
возможности, должны быть
несложными
Планирование
эксперимента
Теория
пробоотбора
10
Построение модели
Модель
Модель
3.
Остаток при моделировании
4.
Квадрат остатка для каждого
образца
Среднеквадратичная
погрешность
моделирования
11
Оценка антиоксидантов методом ДСК
Объект
Антиоксиданты в ПП
Цель
Оценка эффективности АО
Y- измерения
Длительное термостарение
X- измерения
Температура начала окисления
Эксперимент
Дифференц. калориметрия
Обработка
Регрессия на главные
компоненты
12
ДСК эксперимент
Оценка температуры начала окисления (ТНО)
при разных скоростях нагрева v
5
4
3
Сигнал ДСК, mV
v=5
v=2
2
1
v=10
0
v=15
ТНО
ТНО
-1
v=20
ТНО
-2
ТНО
-3
ТНО
-4
-5
200
210
220
230
Температура, C
13
ДСК данные и референтные данные
Образцы
Время старения в
печке (дни)
ТНО (С) для разных скоростей нагрева (град/мин)
2
5
10
15
20
калибровка
C1
6
193.0
200.0
207.1
210.1
209.1
C2
C3
C4
C5
C6
C7
1
2
18
3
15
173.6
192.5
194.0
193.4
194.0
179.2
203.5
197.7
192.7
197.7
181.7
204.4
209.7
199.1
209.7
190.9
208.5
212.8
207.9
212.8
193.2
212.9
202.0
209.2
205.3
1.5
185.8
193.1
199.0
205.2
209.7
C8
2.5
185.8
193.1
199.0
205.2
207.1
C9
3
3
186.0
186.0
192.1
192.1
197.0
197.0
211.3
211.0
207.0
208.2
5
203.0
208.5
216.5
222.9
222.0
T1
T2
0.5
185.0
191.7
197.0
197.2
211.2
17
194.0
197.7
209.7
212.8
203.1
T3
8
186.8
191.0
208.2
205.1
205.1
T4
5
203.9
213.9
220.2
221.4
227.2
C10
C11
контроль
14
Предварительная обработка
данных
X-измерения
однородные
Yи-измерения
дисперсия ошибки
растет с ростом Yи
не взвешиваются
методом измерения
способ приготовления
образцов
X и Y - центрируются
15
Метод главных компонент в примере с АО
Среднеквадратичная
погрешность
График счетов
(ГК1-ГК2)
10
PC2
1.2
8
T4
T1 6
4
C7
C10
2C9 C5
C8
C11
C3
-40 C2
-20
-2
0
C1
20
N PC RMSEC
0
1
1
0.792
2
0.151
3 6.70E-02
4 6.09E-02
1
0.8
PC1
0
RMSEC
0.6
40
0.4
-4
T3
-6
-8
-10
C6
T2
C4
0.2
N PCs
0
0
1
2
3
ГК1-ГК2: объясняют 96% структуры X и 97 % структуры Y16
4
Проверочный (тестовый) набор данных
Предикторы
Xtest
Отклики
Ytest
Измеренные
референтны
методом
1. Набор должен быть достаточно
большим
2. Данные должны охватывать всю
будущую совокупность
3. Данные не должны быть
«слишком» похожи на
обучающий набор
Используются только
для оценки
погрешности
предсказания
17
Моделирование – стадия проверки
Используются для оценки
качества прогноза
Модель
8.
9.
Остаток при прогнозе
Квадрат остатка для каждого
образца
Среднеквадратичная
погрешность при прогнозе
18
Способы проверки
Проверка на
тестовом
наборе
Самый надежный
способ
Перекрестная
проверка
Используется тогда,
когда нельзя собрать
тестовый массив
Проверка
корректировкой
размахом
1. Самый быстрый и самый
грубый способ
2. Не использует тестовый
массив
19
Перекрестная проверка
Проверочный набор
отсутствует
Самый медленный
способ проверки и
не всегда надежный
(ytest , Xtest)
Моделируют
проверочный набор
используя обучающий
(ycal , Xcal)
Создают как бы
«проверочный
набор»
20
Полная перекрестная проверка
Xcal
Модель 1
Ycal
Модель 2
…
…
«Тесто
вый
набор»
Модель N
Модель
21
Проверка корректировкой размахом
«Быстрый»
Требует
построения лишь
одной модели
«Грубый»
Погрешность предсказания
всегда оценивается слишком
оптимистично
22
Сколько выбрать главных компонент
Погрешность предсказания
23
Погрешность моделирования
погрешность предсказания
Проверка
корректировкой
размахом
Перекрестная
проверка
1.4
RMSE
Проверка на
тестовом
наборе
1.2
1
0.8
Погрешность
моделирования не
зависит от вида
проверки
и
0.6
0.4
0.2
0
1
2
3
N PCs
4
24
Число ГК для АО примера
1.4
N PCs
1
2
3
4
RMSEC
0.792
0.151
6.70E-02
6.09E-02
RMSE RMSE
RMSEP
1.228
0.253
0.414
0.417
RMSEC
RMSEC
RMSEP
1.2
1
0.8
0.6
0.4
2 главные
компоненты
0.2
N PCs
0
1
2
3
4
25
Прогноз эффективности АО
Образец
Ts1
Ts2
Ts3
Ts4
Пред-ние
Откл-ие
0.564
4.072
3.125
1.856
0.407
0.16
0.371
0.287
Изм-ние
0.707
4.123
2.828
2.236
RMSEP = 0.253
Yпред=Y2*RMSEP
26
Слабость РГК
РГК – мощное средство борьбы с
мультиколлинеарностью в матрице X
РГК –двухэтапный
метод
Декомпозиция
X по МГК
МЛР
Эта декомпозиция не
учитывает связи между
XиY
27
Регрессия на латентные структуры
(ПЛС - регрессия)
X
W
P
T
U
Схематическое
представление
Y
Q
X
X11
X
X22
tt11
X
X33
X
X44
tt22
( Herman Wold, 1973 & Agnar Höskuldsson, 1988 )
Y
Y
28
Интерпретация ПЛС-модели
T - матрица
счетов
P - матрица
нагрузок
W –матрица
взвешенных
(эффективных)
нагрузок
U - матрица
счетов
Q - матрица
нагрузок
29
Графики зависимости X-Y
Данные содержат
выбросы
Данные не содержат
выбросов
30
График остаточной вариации
Остаточная вариация Y - число ГК
Для ПЛС-моделей вариация должна падать
31
Заключительный график
Предсказанные значения Y - измеренные значения Y
32
Выводы
Два основных проекционных регрессионных метода.
Регрессия на главные
компоненты
Регрессия на
латентные структуры.
1. Уменьшают размерность исследуемых данных
2. Позволяют проанализировать скрытые в данных
закономерности
Выбор меньшего числа ГК дает более устойчивую модель
Проверка с помощью представительного тестового набора
наиболее надежный способ оценки ошибки прогнозирования
33
Принципы построения «хорошей»
калибровки / градуировки
• правильно приготовить (собрать) образцы
• визуально изучить данные
• при необходимости, применить предварительную
обработку (pre-processing), шкалирование/
центрирование (scaling/centering)
• интерпретация модели, изучить структуру данных,
выявить и удалить возможные выбросы
• тщательно оценить размерность модели, оценить
погрешность моделирования
• изучить предсказательные способности модели
34
Определение октанового числа бензина
по данным ИК-спектроскопии
Исходные данные
Обучающий набор = 26
образца
Прогнозный набор = 13
образцов
Количество переменных
(длин волн) = 226
(1100 – 1550 nm)
35
Экспериментальные данные Y
Y: 86.7  92.4
36
Разделения смеси спиртов по данным
ИК-спектроскопии
Исходные данные
Обучающий набор = 16 образцов
Проверочный набор = 11 образцов
Прогнозный набор = 13 образцов
Количество переменных (длин волн) = 101
(1100 – 1600 nm)
37
Экспериментальные данные Y
Y1 этанол
Y2 метанол
Y3 пропанол
CY1+CY2+CY3=100%
38
Экспериментальные данные X
Измерения: спектры пропускания в диапазоне 1100-1600nm
Чистые
спектры
AU=-log(R)
39
MSC коррекция
поправка на многократное рассеяние
Полная MSC-коррекция
Поправка на общее смещение
Поправка на общее расширение
MSC – множественная коррекция сигнала
40
Download