исследование регрессеонных моделей при построении

advertisement
ИССЛЕДОВАНИЕ МЕТОДОВ ИДЕНТИФИКАЦИИ МОДЕЛЕЙ
ВИРТУАЛЬНЫХ АНАЛИЗАТОРОВ ПОКАЗАТЕЛЕЙ КАЧЕСТВА
РЕКТИФИКАЦИОННОЙ КОЛОННЫ
Можаровский И.С., Торгашов А. Ю.
Институт автоматики и процессов управления Дальневосточного отделения РАН,
Владивосток
1. Введение.
В настоящее время существует проблема оценки качества выходных продуктов
ректификационных колонн (РК) в режиме реального времени.
На данный момент качество выходного продукта РК анализируется в лаборатории,
что является достаточно сложной, дорогостоящей и, что немаловажно, долговременной
процедурой. Цель настоящей работы заключается в создании методики построения
виртуальных анализаторов (ВА) качества продуктов промышленной ректификационной
колонны с применением регрессионных моделей и алгоритма АСЕ [1]. Задачей является
применение к промышленным данным (данным со встроенных измерительных датчиков)
ректификационной
колонны
алгоритма
АСЕ,
определение
математической
идентифицируемости нелинейных ВА для построения модели виртуального датчика
качества выходных продуктов колонны. Алгоритм АСЕ, согласно известной нам
литературе, для целей изучения и построения моделей виртуальных датчиков качества
продукта ректификационных колонн ещё никем не использовался. Сопутствующей
задачей является анализ моделей ВА, полученных с помощью методов:
- МНК (Метод наименьших квадратов) [2];
- РР (Робастная регрессия) [3,4,5];
- ПЛС (Метод проекции на латентные структуры) [6,7,8,9];
с целью выбора на основе регрессионного моделирования наиболее адекватной линейной
модели качества выходного продукта ректификационной колонны. Использование
регрессионного анализа применяется для изучения структуры данных промышленной РК
и для построения линейных моделей виртуальных датчиков, алгоритм АСЕ используется
для выяснения математической идентифицируемости данных и построения нелинейных
моделей датчиков.
Множественная линейная регрессия и метод наименьших квадратов применялись в
моделировании виртуальных датчиков. [10]
Робастная регрессия применялась в построении автоматических систем управления
связанных с РК. [11,12]
Метод проекции на латентные структуры широко применяется в построении
виртуальных (программных) датчиков для РК многими исследователями. [13,14]
Для создания виртуального датчика данных ректификационной колонны
необходимо разработать адекватную модель, способную реагировать в режиме реального
времени на изменения параметров РК. Модель создается на основе промышленных
данных ректификационной колонны регрессионными методами перечисленными выше.
Новизна работы заключается в исследовании промышленных данных
ректификационной колонны регрессионными методами с последующим применением
алгоритма АСЕ для выявления нелинейности модели, выявлением математической
идентифицируемости моделей, с целью создания более точного виртуального датчика
качества выходного продукта РК.
2. Описание промышленной РК и постановка задачи исследования.
Технологический процесс массообмена в ректификационной колонне показан на
рисунке 1. Средние значения физических параметров в определенных точках РК, на
основе которых будут создаваться ВА, приведены в таблице 1.
Таблица 1. Средние значения датчиков РК.
Наимен
ование
Свк (поток
датчика сырья в
РК верху РК)
М3/ч
FIC605
Значен
ие
датчика
Tв
(Темпера
тура
вверху
РК)
град.С
TIC653
Рв
Спк
(давление (поток
вверху
сырья на
РК)
входе в
кг/см3
РК) М3/ч
PIC643 FIC606
Твс
(температур
а сырья на
входе в РК)
град.С
TI649
От
(количество
Tн
(Темпера Рн
производим
тура
(давление ого
внизу РК) внизу РК) продукта)т/
град.С
кг/см3
ч
TIC663
PI644
FIC622
Твых ( Твп
Твр (
Спв(скор Температ (Темп.
тепм.
ость
ура
верха
входа
выхода выхода вых.
продукта) рподукта) продукат) продукта)
C
М3/ч
C
C
TI666
FI607
TI654
Ti667
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
46
88
2
72
85
120
3
30
73
22
194
77
Рисунок 1 – Схематическое изображение РК
Массообмен это сложный физико-химический процесс, который описывается
следующими системами уравнений [15].
где
xij

 yij  K ij xij

 c
Фазовое равновесие   yij  1
(2.1)
 i 1
 c
  xij  1
 i 1
– константа физического равновесия на j -ой тарелке i -го компонента
(находится по уравнению Антуана [15]),
– концентрация в жидкой фазе на j -ой тарелке i -го компонента,
yij
– концентрация в газообразной фазе j -ой тарелке i -го компонента,
K ij
– количество компонентов в смеси.
C
В исследуемом случае количество компонентов равно C = 28, ( i =1, 2,…, C ), количество
тарелок в РК N =44, ( j =1,2,…, N ).
Материальный баланс
где
V
L
Bx
N
FX
f
V j 1 y j 1,i  L j x ji  DX Di

V f y fi  VF yFi  L f 1 x f 1,i  DX Di

V j 1 y j 1,i  L j x ji  BxBi
 FX  DX  Bx
Di
Bi
 i
 j  f , f  1,..., N  1
(2.2)
– продукт в газообразной фазе на j -ой тарелке,
– продукт в жидкой фазе на j -ой тарелке, DX – дистиллят (верхний продукт
РК),
– осадки (нижний продукт в РК),
– количество ступеней в РК,
– сырье, входящее в РК на тарелку f ,
– номер тарелки в РК, на которую подается сырье.
V j 1H j 1  L j h ji  DH D  Qc

V f H f  VF H F  L f 1h f 1  DH D  Qc
Энергетический баланс 
V j 1H j 1  L j h j  BhB  QR
 FH  Bh  DH  Qc  Q

B
D
R
где
 j  1, 2,..., f  2 
 j  1, 2,..., f  2 
 j  f , f  1,..., N  1
(2.3)
Hj
– количество тепла смеси в газообразной фазе на j -ой тарелке,
h ji
– количество тепла на моль вещества в жидкой фазе на j -ой тарелке i -го
компонента,
– тепло конденсатора,
– тепло кипятильника.
Qc
QR
Решение вышеописанной системы уравнений является сложным, так как оно
требует вычисления большого количества уравнений, что приводит к невозможности
вычисления данной системы в режиме он-лайн (сложность и время вычисления
увеличиваются в разы с каждым новым компонентом C в исследуемой системе). Чтобы
избежать сложность вычислений предлагаем создать математическую модель для ВА
качества выходного продукта РК.
Качество продукта в РК в настоящее время проверяется лабораторными
проверками. Показателями качества являются:
1. доля бензолообразующих веществ в смеси, доля балласта (веществ легче гексана)
во фракции НК-62,
2. доля изо-пентана во фракции НК-62.
Виртуальные датчики (ВА) качества продукта будем строить по двум показателям:
по доле бензолообразующих веществ в продукте и по доле изо-пентана в продукте. Для
создания ВА по данным показателям мы имеем необходимые данные: лабораторные
исследования выходного продукта РК в установленное время и данные датчиков РК в
установленное время. Указанных данных достаточно для исследования и создания
линейных
регрессионных
моделей,
различными
способами
регрессионного
моделирования и алгоритмом АСЕ.
3. Алгоритм АСЕ
Общая форма линейной регрессионной модели для p независимых переменных
(предикторов) X 1 , X 2 ,..., X p и переменной отклика Y может быть дана в виде
p
Y   0   i X i  
(3.1)
i 1
где  0 , 1 ,...,  p - коэффициенты регрессии, которые должны быть оценены и  - член
уравнения, описывающий ошибку. Из уравнения (3.1) следует, что отклик Y - это
линейная комбинация X 1 , X 2 ,..., X p плюс случайный компонент ошибки  .
Традиционная многомерная регрессия требует, чтобы для регрессионной
поверхности была априорно предложена линейная функциональная форма, сводя
проблему к оценке набора параметров. Этот линейный параметрический подход может
обеспечить успех, если модель данных ему соответствует. Когда соотношение между
откликом и переменными – предикторами неизвестно или известно неточно, линейная
параметрическая модель может привести к ошибочным или даже вводящим в
заблуждение данным. Это главная мотивация к тому, чтобы использовать технику безпараметрической регрессии, которая делает небольшое число предположений о
регрессионной поверхности (Friedman and Stuetzle, 1981).
Эти методы непараметрической регрессии могут быть собраны в два широких
класса - те, которые не делают преобразования переменной оклика, такие как
Обобщенные Аддитивные Модели (Generalised Additive Models) и те, которые делают
такое преобразование, такие как ACE. Этот метод ACE – и есть фокус нашего
рассмотрения.
Регрессионная модель ACE имеет следующую общую форму:
p
 Y      i  X i    ,
(3.2)
i 1
где  - это функция при переменной отклика Y и i - функции предикторов X i , i  1,..., p .
Таким образом, модель ACE замещает проблему оценки линейной функции p -мерной
переменной X   X 1 , X 2 ,..., X p  оценкой p отдельных одномерных функций i и 
используя итеративный метод. Эти преобразования достигаются минимизацией
необъясненного отклонения линейного соотношения трансформированной переменной
отклика от суммы трансформированных переменных предикторов.
Для заданного набора данных, состоящего из переменной отклика Y и переменных
предикторов X 1 , X 2 ,..., X p алгоритм ACE стартует с определения произвольных
измеримых несмещенных преобразований  Y  , 1  X 1  ,...,  p  X p  . Отклонение ошибки
  ,
2
которое осталось
необъясненным регрессией
преобразованных зависимых
переменных на сумму перобразованных независимых переменных (при условии
E  2 Y    1 )
2
p


(3.3)
  , 1 ,...,  p   E  Y   i  X i  
i 1


Минимизация  2 в отношении 1  X 1  ,...,  p  X p  и  Y  вычисляется через серию
2
минимизаций единичных функций, заданных уравнениями:

p


j i

i  X i   E  Y    j  X j  X i 

p


p
(3.4)

 Y   E i  X i  Y  / E i  X i  Y 
(3.5)
 i 1

 i 1

Две базовых математических операции, задействованные здесь – это условное
ожидание и итеративная минимизация и всё вместе это называется переменные условные
матожидания (ACE). Окончательные i  X i  , i  1,..., p и  Y  после минимизации
являются значениями оптимального преобразования i*  X i  , i  1,..., p и  * Y  . В
пространстве преобразования отклик и переменные предиктора соотносятся следующим
образом:
p
 * Y    i*  X i    *
i 1
p
 * Y    i*  X i    *
(3.6)
i 1
где  * - ошибка, неустраняемая использованием ACE преобразований в предположении
нормального распределения и несмещенности. Минимум ошибки регрессии  * и
максимум коэффициента многомерной корреляции  * связаны соотношением
 *2  1   *2 .
Оптимальные преобразования ACE получаются исключительно из заданных
данных и не требуют априорных предположений о какой-либо конкретной функции,
связывающей отклик и переменные-предикторы. Таким образом, ACE алгоритм
оказывается мощным средством для исследования данных и их взаимосвязей. Более того,
ACE алгоритм позволяет работать с предикторами не только непрерывными, но и
прерывными, такими как целые числа и даже категории, упорядоченные или
неупорядоченные. И это не создает дополнительных вычислительных сложностей. Для
категорийных переменных ACE преобразования могут считаться оценками оптимальных
частот для каждого значения переменной и, следовательно, могут быть использованы как
экономный способ для объединения значений в группы.
3.1 Полезность АСЕ при построении ВА для РК
Алгоритм АСЕ основан на нелинейных преобразованиях предикторов, что дает
более точную модель при применении её на данных с явным характером нелинейной
зависимости. Такими данными являются данные РК, так как процессы, протекающие в РК
нелинейные. Следовательно, мы можем применить метод АСЕ к данным РК и получить
более точную модель по сравнению с традиционными методами линейной регрессии.
4. Исследование методов построения моделей ВА.
Для построения модели необходимо сформировать данные из базы данных тегов
ректификационной колонны. Теги для моделирования, выбраны с учетом физических
процессов происходящих в ректификационной колонне, которые наибольшим образом
влияют на качество продукта ректификационной колонны (таблица 1). Выбираем среднее
значение тега за последний час перед лабораторным измерением. Это необходимо для
того, чтобы модель была адекватной т.к. продукт входа в ректификационную колонну
затрачивает примерно сорок минут до выхода из колонны, виртуальный датчик данных
качества продукта ректификационной колонны зависит непосредственно от
параметрических характеристик входного сырья. Полученные средние значения от
момента времени (матрица X ) сопоставляем с лабораторными измерениями качества
продукта колонны (вектор Y ) от момента времени. В процессе моделирования
использовано 4 линейных регрессионных метода моделирования и алгоритм АСЕ, два
набора лабораторных данных по 24 позиции (значения Y ), количество тегов 12 (значения
X ). Два набора связанны с тем, что качество выходного продукта РК проверяется по
двум критериям: доля изопентана в продукте; доля бензолообразующих веществ в
продукте. Создаем модели виртуальных датчиков необходимые для промышленных РК.
Результаты построения моделей различными регрессионными методами по доли
бензолообразующих компонентов в выходном продукте РК представлены в таблице 3. По
критерию детерминации модели R2 наиболее точной является модель, созданная на
основе регрессионного алгоритма АСЕ. Это подтверждает тот факт, что алгоритм АСЕ
наибольшим образом подходит к построению моделей виртуальных датчиков качества
выходного продукта РК с высокой долей нелинейности в структуре моделируемых
данных.
Таблица 3 - Точность моделей по доли бензолообразующих в выходном продукте РК
Регрессия
Корреляция
Среднеквадратичное R2
отклонение
МНК
0.6069
1.7067
0.3683
МЛР
0.4970
1.8636
0.2468
ПЛС2
0.4970
1.8636
0.2468
РР
0.6067
1.7070
0.3679
ПЛС
0.6069
1.7067
0.3683
АСЕ
0.8694
1.0735
0.7500
Результаты построения моделей различными регрессионными методами по доли
изопентана в выходном продукте РК представлены в таблице 4.
Таблица 4 - Точность моделей по доли изопентана в выходном продукте РК
Регрессия
Корреляция
Среднеквадратичное R2
отклонение
МНК
0,9308
0,7851
0,8663
МЛР
0,9083
0,9009
0,8240
ПЛС2
0,9083
0,9009
0,8240
РР
0,9307
0,7859
0,8661
ПЛС
0.9308
0.7851
0.8663
АСЕ
0.8434
1.2622
0.4920
Выводы.
В ходе моделирования были исследованы методы линейной регрессии МНК, МЛР,
ПЛС, ПЛС2, РР эти методы сопоставлялись с алгоритмом АСЕ. Результаты АСЕ дали
коэффициент детерминации значительно выше в случае с моделями по доле
бензолообразующих компонентов, что характеризует метод как более точный для данных
взаимосвязанных высокой составляющей нелинейных отношений. Традиционные
регрессионные методы показали результат более чем в два раза хуже по критерию
коэффициента детерминации, таблица №3.
Алгоритм АСЕ позволяет определить идентифицируемость модели на различных
выборках т.к. оптимальные преобразования ACE получаются исключительно из заданных
данных и не требуют априорных предположений о какой либо конкретной функции,
связывающей отклик и переменные-предикторы. Это позволит теоретически обосновать,
что полученная модель идентифицируема, так как это необходимо в процессе создания
ВА на основе нелинейных моделей, для процессов, не имеющих математического
описания.
Однако в процессе моделирования ВА качества продукта по доле изопентана,
алгоритм АСЕ дал результат по критерию коэффициента детерминации таблица 4 почти в
два раза хуже, по сравнению с традиционными регрессионными методами. Что дает
основание полагать о том, что применять рассматриваемый метод необходимо в случаях,
когда традиционные регрессионные методы дают плохую точность модели за-за высокого
содержания нелинейных взаимосвязей в структуре моделируемых данных. И не
применять данный метод, если
результаты моделирования на порядок хуже
традиционных регрессионных методов. Проверка описанного условия контролируется
разработчиком в процессе создания ВА для промышленных РК.
Исследования показали, что наиболее подходящим, точным и удобным для
интерпретации результатов из традиционных регрессионных методов моделирования
является метод проекции на латентные структуры (ПЛС). Данные исследования не
противоречат различным исследованиям выбора регрессионных методов моделирования в
области хемометрики.
Бензолообразующие
3 тега
Р1
МНК
МЛР
ПЛС2
РР
ПЛС
АСЕ
Д1
0,9308
0,9083
0,9083
0,9307
0.9308
0.8434
Метод 2 тега
ПЛС
0.2882
АСЕ
-2.7020
Р2
0,7851
0,9009
0,9009
0,7859
0.7851
1.2622
3 тега
0.3683
0.7500
0,8663
0,8240
0,8240
0,8661
0.8663
0.4920
4 тега
0.4459
0.2767
4 с фл.ч. 5 тега
0.3799
0.4466
0.5154
-87.7458
Безнзолообразующие
3 тега
МНК
МЛР
ПЛС2
РР
ПЛС
АСЕ
Р1
0.6069
0.4970
0.4970
0.6067
0.6069
0.8694
Д1
1.7067
1.8636
1.8636
1.7070
1.7067
1.0735
Р2
0.3683
0.2468
0.2468
0.3679
0.3683
0.7500
6 тегов
0.9053
0.7951
7 тегов
0.9346
0.9737
8 тегов
0.9423
0.9709
Изопентан
3 тега
Р1
Д1
Р2
МНК
0.6676
1.8692
0.4456
МЛР
ПЛС2
РР
ПЛС
АСЕ
0.6492
0.6492
0.6676
0.6676
0.7237
1.9096
1.9096
1.8695
1.8692
1.9127
0.4215
0.4215
0.4455
0.4456
0.3457
1 L. Breiman, J. Friedman, Estimating optional transformations for multiple regression and
correlation. 80 (1985) 580–78.
2 Каханер Д., Моулер К., Нэш С. Численные методы и программное обеспечение.
М.: Мир. 1998.
3 DuMouchel, W. H., F. L. O'Brien, "Integrating a Robust Option into a Multiple Regression
Computing Environment," Computer Science and Statistics: Proceedings of the 21st Symposium
on the Interface, Alexandria, VA, American Statistical Association, 1989.
4 Holland, P. W., R. E. Welsch, "Robust Regression Using Iteratively Reweighted LeastSquares," Communications in Statistics: Theory and Methods, A6, 1977, pp. 813-827.
5 Huber, P. J., Robust Statistics, Wiley, 1981.
6 Brereton--Chemometrics - Data Analysis for the Laboratory and Chemical Plant.pdf 303-306
7 Tobias, Randall D. (1997). An introduction to partial least squares regression. Cary, NC: SAS
Institute. Explains PLS using a chemometric example. Appendices detail SAS PROC PLS
commands and parameters. Available at http://ftp.sas.com/techsup/download/technote/ts509.pdf.
8 Nomikos, P. and J. F. MacGregor (1995). Multi-way Partial Least Squares in Monitoring Batch
Processes. Chemom. Intell. Lab. Syst., 30, 97-108.
9 Wold, S., N. Kettaneh-Wold and B. Skagerberg (1989). Non-linear PLS Modelling. Chemom.
Intell. Lab. Syst., 7, 53-65.
10 Lee, C., Choi, S.W.,&Lee, I-B. (2004). Sensor fault identification based on time-lagged PCA
in dynamic processes. Chemometrics and Intelligent Laboratory Systems, 70(2), 165–178.
11 Kothare M.V., Balakrishnan V., Morary M. Robust constrained model predictive control
using linear matrix inequalities // Automatica. V. 32. ‹ 10. P. 1361–1379.
12 Street, J. O., R. J. Carroll, D. Ruppert, "A Note on Computing Robust Regression Estimates
via Iteratively Reweighted Least Squares," The American Statistician, 42, 1988, pp. 152-154.
13 Eliana Zamprogna, Massimiliano Barolo and Dale E. Seborg (2002). Development of a soft
sensor for a bath distillation column using liner and nonlinear PLS regression techniques.
14 Mejdell, T. and S. Skogestad (1991). Estimation of Distillation Compositions from Multiple
Temperature Measurements Using Partial-leastsquares Regression. Ind. Eng. Chem. Res., 30,
2543-2555.
15 Holland, C. D. Fundamentals of multicomponent distillation / C. D. Holland. – New York :
McGraw-Hill Book Company, 1981. – 633
[] Luyben W. Practical distillation control. N.Y.: Van Nostrand Reinhold, 1992.
[1] – C.D.Holland «Fundamentals of multicomponent distillation»
[2] S. Wold, H. Martens, H. Wold, Lecture Notes Math. 973 (1983) 286–293
[3] S. Hengl, C. Kreutz, J. Timmer, and T. Maiwald. Data-based identifiability analysis of nonlinear dynamical models. Bioinformatics, 23(19):2612–2618, Oct 2007.
Download