Хемометрика в спектроскопии - Саратовский государственный

advertisement
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ
РОССИЙСКОЙ ФЕДЕРАЦИИ
Саратовский государственный университет имени Н.Г.Чернышевского
Институт химии
УТВЕРЖДАЮ
Проректор
по учебно-методической работе
профессор
Елина Е.Г.
« » -------------2014 г.
Рабочая программа дисциплины
Хемометрика в спектроскопии
Направление подготовки
04.04.01.68 «Химия»
Магистерская программа
Химия синтетических и природных веществ
Квалификация (степень) выпускника
Магистр
Форма обучения
очная
Саратов
2014 год
1. Целью дисциплины «Хемометрика в спектроскопии» является
изучение математических основ хемометрических методов, существующего
арсенала математических методов обработки экспериментальных данных,
использование результатов расчетов для идентификации и количественного
анализа различных соединений. Сочетание расчетных и экспериментальных
спектроскопических методов представляется
наиболее эффективным
подходом в экспертизе и экологии при решении различных практических
задач.
2. Место дисциплины в структуре ООП магистратуры по направлению
«Химия»
Дисциплина «Хемометрика в спектроскопии» является вариативной
дисциплиной профессионального цикла Федерального государственного
образовательного стандарта высшего профессионального образования
(ФГОС ВПО) по направлению «Химия» (магистерская программа «Химия
синтетических и природных веществ»).
Для освоения программы по дисциплине «Хемометрика в спектроскопии»
студенты должны изучить
дисциплины естественнонаучного цикла
(Математика – работа с матрицами и операторами, Информатика – навык
использования программных комплексов для программирования, Физика –
взаимодействие вещества с электромагнитным излучением) и профильный
курс
«Молекулярная
спектроскопия
в
химической
экспертизе»
(спектроскопические методы анализа, методы определения концентраций
веществ) бакалавриата, необходимых для успешного освоении данной
дисциплины.
Подготовка магистра по данному направлению к практической
деятельности требует также углубленной фундаментальной и
профессиональной подготовки, в том числе к управленческой,
аналитической, экспертной, информационно-консультационной, научноисследовательской, методической и педагогической работе в области
химической экспертизы.
Освоение данной дисциплины необходимо при выполнении ВКР
магистерской программы «Химия синтетических и природных веществ».
3. Компетенции обучающегося, формируемые в результате освоения
дисциплины
В совокупности с другими дисциплинами ФГОС ВПО дисциплина
«Хемометрика в спектроскопии» обеспечивает формирование следующих
профессиональных компетенций:
владения
современными
компьютерными
технологиями,
применяемыми при обработке результатов научных экспериментов и
сборе, обработке, хранении и передаче информации при проведении
самостоятельных научных исследований (ОК-5);
владения теорией и навыками практической работы в избранной
области химии (в соответствии с темой ВКР) (ПК-3);
умения анализировать научную литературу с целью выбора
направления исследования по предлагаемой научным руководителем теме и
самостоятельно составлять план исследования (ПК-4);
способности
анализировать
полученные
результаты,
делать
необходимые выводы и формулировать предложения (ПК-5);
умения представлять полученные в исследованиях результаты в виде
отчетов и научных публикаций (стендовые доклады, рефераты и статьи в
периодической научной печати) (ПК-7);
Курс направлен на формирование у студентов следующих знаний и
умений:
- знать основные расчетные хемометрические методы – метод главных
компонент, метод независимых компонент, чередующиеся наименьшие
квадраты;
- уметь анализировать информацию, полученную при использовании
хемометрических алгоритмов, подбирать соответствующий метод –
оптимальный для проведения качественного и количественного анализа
многокомпонентных систем по спектральным данным различной природы;
- владеть современными хемометрическими методами разложения сложных
спектральных кривых на составляющие на основе программных средств с
помощью компьютеров.
4. Структура и содержание дисциплины
Общая трудоемкость дисциплины составляет 8 зачетных единицы, 288 часов.
№
п/п
Раздел дисциплины
Сем
естр
Нед
еля
семе
стра
Виды учебной работы,
включая самостоятельную
работу студентов и
трудоемкость (в часах)
Лек Лаб Сам
Всего
Формы текущего
контроля
успеваемости (по
неделям семестра)
Формы
промежуточной
аттестации (по
семестрам)
Предмет
3
хемометрики.
Области
применения.
Основные этапы
развития
хемометрики.
Роль в развитии
современной
теоретической и
прикладной
химии.
Перспективы
дальнейшего
развития
хемометрики.
Метод
3
независимых
компонент.
Взаимная
информация.
Алгоритмы
MILCA, SNICA,
SIMPLISMA,
JADE, RADICAL,
FastICA и другие.
Различия и
области
применения
1
3
6
14
23
Отчет
в
лабораторном
журнале
2
3
6
14
23
Отчет
в
лабораторном
журнале
3
Способы расчета
концентраций
веществ в
абсолютных
единицах. Метод
стандартных
добавок,
сравнение с
другими
методами.
3
3
3
6
14
23
Отчет
в
лабораторном
журнале
4
Влияние
различных
факторов на
результаты
декомпозиции
3
4
3
6
14
23
Отчет
в
лабораторном
журнале
1
2
спектров
различной
природы.
Выполнение
закона
аддитивности,
шум, влияние
шума, шага и
скорости
сканирования.
Другие
методы 3
хемометрики.
MCR-ALS.
Преимущества и
ограничения.
Примеры
3
использования
алгоритмов
декомпозиции.
Многомерная
3
калибровка.
Основы метода
5
3
6
14
23
Отчет
в
лабораторном
журнале
6
3
6
14
23
Контрольная
работа
7
3
6
14
23
Отчет
в
лабораторном
журнале
Валидация
методик. Области
применения.
Методы MLR,
PLS1
3
8
3
6
14
23
3
9
3
6
14
23
10
Метод PLS2,
особенности
алгоритма
3
10
3
6
14
23
Отчет
в
лабораторном
журнале
Отчет
в
лабораторном
журнале
Отчет
в
лабораторном
журнале
11
Методы
многомерной
калибровки.
PARAFAC.
3
11
3
6
14
23
Отчет
в
лабораторном
журнале
12
Использование и
сравнительная
оценка различных
алгоритмов
3
12
3
6
17
26
Отчет
в
лабораторном
журнале
36
72
171
+9
288
экзамен
5
6
7
8
9
Итого
Содержание дисциплины
Предмет хемометрики. Области применения. Основные этапы развития
хемометрики. Роль в развитии современной теоретической и прикладной
химии. Перспективы дальнейшего развития хемометрики. Применение
статистических алгоритмов расчетов при решении прикладных химических
задач.
Метод независимых компонент. Взаимная информация. Алгоритмы MILCA,
SNICA, SIMPLISMA, JADE, RADICAL, FastICA и другие. Различия и области
применения.
Расчет коэффициентов подобия расчетных и истинных матриц концентраций.
Виды коэффициентов корреляции.
Способы расчета концентраций веществ в абсолютных единицах. Метод
стандартных добавок, сравнение с другими методами. Влияние различных
факторов на результаты декомпозиции спектров различной природы.
Выполнение закона аддитивности, шум, влияние шума, шага и скорости
сканирования.
Контрольная работа
Другие методы хемометрики. MCR-ALS. Преимущества и ограничения.
Примеры использования.
Многомерная калибровка. Основы метода. Валидация методик. Области
применения.
Методы MLR, PLS1, PLS2. Особенности
Методы многомерной калибровки. PARAFAC.
Клаасификация объектов. Метод SIMCA.
Лабораторные работы
Название
Знакомство с программным комплексом MatLab.
Операции с данными, матицами и графиками.
Часы
6
Форма
отчетности
Отчет
лабораторном
в
журнале
Алгоритмы
анализа
Алгоритм
независимых
Качественный
MILCA.
количественный
компонент.
анализ
и
многокомпонентных
Отчет
6
в
лабораторном
журнале
систем.
Алгоритмы
SNICA,
SIMPLISMA,
JADE
и
RADICAL.
Отчет
6
лабораторном
журнале
Алгоритмы FastICA и MCR-ALS. Сравнительная
оценка
в
алгоритмов,
реализуемых
метод
Отчет
6
независимых компонент.
лабораторном
журнале
Количественная
оценка
декомпозиции.
Коэффициенты
эффективности
корреляции
и
Отчет
6
журнале
Влияние различных факторов (шум, нарушение
Отчет
соотношение
компонентов
в
6
системе) на результаты декомпозиции.
в
лабораторном
журнале
Оценка влияния сглаживания на результаты
декомпозиции.
Применение
в
лабораторном
индексы Амари.
аддитивности,
в
Отчет
6
в
лабораторном
журнале
алгоритмов
декомпозиции
для
решения прикладных задач (описание химических
Отчет
6
равновесий)
лабораторном
журнале
Отчет
Метод главных компонент в анализе молока.
в
6
в
лабораторном
журнале
Проекции на латентные структуры в определении
жира, белков и др. параметров молока
6
Отчет
лабораторном
в
журнале
Применение
методов
хемометрики
для
декомпозиции ЯМР сигналов.
Метод
классификации
объектов
Отчет
6
в
лабораторном
журнале
SIMCA
определении подлинности кедровых орехов.
в
Отчет
6
в
лабораторном
журнале
5. Образовательные технологии
В соответствии с требованиями ФГОС ВПО по направлению «Химия»
реализация компетентностного подхода предусматривает широкое
использование в учебном процессе активных и интерактивных форм
проведения занятий.
Методы преподавания дисциплины:
- лекции (с мультимедийными презентациями);
- лабораторные работы
- самостоятельная работа студентов по расчету различных свойств молекул
- самостоятельная работа студентов (освоение теоретического материала,
письменные домашние задания, подготовка к лабораторным работам,
оформление лабораторных работ, подготовка к текущему и итоговому
контролю).
Лекции составляют основу теоретического обучения и должны давать
систематизированные
основы
научных
знаний
по
дисциплине,
концентрировать внимание студентов на наиболее сложных вопросах,
стимулировать активную познавательную деятельность студентов и
способствовать формированию творческого мышления.
Ведущим методом в лекции является устное изложение учебного
материала, сопровождающееся мультимедийными презентациями. На
вводной лекции студентам сообщается план и особенности изучения
дисциплины, а также рекомендуемая литература.
Лабораторные
работы
имеют
целью
практическое
освоение
теоретического материала, овладение навыками экспериментальных работ и
анализа полученных результатов, выполнение правил техники безопасности
при работе с электрическими приборами (компьютерами).
Все лабораторные работы носят характер самостоятельных химических
задач, которые каждый студент решает самостоятельно после выбора
нужного хемометрического метода и сравнивает полученные результаты с
экспериментом. Интерактивное обучение составляет 48 часов.
6. Учебно-методическое обеспечение самостоятельной работы студентов.
Оценочные средства
для текущего контроля успеваемости,
промежуточной аттестации по итогам освоения дисциплины.
Самостоятельная работа:
- Освоение теоретического материала (Приложение 1)
- Подготовка к контрольной работе (Приложение 2)
- Выполнение письменных домашних заданий.
- Оформление лабораторной работы.
При освоении теоретического материала и выполнении письменных
домашних заданий студентам рекомендуется использовать основную и
дополнительную литературу, а также учебное пособие.
В указанном пособии имеется подробный теоретический материал и
примеры решения типовых задач.
Формы контроля:
- Текущее тестирование (Приложение 1)
- Отчет о выполнении письменного домашнего задания
- Отчет по лабораторной работе
- Проверка по вопросы для самоподготовки к тестированию (Приложение 2).
При изучении данной дисциплины принята система рейтинга, по
которой все виды деятельности студента по дисциплине оцениваются
определенными баллами, которые затем переводятся в итоговую оценку.
Экзамен входит в общую систему оценки. Билеты приведены в Приложении
3.
7. Учебно-методическое и информационное обеспечение дисциплины
««Хемометрика в спектроскопии»»
а) основная литература:
1. Монахова Ю.Б., Муштакова С.П. Хемометрика в спектроскопии.
Саратов, изд. Саратовского университета, 2011. 79 с.
2. Вершинин В.И., Дерендяев Б.Д., Лебедев К.С. Компьютерная
идентификация органических соединений. М:Академкнига, 2002. 197 с.
б) дополнительная литература:
1. Грибов Л.А., Баранов В.И., Эляшберг М.Е. Безэталонный
молекулярный спектральный анализ. Теоретические основы. М.:
Эдиториал УРСС, 2002. 320 с.
в) программное обеспечение и Интернет- ресурсы
программный комплекс MATLAB, поисковые системы, электронные
библиотеки, информационные сети,
базы данных и другие
информационные ресурсы.
8. Материально-техническое обеспечение дисциплины:
Лекционная аудитория
Компьютерный класс с необходимым программным обеспечением
Программа составлена в соответствии с требованиями ФГОС ВПО с учетом
рекомендаций и Примерной ООП ВПО по направлению «Химия».
Автор
с.н.с. Монахова Ю.Б.
Программа одобрена на заседании кафедры общей и неорганической
химии от 17 апреля 2014 года, протокол № 11.
Подписи:
Зав. кафедрой
проф. д.х.н.
С.П. Муштакова
Директор Института химии
проф. д.х.н.
О.В. Федотова
Приложение 1. Вопросы для самоподготовки
1. Основные этапы развития хемометрики.
2. Основные принципы и подходы в хемометрике.
3. Метод главных компонент. Интерпретация результатов.
4. Метод независимых компонент. Взаимная информация.
5. Алгоритмы MILCA и SNICA.
6. Индекс Amari. Коэффициенты корреляции.
7. Методы расчета концентраций в помощью метода
независимых компонент.
8. Метод чередующихся наименьших квадратов.
Ограничения и примеры использования.
9. Алгоритмы SIMPLISMA, JADE, RADICAL, FastICA.
Недостатки и преимущества.
9. Примеры использования хемометрики для обработки
данных спектроскопических измерений.
10.
Многомерная калибровка. Методы MLR, PLS1, PLS2.
11.
Методы трехмерной градуировки. PARAFAC.
12.
Влияние различных физико-химических факторов на
результаты декомпозиции.
13.
Хемометрика в науке и технике.
14.
Перспективы развития хемометрики.
Приложение 2. Учебное пособие
Хемометрика в спектроскопии
Современное
развитие
аналитической
химии
и,
в
частности
спектроскопии, сегодня уже невозможно представить без разработки и
практического использования математических методов для анализа сложных
данных, в особенности многооткликовых и многофакторных экспериментов.
В настоящее время отмеченное направление получило развитие в создании
специализированной дисциплины, получившей название хемометрики.
Хемометрика - это синтетическая дисциплина, находящаяся на стыке
химии и математики. Наиболее популярное определение принадлежит
Д.Массарту,
который
считает,
что
хемометрика
–
это
химическая
дисциплина, применяющая математические, статистические и другие
методы, основанные на формальной логике, для построения или отбора
оптимальных методов измерения и планирования эксперимента, а также для
извлечения наиболее важной информации при анализе экспериментальных
данных. Хемометрика решает следующие задачи в области химии: как
получить химически важную информацию из химических данных, как
организовать и представить эту информацию, и как получить данные,
содержащие такую информацию.
Хемометрика,
как
самостоятельная
поддисциплина
внутри
аналитической химии, появилась осенью 1974 года в городе Сиэтле, США. У
ее истоков стояли два человека: американец Брюс Ковальски и швед Сванте
Волд. В аналитической химии можно выделить три основные направления
применения хемометрики: качественный и количественный анализ, контроль
химического анализа и планирование эксперимента.
То, что хемометрика родилась и начала бурно развиваться именно в
начале
70-х
годов,
явно
связано
с
появлением
в
тоже
время
быстродействующей вычислительной техники, которая стала повсеместно
доступна ученым и инженерам. Это позволило практически воплотить
многие сложные алгоритмы обработки данных, в особенности методы
анализа
сложных
экспериментов.
Это,
в
свою
очередь,
побудило
производителей приборов разрабатывать более сложное оборудование,
способное многократно увеличить число измерений [1].
На ранних этапах развития хемометрики (начало 70-х годов)
печаталось ограниченное число работ в научных журналах и существовали
значительные препятствия для опубликования подобных работ, так как в
научном сообществе оставался скептицизм по поводу необходимости
применения сложных инструментов для обработки химических данных. В
последствии появились два специализированных журнала (Chemometrics and
Intelligent Laboratory Systems и Journal of Chemometrics), публикующих
статьи по хемометрике. Однако в настоящее время для обеспечения
дискуссии о деталях методов и их практическом применении статьи
печатаются более чем в 50 научных журналах [2].
Число статей, использующие хемометрические методы в качестве
основного инструмента для анализа и обработки экспериментальных данных,
возрастает с каждым годом (рис.1). Следует отметить, что до сих пор в
отечественной литературе количество статей по хемометрике крайне
невелико.
Рис.1. Число статей по хемометрике, опубликованных в журналах
издательства Elsevier
Хемометрика предлагает решения для обширного круга проблем,
стоящих перед обществом в 21 веке. Можно отметить несколько
перспективных направлений.
Во-первых,
так
называемый
анализ
изображений
(рис.
2)
–
совокупность молекулярной спектроскопии и цифровых изображений – дает
возможность
интерпретации,
создания
и
выделения
виртуальных
изображений из экспериментальных данных, а также трехмерный обзор
структуры объектов. Спектроскопические изображения развиваются в
настоящее время как мощное экспериментальное средство благодаря
возможности получения пространственно распространенной информации о
составе объекта. Цель анализа подобного вида данных – выделение
достоверных концентрационных карт распределения веществ на основе
измеренного двумерного или трехмерного изображения объекта (рис. 2).
Рис.2. Схема применения хемометрики для анализа изображений
Хемометрика
имеет
большой
потенциал
для
увеличения
производительности сенсоров, которые с ее помощью становятся полностью
самодиагностирующими.
Биологические данные также представляют значительный интерес для
хемометрики. Кроме неоценимой помощи метода в анализе и интерпретации
биологических
процессов
(например,
свертывание
белков
или
взаимодействие ДНК-лекарственный препарат), для которых не существует
строгой физико-химической модели, статистические методы помогают
обрабатывать
сложные
данные,
такие
как
идентификация
и
последовательность генов, структура и анализ белков в живых организмах,
расшифровка метаболических процессов [5].
Биочипы (устройства, представляющие набор биохимических молекул
или
структур, использующихся
как биосенсоры
или для
изучения
последовательности генов) позволяют измерять экспрессию тысяч генов или
протеинов одновременно. Наборы данных представляют собой совокупность
небольшого количества объектов (20-100 образцов), измеренных на большом
количестве переменных (например, 10000 генов). Хемометрические подходы
направлены на нахождение меток, ответственных за различные патологии и
определение степени экспрессии разных генов [3].
Другим примером в этой области является метабономика, которая
исследует отклик организма на различные лекарства или токсиканты.
Экспериментальная стратегия в метабономике – сбор и анализ образцов
биологических жидкостей, в частности мочи и крови животных. Наиболее
распространенный метод исследования – это ЯМР спектроскопия [4].
Информация
о
сезонном,
географическом
или
компонентном
мониторинге также может быть представлена в виде таблиц данных, где ряды
представляют собой географические места, время года, а также концентрации
веществ, физико-химические параметры, токсикологические индексы или
любые
другие
данные.
Разложение
дает
возможность,
например,
проанализировать вклад каждой географической зоны в общее загрязнение
[86].
Также часто хемометрический подход, а именно автомодельное
разделения кривых, находит применение в мониторинге любых видов
хроматографических
или
проточно-ижекционных
процессов
на
лабораторном и промышленном уровне.
Различные виды спектроскопического сигнала на сегодняшний день
представляют
особый
интерес
для
хемометрики.
В
этой
области
статистические методы обработки данных сфокусированы на максимально
автоматизированное решение задачи о «черной смеси». В рамках этих
алгоритмов используются абстрактные представления о спектральном
сигнале смеси как суперпозиции неизвестных составляющих и не делается
никаких предположений о молекулярной структуре компонент смеси или
типе спектра, что делает его незаменимым для анализа смесей сложного
состава.
Основополагающая
гипотеза,
впервые
предложенная
к
спектральному анализу в [23], заключается в предположении независимости
спектров
компонент
смеси.
Хемометрические
методы
нацелены
на
построение прогноза (автомодельного решения) для декомпозиции смеси на
концентрации и «чистые» компоненты, удовлетворяющие гипотезе. Мерой
зависимости компонент выступают различные эмпирические функции, в том
числе линейная корреляция, широко используются интерактивные подходы.
Заметим, что даже в сложном случае близких по молекулярной структуре
компонент (имеющих сильно перекрывающиеся или почти идентичные
спектры [7]), при достаточной разрешающей способности эксперимента и
чувствительной мере зависимости, исходная гипотеза справедлива на
практике.
1.2. Вычислительные методы
1.2.1. Постановка задачи о декомпозиции смесей
Одна из сложных задач хемометрики заключается в том, чтобы,
используя экспериментальные спектроскопические данные, получить два
типа информации о системе: определить число и концентрации всех
химических соединений в данной смеси (количественный анализ) и выделить
и идентифицировать спектры индивидуальных соединений (качественный
анализ).
В хемометрике постановка задачи декомпозиции суперпозиций
сигналов основывается на матричной модели смеси в виде
X = A S,
(1)
где X – M×N матрица из М измеренных спектров смесей, S - K×N матрица из
K неизвестных спектров «чистых» компонент (здесь N – число отсчетов в
спектрах по длине волны), A - M×K матрица смешивания (неизвестных
концентраций) (рис.3). Задача состоит в реконструкции S и A (прогноз) по
наблюдаемой X, предполагая, что исходные «чистые» компоненты наименее
зависимы между собой (гипотеза).
Рис. 3. Графическое представление автомодельного разделения кривых
Линейность модели (1) отвечает приближению Бугера-Ламберта-Бера,
что широко применимо в спектральном эксперименте малых интенсивностей
систем невзаимодействующих компонент. Более сложные случаи требуют
привлечения методов нелинейных моделей и подходов к мониторингу
динамики реакций, что, однако, выходит за пределы задачи данной группы
методов.
1.2.2. Классификация методов автомодельного разделения кривых
Методы слепого разделения широко используются в комбинации с
различными инструментальными методами, например, в спектроскопии,
хроматографии, электрохимических методах при анализе смесей сложного
состава, изучении кинетики различных реакций и равновесий.
Впервые идея автомодельного разделения кривых была высказана в
начале 70-х годов, когда было предложено использовать метод главных
компонент (principle component analysis, PCA) для разложения спектров
двухкомпонентных смесей.
Хотя конечная цель всех методов разложения одинакова, начальная
информация, зависящая от конкретной аналитической проблемы, предмета
исследования и возможного уровня аппроксимаций и допущений, становится
доступна исследователю. Дополнительные сведения, если они существуют,
могут быть использованы для улучшения результатов декомпозиции и
подгонки найденных профилей к определенным свойствам. С этой точки
зрения, все спектральные задачи обычно классифицируются на «черные»,
«серые» и «белые» системы [15,16]. «Серые» смеси подразумевают
нахождение неизвестных параметров системы при наличии некоторых
известных характеристик. Число методов разложения «серых» смесей
относительно ограничено: обобщенный метод стандартных добавок (GSAM)
[36-38], двойная ограниченная фоновая линеаризация (CBBL) [39-41],
факторный анализ уничтожения ранга (RAFA) [42,43], обобщенный
факторный анализ уничтожения ранга (GRAFA) [44,45], небиллинейное
уничтожение ранга (NBRA) [46,47] и остаточная двойная билинеаризация
(RBL) [48,49].
В зависимости от конкретной задачи применяемые методы делятся на
многомерную калибровку [13,14] и автомодельное разделение кривых.
Частичные наименьшие квадраты (PLS), метод опорных векторов (SVM) и
регрессия опорных векторов (SVR) [34,35] специально предназначены для
многомерной калибровки и используются в случае, если известны
составляющие смеси.
Методы декомпозиции «черных» смесей делят на две основных
категории: методы, позволяющие найти границы допустимых решений и
методы, выдающие единственное решение для каждого компонента. В
первой работе по хемометрике [2] впервые было предложено использовать
метод
главных
компонент
для
автомодельного
разложения
двухкомпонентных смесей. Результатом разделения являлись интервалы
возможных решений при следующих условиях:
1.
неотрицательность спектров индивидуальных соединений;
2.
неотрицательность всех концентраций;
3.
все спектры индивидуальных соединений должны лежать в пределах
подпространства первых двух собственных векторов в спектральном
пространстве.
Также показано, что математические решения, удовлетворяющие
такому условию, лежат в пределах граничных линий и представляют собой
ряд вероятных решений для каждого выделенного компонента.
Так как метод Лавтона и Сильвестра (Lawton-Sylvestre) мог быть
применен только для двухкомпоненых смесей, другие ученые стали пытаться
расширить этот подход для более сложных систем. Впервые это было
сделано Охта (Ohta) [3], который использовал метод Монте-Карло для поиска
границ возможных решений с использованием критерия Лавтона и
Сильвестра. Хотя этот подход мог быть с успехом использован для простых
трехкомпонентных смесей, случайная природа поиска была менее элегантна
и требовала значительных вычислительных затрат. Некоторое время спустя,
Сасаки (Sasaki) и сотрудники [4] использовали усовершенствованный метод,
специально созданный для нахождения границ допустимых решений. Хотя
этот метод был более строгим, чем подход Охта, он требовал даже больших
вычислительных затрат. В настоящее время интерес к методам, дающим
граничные значения, возрос. Так, разработаны алгоритм SAFER [5] для
поиска возможных решений внутри собственного пространства и два
подхода, основанных на методе нелинейной оптимизации [6], которые берут
начало из [4], но отличаются подходами к получению начальных оценок,
критериях и методах оптимизации и методах, устраняющих ошибки
измерения. Дальнейшее улучшение алгоритма, сделанные в этой статье,
направлены на улучшение эффективности и надежности оптимизации; новый
алгоритм назван динамическое Монте-Карло автомодельное разложение
кривых (DMC-SMCR).
В связи с трудностью поиска границ возможных решений для
многокомпонентных систем, параллельно развивались методы разложения,
обеспечивающие
единственное
решение
декомпозиции.
Один
класс
подобных методов требует знания «чистых» переменных, при которых
аналитический сигнал обусловлен только одним компонентом. В этом случае
может быть получено точное и единственное решение. Эти методы,
основанные на методе главных компонент, включали эволюционный
факторный анализ (EFA) [7], оконный факторный анализ (WFA) [8], простой
интерактивный
автомодельный
анализ
смесей
SIMPLISMA
[9]
и
эвристический эволюционный метод латентных проекций HELP [10].
Главный недостаток этих методов является обязательное присутствие
«чистых» переменных, что далеко не всегда возможно или известно. Методы,
основанные
на
выборе
«чистых»
переменных,
находят
наиболее
репрезентативные ряды для разных компонент в наборе данных. Если выбор
благоприятен, большинство подобных методов дают возможность косвенно
оценить число компонентов в системе, выделить концентрационные
профайлы и спектры индивидуальных соединений. Некоторые из алгоритмов
работают в абстрактном пространстве главных компонент, тогда как другие -
с реальными измеренными величинами. Среди последних алгоритм
SIMPLISMA наиболее популярен среди исследователей [68]. Модификация
алгоритма связана с использованием производных для лучшего выбора
переменных [69]. Методы «чистых» переменных играют большую роль для
разложения наборов данных, где отсутствует определенный порядок
изменения концентраций компонентов, так как работа алгоритмов не зависит
от направления изменения концентраций компонентов. Этот факт объясняет
интенсивное использование алгоритма SIMPLISMA для декомпозиции
спектроскопических изображений [70,71] или анализа объектов окружающей
среды [72].
EFA применим для последовательных процессов и представляет собой
последовательные PCA шаги по окну данных постепенно расширяясь,
добавляя ряд по направлению процесса. Выделяют прямой и обратный EFA.
Описание процесса эволюции собственных векторов, полученных из PCA
шагов, позволяет определять появление и разрушение соединений во время
измерения сигнала, и, следовательно, и концентрационное окно и регионы
нулевой концентрации для каждого компонента в системе. Методы
локального ранга представляют собой повторяющийся PCA анализ на
небольших промежутках экспериментального набора данных с целью
определения числа и распределения компонентов с течением времени.
Дизайн этих окон, постепенно увеличивающихся или с постоянным
размером, определяет качество полученной на выходе информации.
Подобные методы особенно уместны при изучении процессов, где
концентрации
компонентов
постепенно
меняются
или
следуют
определенному закону (случай, типичный в хроматографии).
Второй класс методов, обеспечивающие единственное решение,
который становится популярным в последние годы, включает итеративный
нацеленный на объект факторный анализ (ITTFA) [11] и чередующиеся
наименьшие квадраты (MCR-ALS) [ ]. Первый использует начальное
предположение
для
одного
из
профилей
(обычно
в
пространстве
концентраций) и итеративно находит решение, удовлетворяющее условию
неотрицательности. Благодаря своей простоте и большой надежности в
разложении спектров многокомпонентных смесей, алгоритм ITTFA быстро
заменил методы отыскания границ допустимых решений и стал применяться
во многих задачах декомпозиции спектров, особенно в тех случаях, когда
«чистые» переменные нельзя определить или таковые не существуют.
Чередующиеся наименьшие квадраты – алгоритм минимизации квадратов
остаточных сумм (SST): SST = ║X-CST║. Алгоритм представляет из себя
решение
двух
чередующихся
проблем:
минимизацию
по
C
при
фиксированной S и по S при постоянной C. Итерации продолжаются, пока
SST не достигнет минимального значения. Однако эти методы также имеют
два серьезных недостатка: окончательные решения часто зависят от
начальной гипотезы и найденное решение скрывает тот факт, что существует
вполне определенный набор возможных декомпозиций и не дает никаких
оценок этому числу [1].
1.2.2.1. Неитеративные подходы
Другим критерием классификации алгоритмов SMCR является число
шагов при нахождении решения; по такому принципу все методы делятся на
итеративные и итеративные.
Большинство неитеративных подходов основывается на сочетании
информации о небольших областях набора данных (подпространства),
построенных на основе информации о глобальном или локальном ранге для
получения концентрационных диаграмм распределения индивидуальных
компонентов.
Эти
подпространства
могут
представлять
собой
концентрационные окна или области в наборе данных, обладающие
определенными
свойствами
(например,
присутствие
или
отсутствие
компонентов). Во многих неитеративных методах матрицы S и C
конструируются одновременно посредством одной процедуры поиска
наименьших квадратов.
Оконный факторный анализ (WFA), оконный факторный анализ
второго уровня (SFA) [73], эвристический эволюционный метод латентных
проекций (HELP) служат примерами алгоритмов этой категории. WFA
выделяет концентрационные профайлы каждого компонента используя
только исходный набор данных. SFA находит спектры индивидуальных
компонентов на пересечении двух подпространств концентрационных
профайлов.
одновременно
HELP
восстанавливает
спектр
и
концентрационный профайл каждого компонента. Уменьшение исходной
матрицы вычитанием поглощения каждого компонента помогает найти
«селективные» регионы для других компонентов, которые не видны в
исходном наборе данных.
Более современные алгоритмы обычно представляют собой эволюцию
«родительских» алгоритмов. Например, метод разложения ортогональных
проекций (OPR) является усовершенствованием WFA [74] или алгоритм
Параллельный векторный анализ (PVA) из SFA [75]. Главным ограничением
применимости этих алгоритмов является тот факт, что экспериментальные
наборы данных должны иметь некоторую последовательность или порядок
изменения концентраций, то есть область практического применения
ограничена «развивающимися» системами (например, хроматографические
измерения). Однако если данное условие выполняется, методы позволяют
найти единственное точное решение даже для сильно перекрывающихся
спектров [76].
1.2.2.2. Итеративные подходы
Итеративные
подходы
к
декомпозиции
в
настоящее
время
рассматриваются в качестве наиболее популярных MCR методов благодаря
их применимости к широкому кругу химических данных и способности
использовать априорную информацию в процессе разложения. Первый шаг
заключается в начальной оценке матриц С и ST, которые затем
последовательно
приближаются к истинным профайлам
соединений,
приспосабливая их в соответствии с математической и химической
информацией, вовлеченной в процесс оптимизации при помощи ограничений
[77-79]. Итеративный направленный факторный анализ ITTFA [80,81] и
Чередующиеся наименьшие квадраты (MCR-ALS) [82,83] были первыми
алгоритмами в этой области; впоследствии появились методы, например,
Плавный факторный анализ (RFA), основанные на другой методологии [84].
Таким образом, эволюция методов разложения многомерных данных
продолжается и носит быстрый и эффективный характер. Улучшения
экспериментальной техники, введение доступной химической информации,
адаптация анализа сложных систем и оценка качества разложения дает
возможность предугадать увеличение применимости этих методов и, в более
общем смысле, стать стандартным методом анализа в аналитическом
сообществе.
1.2. Неопределенность декомпозиции
Основная принципиальная трудность при практическом применении
алгоритмов хемометрики состоит в том, что существует множество
автомодельных
решений
отрицательными
(в
том
концентрациями
удовлетворяющих
числе
или
предположению
нефизичных,
например,
знакопеременными
независимости.
Для
с
спектрами),
обеспечения
единственности решения накладываются дополнительные ограничения
(неотрицательность,
условия
на
вид
спектральных
кривых,
выбор
спектральных линий и интервалов). Также, получаемые в результате
декомпозиции
спектры
чистых
компонент
абстрактны
и
подлежат
последующей идентификации по банкам данных или экспертно (таким
образом, качественный анализ производится после количественного).
С
начала
развития
хемометрики,
математическое
разделение
спектральных данных вне зависимости от используемого метода имеет
некоторую неопределенность [2]. Это означает, что существует много
наборов матриц C и S, которые могут описывать исходные данные с
одинаковой точностью. Другими словами, корректное разделение исходной
матрицы данных может быть достигнуто с использованием различных по
форме (ротационная неопределенность) и величине (неопределенность по
интенсивности)
неопределенность
конкретного
выделяемых
влияет
случая.
профилей
на
Главной
результаты
целью
[50].
Насколько
декомпозиции,
теоретических
сильно
зависит
от
исследований
в
настоящее время является поиск путей для подавления, если это возможно,
или минимизации источников неопределенности результатов и оценка
качества выделенных профилей.
Общая математическая модель MCR выглядит как:
D = CST ( )
и может быть записана в виде:
D = CTT−1ST ( )
Где T представляет любую матрицу трансформации и, таким образом:
D = C’ST’ где C’ = CT и ST’ = T −1ST.
Это математическая запись ротационной неопределенности, которая
означает, что мы можем получить неопределенность в представлении данных
D, используя матрицы C’ и S’ отличающиеся от истинных (C и S). Даже в
отсутствии ротационной неопределенности, уравнение ( ) может быть
записано как:
n
D  (
i 1
1
c i ) (k i s iT ) , ( )
ki
которое означает, что решение (сi, si) может быть в ki раз меньше ((1/ki)ci) или
больше (kisiT), чем в действительности. Величина неопределенности может
быть значительно уменьшена или даже полностью устранена введением
ограничений. Чем больше ограничена система, тем меньше возможных
комбинаций решений, которые удовлетворяют исходной матрице D.
Неопределенность
всегда
являлась
«Ахиллесовой
пятой»
автомодельноного разделения кривых. Однако в настоящее время оказалось
возможным с помощью математических теорем точно оценить условия,
необходимые для восстановления единственного решения для данного
набора данных. В основном, эти условия зависят от степени перекрывания
концентрационных профайлов и спектров компонентов [51]. Она является
составной частью решения и, даже внутри одного набора данных, можно
найти компоненты без неопределенности и которые имеют ее в значительной
степени. Одна из последних тенденций в этом направлении – это поиск
максимальных и минимальных границ возможных решений в спектрах.
Общая идея заключается в поиске максимального и минимально возможного
вклада спектра компонента в общее поглощение системы. Хотя теоретически
этот
подход
может
быть
распространен
на
неограниченное
число
компонентов в системе, на практике его применимость ограничена 2-3
компонентными системами [85].
Другим
и
наиболее
перспективным
способом
борьбы
с
неопределенностью является использование в процессе поиска решения
дополнительной информации о системе. Введение этой информации
осуществляется через выполнение ряда ограничений. Ограничение может
быть определено как любое математическое или химическое свойство,
систематически
выполняемое
всей
системой
или
некоторыми
индивидуальными соединениями [57]. Ограничения переводятся на язык
математики и, становясь составной частью алгоритма, контролируют
итеративный процесс декомпозиции.
Несмотря
на
свою
перспективность,
применение
ограничений
встречает некоторую критику из-за возможных ошибок и недостаточной
практики их использования. Даже потенциально применимое ограничение
может играть негативную роль при разложении, например, если такие
факторы, как экспериментальный шум или инструментальные проблемы
препятствуют достижению сходимости.
Большинство первых предложенных ограничений (рис. 4) связаны с
физическими
свойствами
компонентов.
Так,
концентраций
например,
и
спектров
неотрицательность
индивидуальных
применима
к
концентрациям и многим сигналам. Унимодальность (т.е. существование
только одного максимума в профайле) важна для концентрационных
профайлов, относящихся к процессам, например, к химическим реакциям и
хроматографическому элюированию [58-61]. Оно может быть также
применено для некоторых особых, таких как вольтамперометрических
сигналов [62]. Закрытость (или массовый баланс) также эффективен при
разложении сигналов во многих реакционных смесях [63,64]. Химическая
информация, связанная с индивидуальными спектрами соединений или их
концентрациями, может быть введена в качестве ограничения равенства [65],
таким
образом,
что
известные
профайлы
инвариантны
во
время
оптимизации.
[67]
Рис.4. Наиболее часто применяемые ограничения в MCR
Вместе с классическими ограничениями появляются новые, так
называемые жесткие ограничения, связанные с использованием известных
профайлов [85]. Такое моделирование подстраивает химические данные под
жесткую модель, построенную на математических выражениях, которые
определяют физико-химическое поведение системы, то есть форму сигнала
или профайла. Главным достоинством этого подхода является то, что модель
может описывать только изменение определенных компонентов, в то время
как остальная часть системы моделируется без ограничений.
Остальные ограничения связаны с математическими особенностями и
могут быть применены к любым наборам данных, независимо от их
химической природы. Эти ограничения связаны с концепцией локального
ранга, то есть, каким образом число и распределение компонентов
варьируется в определенном месте набора данных. Селективность –
ключевое ограничение из этого семейства. Она устанавливает концентрации
и спектральные диапазоны, где сигнал обуславливает только один компонент
[66].
1.3. Метод главных компонент (PCA)
Составной частью большинства алгоритмов декомпозиции является
метод главных компонент.
С математической точки зрения метод главных компонент - это
декомпозиция исходной 2D-матрицы X, т.е. представление ее в виде
произведения двух 2D-матриц Т и Р в соответствии с уравнением [200]:
X = TPt + E =
A
t
a 1
a
p at +E
()
В этом уравнении Т называется матрицей счетов (scores), Р - матрицей
нагрузок (loadings), а Е - матрицей остатков (рис. 5). Число столбцов - ta в
матрице Т и ра в матрице Р равно эффективному (химическому) рангу
матрицы X. Эта величина А называется числом главных компонент (PC) и
она, естественно, меньше, чем число столбцов в матрице X. Цель такого
преобразования максимально точно описать матрицу Х с использованием
минимального числа главных компонент [201]. Математически это означает
преобразование tA в ортогонольные, pA в ортонормальные функции (ti tj=0
(i>j), pi pj=1).
Рис.5. Графическое представление метода главных компонент
Выделенные матрицы обычно не несут физического смысла, и спектры
компонент не похожи на сигналы реально присутствующих в смеси
соединений. Однако они могут быть трансформированы в физически
значимые решения, которые представляют собой спектры индивидуальных
компонент
с
помощью
других
автомодельных
методов,
например,
чередующихся наименьших квадратов.
1.4. Анализ независимых компонент
В более широком контексте методы декомпозиции произвольных
суперпозиций на составляющие получили параллельное развитие в области
анализа сигналов с многочисленными приложениями в телекоммуникациях,
геофизике, обработке изображений и сигналов биосистем, медицинской
диагностике. Речь идет о так называемом «слепом разделении источников»
(BSS, blind source separation [24,25]) и, в первую очередь, о наиболее
развитой его реализации – анализе независимых компонент (ICA, independent
component analysis [24,26-28]). В наглядной формулировке проблема слепого
разделения известна как «задача о вечеринке» (“cocktail-party problem”) – в
комнате
одновременно
разговаривают
N
человек
и
произвольно
расположены M микрофонов; имея в распоряжении только сигналы
микрофонов (смеси), получить «голос» каждого из присутствующих в
отдельности. Традиционный ICA решает задачу в предположении линейной
суперпозиции, статистической независимости и стационарности сигналов
индивидуальных источников произвольной природы. В некотором смысле,
ICA можно рассматривать как развитие хорошо известного в хемометрике
метода главных компонент (PCA, principal component analysis [13-15,24,25]).
При этом разработанные ICA методы разнятся в используемых мерах
статистической зависимости и приближениях. К настоящему времени
разработаны весьма быстродействующие и точные ICA алгоритмы.
Отметим, что в последнее время наблюдается активное проникновение
универсальных BSS/ICA методов в область прикладных задач спектроскопии
и хемометрики. Так, по оценкам литературных данных, за последнее
десятилетие количество аналитических задач, решаемых этими методами,
возросло, по меньшей мере, в 10 раз. По классификации аналитической
спектроскопии
BSS/ICA
методы
являются
безэталонными
и
автомодельными. Важен и обратный процесс – специфика спектрального
эксперимента
подсказывает
выгодные
алгоритмы
поиска
наименее
зависимых компонент смеси.
Идеи, лежащие в основе этих методов, формировались в работах Дюгэй
(Dugue, 1951), Дармуа (Darmois, 1953), Феллера (Feller, 1966) и Фридмана
(Friedman, 1974) примерно в то же время, когда появились первые
публикации в зарождавшемся направлении хемометрики [25]. ICA, как
абстрактная методика декомпозиции смесей произвольного состава и
природы, изначально развивался несколько вдали от аналитической химии и
спектроскопии (см. табл. 1), занимая нишу в области анализа сигналов с
применениями в телекоммуникациях.
Концепция ICA кристаллизовалась к концу 80-х в исследованиях
французской группы Эро (Herault), Ютена (Juten), Анса (Ans) [27-29] и далее
Кардозо
(Cardoso)
и
Комона
(Comon)
[32,33].
Появление
специализированных методов и их конкретных реализаций происходило в
течение следующей декады одновременно с независимым накоплением
арсенала хемометрических алгоритмов (Табл. 1). Первыми попытками
решения задач аналитической спектроскопии общими ICA методами были
исследования
[44-45].
универсального
анализа
Впоследствии
независимых
стало
ясно,
компонент
что
в
применение
качественном
и
количественном спектрохимическом анализе смесей весьма перспективно
[46]. Появились сравнительные данные с результатами альтернативных
методов [47,49,51] и ICA нашел множественные применения в хемометрике
как прикладной области [52] (см. табл. 2) - резкий рост числа исследований в
2004-2006 годах).
Таблица 1
Хронология развития хемометричсских методов разделения смесей
(слева) и направления по анализу независимых компонент (справа)
Хемометрика [24] (SMCR)
Анализ независимых компонент
(ICA)
Первые идеи Дюгэй, Дармуа,
1951-1974
Феллера, Фридмана
Даты
Первые идеи Волласа [25]
1960
Работа Лоутона и Сильвестра [1]
1971
Первая конференция по хемометрике
[26]
1977
Монография Массарта [5]
1978
Книга
по
факторному
Малиновского и Ховери [6]
анализу
1980
1984-1985 Работы Эро, Ютена, Анса [27,28,29]
Организованы журналы по хемометрике
[30,31]
Метод EFA [9]
1987
Одновременные статьи Кардозо [32]
и Комона [33]
Классические работы по анализу
1991-1994
сигналов [34,35,36,37]
1989
Метод: SIMPLISM A [11], ALS [19,20]
Методы: ОРА [12,13], PMF [38,39]
1994-1997
1999
Методы: Infomax [40], Fast ICА [41],
SOBI [42]
Метод: JADE [43]
Первая
международная
конференция по IСА
Первые применения IСА в хемометрике
ICA проникает в хемометрику
1998-2001
[44,45]
[44,45]
Книги Хювэринен [22], Чичоки и
2001-2002
Амари [21]
Множество применений ICA методов
2004
Методы: MILCA [47], NNPCA [48]
(см. табл. 2)
ICA методы, специализированные
2006
для хемометрических задач [49,50]
1999
Таблица 2
Динамика и география применения ICА в спектральном анализе и
хемометрике (библиографические ссылки, даты опубликования, страны)
1998 2001
Великобр
итания
Франция [44]
2002
2003
[45] [53] [54] [56] [57]
[55]
Нидерла
нды
Финлянд
ия
Греция
2005
[58]
2006
[59] [60]
[47] [56] [51]
Южная
Корея
Япония
6
4
[64]
1
[65]
1
[66]
1
[58]
1
[67]
1
[68]
[69] [70] [73] [74] [75] [78] [79]
[71] [72]
[76] [77] [801 [81]
[65]
[82]
[83]
[84]
Иран
США
Канада
Всего
9
[49]
Испания
Китай
2007
[61] [62] [50] [60] [63]
Германия
Португал
ия
Бельгия
2004
[86]
[87]
1
13
3
[79]
9
[85]
1
[79]
2
1
Всего
1
1
1
3
9
7
11
10
Вместе с тем, географический "центр масс" аналитических приложений
ICA в последние годы перемещается все далее за пределы европейских
лабораторий (табл. 2), где были разработаны собственно основные методы и
получены первые результаты апробации на химических системах и
спектральных
сигналах.
Опыт
использования
методов
и
программ
исследователями как сторонними пользователями весьма ценен, поскольку
позволяет критически оценить качество, производительность, удобство
параметризации и других аспектов интерфейса, легкость в освоении.
Статистика применения ICA, в частности, в аналитических задачах
показывает,
что
быстро
выкокопроизводительные
стали
методы,
популярны
простые
основывающиеся
на
и
базовых
приближениях и хорошо документированные (см. табл. 3). В первую очередь,
это созданный группой из Финляндии алгоритм FastICA [22, 41], наиболее
удобный
для
получения
первого
приближения
декомпозиции
и
предлагающий максимальную экспрессность анализа (в этом он является
аналогом хемометрического метода SIMPLISMA [4, 11]). Следует ожидать,
что вслед за экстенсивной фазой развития и распространения приложений
ICA в химическом
анализе и спектроскопии, в ближайшие годы фокус
исследований переместится в область разработки методов, возможно с
развитием
специализированных
специфики
данных
вариантов,
спектрального
оптимизированных
эксперимента
и
для
предоставляющих
"дружественный" пользовательский интерфейс.
Таблица 3
ICA методы в практических задачах аналитической спектроскопии
Метод, ссылка,
год
Применения
FastICA, [41],
1997
JADE, [43], 1999
MILCA, [47], 2004
Infomax, [40],
1995
[45] [54] [56] [58] [59] [49] [68] [66] [81]
[82] [84] [87] [64] [53] [72] [69]
[54] [60] [67] 174] |64[ [55]
[47 [51] [49| [83]
[57] [64] [70]
SNICA, [49], 2006
RADICAL, [88],
2003
NNPCA, [48],
2004
SOBI, [42], 1997
[49] [78]
[47] [49]
[47] [86]
[61] [44]
ICA отличается от других статистических подходов: метода главных
компонент и факторного анализа, регрессионного анализа частичных
наименьших квадратов (PLSR). Он также отличен от автомодельного
разделения кривых (MCR), который основан на PCA и способен оценивать
распределение соединений в смесях, применяя эволюционный факторный
анализ (EFA), интерактивный автомодельный анализ смесей (SIMPLISMA)
или метод чередующихся наименьших квадратов (ALS). Применение ICA
включает статистику, нейронные сети, распознавание рисунков, теорию
информаций, мониторинг статистических процессов, идентификация систем
(например, анализ медицинских сигналов), уменьшение размеров матрицы
данных и мониторинг статистических процессов [88-90,96].
ICA
ищет
разложение
(декомпозицию)
сигналов
смесей
на
статистически независимые компоненты. На практике, это не всегда
осуществимо, так как спектры химических соединений не всегда полностью
независимы (например, так как содержат одинаковые или похожие
функциональные группы). Таким образом, существование остаточных
зависимостей
разделенных
сигналов
может
служить
сигналом
невозможности применимости метода или отображать факт, что выделение
полностью независимых спектров недостижимо. Однако в литературе
встречается относительно мало попыток использовать статистическую
независимость сигналов (вычисленную, например, с помощью функции
взаимной информации) в качестве критерия при автомодельном разделении
кривых [2-5]. Таким образом, наиболее адекватным было бы назвать ICA
методом наименее зависимых компонент (“Least dependent Component
Analysis”), так как нахождение остаточных зависимостей выделенных
спектров – существенная часть метода. Техническая сторона этого поиска
нуждается в алгоритме точной, быстрой оценке взаимной информации
(mutual information, MI).
Основную
идею
метода
независимых
компонент
можно
проиллюстрировать следующим образом. Спектры «чистых» компонент S
слабо зависимы (но не обязательно независимы в статистическом смысле), в
случае сходных компонент эти зависимости сильнее. Во всех физичных
случаях смешивания, суперпозиции спектров (измерения для смесей X) более
зависимы, нежели спектры «чистых» компонент. ICA ищет преобразование,
которое компенсирует зависимости, обусловленные смешиванием. Иными
словами, ищется матрица разделения W (результирующая оценка метода для
A-1) такая, что она минимизирует меру взаимозависимости Y = W X
(результирующих оценок метода для S).
Переменные x1 и x2 статистически независимы, если ни одна из них не
несет информацию о другой. Математически это означает, что x1 и x2
независимы, если плотность вероятности их совместного распределения p(x1,
x2)
представляет
собой
факториал
плотностей
их
безусловного
распределения, p(x1) и p(x2): р(x1; x2) = p(x1) p(x2).
Предложено значительное число ICA алгоритмов. Самые известные из
них: FastICA [91], JADE [92], Infomax ICA [93], MF-ICA [94], BTEM [ ] и
KICA [95].
Работа одной из групп ICA алгоритмов основана на идее о «чистых»
переменных (длина волны, где поглощает только одно соединение смеси).
Выделение этих переменных – ключ к декомпозиции. Этот способ обойти
проблемы сильного перекрывания спектров успешно работает в ряде
алгоритмов, например, KSFA [6], SIMPLISMA [ ], IPCA [7] и SMAC [8].
Также заслуживает внимания алгоритм BTEM (Band-Target Entropy
Minimization) [9-10], который включает явный (с помощью визуального
исследования) выбор характерных черт (целевые диапазоны) спектров для
ограниченной оптимизации. Однако, будучи высокоэффективными и
удобными
в
применении,
алгоритмы
не
стали
полностью
автоматизированными и абсолютно «слепыми».
1.4.1. Метод MILCA
Одним из методов, используемых в данной работе, является
универсальный метод MILCA (Mutual Information Least Dependent Component
Analysis [29]), основанный на поиске наименее зависимых (в отличие от
независимых) компонент смесей на основе минимизации численных
значений взаимной информации [30] как меры зависимости сигналов.
Первый шаг в ICA обычно заключается в применении метода главных
компонент (PCA), который минимизирует линейные корреляции (приводит
матрицу ковариаций смешанных сигналов к единичной).
Число компонент смеси K≤M оценивается («вслепую») на этапе PCA
по количеству значимых собственных значений матрицы ковариаций (как
правило, на практике группа значимых четко выделяются на фоне
пренебрежимо малых). Тогда матрица разделения факторизуется на K×M
PCA матрицу V и квадратную матрицу поворота R: W = R V.
Таким образом, задача ICA сводится к поиску минимума зависимости
результирующих компонент Y относительно вращений Y = R Z векторов,
полученных после PCA декорреляции Z = V X. B качестве количественной
меры статистической зависимости в ICA используется взаимная информация
I(Y). Сигналы (строки Y) статистически независимы и имеют нулевую
взаимную информацию, когда их плотность совместного распределения
равна произведению плотностей индивидуальных распределений. Взаимная
информация зависимых сигналов положительна.
Более простой и привычной мерой зависимости является линейная
корреляция (коэффициент корреляции в случае двух сигналов) – младший
член аппроксимации взаимной информации. Тем самым, если сигналы
независимы (I(Y) = 0) их линейные корреляции равны нулю, но не наоборот.
Это свойство используется в традиционных ICA алгоритмах, основанных на
PCA, и дает заметные вычислительные преимущества. Однако существуют
практически важные случаи с зависимыми «чистыми» компонентами, в
которых PCA декорреляция является причиной неверного решения [29,31]
(об альтернативном методе см. ниже).
Базовый
алгоритм
MILCA
использует
точные
численные
аппроксимации значений взаимной информации поиском ближайших
соседей [30] разного уровня, декомпозицию искомой матрицы R на матрицы
вращений в двумерных подпространствах, что обеспечивает высокую
эффективность и производительность.
Взаимная информация (mutual information) – мера статистической
зависимости M переменных. Если ее значение равное нулю, это означает
полную независимость сигналов и положительна во всех других случаях.
Преимущество этой функции состоит в том, что она чувствительна ко всем
типам
зависимостей
(тогда
как,
например,
коэффициент
Персона
чувствителен только к линейной корреляции) и имеет строго определенное
теоретическое обоснование.
Оценка взаимной информации – сложная статистическая проблема.
Большинство известных алгоритмов имеют низкую скорость или неточны.
Алгоритм расчета взаимной информации, реализованный в алгоритмах
MILCA и SNICA напоминает предложенный ранее алгоритм Вашичека
(Vasicek) для дифференциальных энтропий и основывается на статистике kближайших соседей, который, однако, применим только для одномерного
распределения. Алгоритм MILCA основан на работающем при любой
размерности
алгоритме
Козаченко-Леоненко
(Kozachenko-Leonenko),
модифицированном таким образом, что при расчете предельных энтропий не
используется фиксированного значения k, а производится направленный
подбор этого параметра, что дало возможность создать алгоритм расчета
функции взаимной информации с заметно меньшей систематической
ошибкой, чем другие известные алгоритмы.
Для многопеременного набора случайных данных с плотностью
безусловного и совместного распределения μi(xi) и μ(x1, x2, ..., xM)
соответственно, взаимная информация рассчитывается как:
M
I(X1 , X 2 , X 3 ,..., X M )   H(X i )  H(X1 , X 2 ,..., X M ),
( )
i 1
где H(X i )     i ln  i dx i и H(X1 , X 2 ,..., X M )    ln  dx1dx 2 ...dx M -дифференциальные
энтропии. Именно эту функцию и необходимо минимизировать.
Важное свойство взаимной информации это то, что она всегда
неотрицательна и равна нулю, если X и Y полностью независимы.
Следующая характерная черта – групповое свойство (grouping
property): I(X, Y, Z)  I ((X, Y), Z)  I(X, Y) , ( )
где I ((X, Y), Z) - взаимная информация между переменными Z и (X,Y). Таким
образом, для любого набора случайных переменных полная взаимная
информация может быть иерархично разделена взаимную информацию
между и внутри групп. Этот процесс получил название кластеризации
(clustering).
MILCA включает несколько характерных черт:
- высокопроизводительный ICA алгоритм;
- тест на достоверность получаемых на выходе алгоритма результатов;
- кластерный анализ выделенных спектров на остаточные зависимости;
- объединение сильно зависящих сигналов в многомерные источники.
1.4.2. Метод SNICA
Другим основным алгоритмом, используемым в работе, явился
гибридный
ICA
метод
SNICA
(Stochastic
Non-Negative
Independent
Component Analysis [32]), сочетающий в себе эффективную декомпозицию по
критерию
минимума
взаимной
информации
компонент
и
условие
неотрицательности получаемых сигналов, что характерно для спектральных
кривых во многих типах эксперимента. SNICA использует Монте Карло
минимизацию, что дает дополнительные преимущества в контроле за
точностью решения в ходе итераций, а также в применении множества
эмпирических трюков в поиске глобального минимума.
SNICA
[32]
разработан
специально
для
анализа
смесей
неотрицательных компонент, имеющих максимум функции распределения
вблизи нуля (случай, типичный в спектроскопии). Использование условия
неотрицательности в тандеме с гипотезой наименьшей зависимости
«чистых»
компонент
позволило
исключить
необходимость
PCA
декорреляции и находить решения в случае зависимых компонент.
SNICA основан на представлении искомой матрицы W в виде
произведения множества матриц случайных малых двумерных сдвигов и
трехмерных поворотов, каждый из которых минимизирует взаимную
информацию компонент на элементарном шаге Монте-Карло оптимизации и
подчиняется условию неотрицательности результирующих компонент.
Целевой функцией и критерием сходимости является глобальная взаимная
информация [30], учитывающая и линейные и нелинейные корреляции
данных. Подстройка параметров оптимизации проводится итеративно по
алгоритму имитации отжига, что позволяет избегать локальных минимумов
целевой функции, соответствующих ложным решениям.
SNICA позволяет уточнять решение итеративно, постепенно снижая
«температуру отжига» и переходя ко все меньшим элементарным шагам по
мере
того
как
взаимная
информация
результирующих
компонент
приближается к минимуму.
Применение
неотрицательности
представляет
собой
сложную
техническую задачу, так как часто в спектрах присутствуют области, в
которые источники (индивидуальные соединения) не поглощают совсем или
имеют
небольшую
интенсивность.
Наложение
неотрицательности
на
возможные решения не новый подход и используется, например, в MCRALS. Однако в этом методе неотрицательность накладывается при
заключительной обработке сигналов, используя метод чередующихся
наименьших квадратов и, поскольку взаимная зависимость между сигналами
не рассчитывается, существует риск ухудшить результаты декомпозиции.
В
методе
SNICA
реализуется
прямой
алгоритм
поиска
неотрицательных наименее зависимых компонент. В отличие от других ICA
алгоритмов, SNICA не требует начальной обработки спектральных данных.
Вместо этого линейная трансформация разбита на небольшие шаги:
- на каждом шаге неотрицательность фиксируется отдельно;
- зависимости между компонентами на каждом шаге постепенно
уменьшаются.
Так как быстрая минимизация может привести к попаданию в
локальный
минимум
функции
взаимной
информации,
использована
Metropolis-Hastings Монте-Карло стратегия.
На базе статистически представительного ансамбля синтетических и
экспериментальных смесей было показано, что MILCA и SNICA во многих
случаях превосходит специализированные методы хемометрики и другие
ICA алгоритмы по точности решения задачи слепого разделения смесей, в
том числе и данных спектральных экспериментов [29,31]. Показано [], что
MILCA превосходит существующие алгоритмы, основанные на грубой
оценке взаимной информации или других способах оценки зависимости
спектров (например, FastICA [11], JADE [12], Infomax [13], SOBI [14].
Вместе с тем, число реальных задач, решенных с помощью данных
алгоритмов, ограничено в основном модельными смесями. Алгоритм MILCA
использован для:
- разложения смоделированных ИК спектров трехкомпонентных
систем случайно выбранных из 10000 соединений базы данных NIST (NIST
Mass Spec Data Center. S.E. Stein, director, “Infrared Spectra” in NIST
ChemistryWebBook, NIST Standard Reference Database Number 69, Eds. P.J.
Linstrom and W.G. Mallard, March 2003, National Institute of Standards and
Technology, Gaithersburg, MD, 20899 (http://webbook.nist.gov));
- декомпозиции 140 спектров в ближнем ИК диапазоне смесей 5
растворителей (дихлорметан, бутанол-2, метанол, дихлорпропан и ацетон);
- анализа 6 компонентных смесей н-гексана, толуола, ацетона, 3фенилпропионовый альдегид, 3,3-диметилбутен-1 и дихлорметана в ИК
диапазоне;
- разложение спектров КР тканей мозга и раковых опухолей. Метод
может быть использован для диагностики заболеваний, так как содержание 4
основных веществ в здоровой и больной тканях различно.
Во всех случаях разделение прошло удачно, выделенные кривые
идентичны экспериментальным спектрам, погрешность количественного
анализа не превышает 10% отн.
применения
алгоритма
для
Это свидетельствует о возможности
решения
различных
аналитических
и
биологических задач.
1.4.3. Предварительная обработка данных и анализ результатов
декомпозиции
Эффективным
повысить
точность
практическим
декомпозиции
приемом,
позволяющим
спектральных
данных,
заметно
является
проведение анализа смеси в пространстве производных разного порядка от
спектральной кривой. Для этого на вход ICA алгоритмов подаются спектры
смесей
после
численного
дифференцирования
по
длине
волны
с
использованием конечных разностей, сглаживающих фильтров СавицкогоГолая, сплайн-интерполяции [29,31,32]. Фактически это эквивалентно
повышению контраста спектральных данных, усилению деталей спектров,
отличающих одну компоненту от другой. В силу линейности (1), задача в
пространстве производных имеет те же матрицы S и W, что и исходная.
ICA оценки Y и W, так же как и в других методах, неоднозначны в
смысле масштабирования и порядка компонент, что нужно учитывать при
анализе результатов декомпозиции. Физический смысл имеют лишь
относительные результирующие концентрации и спектры компонент в
относительных единицах. Определенный порядок компонент может быть
установлен только при наличии информации об истинных компонентах
смеси, что, однако, выходит за рамки задачи «слепого» разделения смесей.
Поскольку в условиях реального аналитического эксперимента
истинные компоненты и концентрации неизвестны, важно уметь оценивать
качество решения по косвенным признакам. Таковыми в случае неудачной
декомпозиции могут быть смесь положительных и отрицательные значений
результирующих концентраций для одной или нескольких компонент,
знакопеременные спектральные кривые, медленная сходимость Монте-Карло
оптимизации, близость W к единичной в случае SNICA, численный шум на
выходе алгоритма, сильно разнящиеся значение взаимной информации
результирующих компонент по данным разных методов и при малых
вариациях параметров метода для одной и той же смеси. Для анализа
сложных
смесей
выгодным
оказывается
применение
нескольких
альтернативных методов декомпозиции, а также оптимизация их параметров
для каждого конкретного случая вручную или полуавтоматически по
стратегии, имитирующей Монте-Карло поиск глобального минимума.
1.3. Практическое применение автомодельного разделения кривых
1.3.1. Анализ смесей
Главным направлением использования методов декомпозиции на
независимые
составляющие
является
разложение
спектров
многокомпонентных смесей.
Разделение и идентификация веществ в сложных смесях в настоящее
время представляет собой сложную аналитическую задачу, несмотря на
качественные улучшения приборов и методик. В общем, определение
веществ в сложных матрицах производится с использованием газовой или
жидкостной хроматографии, в зависимости от природы анализируемых
соединений. Однако трудоемкость и длительная пробоподготовка делает
хроматографическое разделение неприменимым для рутинных анализов. К
тому же, эти методы имеют свои ограничения, особенно в случаях, когда
сигналы аналитов перекрываются между собой или с фоном. В связи с этим,
актуальной является разработка альтернативных методов анализа сложных
многокомпонентных смесей.
Как было сказано выше, методы декомпозиции применимы к данным
любого спектроскопического эксперимента, а также для разделения наборов
данных произвольной природы, например, данные хроматографических [600]
и электрохимических (циклическая вольтамперометрия, вольтамперометрия
с линейной разверткой) [601] и рентгеновских [602] экспериментов.
Широкий набор возможных методов измерения аналитического сигнала
открывает перспективы для анализа сложных объектов в различных
агрегатных состояниях.
Современное состояние MCR таково, что практическое применение
алгоритмов ограничено в основном модельными смесями; исследования
направлены на создание эффективных и быстродействующих алгоритмов без
их апробации на реальных объектах. В табл. 4 представлены примеры
применения
различных
алгоритмов
для
анализа
модельных
смесей
произвольной природы. Как видно из данных, большинство исследователей
сосредоточены
на
использовании
колебательной
спектроскопии
для
получения сигналов смесей. Этот факт можно объяснить небольшим
значением полуширины полос и степени перекрывания спектров, а также
возможность точной идентификации по выделенным спектрам. UV-VIS
спектроскопия заметно меньше используется из-за сильно перекрывания
полос в спектрах соединений. Ограниченное применение спектроскопии
ЯМР является следствием обычного сдвига сигналов в максимуме
поглощения компонентов. Однако эту проблему удалось решить с помощью
специальной обработки данных перед разложением [603].
Таблица 4
Применение алгоритмов декомпозиции к анализу смесей
Природа
сигнала
UV-VIS
Система/процесс
Органические красители
(метилоранж, бромфеноловый
синий, бромкрезол зеленый)
Аэрозоли
азотная
кислота-вода
Алгорит
м
BTEM
Динамич
еский Монтесм )
Карло метод
ПАУ
(антрацен,
Флуоресце
Динам
флуорантен, пирен и 2,3нция
ический
бензфлуорен)
возбужденияМонте-Карло
поглощения
метод
ПАУ
(нафталинВЭЖХ/ПМ
Эволю
антрацен-пирен)
Р
ционный
факторный
анализ (EFA)
MC
–
BTEM
спектры
Рентгеновс
BTEM
кие1 спектры
хлороформ-2,5-диметил- 31
H, 13C, 19F,
BTEM
2,4-гексидинP ЯМР
три(пентафторфенил)фосфин
–этил4,4,4-трифтор-2(трифенилфосфоанулиден)
ацетат
Отходы
производства
ИК, КР
MCRалюминия;
термического
ALS
разложения полиэтилуретана
Органические
КР
BTEM
соединения:
меламин,
ацетамидмочевинадициандиамид; ПАУ
Органические
ИК
BTEM
растворители (Гексан-толуол- спектры-1 (950ацетон-3,3-диметилбутен-13200 см )
дихлорметан
3фенилпропиональ)
Аминокислоты (пролин,
проточноMCRфенилаланин)
инжекционная ALS
спектроскопия
613
Неорганические
КР
соединения:
арсенат-оксидгидроксид-пироморфит
Органические
ИК
соединения
(2-бутанол(1100-2500
метиленхлоридметанол- нм)
дихлорпропан-ацетон)
BTEM
620
SIMPLIS
621
Метод
максимальной
вероятности
(Maximum
likelihood)
IRONFL
EA
622
-1
ИК
(750-4500
Сс
ылка
612
Полимеризация
метилметакрилата
КР
25
соединений,
стирола
ИК
полимерных
производных
Механизм размельчения
фармацевтических таблеток
Изомеризация
глюкозы
α
и
β
спектроско
пия диффузного
отражения
(7800-4000 см13-1)
ЯМР С
MA
ALS
Прим
ечание
613
614
600
602
603
615
616
617
Твер
дое
состояние
600
619
623
MCR-
624
SOBI
625
реакц
ия с 1,2нафтилхи
нон-4сульфонат
ом
Твер
дое
состояние
Испо
льзование
производн
ых
первого и
второго
порядка
Среди важных разделов применения алгоритмов декомпозиции,
является
анализ
четырехмерные,
многомерных
и
т.д.).
наборов
Подобные
данные
данных
(трехмерные,
можно
анализировать
специальными хемометрическими алгоритмами, такими как MCR-ALS,
BLLS (билинейные наименьшие квадраты) и семейством PARAFAC
(параллельный факторный анализ) [605-608].
Известно лишь небольшое количество работ, посвященных анализу
реальных объектов. Среди них следует отметить флуориметрическое
определение аминокислот (триптофан, тирозин и фенилаланин) в водных
экстрактах мышечной массы рыб [608], качественный и количественный
анализ смесей пестицидов на основе флуоресценции и хемометрических
методов MCR-ALS и MCR-OPA [609], определение суммарного содержания
белка и влажности кормовых культур в диапазоне 1100-2500 нм методом
ALS-MCR [610], а также анализ фракционного состава нефти [611].
1.3.2. Химические реакции
Как известно, изучение механизмов реакций и определение их
кинетических параметров представляет как фундаментальный, так и
практический
интерес
в
аналитической
химии
и
оптимизации
промышленных процессов [400, 401]. Однако во многих химических
системах промежуточные продукты нестабильны и получение надежных
результатов об этих соединениях не всегда представляется возможным.
Кроме
того,
сильное перекрывание
спектральных
полос
затрудняет
выделение индивидуальных веществ. Селективное изучение реакций при
заданной
длине
волны
является
достаточно
трудоемким,
поэтому
многомерные спектроскопические наборы данных, полученные в УФ,
видимой областях и ИК областях в сочетании с хемометрическими методами
могут дать исчерпывающую информацию о химическом процессе [402].
Существуют два подхода для анализа подобных данных, а именно, так
называемое «мягкое» моделирование, в котором декомпозиция сигнала
проходит
без
применения
постулированной
химической
модели,
преимуществом которого является возможность моделирования систем,
поведение которых не укладывающиеся в привычные кинетические схемы.
«Жесткие» модели
изучения химических реакций основываются на
известном механизме реакции и рассчитывают константы скорости на
основании систем дифференциальных уравнений [402].
Так, метод нелинейных наименьших квадратов с дополнительным
условием неотрицательности для уменьшения числа возможных решений
использован для изучения реакции между трифенилметилхлоридом и
нуклеозидом в среде пиридина в УФ области спектра [402].
Возможность использования ИК спектроскопии проиллюстрирована в
работах [403, 404, 405] на примерах реакции йодбензола с н-бутилакрилатом,
аза-Михаэль реакции между модифицированными эфирами жирных кислот и
α,β-ненасыщенными кето-группами и анилином, а также взаимодействия
аминокислот с 1,2-нафтилхинон-4-сульфокислотой.
Для изучения механизмов также широко используется спектроскопия
ЯМР. Так в статье [406] описана реакция окисления бензальдегида в
присутствии калиевого графита C8K. Изучение реакции проводили методами
главных компонент (PCA) и проекции на латентные структуры (PLS) по ЯМР
спектрам реакционных смесей в различных температурных условиях (20-65
0
С). Метод чередующихся наименьших квадратов (MCR-ALS) применен для
разложения данных ИК и ЯМР С13 для изучения кинетики реакции
взаимодействия анилина и фенилглицилового эфира [407]. В работе [605]
описана
реакция
циклоприсоединения
1,3-циклогексидиеном
диметилацетиленкарбоксилатом с помощью спектроскопии 1H,
ЯМР и алгоритма BTEM.
13
C,
19
F,
с
31
P
1.3.3. Изучение равновесий
Методы разложения спектральных кривых на составляющие находят
применение и в изучении химических равновесий.
Одним
из
подобных
примеров
служит
определение
констант
ионизации органических соединений, например, замещенных резорцина
[500] и нуклеотидов [501] в водных и водно-органических растворах
методами ПМР и УФ спектроскопии в сочетании с алгоритмом MCR-ALS и
программным комплексом DATAN.
В работе [502] изучена кето-енольная таутомерия бензоилацетона в
воде
(рН=6-11)
и
в
среде
катионных
ПАВ.
Для
разложения
спектрофотометрических данных использована серия хемометрических
алгоритмов:
EFA,
MCR-ALS,
RAFA.
Получены
концентрационные
зависимости содержания енолята, енольной и кето-форм от температуры, рН
и концентрации мицелярной фазы.
Алгоритмы автомодельного разделения кривых применяется и для
изучения процессов комплексообразования. Например, метод чередующихся
наименьших квадратов (MCR-ALS) применен к данным спектроскопического
эксперимента
(УФ,
видимой
и
ИК
диапазон)
для
изучения
комплексообразования ионов меди Cu2+ с L-гистидином в интервале рН 1,515 [300,303] и хлорид-ионом в водном растворе [301]. Исследовано также
комплексообразование иона Al (III) с кофеиновой кислотой в УФ-видимой
области спектра при рН, равных 5 и 6,5 [302]. Во всех случаях выделены и
идентифицированы
спектры
индивидуальных
концентрационные диаграммы их распределения.
комплексов,
получены
Методы количественной оценки результатов декомпозиции:
Для расчета сходства экспериментальной (А) и расчетной (W) матриц
концентраций использовали amari индекс [47]:
p ij
p ij
1 N
Perr 
(

)  1 , (1)

2 N i , j1 max k p ik max k p kj
где pij  (WA)ij .
Amari индекс равен нулю только в том случае, если расчетная матрица
отличается от истинной только перестановкой столбцов или на постоянный
множитель и увеличивается, если качество декомпозиции ухудшается. При
практическом использовании данного индекса считается, что декомпозиция
прошла успешно, если численное значение P<0.05, в то время как значение
P>0.2 характеризует неприемлемое качество декомпозиции.
Среди большого количества индексов подобия спектров наиболее часто
используемым является коэффициент корреляции (1):
( (A1,i  A1 ) (A 2,i  A 2 )) 2
cov( A1 , A 2 ) 2
R (
)  i
,
s A1 s A 2
 (A1,i  A1 ) 2  (A 2,i  A 2 ) 2
i
(2)
i
где A1 (A 2 ) - вектор интенсивностей спектра 1 (2) со значениями A1,i (A 2, j ) и
средним значением A 1 (A 2 ) .
В этом пособии рассказывается о применении пакета MatLab для анализа
многомерных данных. В нем приведены только базовые сведения о работе в
этой среде, необходимые для реализации основных алгоритмов метода
независимых компонент. Более подробную информацию можно найти на
сайте www.chemometrics.ru или обратившись к MatLab Help (меню Help).
Для практического воплощения хемометрических методов используются как
специализированные пакеты программ (например, the Unsrambler или
SIMCA), так и статистические пакеты общего назначения (например, SPSS
или Statistica). Среди средств общего назначения, используемых в
хемометрике, особое место занимает пакет MatLab. Его популярность
необычайно высока. Это объясняется тем, что MatLab является мощным и
универсальным обработки многомерных данных. Сама структура пакета
делает его удобным средством для проведения матричных вычислений.
Спектр проблем, исследование которых может, осуществлено при помощи
MatLab, охватывает: матричный анализ, обработку сигналов и изображений,
нейронные сети и многие другие. MatLab — это язык высокого уровня,
имеющий открытый код, что дает возможность опытным пользователям
разбираться в запрограммированных алгоритмах. Простой встроенный язык
программирования позволяет легко создавать собственные алгоритмы. За
много лет использования MatLab создано огромное количество функций и
ToolBox (пакетов специализированных средств). Самым популярным
является пакет PLS ToolBox компании Eigenvector Research, Inc. Многие
книги и статьи содержат MatLab коды, позволяющие читателю сразу
применить
описываемые
методы
на
практике.
MatLab
прекрасно
интегрируется с Microsoft Word и Excel.
1. Базовые сведения о работе с данными в MatLab
Чтобы запустить программу дважды щелкните на иконку
Вами откроется рабочая среда, изображенная на рисунке.
. Перед
Рабочая среда MatLab содержит следующие элементы:

панель инструментов с кнопками и раскрывающимся списком;

окно Workspace, из которого можно получить доступ к различным
модулям ToolBox и к содержимому рабочей среды;

окно
с
вкладками
Command
History
и
Current
Directory,
предназначенное для просмотра и повторного вызова ранее введенных
команд, а также для установки текущего каталога;

командное окно, в котором находится приглашение к вводу » и
мигающий вертикальный курсор;

строку состояния.
Команды следует набирать в командном окне. Символ », обозначающий
приглашение к вводу команды, набирать не нужно. Также этот символ
появляется, когда программа закончила обработку предыдущей команды.
Важно помнить, что набор любой команды или выражения должен
заканчиваться нажатием на Enter, для того, чтобы программа MatLab
выполнила эту команду или вычислила выражение. Заметим, что MatLab
различает заглавные и прописные буквы, так что p и P — это разные
переменные.
1.2. Простейшие вычисления
Наберите в командной строке 3+5 и нажмите Enter. В результате в
командном окне MatLab отображается следующее:
Что сделала программа MatLab? Сначала она вычислила сумму 3+5, затем
записала результат в специальную переменную ans и вывела ее значение,
равное 8, в командное окно. Ниже ответа расположена командная строка с
мигающим курсором, обозначающая, что MatLab готов к дальнейшим
вычислениям. Можно набирать в командной строке новые выражения и
находить их значения. Если требуется продолжить работу с предыдущим
выражением, например, вычислить (5+3)/2, то проще всего воспользоваться
уже имеющимся результатом, который хранится в переменной ans. Наберите
ans/4.0 (при вводе десятичных дробей используется точка) и нажмите Enter.
Если пользователь не хочет, чтобы результат вычислений появлялся в
командном окне, а сохранялся в Workspace, каждая команда должна
завершаться символом точка с запятой. Например:
1.3. Работа с матрицами
Так как в основе всех хемометрических алгоритмов лежат различные
операции с матрицами, рассмотрим их более подробно. Для ввода массивов
(векторов или матриц) их элементы заключают в квадратные скобки. Так для
ввода вектора-строки размером 1×3, используется следующая команда, в
которой элементы строки отделяются пробелами или запятыми. При вводе
вектора-столбца элементы разделяют точкой с запятой. Например,
Вводить небольшие по размеру матрицы удобно прямо из командной строки.
При вводе матрицу можно рассматривать как вектор-столбец, каждый
элемент которого является вектор-строкой.
Доступ к элементам матриц осуществляется при помощи двух индексов
— номеров строки и столбца, заключенных в круглые скобки, например
команда Z(2, 3) выдаст элемент второй строки и третьего столбца матрицы Z
(в нашем примере он равен 0.2). Для выделения из матрицы столбца или
строки следует в качестве одного из индексов использовать номер столбца
или строки матрицы, а другой индекс заменить двоеточием. Например,
выделение второй строки матрицы Z надо записать:
Если необходимо посмотреть переменные рабочей среды, в командной
строке необходимо набрать команду whos.
Видно, что в рабочей среде содержатся три матрицы (X, Z, y) и вектор-строка
(ans).
1.4. Основные матричные операции
При проведении матричных операций следует помнить, что для
сложения или вычитания матрицы должны быть одного размера, а при
перемножении число столбцов первой матрицы обязано равняться числу
строк второй матрицы. Сложение и вычитание матриц, так же как чисел и
векторов, осуществляется при помощи знаков плюс и минус, а умножение —
знаком звездочка *:
Умножение матрицы на число тоже осуществляется при помощи звездочки,
причем умножать на число можно как справа, так и слева. Возведение
квадратной матрицы в целую степень производится с использованием
оператора ^.
MatLab содержит множество различных функций для работы с матрицами.
Так, например, транспонирование матрицы производится при помощи
апострофа '. Нахождение обратной матрицы проводится с помощью функции
inv для квадратных матриц. Псевдообратную матрицу можно найти с
помощью функции pinv.
1.5. Построение графиков
MatLab имеет широкие возможности для графического изображения
векторов и матриц, а также для создания комментариев и печати графиков.
Дадим описание несколько важных графических функций.
Функция plot имеет различные формы, связанные с входными
параметрами, например plot(y) создает график зависимости элементов y от их
индексов. Если в качестве аргументов заданы два вектора, то plot(x,y)
создаст график зависимости y от x. Например,
Программа построила график зависимости, который отображается в окне
Figure 1. Причем можно отображать на графике как все данные, так и
отдельные столбцы. Выбор различных свойств графика можно произвести в
меню Edit → Figure Properties. Кроме того, выделив одну из кривых графике
или ось координат, активируется Property Editor, где можно менять цвет,
толщину линий, единицы измерения осей и другие свойства.
MatLab
позволяет
строить
и
используется команда mesh(x, y, z).
трехмерные
изображения.
Для
этого
Например, если загрузить следующие данные
где x – интенсивность поглощения, d – диапазон длин волн, k – температура,
то при выполнении команды mesh(k, d, x); получится следующий график
зависимости спектра поглощения изопропилового спирта от температуры в
интервале длин волн 850-1050 нм:
0.07
0.06
0.05
0.04
0.03
0.02
0.01
70
60
0
1050
50
1000
950
40
900
850
30
Скопировать изображение в другой документ можно с помощью команды
Edit → Copy Figure.
2. Алгоритмы анализа независимых компонент
Введем следующие обозначения:
x – экспериментальная матрица m×n спектров многокомпонентной системы
d – число отчетов по длинам волн, n – количество спектров смесей
s – матрица индивидуальных спектров соединений
a – экспериментальная матрица относительных концентраций размером n×A
А – число компонентов в системе
ae - вычисленная матрица смешивания
y – выделенные спектры наименее зависимых компонент
Подготовка данных для декомпозиции:
1. Экспериментальные спектры следует представить в виде матрицы X в
программе Microsoft Excel.
2. Сохранить данные в формате блокнот (в меню тип файла выбрать
Текстовые файлы (с разделителями табуляции)) на жесткий диск (D:)
в папку chemometrics. Название файла должно быть записано
английскими буквами, целая часть числа отделяется от дробной
точкой.
3. Открыть программу Matlab, в окошке Current Directory выбрать папку
с необходимой программой.
4. Загрузить данные для расчета можно командой x = load('имя файла.txt').
Mатрицу x необходимо транспонировать: x = x’. Для нахождения
производных второго порядка можно использовать функцию: xd =
diff(x,2,2).
Кроме
того,
загружаем
спектры
индивидуальных
соединений s и относительные концентрации a (если они известны).
5. Также задается диапазон длин волн: d=[240:330] или d=[190:0.5:350].
Данные регистрировали в интервале 240-330 и 190-350 нм с шагом 1 и
0.5 нм соответственно.
6. Дальнейшие действия зависят от выбранного алгоритма. Удалить всю
текущую информацию можно с помощью команды clear all.
I. Алгоритм MILCA
В общем виде расчет задается следующей командой (папка chemometrics):
function [y, w]=milca(x, A, kneig), где
Kn – число ближайших соседей для расчета, лежит в диапазоне 5-15;
w – матрица коэффициентов смешивания.
Например, команды [y, w] = milca(x, 2, 7) и [yd, w] = milca(xd, 2, 15) проводят
декомпозицию спектров (матрица x) на два независимых компонента при
числе ближайших соседей 7 и 15 соответственно. Во втором случае расчет
проходил при использовании производных.
Получить спектры индивидуальных соединений можно, используя
команду y = abs(w*x) (при расчете без производных эта команда не
требуется) и далее: plot(d, y(1,:)/max(y(1,:)),d, y(2,:)/max(y(2,:))).
Расчет относительных концентраций производится командой ae =
pinv(w). Для масштабирования матрицы используют:
aec(:,1) = abs(ae(:,1)*max(y(1,:)));
aec(:,2) = abs(ae(:,2)*max(y(2,:)));
(для двухкомпонентной системы)
II. Алгоритм SNICA
Декомпозиция алгоритмом SNICA происходит следующим образом (папка
chemometrics):
function [y, a]=snica_bw(x, A0, h0, T, M, Kn), где
h0 – размер начального шага Монте-Карло оптимизации (интервал 0<h0<1,
обычно равен 0.2);
A0 – начальные оценки концентраций (если они неизвестны), то параметр
задается как eye(n,n), n – число спектров в системе;
T – температурный параметр Метрополиса (Metropolis) (равен значению
взаимной информации «чистых» сигналов);
M
–
количество
заключительных
шага
Монте-Карло
(остановочный критерий, лежит в интервале 1000-5000);
Kn - число ближайших соседей для расчета.
оптимизации
Например:
[y,
ae]=snica_bw(x,
eye(3,3),
0.2,
3,
1500,
7)
проводит
декомпозицию матрицы x размером 3×3 при Kn=7. Иногда точность расчета
можно улучшить проводя разложение спектров, используя приближенные
решения, полученные на первом шаге: [y, ae]=snica_bw(y, ae, 0.2, 1, 2500, 7).
При этом значение M при повторной оптимизации должно быть меньше
предыдущей.
Значение взаимной информации можно найти следующим
образом: MIhigherdim(x,kneig)
Просмотр полученных решений производится также, как для алгоритма
MILCA (однако находить псевдоинверсию (pinv) матрицы ae не надо)
III. Алгоритмы SIMPLISMA, JADE и RADICAL
Необходимые файлы для расчета алгоритмами SIMPLISMA, JADE и
RADICAL
находятся
в
Files\MATLAB\R2006a\toolbox\simplisma2,
папках
d:\JADE
C:\Program
и
d:\RADICAL
соответсвенно.
Расчет задается функциями:
[y, ae]=simplisma(x,d,offset,n);
[ae,y]=jade(x,n);
[y, ae]=RADICAL(x), где:
оffset – корреляционная поправка для небольших интенсивностей (1- без
поправки, 15 – большая поправка);
n – предполагаемое число компонентов в системе.
Например: [y, ae]=simplisma(x,d,1,3) – декомпозиция матрицы x на три
компонента алгоритмом SIMPLISMA.
[ae,y]=jade(x,5) – декомпозиция пятикомпонентной системы алгоритмом
JADE;
IV. Алгоритм FastICA
Исполняющие программы для данного алгоритма находятся в папке
d:\FastICA_25.
После загрузки всех необходимых данных алгоритм следует запустить
следующей командой fasticag. Появится диалоговое окно
После
нажатия
кнопки
Load
data,
можно
загрузить
матрицу
экспериментальных спектров x. Далее при необходимость данные можно
транспонировать (Transpose) и визуализировать (Plot data).
После этого можно выбрать одновременный (symmetric) или поочередный
(deflation) подход (approach) к расчету независимых компонент, число
компонентов в системе (Number of ICs), метод учета нелинейности
интенсивности
(nonlinearity),
а
также
необходимость
использования
стабилизированной версии алгоритма (stabilization)). В меню advanced
options можно задать начальные оценки для спектров индивидуальных
веществ или их относительных концентраций и другие дополнительные
опции. Если число компонентов меньше числа смесей, необходимо нажать
кнопку Reduce dim.
Как только все параметры для работы FastICA заданы, можно начать расчет
(Do ICA). После его окончания появляются спектры индивидуальных
соединений Plot ICs:
Сохранить полученные результаты можно, используя меню Save results. В
открывшемся поле необходимо ввести название эксперимента. Например,
если ввести pau, то матрица смешивания будет сохранена в файле Apau, а
независимые компоненты в ICpau (окно Work space).
IV. Алгоритм MCR-ALS
Для запуска данного алгоритма следует выбрать путь
в меню Current
Directory. Необходимо загрузить в рабочую зону MatLab экспериментальные
спектры многокомпонентной системы и начальные оценки для матрицы
концентраций или спектров индивидуальных соединений. После этого
запустить алгоритм командой als2004. В окошке Data Matrix и Initial Estimate
выбрать матрицу, декомпозицию которой надо провести и матрицу нулевых
оценок:
После нажатия кнопки Continue появится следующее диалоговое окно:
Здесь можно наложить различные ограничения (constrains) на решение:
неотрицательность
спектров
и/или
концентраций
(no-negativity),
унимодальность (unimodality), выполнение масс-баланса (closure), а также
принять неизменными некоторые спектры и концентрации в процессе
декомпозиции (equality) и задать параметры оптимизации (optimization
parameters).
После
нажатия
Done
программа
выдаст
следующее
предупреждение:
Чаще всего следует выбрать Specta equal height. Далее можно наблюдать весь
итерационный процесс расчета.
Декомпозиция прошла успешно, если внизу на зеленом фоне появится
сообщение Convergence is achieved. Решения для последующей обработки
можно найти в файлах
Заключительная обработка данных:
Полученные данные можно скопировать из меню Workspace.
1. Нормированные спектры для каждого выделенного вещества находятся
следующим образом: y(1,:)=y(1,:)/max(y(1,:)) (1 обозначает порядковый
номер компонента), затем спектры необходимо транспонировать;
2. Расчет коэффициентов корреляции выделенных и экспериментальных
спектров
состоит
в
применении
следующей
команды:
[comp,dep,otherdep,otherdepexp,si]=check_res(s, y). Спектры в матрице s
должны быть также нормированы.
Результаты автоматически представляются на графике (в качестве
примера
представлены
спектры
для
трехкомпонентной
системы
ароматических веществ пирен-бенз[а]антрацен-фенантрен). В правом
верхнем углу на легенде указаны значения коэффициентов корреляции.
Correspondace between experimental (solid) and estimated (dotted) spectra
1
Exp 1
Est 1, 0.96, (0.18, 0.15)
Exp 2
Est 2, 0.96, (0.21, 0.22)
Exp 3
Est 3, 0.97, (0.16, 0.23)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Рис.1.
0
50
Сравнение
100
150
экспериментальных
200
250
и
300
выделенных
спектров
многокомпонентных систем
3. Amari индекс рассчитывается следующим образом:
function out=amari(a,aec). Например, g = amari(a,aec). Значение функции
можно найти в меню Workspace, открыв переменную g.
Сглаживание спектральных кривых
MatLab представляет собой мощнейший инструмент для проведения
различных математических операций. Одной из возможностей является
сглаживание спектральных кривых.
Экспериментальные
данные
практически
всегда
содержат
определенный уровень шума, вызванный посторонними физическими или
химическими
процессами
в
системе,
инструментальным
шумом,
воздействием окружающей среды или некоторыми другими причинами,
приводящими к случайным флуктуациям измеряемого сигнала. Специфика
работы алгоритмов метода независимых компонент такова, что в процессе
декомпозиции не делается никакой оценки характера или величины матрицы
E, поэтому матрицы A и S априорно содержат некоторую степень
неопределенности, зависящую от величины и характера инструментальных
шумов.
Одним из способов уменьшения шума являются математические
методы обработки сигналов. Наиболее часто используемыми являются
сглаживание
полиномиальным
методом
наименьших
квадратов,
разработанный Савицким и Голаем в 1964 году и широкий спектр Фурьефильтров.
Математические методы сглаживания экспериментальных данных не
часто применяется при решении практических задач, хотя в определенных
условиях они могут существенно улучшить качество декомпозиции спектров
многокомпонентных систем.
Основные типы сглаживающих фильтров, с которыми можно работать
в MatLab, приведены в табл.1.
Таблица 1. Характеристика сглаживающих фильтров
№
Метод
Описание
1.
Spline
Сплайн-интерполяция
2.
Moving
Метод скользящих средних
3.
Lowess
4.
Loess
5.
Sgolay
Сглаживание Савицкого-Голая
6.
Rlowess
Lowess сглаживание, резистентное к выбросам
7.
Rloess
Loess сглаживание, резистентное к выбросам
п.п.
Метод локально взвешенного рассеяния с
использованием полиномов первого порядка
Метод локально взвешенного рассеяния с
использованием полиномов второго порядка
Для работы с фильтрами 2-7 используется команда smooth, которая в
общем виде выглядит как: Z = SMOOTH(Y,SPAN,METHOD)
Y – массив экспериментальных данных;
SPAN – число точек на каждом шаге сканирования (по умолчанию равно 5);
METHOD – алгоритм сглаживания ('moving' (по умолчанию), 'lowess', 'loess',
'sgolay', 'rlowess', 'rloess');
Z – результат сглаживания.
Для алгоритма Савицкого-Голая можно использовать дополнительный
параметр DEGREE (степень полинома, по умолчанию равно 2):
Z = SMOOTH(Y,SPAN,'sgolay',DEGREE).
В процессе выполнения лабораторной работы необходимо проводить
сглаживание каждого столбца экспериментальной матрицы спектров: z(:, 1) =
SMOOTH(x(:, 1)). Уже затем следует подвергать декомпозиции полученную
матрицу z.
Следующая команда используется для сплайн-интерполирования:
[pp,p] = csaps(x,y,p), где d – интервал длин волн матрицы d.
При интерполировании необходимо сглаживать отдельно каждый
столбец данных (экспериментальный спектр). Например:
[pp,p] = csaps(d, x(:,1), 0,9) – сглаживание 1 столбца матрицы х.
результат математической обработки содержится в четвертом столбце файла
pp → coef (окно Workspace). Далее следует перенести столбец в другой файл
(Excel или файл MatLab).
Подобную процедуру проделать с каждым
столбцом, после этого результирующие данные можно раскладывать.
Варьируемым параметром для сплайн-интерполяции является значение
p, лежащее в интервале [0,1]. Если р=0 используется сглаживание по
уравнению прямой (многочлен первого порядка) методом наименьших
квадратов, в то время если p = 1 применяется вариационное сглаживание
(многочлен третьего порядка). Если эта характеристика не задана, то
алгоритм сам находит оптимальное значение.
Для каждой анализируемой системы следует подбирать значения span,
degree и р, однако, в большинстве случаев значения span, равное 5, degree,
равное 2, и р равное 0.90 оказаваются оптимальными.
Примеры использования алгоритмов сглаживания можно посмотреть в
файле smooth.m.
Заключение
MatLab это очень популярный инструмент для анализа данных. По
данным опроса, проведенного на сайте www.chemometrics.it его используют
до трети всех исследователей, тогда как программа the Unsrambler
применяется только 16% ученых. Главным недостатком MatLab являются его
высокая цена. Кроме того, MatLab хорош для рутинных расчетов. Отсутствие
интерактивности делает его неудобным при выполнении поисковых,
исследовательских расчетов для новых, неисследованных массивов данных.
Download