МЕТОДИКА КОМПЬЮТЕРНОГО ЭКСПЕРИМЕНТА С ЦЕЛЬЮ

advertisement
МЕТОДИКА КОМПЬЮТЕРНОГО ЭКСПЕРИМЕНТА С
ЦЕЛЬЮ ПОИСКА ПЕРСПЕКТИВНЫХ НЕОРГАНИЧЕСКИХ
ВЕЩЕСТВ
Шмакова Е.Г., Поляков А.Е., Дударев В.А.
Московская государственная академия тонкой химической технологии
им. М.В. Ломоносова
Аннотация: В статье рассматриваются методика компьютерного конструирования
перспективных веществ состава A2BCl4 в области неорганического материаловедения.
Ключевые слова: алгоритмы прогнозирования, компьютерное конструирование
веществ, свойства неорганических веществ и химических элементов.
Abstract: The article deals with the computer design of perspective substances of structure
A2BCl4 of in the field of inorganic materials.
Keywords: forecast algorithms, computer design, properties of inorganic compounds and
chemical elements.
Введение
Соединения состава A2BCl4 относятся к группе сегнетоэлектрических
кристаллов типа K2SO4, охватывающей около десятка соединений,
наиболее известными из которых являются Rb2ZnCl4, K2ZnCl4, Rb2ZnBr4,
(NH4)2ZnCl4. Для этих соединений характерно то, что переход от
сегнетоэлектрической фазы к параэлектрической фазе происходит через
промежуточную несоразмерную фазу [4]. У кристаллов A2BCl4 выявлены
электрооптические[5] и нелинейные оптические свойства[6]. По данным
[6]кристаллы Rb2ZnCl4 генерируют вторую оптическую гармонику. С
целью поиска еще не синтезированных сегнетоэлектрических хлоридов
нами проведено прогнозирование новых соединений состава A2BCl4 (A и B
– разные металлы).
МЕТОДИКА КОМПЬТЕРНОГО ЭКСПЕРИМЕНТА
Решение поставленной задачи включало несколько этапов:
1) отбор примеров соединений A2BCl4 для компьютерного анализа;
2) отбор свойств элементов для включения в классифицирующие
закономерности;
3) отбор наиболее важных для классификации свойств элементов и
простейших алгебраических функций от этих свойств с помощью
программы поиска классифицирующих параметров [2];
4) выбор алгоритмов компьютерного анализа данных, основанных на
методах распознавания образов по прецедентам и предназначенных для
поиска классифицирующих критериев, и обучение ЭВМ,
5) поиск классифицирующих критериев для отобранных примеров
уже известных веществ с применением методов обучения ЭВМ и
прогнозирование возможности образования при обычных условиях (298 K
и 1 атм) новых соединений состава A2BCl4 с использованием найденных
критериев.
1. Отбор примеров соединений для компьютерного анализа.
Исходной информацией для компьютерного анализа является матрица,
каждая строка которой соответствует уже исследованному веществу и
представляет собой набор значений свойств компонентов – химических
элементов A и B или простых хлоридов. Каждой строке соответствует
также значение целевого признака - возможности образования соединения.
Такая выборка называется обучающей выборкой и ее представительность и
достоверность в значительной степени определяет точность последующего
прогнозирования. Как правило, отбор примеров неорганических веществ
для компьютерного анализа осуществляется высококвалифицированными
специалистами-химиками с использованием информации разработанных
БД по свойствам неорганических веществ и материалов.
2. Отбор свойств элементов для включения в классифицирующие
закономерности.
Наиболее сложной и влияющей на качество прогнозирования
задачей является отбор свойств компонентов, важных для классификации
неорганических соединений. В настоящей работе на основе физикохимических представлений о природе изучаемых фаз в исходный набор
свойств были включены 67параметров элементов A и B и простых
хлоридов составов ACl и BCl2. В таблице 1 приведены некоторые из них.
Таб. 1
Исходный набор свойств для описания химических элементов
и соединений
3.
Отбор
наиболее
важных
для
классификации
свойств
компонентов.
Для нахождения набора свойств элементов и простых галогенидов,
наиболее важных для классификации систем A-B-Cl на системы с
образованием и без образования соединений A2BCl4, использовалась
программа, включенная в разработанную в ИМЕТ РАН информационноаналитическую систему (ИАС) для компьютерного конструирования
неорганических соединений [3]. Программа основана на минимизации
функционалов обобщённой ошибки выпуклых корректирующих процедур
над наборами предикторов, построенных по отдельным свойствам
компонентов [2]. В качестве оценки информативности набора свойств
использовалось отношение точности распознавания контрольной выборки
для исходного набора свойств компонентов к точности распознавания,
проводимого без учета оцениваемого набора свойств.
4. Выбор алгоритмов компьютерного анализа данных.
Для компьютерного анализа данных был использован комплекс
алгоритмов распознавания образов по прецедентам, включенный в
разработанную в ИМЕТ РАН информационно-аналитическую систему [3].
В настоящее время она включает следующие программы, основанные на:
алгоритме вычисления оценок, методе бинарных решающих деревьев,
линейном
дискриминанте
Фишера,
LoReg,
поиске
логических
закономерностей классов, поиске двумерных линейных разделителей,
алгоритме линейной машины, различных вариантах обучения нейронных
сетей, методе k-ближайших соседей, голосовании по тупиковым тестам,
методе опорных векторов, статистически взвешенном голосовании,
формировании понятий с использованием растущих пирамидальных сетей
и т.д [1]. При решении каждой конкретной задачи с использованием
разных вышеприведенных наборов свойств элементов проводился отбор
алгоритмов, выдающих оптимальные результаты. Для этого применялось
экзаменационное распознавание со скользящим контролем на материале
обучающей выборки, которое является традиционным средством оценки
качества обучения ЭВМ [1].
Для повышения точности прогнозирования соединений была
использована стратегия коллективов алгоритмов[1]. Включены следующие
алгоритмы построения коллективных решений: метод Байеса, области
компетенции, шаблоны принятия решений, динамический метод Вудса,
комплексные комитетные методы, логическая коррекция, выпуклый
стабилизатор, обобщённый полиномиальный корректор и алгебраический
корректор. Как правило, использование стратегии коллективов алгоритмов
позволяет
улучшить
точность
прогнозирования
за
счет
взаимной
компенсации недостатков одного алгоритма преимуществами других.
Для оценки точности «коллективных» алгоритмов применялось
экзаменационное распознавание 50 примеров, случайно выбранных из
обучающей
выборки
и
неиспользованных
в
обучении
ЭВМ
(на
завершающем этапе прогнозирования контрольные примеры возвращались
в обучающую выборку).
5.
Прогнозирование
возможности
образования
соединений
состава A2BCl4.
Найденная классифицирующая закономерность была использована
для прогнозирования еще не полученных соединений. Следует отметить,
что для прогнозирования новых соединений использовались не только
значения свойств элементов, а так же свойства хлоридов.
Выводы
В результате была сформирована выборка, содержащая 68 примеров
соединений A2BCl4 и 30 примеров систем без образования соединений
состава A2BCl4.
Было установлено, что наиболее важными для классификации
систем по признаку существования или отсутствия соединений являются:
изобарный потенциал образования простого галогенида BCl2, температура
плавления элемента A и псевдопотенциальный радиус элемента B.
На основе анализа результатов экзаменационного распознавания
можно сделать вывод, что лучшие результаты прогнозирования могут быть
получены с использованием программ на основе алгоритмов «метод
бинарных решающих деревьев», «логические закономерности», «метод
опорных векторов» и «статистически взвешенные синдромы». Именно эти
алгоритмы были использованы при принятии коллективного решения.
С целью дальнейшего увеличения точности прогнозирования были
проведены компьютерные эксперименты по поиску эффективных методов
принятия коллективного решения с использованием наиболее точных
алгоритмов распознавания образов по прецедентам. Лучшие результаты
были получены при использовании алгоритма «выпуклый стабилизатор».
В таблице 2 даны прогнозы новых соединений состава A2BCl4.
Приняты следующие обозначения: 1 – прогноз возможности образования
соединения состава A2BCl4 при обычных условиях; 2 –прогноз отсутствия
соединения A2BCl4 в системе A-B-Cl. Значком # обозначены ранее
изученные системы, информация о которых использована для обучения
ЭВМ.
Таб. 2
Оценка достоверности прогнозирования возможности образования
Литература
1. Журавлев Ю.И., В.В. Рязанов, О.В. Сенько. «Распознавание».
Математические методы. Программная система. Практические
применения - М.: ФАЗИС, 2006. c 176.
2. Senko O., Dokukin A. Optimal Forecasting Based Convex Correcting
Procedures // In book «New Trends in Classification and Data Mining».
Sofia: ITHEA. 2010. P. 62-72.
3. Kiselyova N.N. A.V. Stolyarenko, V.V. Ryazanov, [et al.] A system for
computer-assisted design of inorganic compounds based on computer
training // Pattern Recognition and Image Analysis. 2011. V. 21. N. 1. p.
88-94.
4. Li L., Wolfel A., Schonleber A., Mondal S., Schreurs A.M.M., Kroon –
Batenburg L.M.J., van Smaalen S. Modulated anharmonic ADPs are
intrinsic to aperiodic crystals: a case study on incommensurate Rb2ZnCl4
// ActaCrystallogr., 2011, V.B67, N.3, p.205 – 217.
5. Sanctuary R., Gunter P. Electrooptic properties of Rb2ZnCl4 in the
incommensurate
and
ferroelectric
phases //
Phys.status
solidi
(a),1984,v.84,N.1,p.103-111.
6. Sanctuary R., Jundt D., Baumert J. – C., Gunter P. Nonlinear optical
properties of Rb2ZnCl4 in incommensurate and ferroelectric phases //
Phys.Rev.B, 1985, v.32, N.3, P.1649 – 1660.
Download