На правах рукописи Доронин Вадим Александрович

advertisement
На правах рукописи
Доронин Вадим Александрович
ГЕНЕТИЧЕСКИЙ АЛГОРИТМ ДЛЯ ПОИСКА ЛОГИЧЕСКИХ
ЗАКОНОМЕРНОСТЕЙ В ДАННЫХ
Специальность 05.13.12 - Системы автоматизации проектирования
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Москва - 2006
Работа выполнена в Московском государственном институте электроники и
математики (техническом университете).
Научный руководитель д.т.н.,
профессор
Солодовников ИВ.
Официальные оппоненты:
доктор технических наук, профессор
Вишнеков А.В.
кандидат технических наук, доцент
Рогозин О.В.
Ведущая организация:
Государственный Космический Научно Производственный Центр
им М.В. Хруничева КБ "Салют".
Защита состоится
диссертационного
«££_»
fl/XSdr&fn/
2006 г. в
/У часов на заседании
Совета Д. 212.133.03 в Московском государственном
институте
электроники и математики (техническом университете) по адресу: 109028 Москва,
Б. Трехсвятительский пер., д. 3/12.
С диссертацией можно ознакомиться в библиотеке МГИЭМ
Автореферат разослан «ДО» CC/£?UmJ 2006 года.
Ученый секретарь диссертационного Совета
К.Т.Н., доцент
«-^*2/^
Леохин Ю.Л.
Общая характеристика работы
Актуальность
работы. При
конструкторской
и
технологической
подготовке
производства новых изделий, создании технических, программных и информационных
систем объемы проектирования постоянно увеличиваются, что требует больших затрат и
времени
в
проектно-конструкторских
и
технологических
разработках.
Повышение
эффективности связано с использованием систем автоматизированного проектирования
(САПР). Проектировщик
пользуется средствами САПР для
выполнения
конкретной
проектной процедуры или получения сведений, необходимых для принятия обоснованных
решений. Эти функции не могут быть выполнены без специального программного (ПО) и
информационного (ИО) обеспечения. При этом перед проектировщиком встает задача выбора
подходов и методов, которые целесообразно использовать, сокращения области получения
приемлемых решений, выявления факторов, влияющих на их качество. Однако очень часто
эта проблема решается на уровне здравого смысла, что связано с неполнотой и нечеткостью,
имеющихся на момент начала проектных работ, знаний. Поэтому актуальной становится
задача автоматизированной выработки правил, позволяющих повысить эффективность
процесса принятия решений на всех этапах проектирования. Именно решению этой задачи с
использованием
методов
интеллектуального
анализа
данных
и
посвящена
данная
диссертационная работа.
Интеллектуальный
обнаружения
анализ данных (Data Mining)
представляет собой процесс
в данных ранее неизвестных, нетривиальных,
практически
полезных,
доступных интерпретации знаний, необходимых для принятия решений в различных сферах
человеческой
деятельности.
Одной
из
задач,
решаемых
с
помощью
методов
интеллектуального анализа данных, является поиск логических закономерностей в той или
иной форме (деревья решений, конъюнкция элементарных событий, система продукций и
т.д.).
Существует целый ряд алгоритмов и систем, позволяющих строить логические
правила. Однако, они не лишены определенных недостатков, к которым можно отнести:
не решается вопрос о точности и полноте правил;
-
ограниченный размер правил (в среднем не более 4 элементарных событий);
-
проблема определения элементарных событий;
-
специальную подготовку пользователя для предобработки и кодирования данных.
В связи с этим становится актуальной задача разработки механизма построения
правил, лишенного этих недостатков.
В качестве такого механизма в работе предлагается использование генетического
алгоритма (ГА), который выявляет правила произвольной длины (количество элементарных
событий, входящих в правило) с заданной точностью и полнотой (для класса решений), и
который определяет автоматически элементарные события в ходе своего выполнения.
Объект
исследования.
Объектом
исследования данной работы
являются
эффективные механизмы поиска логических закономерностей в наборах данных, в
частности, основанные на применении генетических
алгоритмов, и их использование в
САПР.
Предмет
исследования. Предметом исследования являются вид операторов,
структура и характеристики ГА для выявления логических правил в наборах данных.
Цель работы. Целью настоящей работы является разработка и реализация алгоритма
для повышения эффективности поиска логических закономерностей в наборах данных иа
всех этапах проектирования, основанного на генетическом алгоритме и включающего в себя
механизм
предобработки
данных,
направленной
на
сегментацию
найденных
закономерностей, с целью выявления элементарных событий. Разработанный алгоритм
поиска должен производить вывод логических закономерностей в терминах элементарных
событий с определением их точности и полноты.
Научная новизна полученных
в диссертации результатов
теоретических
и
экспериментальных исследований заключается в следующем :
1. На основе анализа методов для поиска логических закономерностей,
предложено
использование подхода, основанного на применении ГА,
позволяющего выделять элементарные логические события, получаемые в
результате предобработки данных, и в отличие от большинства других
подходов позволяет формировать системы логических правил с определением
их точности и полноты.
2. Разработан ГА, его структура и вид операций для построения системы правил с
заданной точностью и полнотой.
3. Разработана система классов и информационная модель для представления ГА.
Практическая
ценность.
Практическая
ценность
полученных
результатов
заключается в следующем:
1. Исследованы структура и основные характеристики ГА для выявления логических
закономерностей.
2. На основе разработанных информационной и объектно-ориентированной моделей,
определена структура базы данных приложения для хранения описаний ГА, а также
найденных логических правил, полученных с их помощью.
3.
Реализовано
приложение,
осуществляющее
автоматизированный
поиск
закономерностей в наборах данных в зависимости от информации, хранящейся в базе
данных, и требований, предъявляемых пользователем.
Основные практические результаты работы использованы в ООО «Северные
ветры дистрибьюшн» для создания рекомендованного плана отгрузок товара с заводов на
дистрибьюторские склады и разработано приложение для использования в учебном процессе
кафедры ИТАС МИЭМ.
На основе разработанного ГА для поиска логических закономерностей в компании
ООО
«Северные
предназначенный
ветры
дистрибьюшн»
был
для создания оптимального
разработан
программный
продукт,
плана отгрузок товара с заводов на
дистрибьюторские склады и последующей оптимизации складских остатков. Применение
данного продукта, на основе разработанного ГА, позволило выявить Профицит и Дефицит
товара на складе, что привело к
значительной оптимизации складских остатков, сведя
складские объёмы к нормативным величинам с запасом продаж на одну неделю вперёд.
Технический эффект от внедрения результатов диссертационной работы оценивается
нормализацией остатков на складе, равномерным распределением мощностей заводов на
отгрузку товара дистрибьюторам, достоверностью планов отгрузок и своевременностью,
доставки товара на склады дистрибьюторов.
Выполненные сравнительные испытания предложенного продукта, на основе ГА и
традиционных вычислений формул на листах среды MS Excel показали, что применение
предложенного продукта обеспечивает:
1. Значительное снижение трудоемкости вычисления плана отгрузок в 1.5-2 раза.
2. Уменьшения затрачиваемого времени на разработку такого плана в 2-3 раза и
исключения ошибок, связанных с человеческим фактором.
Для
использования в учебном
процессе кафедры ИТЛС МИЭМ разработано
приложение, осуществляющее поиск логических закономерностей в наборах данных в
зависимости от требований предъявляемых пользователем и имеющихся исходных данных.
Результаты работы использованы при изучении дисциплин «Методы принятия решений»,
«Распознавание образов» и «Искусственный интеллект и экспертные системы».
На защиту выносятся следующие основные положения:
1. Использование
генетических
алгоритмов
как средства
интеллектуального
анализа данных при построении логических правил, используемых
в задачах
проектирования.
2. Разработанный ГА, проводящий предобработку данных, заключающуюся в их
сегментации и выделении наиболее значимых значений признаков и их
сочетаний для выявления логических закономерностей.
3. Разработанная информационная модель ГА для хранения признаков классов и
логических закономерностей в базе данных и объектно-ориентированная
модель, применимая для описания широкого класса генетических алгоритмов
4. Разработанное программное и информационное обеспечение приложения для
создания и использования ГА для выбора логических закономерностей в
задачах проектирования.
Апробация работы.
Результаты работы докладывались на научно-технических
конференциях студентов, аспирантов и молодых специалистов МИЭМ (Москва, 2003-2006
гг.); научно-практических семинарах «Новые информационные технологии» (Москва, 2006
гг.).
Результаты работы публиковались в журналах "Информационные технологии" №7
(Москва, 2005 гг.), "Качество
и ИЛИ (С4£5)-технологии"
№1 (Москва, 2006 гг.),
"Технологии ЭМС Электромагнитной совместимости" №1 (Москва, 2006 гг.) и сборнике
научных трудов "Проектирование телекоммуникационных и информационных систем"
(Москва, 2006 тт.).
Публикации. Материалы, отражающие основное содержание диссертации, изложены
в трех статьях и пяти тезисах докладов.
Объем работы. Общий объем диссертации 130 стр. машинописного текста, включая
список цитируемой литературы, и содержит 29 иллюстраций и 7 таблиц. Работа состоит из
введения, четырех глав, заключения и списка литературы, включающего 104 работы
отечественных и зарубежных авторов.
Основное содержание работы
ГЛАВА 1. Методы определения логических закономерностей в системах обработки
данных
В первой главе рассматриваются вопросы современного состояния и тенденции
развития систем и методов обработки информации, хранящейся в базах данных (БД) или
информационных хранилищах. Обосновывается актуальность задачи разработки средства
автоматизированной выработки логических правил для последующего принятия решений на
всех этапах проектирования САПР.
В связи с совершенствованием технологий записи и хранения данных в настоящее
время наблюдается стремительное развитие хранилищ информации и рост объемов данных в
этих хранилищах. Развитие хранилищ происходит
в самых различных областях
человеческой деятельности (производственной, коммерческой, медицинской, научной и т.д.).
На сегодняшний день все большую актуальность приобретают системы обработки
информации, которые позволяют не просто складировать данные, но и позволяют
осуществлять их анализ и предобработку данных, находить скрытые закономерности,
производить прогнозирование рядов данных и выдавать результаты в доступном для
человека виде.
Наиболее глубокий анализ данных можно произвести с помощью технологии Data
Mining (DM). Средства DM на основе имеющихся данных производят модели, позволяющие
количественно оценить степень влияния исследуемых факторов. Кроме того, средства DM
позволяют производить новые гипотезы о характере неизвестных, но реально существующих
отношений в данных.
Нахождение скрытых закономерностей в наборах данных,
взаимосвязей между различными переменными, а так же моделирование и изучение сложных
систем на основе истории их поведения - вот предмет и задачи DM. Сама технология DM
позволяет трансформировать исходные данные в полезную для принятия решений
информацию, что приводит к нахождению новых решений.
Одна из основных задач, для решения которой применяются методы
Классификация. Классификация - выявление признаков, наборов правил, характеризующих
группу, путем анализа уже классифицированных объектов и формулирования некоторого
набора правил. Классификация осуществляется с применением логических закономерностей.
В задачах анализа многомерных данных предложено достаточно много подходов к
поиску логических закономерностей. В основном используются методы, которые условно
можно назвать методами здравого смысла. Они порождают правила, для которых остается
открытым вопрос о точности и полноте. Примером таких средств может служить средства,
основанные на деревьях решений, алгоритме CIS или Кора, нейронных сетях и алгоритмы
ограниченного перебора.
Однако перечисленные подходы обладают рядом недостатков. Так при классификации
средствами на основе
нейросетен необходимо изначально необходимо построить очень
большой объем обучающей выборки, методом тренировки. Основная трудность при работе даже
натренированная нейронная сеть
представляет
собой
черный
ящик.
Знания,
зафиксированные как веса нескольких сотен межнейронных связей, совершенно не
поддаются анализу и интерпретации человеком. При работе с системами на основе деревьев
решений, становится очевидным, что деревья решений принципиально не способны
находить "лучшие" (наиболее полные и точные) правила в данных. Они реализуют принцип
последовательного просмотра признаков и создают лишь иллюзию логического вывода.
Также при больших объемах многомерных данных алгоритмы построения деревьев решений
могут выдавать очень сложную структуру деревьев, которые имеют много узлов и ветвей и
проблема
определение
возможных
событий
остается
нерешенной. Для
алгоритма
ограниченного перебора его главным недостатком является то обстоятельство, что данный
алгоритм способен за приемлемое время выдать решение только для сравнительно
небольшой размерности данных.
В связи с выше изложенными недостатками становится актуальной задача разработки
механизма построения правил, лишенного этих недостатков. В качестве такого механизма в,
работе предлагается использование генетического алгоритма (ГА). Предлагаемый ГА должен
производить выявление логических правил с заданной точностью и полнотой в наборах
данных и автоматически определять элементарные события в ходе своего выполнения.
ГЛАВА
2.
Автоматизированный
поиск
элементарных
событий
и
логических
скрытых
логических
закономерностей Генетическим Алгоритмом
Во
второй
главе
рассматривается
алгоритм
поиска
закономерностей. В основе подход лежит выделение простых логических
событий,
получаемых в результате предобработки данных с помощью ГА.
В
качестве
алгоритма
для определения
элементарных
событий
используем
генетический алгоритм, имеющий следующие характеристики:
Количество популяций и их начальное формирование. Рассматривается задача, в
которой логические закономерности используются для отнесения объекта к одному из N
классов А = { Л , , . . . , A N } - Количество популяций равно количеству классов и обозначается
N. Выбор такого количества популяций обусловлен тем, что оценку показателей точности и
полноты правил при выделении логических закономерностей целесообразно производить для
каждого класса. При единственной популяции происходит усреднение данной оценки. Пусть
определена
обучающая
последовательность
из п объектов,
заданная
в
виде пар:
<Xi,ti>,i• = 1 - г И где Xi - т — мерный вектор параметров Х> = (*к, • • •, г - ) , для объекта
bi, tiSA
- принадлежность к классу. Будем задавать генотип особи
<w}if,,wlt>,i
= \-i-m,j=:\
+ N,
как множество пар
к = 1 •*• К, x-imin < i4>2* < wit й * ! , „ „ , где К - количество
особей в популяции, (х*.™, XIJM) - область определения /- го параметра. Таким образом,
каждая особь в популяции представляет собой т - мерный гиперкуб в пространстве
признаков со сторонами < w)/t, м>% >, который соответствует некоторому правилу. Начальные
популяции формируется с помощью датчика случайных чисел.
Целевая функция. Наилучшей считается популяция, в которой находятся особи,
наилучшим образом удовлетворяющие логическим закономерностям для данного класса.
Тогда целевую функцию можно определить как:
Где щ - количество объектов, удовлетворяющих критерию, заданному в генотипе
особи к (попавших в гиперкуб, соответствующий данной особи) и принадлежащих классу
А] для популяции у (расстояние по Хэммингу). Фактически целевая функция определяет
точность правила. Тогда целью генетического алгоритма является нахождение такой
популяции, в которой содержится подмножество особей ЛГ^ЕАГ/- ЛГ' - общее количество
9
особей для популяции, моделирующей принадлежность к классу/ для которого X Fi,•—> 1
и число объектов, принадлежащих данному классу в обучающей выборке максимально, то
есть
U Zu = SSOt.
Здесь Хи
- множество объектов, удовлетворяющих
критерию и
ЧК'ж
принадлежащих классу Aj, сформулированному для особи k,. SSOi - множество объектов,
принадлежащих к классу As среди множества исходных объектов.
Оператор скрещивания. В качестве оператора скрещивания используется обычный
одноточечный оператор. Работает он следующим образом: случайным образом выбирается
одна из точек разрыва (точка разрыва - участок между соседними битами в строке). Обе
родительские строки разрываются на два сегмента по этой точке. Затем соответствующие
сегменты различных родителей склеиваются и получаются два генотипа потомков.
Оператор мутации. Оператор мутации предполагает случайное изменение какого-либо
элемента пары
<n'| r »,wjt > ,
которая также выбирается случайным образом. Данные
изменения должны удовлетворять
требованиям: сохранение упорядоченности пары и
попадание в диапазон области значений для заданной переменной.
Оператор
редукции.
Данный
оператор
удаляет
из
популяции
кодовые
позволяет
переносить
кодовую
последовательности (особи) с наименьшими значениями Fq •
Оператор
миграции.
Оператора
миграции,
последовательность (КП) из одной популяции в другую. Он выполняется с некоторой
вероятностью, если в популяции у" встречается особь к, для которой F4 < Ftp, j ^
p.
Перенос осуществляется в популяцию р. Смысл этого оператора заключается в том, что
правила, имеющие низкую точность для одного класса, могут иметь более высокую точность
для другого класса. Такая ситуация наиболее часто возникает в начальных поколениях.
Работу самого модернизированного ГА для автоматического поиска событий и
логических правил можно представить в виде следующей последовательности шагов:
Шаг 1. Для каждого класса создать популяцию К + R особей, где К - наименьший
допустимый размер популяции. Этот размер выбирается таким, чтобы с его помощью можно
было бы выбрать такое количество различных родительских пар, которое позволило бы
восстановить популяцию до размера K+R. R выбирается так, чтобы N*(K+R)
удовлетворяло
требованиям, приведенным в пункте «Количество популяций и их начальное формирование».
Шаг 2. Выполнить операцию миграции из каждой популяции J. Эта операция
выполняется следующим образом. Отбирается R КП, у которых минимально значение
10
целевой функции для заданной последовательности. Среди них отбираются КП, для которых
max (Ftp) >F/i,k
= l-i-R,p-l-i-N,p^:j.
Происходит обмен между популяциями КП, для
t.p
которых справедливо это условие.
Шаг 3. В каждой популяции сократить число особей до К' & К (оператор редукции).
Удалению подлежат КП с наименьшими значениями целевой функции, и в то же время, для
которых целевая функция меньше некоторого порогового значения в близкого к 1, либо
такие, которые не увеличивают полноту правил. Это позволяет сохранить особи, которые
задают правила, имеющие достаточно высокую точность и полноту.
Шаг 4. Если выполнятся условие останова (точность и полнота правил, задаваемых
КП не увеличивается) перейти к шагу 8, иначе выполнить следующий шаг.
Шаг 5. Если размеры популяции меньше чем К + R, выбрать родительские пары для
оператора скрещивания, иначе перейти к шагу 7.
Шаг б. Выполнить оператор скрещивания. Перейти к шагу 5.
Шаг 7. Выполнить оператор мутации для случайной КП. Перейти к шагу 2.
Шаг 8. Формируется множество КП, удовлетворяющее цели ГА, приведенной выше.
Следовательно, количество КП, сохраняемое из каждой популяции может быть переменно.
Шаг 9. Осуществляется преобразование сохраненных кодовых последовательностей к
конъюнкции элементарных логических событий.
ГЛАВА 3. Алгоритм представления логических закономерностей и информационная
реализация Генетического Алгоритма для поиска логических закономерностей
Третья глава посвящена вопросам информационной реализации модели ГА, для
хранения признаков классов и логических закономерностей в базе данных. Для программной
реализации разработана объектно-ориентированная
модель, применимая для описания
широкого класса ГА.
С точки зрения объектно-ориентированного подхода популяции в ГА представляет
собой иерархию классов: популяция, особь.
Использование объектно-ориентированного программирования требует определения
иерархии классов объектов. На рис 1 показа иерархия, используемая для реализации
алгоритмов поиска логических закономерностей в структуре данных. В особых случаях
объекты объединяются в коллекции, позволяющие эффективно организовывать программный
код.
11
ClassesOfObject
- коллекции
:'CleSsesObjects:::!::; Y :::;
ClassObject
ObjectsInCIass !:=:'
ObjectlnClass
G e n o m s . : "" "••
Genom
gParents ""
*
gParent
Рис. 1. Иерархия классов для описания Генетического Алгоритма
Ниже приводится описание приведенной иерархии:
1. ClassesOfObject - базовый класс, который содержит основные характеристики
алгоритма, такие как количество классов, количество признаков, по которым
проходит
классификация, начальный и минимальный размер популяции,
вероятность мутации и т.д.
2. CtassesObjects, ClassObject — коллекция и класс. Содержат описания классов
объектов, для которых формируются правила.
3. ObjectsInClass, ObjectlnClass — коллекция и класс. Содержит описание
объектов, входящих в класс объектов.
4. Genoms, Genom — коллекция и класс. Содержит описание особей, входящих в
популяцию.
5. gParents, gParent — коллекция и класс. Содержит описание родительских
особей.
12
Для хранения исходных, промежуточных данных, используемых в работе программы,
был разработан фрагмент базы данных. В последствии алгоритм может осуществлять
перевод кодовых последовательностей к конъюнкции элементарных событий из указанных
таблиц Базы Данных.
Структура Базы Данных состоит из таблиц: tblClassesOFObject,
tblGAClassObject,
tblObj, tmpObj и tblLogRule. Три таблицы находятся в реляционных отношениях между собой,
другие две предназначены для сохранения начальных
и итоговых данных в работе
программы ГА.
По завершению работы алгоритма происходит сохранение наилучших особей (с
показателями
точности
и
полноты,
близких
к
единице)
в
таблицу
tblLogRule.
Информационного содержания таблицы tblLogRule приведено ниже.
Таблица!. Таблица tblLogRule для особей классов
Имя поля
Тип данных
NCIass
Числовой
NRule
Числовой
CondX
Свойства поля
Текстовый
Номер одного из раннее определенных TVклассов.
Номер правила для каждого из раннее
определенных ^-классов.
Числовой диапазон области особи по оси X
CondY
Текстовый
Числовой диапазон области особи по оси Y
Tochn
Числовой
Poln
Числовой
ListOb
Текстовый
Числовое значение точности
данного
правила
(особи), рассматривается как
целевая функция особи
Числовое
значение
полноты
данного
правила
(особи),
рассматривается
отношение всех признаков данного класса в
области правила но всем признакам класса
Числовой перечень всех номеров признаков,
вошедших в область данного правила
На основании данных таблицы tblLogRule возможно формирование правил в виде
продукций «если... то...». Поля таблицы
объединяются логическим оператором «И», а
наименование класса - "вывод" помещается в правую часть выражения, имеющего вид:
Если (условие 1) л (условие 2) л ... л (условие N) то ( "вывод")
13
ГЛАВА 4 Разработка программного и информационного обеспечении Генетического
Алгоритма.
Четвертая глава посвящена вопросам реализации приложения, позволяющего
осуществлять автоматизированный поиск логических закономерностей с помощью ГА, с
учетом имеющихся исходных данных и требований, предъявляемых пользователем.
На основе информационной и объектно-ориентированной моделей ГА был разработан
алгоритм функционирования приложения и выполнена его программная реализация. Данная
реализация представлена демонстрационной версией, с помощью которой происходила
отладка алгоритма и его предварительный анализ.
На первом шаге работы - на этапах загрузки программы производится инициализация
начальных условий работы алгоритма, такие как размер популяций, вероятность оператора
мутации и скрещивания и т.д.
Второй шаг - это инициализация классов и их признаков. Пользователю предлагается
проставить исходные признаки каждого класса самостоятельно или воспользоваться набором
сформированных признаков по умолчанию, которые сохранены в БД. Для наглядного
представления внутренних процессов работы ГА с признаками классов и над особями
популяций реализован графический интерфейс. Программа предусматривает управление
цветом для признаков классов, что облегчает восприятие внутренних процессов. Особи,
произвольным образом генерируемые во время выполнения ГА, для каждого класса будут
наследовать выбранные на данном этапе цветовые представления по признакам классов.
Стоит отметить, что программа позволяет сохранять наборы признаков для классов
под уникальными именами в БД Данный пример может быть в последствии загружен из БД
на шагах инициализации характеристик алгоритма, что избавляет пользователя от рутинного
указания признаков классов каждый раз перед созданием популяций особей.
На третьем шаге над случайно сгенерированными особями популяций производятся
основные операторы ГА, при этом все внутренние процессы алгоритма графически
отображаются на элементе управления. Для отображения показателей точности и полноты
для каждого класса реализован табличный интерфейс. На каждом шаге работы ГА
происходит
его обновление. Обновлению подлежит
и табличный интерфейс для
представления особей популяций.
По завершению работы алгоритма происходит сохранение наилучших особей в БД, а
также показателей их точности и полноты для каждого правила и список признаков, которые
входят в область полученных правил.
14
Управление цветом
отображения объектов
Элемент графического
отображении всех объектов
11! 18.93; 18.94
12! 6.5ИЗ.Б5
Кнопки ОСНОВНЫХ
операторов Генетического
Алгоритма
1; 8,05 10.04
2 13.62; 9.35
3 10.84 4.83
4 6.88 4 2
5 12.6 13.64
Б 9.52 16.05
7; 11.13:11.24
8 14,34 11.75
9 14.79: 6.6
10 10.69
11 13.18 4.03
12: 12.3: 6.43
Таблица координат
объектов в
npocrpai
признаков
13 12.1610.04
14 9.81' 9.87
Формировка
правил
(ячейка точности и
полноты
класса
Сохранение набора
признаков в Базе
Данных
Рис. 2. Диалоговое окно программы Генетического Алгоритма
Полученные
логические
закономерности
в
терминах
элементарных
событий
выводятся в виде отчёта.
№ мвишла.
У с л м ю я» X
Услажжв но Т ТочмветьПолаготж Спитак объект»
1 : Е с я н ( 831 -1037
)И(5Й1- 1233
)
1
2 : Е с л х ( .04- 8.41
)И< «5- '1.23
)
1
Э : Е с л и ( .04- 8.41
)И<5£1- 1233
)
0,83
0,21 2S14
0.14 411
035 347811
Рис. 3. Отчёт представления полученных логических закономерностей
15
Общие выводы
1. На основе исследования современных систем интеллектуального анализа
данных (Data Mining) показана эффективность использования ГА с точки
зрения точности и полноты при решении задачи выделения логических
закономерностей на всех этапах проектирования.
2. Разработан ГА, позволяющий формировать логические правила в виде
конъюнкции элементарных событий с заданной точностью и полнотой.
3. Предложена объектно-ориентированная модель ГА, позволяющая создавать в
интерактивном
режиме
шаблоны
алгоритмов
(структуру
хромосомы,
популяции, описание операций и т.д.).
4. Разработана информационная модель для хранения шаблонов ГА и получаемых
с их помощью проектных решений.
5. На основе полученных объектно-ориентированной и информационной модели
реализовано программное приложение, в рамках которого было проведено
исследование
предложенного
в
работе
ГА
для
поиска
логических
закономерностей.
6. Основные практические результаты работы использованы в ООО «Северные
ветры дистрибьюшн» для создания рекомендованного плана отгрузок товара с
заводов на дистрибьюторские склады, где на основе разработанного ГА,
осуществляется формирование оптимального плана отгрузок товара с заводов
на дистрибьюторские склады с последующей оптимизацией складских
остатков. Как показала практика применения, созданное приложение позволяет
выявить Профицит и Дефицит товара на складе, что приводит к оптимизации
складских остатков, сведя складские объёмы к нормативным величинам с
запасом продаж на одну неделю вперёд.
7. Для использования в учебном процессе кафедры ИТАС МИЭМ разработано
приложение, осуществляющее поиск логических закономерностей в наборах
данных в зависимости от требований предъявляемых пользователем и
имеющихся исходных данных. Результаты работы использованы при изучении
дисциплин: «Методы принятия решений»,
«Распознавание образов» и
«Искусственный интеллект и экспертные системы».
16
Публикации по теме диссертации
1. Солодовников И.В., Доронин В. А. Генетический алгоритм для поиска
логических закономерностей в данных // Информационные технологии №7. М.:
2005 г С. 11 - 18
2. Доронин
В.А.,
Солодовников
И.В.
"С42«У-технология:
применение
генетического алгоритма для распознавания отказов техники". "Качество
и
ИЛИ (С4£5)-технологии" №1, М 2006, С. 43-46
3. Доронин В.А., Солодовников И.В. Применение генетического алгоритма в
поиске стандартов для сертификации однородной продукции. // Технологии
ЭМС (Электромагнитной Совместимости) №1. М:2006 г. С. 37 - 43
4. Доронин В.А. "Реализация генетического алгоритма для задач классификации".
Материалы девятого научно-технического семинара. М. ~ МИЭМ, 2006
С. Ш - И б
5. Доронин В.А.
"Применение генетического алгоритма для оптимизации
складских запасов". Материалы девятого научно-технического семинара. М. МИЭМ, 2006 С. 117-122
6. Доронин
В.А.
"Генетический
алгоритм
для
поиска
логических
закономерностей". Научно-техническая конференция студентов, аспирантов и
молодых специалистов МИЭМ, Тезисы докладов - М. ~ МИЭМ, 2005,
С. 97-98
7. Доронин В.А. "Применение генетического алгоритма для поиска стандартов
ЭМС на основе логических закономерностей". Сборник научных трудов
"Проектирование телекоммуникационных и информационных систем". - М. ~
МИЭМ, 2006, С. 175-178
8. Доронин
В.А.
"Применение
генетического
алгоритма
в
задачах
классификации". Научно-техническая конференция студентов, аспирантов и
молодых специалистов МИЭМ, Тезисы докладов - М. ~ МИЭМ, 2006,
С. 139-140
17
Подписано к печати "77 " 0&
2006 г.
Отпечатано в типографии МИЭМ. Москва, ул. М. Пионерская, 12
Закйз № 1?Ц. Объем 4.О п.л. Тираж £ГО экз.
Download