Методы интеллектуального анализа данных и некоторые их

advertisement
Методы интеллектуального анализа данных и некоторые их
приложения1
д.ф.м.н., профессор Игорь Машечкин
к.ф.м.н., доцент Михаил Петровский,
Московский Государственный Университет, факультет вычислительной математики и
кибернетики, лаборатория «Технологий программирования»
E-mail: mash@cs.msu.su
С развитием и повсеместным внедрением информационных технологий увеличивается
объем и сложность хранимой информации. Происходит так называемый эффект “Data
Explosion”, т.е. возникает ситуация когда размер и сложная структура хранимых данных
не позволяют эксперту извлекать из них полезную информацию с помощью
традиционных инструментов анализа, основанных на теории информационного поиска и
математической статистике. В связи с этим возникает необходимость в разработке
программных средств автоматизированного анализа данных большого объема. Для этого
используются системы интеллектуального анализа данных (ИАД, англ. Data Mining),
задача которых заключается в выявлении скрытых, нетривиальных, содержательных
закономерностей в больших объемах разнородных, сложно структурированных данных
[1]. ИАД объединяет совокупность методов и технологий из различных областей знаний,
включая статистический анализ, методы машинного обучения и искусственного
интеллекта, информационный поиск, технологии построения и организации хранилищ и
баз данных, а также методы визуализации информации и верификации моделей. Эти
методы и технологии используются в системах ИАД для решения задач: классификации,
прогнозирования, кластерного анализа, поиска исключений, выявления трендов и других.
В первой части доклада даётся краткий обзор ИАД, включая основные определения,
термины и области практического применения, вводится понятие процесса ИАД и
типовой архитектуры программной системы ИАД, обсуждаются задачи ИАД и методы их
решения, делается попытка позиционировать системы ИАД среди множества
существующих программных аналитических систем [1]. Вторая часть доклада посвящена
практическим проектам, выполняемым в лаборатории «Технологий программирования»
ВМиК МГУ, по разработке и реализации прикладных программных систем, основанных
на технологии ИАД, в таких областях как:
 компьютерная безопасность [2-5]: использование методов ИАД для обнаружения
внутренних и внешних вторжений, моделирование и анализ поведения
пользователей компьютерных систем;
 электронный документооборот [6-8]: интеллектуальная фильтрация и рубрикация
электронной почты, анализ и многотемная классификация HTTP трафика,
автоматическое аннотирование и рубрикация электронных документов;
 анализ производственных и технологических процессов [9]: применение ИАД для
выявления нештатных ситуаций, а также для прогнозирования и оценки качества;
 системы поддержки принятия решений: использование технологии ИАД в составе
ПО ситуационных центров.
Литература
1.
1
Han J., Kamber M. Data Mining: Concepts and Techniques // Morgan Kaufmann, 2000.
http://synthesis.ipi.ac.ru/sigmod/seminar/s20090226
2.
Петровский
М.И.
Алгоритмы
выявления
исключений
в
системах
интеллектуального анализа данных
//Журнал «Программирование», Москва, 2003,
№4, сc. 66-80.
3.
Mikhail Petrovskiy. Fuzzy Kernel-based Method for Real-time Network Intrusion
Detection //Springer-Verlag, Lecture Notes in Computer Science, 2003, vol. 2887, pp. 189-200.
4.
Машечкин И.В., Петровский М.И., Трошин С.В., Шестимеров А.А. Система
мониторинга и анализа поведения пользователей компьютерной системы // САИТ-2007.
Системный анализ и информационные технологии, Обнинск, 2007, сс. 183-187
5.
Mikhail Petrovskiy. A Data Mining Approach to Learning Probabilistic User Behavior
Models from Database Access Log. // Springer-Verlag, Software and Data Technologies
(Selected Papers), 2008, vol. 10, pp. 323-332.
6.
Igor Mashechkin, Mikhail Petrovskiy and Andrey Rozinkin. Enterprise Anti-spam
Solution Based on Machine Learning Approach // Proceedings of 7th International Conference
on Enterprise Information Systems, USA, Miami, 2005, Vol. 2, pp.188-193.
7.
М.И. Петровский, В.В. Глазкова, Алгоритмы машинного обучения для задачи
анализа и рубрикации электронных документов//Журнал "Вычислительные методы и
программирование", 2007, Т.8, сс. 57-69.
8.
Машечкин И.В., Петровский М.И., Глазкова В.В., Масляков В.А. Концепция
построения систем анализа и фильтрации Интернет-трафика на основе методов
интеллектуального анализа данных //Математические методы распознавания образов: 13я Всероссийская конференция. М.: МАКС Пресс, 2007, сс. 494-496
9.
Р.В. Курынин, И.В. Машечкин, М.И. Петровский. Применение модифицированного
метода нечетких деревьев решений для анализа и прогнозирования качества продукции в
производственном процессе.// Международная научная конференция «Проблемы
кибернетики и информатики», Азербайджан, Баку, 2006, cc. 49-52.
Download