Докладчики: Ефимова Наталья Балукова Елена

advertisement
Докладчики: Ефимова Наталья
Балукова Елена
План
 История возникновения
 Постановка задачи
 Типы закономерностей
 Классы систем
 Примеры систем
 Бизнес-приложения
Специфика переработки информации:
 Данные имеют неограниченный объем
 Данные являются разнородными
 Результаты должны быть конкретны и понятны
 Инструменты для обработки должны быть
просты
Илья Иосифович
Пятецкий-Шапиро
Постановка задачи:
 Имеется достаточно крупная база данных
 Предполагается наличие«скрытых знаний»
Необходимо разработать методы обнаружения знаний, скрытых в
больших объёмах исходных «сырых» данных.
Скрытые знания:
 Ранее не известные
 Нетривиальные
 Практически полезные
 Доступные для интерпретации
OLAP
Каковы
средние
травматизма для
некурящих?
Data Mining
показатели Какие факторы
курящих и предсказывают
случаи?
лучше всего
несчастные
Какова
средняя
величина
Какие схемы покупок характерны
ежедневных
покупок
по
для мошенничества с кредитными
украденной и не украденной
карточками?
кредитной карточке?
Типы закономерностей:
 Ассоциация
 Последовательность
 Классификация
 Кластеризация
 Прогнозирование
Классы систем
 Предметно-ориентированные аналитические системы
 Статистические пакеты
 Нейронные сети
 Системы рассуждений на основе аналогичных случаев
 Деревья решений
 Эволюционное программирование
 Генетические алгоритмы
 Алгоритмы ограниченного перебора
 Системы для визуализации многомерных данных
Характеристики систем Data Mining:
 Интуитивный интерфейс
 Удобство экспорта/импорта данных
 Наглядность и разнообразие получаемой отчетности
 Легкость обучения работы с инструментарием
 Прозрачные и понятные шаги Data Mining-процесса
 Руководство пользователя
 Удобство и простота использования
 Наличие русифицированной версии инструмента
 Наличие демонстрационной версии
 Возможности визуализации
 Наличие значений параметров, заданных по умолчанию
 Количество реализуемых методов и алгоритмов
 Скорость вычислений и скорость представления результатов
 Возможности поиска, сортировки, фильтрации.
 Защита, пароль.
 Платформы
•Уровень предприятия:
Fair Isaac, IBM, Insightful, KXEN, Oracle, SAS, SPSS.
•Уровень отдела:
Angoss, CART/MARS/TreeNet/Random Forests, Equbits, GhostMiner,
Gornik, Mineset, MATLAB, Megaputer, Microsoft SQL Server, Statsoft
Statistica, ThinkAnalytics.
•Личный уровень:
Excel, See5.
•Свободно распространяемое программное обеспечение:
C4.5, R, Weka, Xelopes.
Oracle Data Mining
•ЗНАТЬ БОЛЬШЕ
•ДЕЛАТЬ БОЛЬШЕ
•ТРАТИТЬ МЕНЬШЕ
Oracle Data Mining
Oracle Data Mining позволяет:










Создавать профили целевых (например, выгодных) заказчиков
Предупреждать и предотвращать недовольство заказчиков
Привлекать новых заказчиков и выявлять наиболее выгодных
Выявлять перспективные возможности перекрестных Продаж
Обнаруживать злонамеренную деятельность, не соответствующую
политике компании
Находить новые группы или сегменты
Создавать профили заказчиков
Определять перспективные цели, а также выявлять не
пользующийся спросом товар и предлагать идеи по его
реализации
Находить ассоциативные связи и/или одновременные события
Добыча неструктурированных данных – текста и
пространственных данных
Алгоритмы, реализованные в Oracle Data Mining
Классификационные модели
Классификации и
регрессионные модели
Поиск существенных атрибутов
Кластеризация
Поиск ассоциаций
Выделение признаков
Na_ve Bayes,
Adaptive Bayes Network
Support Vector Machine
Minimal Descriptor Length
Enhanced K-means, O-cluster
Apriory Algorithm
Non-Negative Matrix
Factorization
select cust_id from customers
where region = ‘US’
and
prediction_probability(churnmod,
‘Y’ using *) > 0.8;
Select customers who are more than 85% likely to be HIGH VALUE
customers & display their AGE & MORTGAGE_AMOUNT
SELECT * from(
SELECT A.CUST_ID, A.AGE,
MORTGAGE_AMOUNT,PREDICTION_PROBABILITY
(CUST_INSUR_LT46939_DT, 'VERY HIGH'
USING A.*) prob
FROM CBERGER.CUST_INSUR_LTV A)
WHERE prob > 0.85;
Download