Технология Data Mining в бизнесе

advertisement
Хашукаева З. З., студент 1 курса
ФГБОУ ВПО МГТУ, г. Майкоп
Научный руководитель:
к. п. н., доц. Паскова А.А.
ТЕХНОЛОГИЯ DATA MINING В БИЗНЕСЕ
В
современных
условиях
деятельность
любого
предприятия
сопровождается регистрацией и записью всех подробностей его деятельности.
Мощные компьютерные системы, хранящие и управляющие огромными базами
данных, стали неотъемлемым атрибутом жизнедеятельности, как крупных
корпораций, так и даже небольших компаний.
Корпоративная база данных любого современного предприятия обычно
содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах.
Совокупность большого количества таких записей, накопленных за несколько
лет, может стать источником дополнительной, гораздо более ценной
информации, которую нельзя получить на основе одной конкретной записи, а
именно — сведений о закономерностях, тенденциях или взаимозависимостях
между какими-либо данными.
Подобного рода информация обычно используется при прогнозировании,
стратегическом планировании, анализе рисков, и ценность ее для предприятия
очень высока.
Любое планирование связано с анализом прошлого и текущего опыта и
прогнозом развития ситуации в будущем. Для обработки «сырых» данных в
базах данных необходимо обеспечить:
1. Эффективный механизм администрирования данных, позволяющий
выполнять необходимые запросы и выборки в короткие сроки без искажения
данных.
2. Механизм анализа «сырых» данных с целью получить полезные знания
в предметной области.
Сегодня для анализа данных наиболее часто используются средства OLAP
и Data Mining. Средства OLAP (online analytical proceeding, оперативная
аналитическая обработка данных) первоначально были разработаны для
обеспечения механизма администрирования и используют идею многомерного
концептуального представления данных в виде гиперкубов. OLAP методы
также подразумевают и некоторую обработку данных, а именно, обработку
аналитических запросов через проверку предварительно сформированных
гипотез об информации, содержащейся в «сырых» данных. Средства Data
Mining представляют собой набор инструментов направленных на извлечение
неявной, прежде неизвестной и потенциально полезной информации из
больших массивах данных. Получение знаний происходит (в отличие от OLAP)
без участия человека, за счет использования алгоритмов и методов
интеллектуальных технологий, не требующих априорных предположений об
искомой структуре знаний.
Термин Data Mining обозначает не столько конкретную технологию,
сколько
сам
процесс
поиска
корреляций,
тенденций,
взаимосвязей
и
закономерностей посредством различных математических и статистических
алгоритмов:
кластеризации,
создания
субвыборок,
регрессионного
и
корреляционного анализа. Цель этого поиска — представить данные в виде,
четко отражающем бизнес-процессы, а также построить модель, при помощи
которой можно прогнозировать процессы, критичные для планирования
бизнеса.
В основу современной технологии Data Mining положена концепция
шаблонов, отражающих закономерности, свойственные подвыборкам данных.
Поиск шаблонов производится методами, не использующими никаких
априорных предположений об этих подвыборках. Если при статистическом
анализе или при применении OLAP обычно формулируются вопросы типа
«Каково среднее число неоплаченных счетов заказчиками данной услуги?», то
применение Data Mining, как правило, то подразумевает ответы на вопросы типа
«Существует ли типичная категория клиентов, не оплачивающих счета?». При
этом
именно
ответ
на
второй
вопрос
нередко
обеспечивает
более
нетривиальный подход к маркетинговой политике и к организации работы с
клиентами.
Средства Data Mining отличаются от инструментов статистической
обработки данных и средств OLAP тем, что вместо проверки заранее
предполагаемых пользователями взаимозависимостей они на основании
имеющихся
данных
способны
находить
такие
взаимозависимости
самостоятельно и строить гипотезы об их характере.
Сфера применения Data Mining ничем не ограничена - она везде, где
имеются какие-либо данные. Но, в первую очередь, методы Data Mining
используют коммерческие предприятия, развертывающие проекты на основе
информационных
хранилищ
данных
(Data
Warehousing).
Data
Mining
представляет большую ценность для руководителей и аналитиков в их
повседневной действительности.
Рассмотрим некоторые основные направления использования Data Mining
в бизнесе.
Банковское дело.
Анализ
исторической
кредитоспособности
клиента.
Такие
(ретроспективной)
информации
и
системы
при
на
помощи
основе
методов
классификации выявляют клиентов, которые в прошлом не вернули кредит.
Совокупность клиентов банка разбивается на два класса (вернувшие и не
вернувшие кредит); на основе группы клиентов, не вернувших кредит,
определяются
основные
"черты"
потенциального
неплательщика;
при
поступлении информации о новом клиенте определяется его класс ("вернет
кредит", "не вернет кредит").
Сегментация клиентов. Разбивая клиентов на различные категории,
банки делают свою маркетинговую политику более целенаправленной и
результативной, предлагая различные виды услуг разным группам клиентов. С
помощью инструментов Data Mining возможно провести классификацию на
"более выгодных" и "менее выгодных" клиентов. После определения наиболее
выгодного сегмента клиентов банку есть смысл проводить более активную
маркетинговую политику по привлечению клиентов именно среди найденной
группы.
Прогнозирование изменений клиентуры. Data Mining помогает банкам
строить прогнозные модели ценности своих клиентов, и соответствующим
образом обслуживать каждую категорию.
Управление ликвидностью банка. Прогнозирование остатка на счетах
клиентов. Проводя прогнозирования временного ряда с информацией об
остатках на счетах клиентов за предыдущие периоды, применяя методы Data
Mining, можно получить прогноз остатка на счетах в определенный момент в
будущем. Полученные результаты могут быть использованы для оценки и
управления ликвидностью банка.
Выявление мошенничества с кредитными карточками. Путем анализа
прошлых транзакций, которые впоследствии оказались мошенническими, банк
выявляет некоторые стереотипы такого мошенничества. Если система Data
Mining считает очередную операцию подозрительной, банковский работник
может, ориентируясь на эту информацию, заблокировать операции с
определенной карточкой.
Страхование
Страховой бизнес связан с определенным риском. Здесь задачи, решаемые
при помощи Data Mining, сходны с задачами в банковском деле.
Информация, полученная в результате сегментации клиентов на группы,
используется для определения групп клиентов. В результате страховая
компания может с наибольшей выгодой и наименьшим риском предлагать
определенные группы услуг конкретным группам клиентов.
Задача выявление мошенничества решается путем нахождения некого
общего стереотипа поведения клиентов-мошенников.
Розничная торговля и маркетинг.
В сфере розничной торговли, как и в маркетинге, применяются:

алгоритмы поиска ассоциативных правил (для определения часто
встречающихся
наборов
товаров,
которые
покупатели
покупают
одновременно). Выявление таких правил помогает размещать товары на
прилавках торговых залов, вырабатывать стратегии закупки товаров и их
размещения на складах и т.д.

использование временных последовательностей, например, для
определения необходимых объемов запасов товаров на складе.

методы классификации и кластеризации для определения групп или
категорий клиентов, знание которых способствует успешному продвижению
товаров.
Вот типичные задачи, которые можно решать с помощью Data Mining в
сфере розничной торговли:
-
анализ покупательской корзины (анализ сходства) предназначен для
выявления товаров, которые покупатели стремятся приобретать вместе.
-
исследование временных шаблонов помогает торговым предприятиям
принимать решения о создании товарных запасов.
-
создание
прогнозирующих
моделей
дает
возможность
торговым
предприятиям узнавать характер потребностей различных категорий
клиентов с определенным поведением, например, покупающих товары
известных дизайнеров или посещающих распродажи.
Телекоммуникации.
В
сфере
телекоммуникаций
достижения
Data
Mining
могут
использоваться для решения задачи, типичной для любой компании, которая
работает с целью привлечения постоянных клиентов, - определения лояльности
этих клиентов. Необходимость решения таких задач обусловлена жесткой
конкуренцией на рынке телекоммуникаций и постоянной миграцией клиентов
от одной компании в другую. Как известно, удержание клиента намного
дешевле
его
возврата.
Поэтому
возникает
необходимость
выявления
определенных групп клиентов и разработка наборов услуг, наиболее
привлекательных именно для них.
Промышленное производство
Особенности промышленного производства и технологических процессов
создают хорошие предпосылки для возможности использования технологии
Data Mining в ходе решения различных производственных задач. Технический
процесс по своей природе должен быть контролируемым, а все его отклонения
находятся в заранее известных пределах; т.е. здесь мы можем говорить об
определенной стабильности, которая обычно не присуща большинству задач,
встающих перед технологией Data Mining.
Фондовый рынок.
К задачам фондового рынка, которые можно решать при помощи
технологии Data Mining.
-
прогнозирование
будущих
значений
финансовых
инструментов
и
индикаторов по их прошлым значениям;
-
прогноз тренда (будущего направления движения - рост, падение, флэт)
финансового инструмента и его силы (сильный, умеренно сильный и т.д.);
-
выделение кластерной структуры рынка, отрасли, сектора по некоторому
набору характеристик;
-
динамическое управление портфелем;
-
прогноз волатильности;
-
оценка рисков;
-
предсказание наступления кризиса и прогноз его развития;
-
выбор активов и др.
Кроме описанных выше сфер деятельности, технология Data Mining
может применяться в самых разнообразных областях бизнеса, где есть
необходимость в анализе данных и накоплен некоторый объем ретроспективной
информации.
Внедрение методов интеллектуального анализа данных – очередной этап
процесса, развивающегося с начала XX века. Игнорировать интеллектуальный
анализ данных невозможно. Применяемые для него методы многочисленны, а
преимущества, открываемые в результате выявления новых знаний, – огромны.
Литература
1. Институт профессиональных инноваций / Видеолекция Data mining. Информационные
технологии
управления.
//
[Электронный
ресурс]
/
Режим
доступа:
http://www.distanz.ru/videoLecture/2072/
2. Информационная
система
"Конференции"
/
Международная
конференция
«Вычислительные и информационные технологии в науке, технике и образовании» /
СППР на базе интеллектуальных информационных технологий Data Mining для задач
бюджетного управления / Сопов Е.А. // [Электронный ресурс] / Режим доступа:
http://www.ict.nsc.ru/ws/show_abstract.dhtml?ru+186+13666
Download