Большие данные

advertisement
БОЛЬШИЕ ДАННЫЕ
Н.А. Герасименко,
к.э.н., доцент кафедры «Информационные технологии»
В настоящее время достаточно часто употребляется и приобретает
особую актуальность термин «большие данные» (Big Data). Как следует из
названия, данный термин связан с управлением и анализом данных, имеющих
значительный объем. Этим термином определяют такие наборы данных,
объем которых превышает потенциал ординарных БД в части ввода, хранения
и анализа информации.
Ключевой характеристикой «больших данных» является информация,
отличающаяся сверхбольшим объемом, многообразием состава, достаточно
частыми обновлениями и различными источниками, использующаяся для
оптимизации деятельности компании, увеличения конкурентоспособности и
разработки новых продуктов.
К источникам больших данных можно отнести следующие: данные
измерительных устройств и устройств аудио- и видеорегистрации, данные об
абонентах сотовой связи, сообщения из социальных сетей, метеорологические
данные и др. На сегодняшний день нет практически ни одной сферы
деятельности, не охваченной распространением больших данных; особенно
это касается научно-исследовательской работы и государственного управления,
а также коммерческого сектора.
В
результате
опроса
независимой
аналитической
компании
«InsightExpress», проведенного в 18 странах, был определен уровень
подготовленности IT-отделов к выполнению проектов Big Data, выяснены их
стратегическая значимость, а также технологические проблемы, сопутствующие
их внедрению. Так, 60% от общего числа респондентов (3600 чел.) считают Big
Data
способными
оптимизировать
процессы
1
принятия
управленческих
решений; и только 28% сообщили, что накопленная информация приносит
действительные стратегические преимущества.
Анализ больших данных проводится на базе целого ряда методик,
основанных на инструментарии, почерпнутом из информатики и статистики.
Необходимо отметить, что точность и релевантность данных, получаемых в
результате анализа по той или иной методике, напрямую зависят от размера и
диверсифицируемости анализируемого массива. Рассмотрим наиболее часто
используемые методики (см. табл. 1).
Таблица 1. Методики анализа больших данных
A/B testing
Методика,
ориентированная
на
поочередное
сравнение
контрольной выборки с другими. При этом выявляется наилучшая
комбинация показателей, для достижения, скажем, желаемой
ответной реакции потребителей на маркетинговое предложение.
Статистическая достоверность результата достигается выполнением
многочисленных итераций.
Association
rule Совокупность методик, направленных на выявление взаимосвязей,
learning
или ассоциативных правил между переменными величинами в
больших массивах данных (применяется в Data Mining).
Classification
Совокупность методик, позволяющих спрогнозировать поведение
потребителей в определенном сегменте рынка (применяется в Data
Mining).
Cluster analysis
Метод классификации объектов по группам с выявлением заранее
неизвестных общих признаков (применяется в Data Mining).
Crowdsourcing
Методика сбора данных их большого количества источников.
Data fusion and Совокупность методик, ориентированных на анализ комментариев
data integration
пользователей социальных сетей и на сравнение их с результатами
продаж в режиме реального времени.
Data mining
Совокупность методов обнаружения в данных ранее неизвестных,
нетривиальных, практически полезных и доступных интерпретации
знаний, необходимых для принятия решений в различных сферах
человеческой деятельности. С помощью этих методов могут
определяться категории потребителей, наиболее восприимчивых
для продвигаемого продукта или услуги, выявляться качества
успешных работников, прогнозироваться поведенческая модель
потребителей.
Ensemble learning
Метод располагает широким спектром предикативных моделей, что
делает прогнозирование максимально эффективным.
Genetic algorithms Для данного метода характерно, что возможные решения выступают
в виде «хромосом», способных комбинироваться и мутировать (по
аналогии с процессом естественной эволюции выживает лишь
2
наиболее адаптировавшаяся особь).
Направление,
ориентированное
на
создание
алгоритмов
самообучения на основе эмпирических данных, - искусственный
интеллект.
Natural language Совокупность методик распознавания естественного языка
processing
человека, заимствованных из информатики и лингвистики.
Network analysis
Совокупность методик для анализа связей между узлами в сетях. В
социальных сетях дает возможность исследовать взаимосвязи
между отдельными пользователями, компаниями, сообществами и
др.
Optimization
Совокупность численных методов для редизайна сложных систем и
процессов, направленная на улучшение одного или нескольких
показателей, поддерживающая принятие стратегических решений.
Pattern recognition Совокупность методик с элементами самообучения для
прогнозирования поведенческой модели потребителей.
Predictive modeling Совокупность методик, нацеленных на создание математической
модели, предваряющей заданный вероятный сценарий развития
событий.
Regression
Совокупность
статистических
методов
для
обнаружения
закономерности между изменением зависимой переменной и
одной или несколькими независимыми. Применяется в
прогнозировании и Data Mining.
Sentiment analysis
Методика оценки настроений потребителей, основанная на
технологии распознавания естественного языка человека. Дает
возможность выделить из общего информационного потока
сообщения, относящиеся к интересующим предметам, и оценить
полярность суждения.
Signal processing
Совокупность методик, взятая из радиотехники, направленная на
распознавание сигнала на фоне шума и его последующий анализ.
Spatial analysis
Ряд методик (часть которых заимствована из статистики) анализа
пространственных данных – топологии местности, географических
координат, геометрии объектов. В данном случае источником
больших данных являются геоинформационные системы.
Statistics
Наука о сборе, организации и интерпретации данных.
Статистические методы нередко используются для оценочных
суждений о взаимосвязях между различными событиями.
Supervised learning Совокупность методик, базирующаяся на технологиях машинного
обучения, для определения функциональных взаимосвязей в
исследуемых массивах данных.
Simulation
Методики моделирования поведения сложных систем, основное
назначение которых – прогнозирование и проработка возможных
сценариев при планировании.
Time series analysis Совокупность методов анализа (почерпнутых из статистики и
цифровой
обработки
сигналов)
повторяющихся
последовательностей данных. Как правило, применяется для
мониторинга рынка ценных бумаг или заболеваемости пациентов.
Unsupervised
Совокупность методик, базирующаяся на технологиях машинного
learning
обучения, для определения функциональных взаимосвязей в
Machine learning
3
Visualization
исследуемых массивах данных (прослеживается некоторая аналогия
с Cluster Analysis).
Ряд методов графического представления результатов анализа
больших данных
(используется для более легкой их
интерпретации).
Корпорацией IBM были разработаны новые решения - Smarter Analytics
Signature Solutions, нацеленные на обнаружение
фактов мошенничества,
оценку рисков и исследования поведения потребителей.
Одно из них, Anti-fraud, Waste & Abuse, создано для мгновенного
выявления фактов мошенничества, сопряженных c проблемой уклонения от
уплаты налогов и страховыми выплатами.
Основной
целью
создания
решения
Next
Best
Action является
совершенствование взаимоотношений с клиентами в компаниях. Оно
ориентировано как на анализ данных, аккумулированных в корпоративной
CRM-системе, так и на исследование внешней информации. По завершению
работы предусмотрено формирование совокупности рекомендаций в части
последующих действий, учитывающих поведенческие модели и преференции
каждого клиента.
Решение CFO Performance Insight было создано исходя из ситуации,
характеризующейся непомерно высокими темпами наращивания объемов
финансовой информации в компаниях (около 70% в год). Преимуществами
предлагаемого
инструментария
являются
What-If
анализ,
возможность
ориентироваться на финансовые показатели предыдущих периодов и
прогнозирование на базе полученных данных.
Одна из важнейших целей, стоящих сегодня перед IT-подразделениями
– преодолеть проблему огромного разнообразия данных, появляющихся в
итоге колоссального количества различных транзакций и взаимодействий.
Здесь необходимо учитывать тот факт, что задачи, связанные с большими
данными, имеют принципиально новую направленность, и при их решении
4
следует принимать во внимание ограничения на капитальные и текущие
затраты, накладываемые бюджетом.
Для максимально эффективной работы с большими данными (как
структурированными, так и неструктурированными) IT-специалистам следует
иметь ввиду некоторые технические соображения.
1. Немаловажную роль играют интеграция и перемещение данных; но в
результате применения этих подходов возрастают издержки на
инструментарий извлечения, преобразования и загрузки информации.
В данном случае не стоит сбрасывать со счетов возможности
стандартных реляционных сред (например, Oracle) и аналитических
хранилищ данных (скажем, Teradata).
2. Еще две технологии, на которые следует обратить особое внимание
при работе с большими данными, - это компрессия (в частности,
многоуровневая, благодаря которой объем «сырых» данных может
сокращаться в десятки раз) и дедупликация.
3. Глубина
и
сложность
запросов
для
бизнес-аналитики
могут
варьировать в зависимости от сложившихся условий. В некоторых
случаях для получения искомой информации используется SQLзапросы, но в каких-то ситуациях требуются
более глубокие
аналитические запросы. Их реализация предполагает применение
инструментов,
обладающих
бизнес-интеллектом.
Для
предотвращения значительного возрастания операционных затрат
нужно четко прорабатывать перечень необходимого открытого ПО и
патентованных технологий.
4. Существует множество компаний, которые в силу тех или иных причин
должны хранить немалые объемы данных, а также реализовывать
доступ к ним. Для них возможными являются две альтернативы:
5
 вертикальное масштабирование (scale vertically или scale up),
когда добавляются ресурсы на один вычислительный узел. Для
этого требуется компьютер гораздо большей мощности, в
котором будут увеличены оперативная память, количество
процессоров, дисковое пространство и др.;

горизонтальное масштабирование (scale horizontally или scale
out), в основе которого присоединение дополнительных
вычислительных узлов. При этом распределение работы в
системе производится с учетом уже добавленных компьютеров.
Высокая надежность решения, построенного горизонтальным
масштабированием, обеспечивается объединением недорогих
стандартных маломощных компьютеров в кластер, обладающий
вычислительной мощностью суперкомпьютера.
Чем же отличаются
большие данные
от бизнес-аналитики? На
сегодняшний день бизнес-аналитика представляет собой процесс отображения
анализа результатов бизнеса за определенный период времени, а большие
данные, при соответствующей скорости обработки, дают возможность сделать
такой анализ не только прогностическим, но и рекомендательным. Кроме того,
технологии больших данных по сравнению со средствами бизнес-аналитики
могут использовать большее количество типов данных, что позволяет
ориентироваться не на одни лишь структурированные хранилища.
Основные отличия больших данных от бизнес-аналитики – следующие:
1. Если отталкиваться от общепринятой формулировки понятия больших
данных, то совершенно очевидно, что они призваны обрабатывать
гораздо большие объемы информации, нежели бизнес-аналитика.
2. Большие данные позволяют проводить более глубокие исследования,
обеспечивая при этом возможность работы в интерактивном режиме
6
(обрабатываемые сведения поступают и модифицируются более
оперативно).
3. Как
правило,
технология
Big
Data
нацелена
на
обработку
неструктурированных данных; методы их применения чаще всего
изучаются уже после решения проблем, связанных со сбором и
хранением таких данных. Становится необходимым соответствующий
инструментарий, упрощающий процесс поиска тенденций, имеющихся
в массивах подобных данных.
4. Работа с Big Data существенно отличается от ординарного процесса
бизнес-аналитики, при котором результат может достигаться простым
сложением известных величин. Большие данные требуют особого
подхода при работе с ними - для получения результата необходимо их
очистить посредством последовательного моделирования. Суть его
заключается в следующем: прежде всего, выдвигается гипотеза, затем
строится модель (визуальная, статистическая или семантическая), на
базе
этой
модели
выдвинутая
гипотеза
проверяется
на
безошибочность, после чего выдвигается следующая. Характерной
чертой данного процесса является необходимость интерпретации
исследователем
интерактивных
визуальных
запросов,
значений
основанных
или
на
формирования
знаниях.
Может
потребоваться также создание адаптивных алгоритмов «машинного
обучения», направленных на получение заданного результата. Что же
касается времени жизни такого алгоритма, то оно может быть весьма
непродолжительным.
Важнейшую
роль
при
интерпретации
больших
данных
играет
визуализация или наглядное представление результатов их анализа. Наиболее
актуальными являются следующие методы визуализации: облако тегов,
7
кластерграмма, исторический и пространственный потоки. Рассмотрим их
подробнее.
В
облаке
коэффициент,
тега
каждый
коррелирующий
элемент
с
получает
размером
некоторый
шрифта.
Величина
весовой
такого
коэффициента (в процессе анализа текста) самым непосредственным образом
зависит от того, как часто цитируется какое-то конкретное слово или же
словосочетание. Читатель может за минимальное количество времени
определить наиболее существенные аспекты текста или совокупности текстов
безотносительно их объемов.
Метод визулизации, применяющийся при кластерном анализе, кластерграмма,
отображает
соотношение
отдельных
составляющих
множества данных с кластерами по мере изменения их количества. Одним из
главных элементов кластерного анализа можно назвать выбор оптимального
количества кластеров.
Основное назначение исторического потока – отслеживание эволюции
документа, генерируемого сразу большим количеством авторов. Подобная
ситуация обычно свойственна сервисам wiki. Графически это выглядит так:
горизонтальная ось отображает время, вертикальная – вклад каждого из
соавторов (а именно – объем введенного текста). На диаграмме уникальность
каждого из соавторов показывается определенным цветом.
В свою очередь, пространственный поток, как следует из названия,
предназначен
для
мониторинга
пространственного
распределения
информации.
И, тем не менее, несмотря на очевидные достоинства технологии Big
Data, проблем с большими данными пока хватает. Возьмем, к примеру,
производительность: системы хранения данных серьезно отстают по этому
показателю от современных вычислительных систем. Очевидным является и то,
что хотя и произошло многократное увеличение доступных объемов
8
информации (при этом они все еще в дефиците) и существенно снижена
стоимость ее хранения в пересчете на бит, - по-прежнему скорость извлечения
и поиска необходимой информации достаточно невысока.
Говоря о современных технологиях хранения информации, следует
отметить, что за последнее время особого прогресса они не претерпели. Как и
прежде, в ходу жесткие диски со скоростью вращения на уровне 15 тыс.
об./мин. (и это - в самых дорогостоящих моделях!). Что же касается больших
данных, то они в подавляющем большинстве случаев размещаются на
накопителях, имеющих скорость вращения 7,2 тыс. об./мин.
Для того чтобы использовать большие данные с максимальной
эффективностью,
необходимо
преодолеть
технологическое
отставание,
заключающееся в следующем:
 при постоянном увеличении информационных потоков извлечение
из них выгоды имеет определенную сложность;
 все
более
ощутимыми
становится
недостаток
доступного
пространства в системах хранения данных, а также затруднения в
доступе к искомым данным;
 еще один немаловажный аспект – дефицит вычислительных
мощностей и высококвалифицированного персонала.
Сложившаяся ситуация усугубляется еще и тем, что IT-менеджеры не
располагают технологиями и приложениями, в полной мере соответствующими
требованиям реальных задач, решение которых могло бы существенно
повысить ценность больших данных.
9
Download