В мире больших данных

advertisement
В мире
больших
данных
г. Астана, 2015 г .
ТЕКУЩИЕ ТЕХНОЛОГИЧЕСКИЕ ТРЕНДЫ В СФЕРЕ ИКТ
Большие Данные — это одна из четырех трендов в ИКТ, являющихся основой цифровой
революции
ПОВЕДЕНИЕ
Д ОСТУП
96% предприятий
планируют увеличить
объем инвестиций в
социальные СМИ
… в 2016 г.:
6 млрд абонентов
19,2 млрд евро
прибыли
КОНТЕКСТ


экспон. рост
объемов данных
каждые 10 минут
мы создаем 1
экзабайт данных
(1018)
Д ОСТАВКА
… в 2016 г.:
0,7% ВВП Германии
Персональные облака
приходят на смену
персональным
компьютерам
Источник: Gartner, Inc., The Nexus of Forces: Social, Mobile, Cloud and Information
ТЕМПЫ РОСТА РЫНКА БОЛЬШИХ ДАННЫХ ПО РЕГИОНАМ*
СЕВЕРНАЯ АМЕРИКА
2014: 1,32 Збайт**
2020: 3,89 Збайт
CAGR: 20%
СРЕДНИЙ ВОСТОК
И АФРИКА
2014: 0,09 Збайт
2020: 0,70 Збайт
CAGR: 40%
ЗАПАДНАЯ ЕВРОПА
2014: 0,60 Збайт
2020: 1,87 Збайт
CAGR: 20%
ЛАТИНСКАЯ
АМЕРИКА
2014: 0,23 Збайт
2020: 0,82 Збайт
CAGR: 23%
* Информация предоставлена по данным
хранящимся на облачных платформах
** Збайт (Зеттабайт) – единица
измерения количества информации,
равная 10^21 стандартным байтам
ВОСТОЧНАЯ И
ЦЕНТРАЛЬНАЯ ЕВРОПА
2014: 0,24 Збайт
2020: 1,02 Збайт
CAGR: 28%
АЗИЯ
2014: 1,36 Збайт
2020: 4,77 Збайт
CAGR: 24%
CAGR (Compound Annual Growth Rate/
Совокупный среднегодовой темп роста)
2015 год – всего в мире будет накоплено 7,9 збайта данных
• 2014 год 2 млрд событий ежедневно,
после обработки 400 Гбайт сжатых
данных.
• Мобильные устройства из интернета
вещей генерируют до 18% цифровой
информации, в целом накопленной в
мире за год.
• 60 Тбайт накоплено в облаках ритейлера Amazon
• 160 Тбайт накоплено в Hadoop,
• 120 Тбайт в HP Vertica.
• 2 ПБ (петабайт) данных генерирует автомобиль
за 600 часов езды в год.
Аналитический обзор рынка Big Data
http://habrahabr.ru/
КЛЮЧЕВЫЕ ГЕНЕРАТОРЫ ДАННЫХ
Google прекратил сообщать как много данных они хранят в
2010 (SEC filing): в то время это было 100 PBs
YouTube – порядки измеряются в Exabyte
•72+ ч видео загружаются на YouTube каждую минуту
•YouTube второй по использованию поисковый движок после Google
•Последние данные 768+ PBs, 3-4 года назад: точно больше Exabyte
сейчас
Facebook перевалил за миллиард пользователей в августе
2012
• Население планеты стало больше 7B в прошлом году: 1/6th – в Facebook
•35% мировых фотографий по оценкам в Facebook
Twitter - около 124 млрд tweets в год, в среднем 4500 в сек
Обмен сообщениями в мире 193,000 смс/сек
Источник: IBM
ХАРАКТЕРИСТИКИ БОЛЬШИХ ДАННЫХ
Растущий
Рост количества
Объем
50x
2010
35
ZB
Источников
30
Млрд.
Увеличивающееся
Разнообразие
RFID
сенсоров и
счетчиков
2020
Тем не менее, 1 из 3 руководителей
не доверяет информации которую он
использует для принятия решений
Источник: IDC, EMC, IBM
80% данных не
структурировано
ПРИМЕНЕНИЕ БОЛЬШИХ ДАННЫХ В ЦИФРОВОЙ ЭКОНОМИКЕ
Энергетика
Финансы
 Решения по рискам
 Анализ мнения клиентов
 Борьба с отмыванием денег
Транспорт
 Влияние погоды на генерацию
энергии
 Анализ данных от умных
счетчиков
ИТ
 Влияние погоды и
траффика на доставку и
потребление топлива
 Анализ логов от разных
транзакционных
систем
Колл центр
E Commerce
 Анализ расшифровок
разговоров для
понимания поведения
клиентов
Телко
 Анализ операций и сбоев сети
 Анализ поведения и
покупательских моделей
Интеграция каналов
взаимодействия
 Моделирование поведения клиентов
Источник: IDC, EMC, IBM
ПРИМЕРЫ ЭФФЕКТИВНОСТИ ПРИМЕНЕНИЯ БОЛЬШИХ ДАННЫХ В ЭКОНОМИКЕ
Управление надежностью, Безопасность, Лояльность, Энергоэффективность, Прогнозирование
Государственный сектор Безопасность: сокращен
акустический анализ с часов
до 70 миллисекунд
Энергетический сектор –
Управление надежностью:
прогнозирование аварий –
анализ 10 PB данных
за считанные минуты
Торговые сети –
Энергоэффективность :
на 50% сокращают
потребление электроэнергии
Финансовый сектор Лояльность: сокращается
перерасчет рисков с часов
до минут
Источник: R-style
Здравоохранение Прогнозирование: анализ
потоковых данных для
прогнозирования рисков
заболевания за 24 часа
Телекоммуникации - Лояльность:
анализируют данные о собственных
клиентах из различных источников,
сокращают отток и переход клиентов
на 27%
ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В КОРПОРАТИВНОЙ СРЕДЕ
HSBC
• Увеличена эффективность
службы безопасности в 3 раза
• Распознавание мошеннических
инцидентов в 10 раз
• Экономический эффект превысил
10 млн. долл. США
PROCTER & GAMBLE
• Проектируют новые продукты и
составляют глобальные
маркетинговые кампании
• У менеджмента компании появилась
возможность мгновенно проверять
гипотезы и проводить эксперименты
VISA
• Ежегодно система «Антифрод»
предотвращает мошеннические
платежи на сумму 2 млрд долл.
США.
CATERPILLAR
• Большие Данные позволяют
анализировать:
• Состояние ключевых узлов и
механизмов
• Степень износа деталей
• Управлять затратами на топливо и
техническое обслуживание
IBM
• Суперкомпьютер Watson на 15%
увеличил количество
выявленных мошеннических
операций в банковском секторе
• На 50% сократились ложные
срабатывания системы перевода
денежных средств
• На 60% увеличилась сумма
денежных средств защищенных
от ложных платежных
транзакций
LUXOTTICA GROUP
• Компания применяет БД для
анализа поведения потенциальных
клиентов и «умного» смсмаркетинга
• Компания выделила более 100 млн.
ценных клиентов и повысила
эффективность маркетинговой
кампании на 10%.
ГОТОВНОСТЬ КАЗАХСТАНА К БОЛЬШИМ ДАННЫМ
• АРХИВНЫЕ ДАННЫЕ (оцифрованные и не оцифрованные) министерств
(МФ, МЮ, МЗСР РК и т.д.) и ведомств (налоговый комитет, таможенный
комитет и другие)
• ГЕОЛОКАЦИОННЫЕ ДАННЫЕ (спутники, магистральные газо- и
нефтепроводы, железнодорожные и автомагистрали и т.д.) и
картографические данные (в том числе земельные, территориальные)
профильных организаций.
• ПРОМЫШЛЕННЫЕ И ТЕХНИЧЕСКИЕ ДАТЧИКИ (светофоры, камеры
слежения, GPS-трекеры, счетчики различных видов энергии, системы
электронных очередей, медицинские датчики и многое другое)
• ERP-СИСТЕМЫ, учетные информационные системы и прочие
информационные системы государственных органов и иных
организаций представляющие практический интерес для анализа
• ФИНАНСОВЫЕ ДАННЫЕ (платежные транзакции банков и
казначейства)
• ИНТЕРНЕТ ДАННЫЕ (социальные сети и другие интернет-источники)
ИНФРАСТРУКТУРА ДЛЯ СБОРА И ХРАНЕНИЯ БОЛЬШИХ ДАННЫХ
• Центры Обработки Данных (ЦОД) государственных органов и
подведомственных организаций (в том числе и региональные
• Телекоммуникационные каналы связи (оптические, медные,
беспроводные, спутниковые, сотовые)
• Интернет (проводной, беспроводной, 3G ,4G) –
в настоящее время охват составляет 74% населения РК.
ҚАЗАҚСТАН РЕСПУБЛИКАСЫ
ИНВЕСТИЦИЯЛАР ЖӘНЕ
ДАМУ МИНИСТРЛІГІ
ПРИМЕР ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В «УМНОМ ГОРОДЕ»
WiFi
Уличное
освещение
Камеры
видеонаблюдения
Табло
дорожного
движения
Монитор
отображения
информации
Парковочные
терминалы
Парковочные
терминалы
Светофор
Анализ информации поступающей со всех датчиков в городе
позволит принимать оперативные решения, в том числе и
автоматизированные, а также в реальном режиме времени
Датчик
доступа
Датчик доступа
БОЛЬШИЕ ДАННЫЕ В ГОСУДАРСТВЕННОМ СЕКТОРЕ
• Обеспечение индивидуального подхода
к процессу обучения ребенка
• Прогнозирование и диагностика
заболеваний по целевым группам
• Разработка лекарств точечного
использования нового поколения
• Создание общественно-ориентированного
правительства с персонифицированным
подходом для обеспечения прямого контакта
с каждым гражданином.
ИСПОЛЬЗОВАНИЕ БОЛЬШИХ ДАННЫХ В ПРОЕКТЕ ЭЛЕКТРОННОГО
ПРАВИТЕЛЬСТВА РК
Лаборатория Больших Данных
Аккредитация
август 2014
Исследование
По анализу профиля пользователя портала электронного
правительства – получателя государственных услуг и его
лояльности с использованием технологий больших данных
Цель проекта
• Повышение качества и доступности государственных услуг
• Установление обратной связи с пользователями портала
электронного правительства и получателями государственных услуг
• Расширение видов каналов предоставления
государственных услуг для конечного потребителя
Источники данных:
• Портал электронного правительства
• Электронные обращения граждан через
почтовые сервисы
• СМС сообщения и звонки в единый контактЦентр
• Социальные сети и другие интернет-источники
Результат анализа:
Набор данных по предоставляемым
государственным услугам (их рейтинг,
востребованность, качество и т.д.).
На основе полученных данных будут выработаны
рекомендации для улучшения качества и состава
государственных услуг.
ФОРМИРОВАНИЕ ЭКОСИСТЕМЫ БОЛЬШИХ ДАННЫХ
Основные вопросы:
 Подготовка нового поколения ИКТ специалистов
 Обеспечение необходимой инфраструктуры
связи
 Принятие стандартов по сбору, обработки и
анализу данных в производстве
 Популяризация аналитики, как неотъемлемой
компоненты в работе каждого специалиста
независимо от отрасли
Через 3 – 5 лет:
 Увеличение прикладных исследований в Data
Science
Спасибо
за внимание!
Download