ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ «ЭДВАНСЕД ТРАНСФОРМЕЙШН КОНСАЛТИНГ»

advertisement
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ
«ЭДВАНСЕД ТРАНСФОРМЕЙШН КОНСАЛТИНГ»
(ООО «ЭйТи Консалтинг»)
УТВЕРЖДАЮ
Генеральный директор
ООО «ЭйТи Консалтинг»
___________________С.А. Шилов
«__» _______________ 2014 г.
ОТЧЕТ
О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ
по теме:
«ИССЛЕДОВАНИЕ ВОПРОСОВ ПРИМЕНЕНИЯ НОВЫХ
ТЕХНОЛОГИЙ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ
В СФЕРЕ ИНФОРМАТИЗАЦИИ КУЛЬТУРЫ»
(заключительный)
Государственный контракт от 30 сентября 2014 г. № 4236-01-41/01-14
Руководитель НИР
к.т.н.
_______________
Бхуян Ш. А.
подпись, дата
Нормоконтролер
_______________
подпись, дата
Москва 2014
Орлов В.А.
СПИСОК ИСПОЛНИТЕЛЕЙ
Ш. А. Бхуян
Руководитель темы,
Ведущий архитектор
к.т.н.
«__» ________ 2014 г.
Исполнители темы:
Менеджер
ООО «ЭйТи Консалтинг»
Аналитик
ООО «ЭйТи Консалтинг»
Эксперт
ООО «ЭйТи Консалтинг»
Ведущий консультант
ООО «ЭйТи Консалтинг»,
к. э. н
Ведущий консультант
ООО «ЭйТи Консалтинг»
Старший консультант
ООО «ЭйТи Консалтинг»
Нормоконтролер
В.Ю. Баранов (реферат, введение,
раздел 1-4, заключение)
«__» ________ 2014 г.
Ю.П. Романова (реферат, введение,
раздел 1-3)
«__» ________ 2014 г.
А.А. Кузьмина (раздел 3.5)
«__» ________ 2014 г.
Е. В. Фиалко (реферат, введение,
раздел 1-4, заключение)
«__» ________ 2014 г.
А.А. Беднов (раздел 3.5)
«__» ________ 2014 г.
О.А. Моря (введение, раздел 1-3)
«__» ________ 2014 г.
«__» ________ 2014 г.
2
В.А. Орлов (реферат, введение, раздел
1-4, заключение)
РЕФЕРАТ
Отчет: страниц 121, таблиц 7, рисунков 11.
Ключевые слова: автоматизация, источники данных, технологии обработки больших данных,
информатизация культуры, Big Data, повышение эффективности, Минкультуры России.
Объектом
исследования
являются
рабочие
процессы,
составляющие
основу
функциональной деятельности структурных подразделений Минкультуры России, а также
возможность и целесообразность их автоматизации с использованием технологий обработки
больших данных.
Целью работы является исследование возможности и научно-техническое обоснование
принятия решения по выбору информационных технологий Big Data в сфере информатизации
культуры в интересах Министерства культуры Российской Федерации.
Для достижения поставленной цели были решены следующие задачи:

Изучение организационной, функциональной и информационной инфраструктуры
Минкультуры России;

Выявление актуальных и приоритетных задач в сфере информатизации культуры,
решаемых структурными подразделениями Минкультуры России, для повышения
эффективности выполнения которых могут быть использованы технологии обработки и
анализа больших массивов данных (Big Data);

Обследование и анализ технологии Big Data на предмет используемого аналитического
инструментария, архитектурных и инфраструктурных требований;

Исследование российского и зарубежного опыта применения технологии Big Data,
краткое
описание
найденных
высокоэффективных
или
высоко-результативных
решений, не применяющихся и не имеющих аналогов в Министерстве культуры
Российской Федерации;

Формирование выводов и предложений по вариантам использования технологии Big
Data в интересах Министерства культуры Российской Федерации на основании оценки
покрытия существующих потребностей Минкультуры России в автоматизации
деятельности в сфере информатизации культуры, степени соответствия функционала
современных технологий анализа и обработки больших данных (Big Data) решаемым
задачам, а также с учетом результатов анализа российского и зарубежного опыта;
3

Оценка
ожидаемого
информатизации
результата
культуры
в
применения
интересах
технологии
Министерства
Big
Data
культуры
в
сфере
Российской
Федерации.
В ходе исследования применялись различные методы исследования проблематики, включая
методы анализа, синтеза, логический и сравнительный методы, метод аналогий, оценок,
формально-юридический и иные методы.
Общенаучные методы системного и логического подхода позволили выявить основные
тенденции и закономерности развития изучаемого объекта. Сравнительный метод использовался
для сопоставления различных подходов к решению рассматриваемых проблем, позволил
сопоставить их с целью выявления сходств и различий.
Результатами работы будет итоговый аналитический отчет, в который войдут:

Обследование организационной, функциональной и информационной структуры
Минкультуры России;

Оценка текущей автоматизации основной деятельности Минкультуры России,
входящей в организационные границы проекта, в сфере информатизации культуры,
связанной с обработкой больших массивов данных;

Анализ опыта применения информационных технологий, связанных с обработкой
больших массивов данных;

Оценка целесообразности и возможности адаптации информационных технологий к
прикладным задачам Минкультуры России в сфере информатизации культуры,
связанной с обработкой больших данных;

Рекомендации по практическому использованию информационных технологий для
обработки больших данных в сфере информатизации культуры в интересах
Минкультуры России.
Рекомендации по внедрению результатов НИР состоят в необходимости создания единого
информационного пространства и интеграции ключевых систем, используемых в текущей
деятельности департаментов Министерства, на основе комплексного решения, включающего в
себя технологии Big Data.
Область применения результатов НИР: структурные подразделения Минкультуры России.
Значимость
работы заключается в том, что
выявлена возможность
повышения
эффективности процессов решения актуальных задач в сфере информатизации культуры, стоящих
перед Министерством, а также возможность обеспечения всех уровней контроля достоверной и
оперативной информации, обеспечивающей принятие своевременных управленческих решений за
счет внедрения единого информационного пространства.
4
СОДЕРЖАНИЕ
ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ ..........................................................................7
ВВЕДЕНИЕ ..................................................................................................................................................8
1
НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ И ОПИСАНИЕ ВЫБРАННОЙ ОБЩЕЙ
МЕТОДИКИ ...............................................................................................................................................10
2
ОБСЛЕДОВАНИЕ СУЩЕСТВУЮЩЕЙ СХЕМЫ ОРГАНИЗАЦИИ РАБОТЫ
МИНКУЛЬТУРЫ РОССИИ......................................................................................................................11
2.1
Обследование основных направлений деятельности Минкультуры России ........................11
2.1.1 Результаты
обследования
деятельности
функциональных
подразделений
Минкультуры России........................................................................................................................ 15
2.1.2 Результаты обследования информационных потоков Минкультуры России ............... 21
2.2 Обследование вопроса текущей автоматизации деятельности Минкультуры России ........24
2.3 Общие выводы по обследованию основных направлений деятельности
Минкультуры России.............................................................................................................................30
3
ИССЛЕДОВАНИЕ ВОПРОСОВ ПРИМЕНИМОСТИ ТЕХНОЛОГИИ BIG DATA К
НАПРАВЛЕНИЯМ ДЕЯТЕЛЬНОСТИ МИНКУЛЬТУРЫ РОССИИ ..................................................34
3.1
3.2
3.3
Обзор технологии Big Data.........................................................................................................34
Характеристика рынка Big Data .................................................................................................43
Исследование опыта применения технологии Big Data в различных индустриях ...............52
3.3.1 Результаты анализа опыта успешного и эффективного применения технологии Big
Data на мировом и российском рынках .......................................................................................... 52
3.3.2 Потенциальные возможности технологии Big Data, которые могут быть полезными в
сфере деятельности Минкультуры России ..................................................................................... 59
3.4 Оценка возможности адаптации технологии Big Data к прикладным задачам
Минкультуры России.............................................................................................................................64
3.4.1 Категории бизнес-процессов на предмет допустимого использования технологии .... 64
3.4.2 Концепция перевода деятельности Минкультуры России на использование
технологии Big Data .......................................................................................................................... 64
3.4.3 Оценка ожидаемого результата применения технологии Big Data в Минкультуры
России 69
3.5 Формирование предложений для Минкультуры России по вариантам использования
технологии Big Data ...............................................................................................................................72
3.5.1 Базовый алгоритм для геоаналитических задач ............................................................... 79
3.5.2 Базовый алгоритм для задач по машинному обучению .................................................. 79
3.5.3 Реальная оценка посещаемости гражданами культурно-массовых мероприятий ....... 80
3.5.4 Реальная оценка полезности проводимых ведомством культурно-массовых
мероприятий, анализ общественного мнения ................................................................................ 84
3.5.5 Анализ зоны влияния учреждений культуры в зависимости от их расположения на
5
популяризацию культуры................................................................................................................. 86
3.5.6 Помощь в принятии решения о месте проведения культурно-массовых мероприятий
на основании анализа факторов, влияющих на его «удачность» ................................................. 88
3.5.7 Оценка эффективности использования денежных субсидий, выделяемых ведомством
учреждениям культуры .................................................................................................................... 92
3.5.8 Отслеживание динамики общественно мнения в отношении деятельности
Министерства и его руководства..................................................................................................... 93
3.5.9 Количество публикаций в СМИ о деятельности каждого Департамента ..................... 94
3.5.10 Образ Министерства ........................................................................................................... 94
3.5.11 Профиль потребителя услуг учреждений культуры ........................................................ 95
3.5.12 Пересечение аудитории (демографическое, географическое и т.п.)........................... 101
3.5.13 Воспрепятствование продвижению на киноэкраны произведений, содержание
которых выходит за рамки ограничений, предусмотренных действующими федеральными
законами ........................................................................................................................................... 102
4
ОБОБЩЕНИЕ И ОЦЕНКА РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЙ ..............................................104
ЗАКЛЮЧЕНИЕ ........................................................................................................................................105
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ...............................................................................107
6
ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ
В настоящем отчете о НИР применяют следующие термины с соответствующими
определениями.
API сервис
(application programming interface) интерфейс программирования
приложений — набор готовых классов, процедур, функций, структур и
констант, предоставляемых приложением (библиотекой, сервисом) для
использования во внешних программных продуктах
Big Data
«большие данные» технология управления и анализа огромного и
разнообразного по составу объема информации, часто обновляемой и
находящейся в разных источниках
SQL
(structured query language) «язык структурированных запросов»
АС
Автоматизированная система
ГАС
Государственная автоматизированная система
ЕАИС
Единая автоматизированная информационная система
Минкультуры
России
Министерство культуры Российской Федерации
Минэкономразвития Министерство экономического развития Российской Федерации
НИР, Работы
Научно-исследовательская работа – комплекс теоретических и (или)
экспериментальных исследований, проводимых с целью получения
обоснованных исходных данных, изыскания принципов и путей
создания (модернизации) программного продукта
ИС
Информационная система
ИТ
Информационные технологии
ПК
Персональный компьютер
ПО
Программное обеспечение
СМИ
Средства массовой информации
СМЭВ
Система межведомственного электронного взаимодействия
СУБД
Система управления базами данных
СХД
Система хранения данных
ФЦП
Федеральная целевая программа
Яндекс.Карты
Поисково-информационный картографический сервис Яндекса
Яндекс.Маркет
Сервис сравнения характеристик товаров и их цен
7
ВВЕДЕНИЕ
Настоящий отчет подготовлен сотрудниками компании ООО «ЭйТи Консалтинг» в рамках
выполнения работ государственного контракта по исследованию вопросов применения новых
технологий обработки больших данных в сфере информатизации культуры.
Стратегической целью выполняемых работ является создание теоретического фундамента
для предсказуемого и управляемого развития информационных технологий в Минкультуры
России и планомерного повышения эффективности процессов решения актуальных задач,
стоящих перед обследуемым ведомством, в сфере информатизации культуры.
Оперативными целями проекта являются:

Оценка целесообразности использования технологии Big Data в процессе деятельности
Министерства культуры Российской Федерации в сфере информатизации культуры;

Формирование вариантов использования технологии Big Data на базе одного из
существующих на рынке решений.
В соответствии с государственным контрактом в рамках настоящего отчета проведены
следующие работы:

Сбор и анализ данных об основной деятельности Минкультуры России;

Обследование функциональных департаментов Минкультуры России;

Исследование текущего уровня автоматизации основной деятельности Министерства;

Определение возможных источников больших массивов данных, используемых в
рамках основной деятельности;

Проведен общий анализ основных характеристик технологии Big Data;

Анализ опыта использования технологии Big Data в организациях, принадлежащих к
различным сферам экономической деятельности;

Исходя из полученных данных, дана оценка возможности адаптации технологии Big
Data к прикладным задачам Министерства;

Разработаны рекомендации по практическому использованию технологии Big Data в
сфере информатизации культуры в интересах Министерства культуры Российской
Федерации;

Сформулированы основные наплавления, предлагаемые к автоматизации на основании
решений по технологии Big Data, и разработаны функциональные требования к
средствам автоматизации.
8
Результаты работ, представленные в настоящем отчете, соответствуют требованиям
государственного контракта.
9
1 НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ И ОПИСАНИЕ
ВЫБРАННОЙ ОБЩЕЙ МЕТОДИКИ
Направление исследований выбрано в соответствии с государственным контрактом на
проведение данных научно-исследовательских работ, соответствует общепринятой мировой
практике проведения подобного рода исследований, которая дает наиболее полное решение
поставленных задач для достижения имеющихся целей и заключается в следующем:

Проведение обследования рабочих процессов и оценка степени их автоматизации;

Анализ основных характеристик технологии и опыта ее использования;

Оценка возможности адаптации технологии к решаемым задачам;

Разработка рекомендаций по практическому использованию технологии;

Формирование
функциональных
требований
автоматизации рабочих процессов.
10
к
соответствующим
средствам
2 ОБСЛЕДОВАНИЕ СУЩЕСТВУЮЩЕЙ СХЕМЫ
ОРГАНИЗАЦИИ РАБОТЫ МИНКУЛЬТУРЫ РОССИИ
В рамках реализации проекта было проведено обследование основных направлений
деятельности Министерства культуры России, а также уровня автоматизации текущей
деятельности.
Процесс обследования заключался в проведении интервью с ключевыми сотрудниками
департаментов Министерства культуры России, а также:

Проведение анализа нормативно-правовой документации, регулирующей основную
деятельность
структурных
подразделений
Минкультуры
России,
входящих
в
организационные границы проекта;

Выявление приоритетных задач, решаемых обследуемой структурной единицей;

Определение возможных источников больших массивов данных, используемых в
рамках основной деятельности Минкультуры России;

Проведение анализа текущей автоматизации основной деятельности Минкультуры
России, входящей в организационные границы проекта.
2.1 Обследование
основных
направлений
деятельности
Минкультуры России
В результате интервью с ключевыми сотрудниками департаментов Министерства
культуры, а также анализа нормативно-правовой документации, регулирующей основную
деятельность департаментов Минкультуры России, входящих в организационные границы
проекта, были получены следующие результаты.
Министерство
культуры
Российской
Федерации
(Минкультуры
России)
является
федеральным органом исполнительной власти, осуществляющим функции по выработке и
реализации государственной политики и нормативно-правовому регулированию в сфере
культуры, искусства, культурного наследия (в том числе археологического наследия),
кинематографии, архивного дела, туристской деятельности, авторского права и смежных прав и
функции по управлению государственным имуществом и оказанию государственных услуг в
сфере культуры и кинематографии, а также по охране культурного наследия, авторского права и
смежных прав, по контролю и надзору в указанной сфере деятельности.
11
Министерство культуры Российской Федерации руководствуется в своей деятельности
Конституцией
Российской
Федерации,
федеральными
конституционными
законами,
федеральными законами, актами Президента Российской Федерации и Правительства Российской
Федерации, международными договорами Российской Федерации, а также положением о
Министерстве культуры Российской Федерации.
Основными задачами Минкультуры России являются:

Осуществление государственной политики в сфере культуры, обеспечивающей
необходимые условия для реализации конституционных прав граждан Российской
Федерации на свободу творчества, участие в культурной жизни и пользование
учреждениями культуры, доступ к культурным ценностям и направленной на
сохранение исторического и культурного наследия;

Содействие развитию национальных культур народов Российской Федерации;

Определение целей и приоритетов в развитии отдельных видов культурной
деятельности, профессионального искусства, музейного и библиотечного дела,
народного творчества, образования и науки в сфере культуры;

Разработка и реализация в соответствии с международными обязательствами
Российской Федерации системы мер по предупреждению незаконных вывоза, ввоза
культурных ценностей и передачи права собственности на культурные ценности;

Осуществление государственного контроля за вывозом из Российской Федерации
культурных ценностей, соблюдением установленного порядка реализации предметов
антиквариата, а также соблюдением правил внешнеэкономической деятельности в
отношении культурных ценностей;

Управление деятельностью подведомственных организаций.
Структурными подразделениями Министерства культуры Российской Федерации являются
департаменты по основным направлениям деятельности Министерства. В состав департаментов
включаются отделы, выделенные по направлениям деятельности департаментов.
Организационная структура Минкультуры России:
1.
Руководство министерства
2.
Помощники и советники Министра
3.
Департамент государственной поддержки искусства и народного творчества

Отдел музыкального искусства

Отдел театрального искусства

Отдел народного творчества и традиционной народной культуры

Отдел координации творческих программ
12
4.

Отдел модернизационных программ

Отдел изобразительного искусства

Сводно-аналитический отдел
Департамент кинематографии

Отдел взаимодействия с организациями кинематографии

Отдел государственной поддержки производства игровых национальных фильмов

Отдел государственной поддержки производства неигровых и анимационных
национальных фильмов

5.
6.
7.
8.
9.
Отдел государственной поддержки продвижения и проката национальных фильмов
Департамент культурного наследия

Отдел Музейного фонда Российской Федерации

Отдел музеев

Отдел археологии

Отдел государственного контроля за вывозом и ввозом культурных ценностей
Департамент науки и образования

Отдел образования в сфере культуры и искусства

Отдел планирования и развития образования

Отдел науки в сфере культуры и искусства

Отдел библиотек и архивов
Департамент международного сотрудничества

Отдел Европы, Азии, Африки и Америки

Отдел СНГ и работы с соотечественниками

Отдел анализа и координации
Департамент экономики и финансов

Отдел обеспечения бюджетного процесса

Отдел финансового обеспечения отрасли

Отдел анализа и планирования в сфере оплаты труда

Отдел бухгалтерского учета

Отдел сводной отчетности и администрирования доходов

Отдел финансового анализа и прогноза
Департамент управления имуществом и инвестиционной политики

Отдел реставрации объектов культурного наследия

Отдел имущественных отношений

Отдел государственного реестра
13

Отдел капитального ремонта и контроля качества

Отдел государственных программ и капитальных вложений
10. Департамент туризма и региональной политики

Отдел туризма

Отдел региональной политики и координации

Отдел планирования и координации специальных проектов
11. Департамент контроля, надзора и лицензирования в сфере культурного наследия

Отдел государственной охраны объектов культурного наследия

Отдел контроля в сфере объектов культурного наследия

Отдел контроля в сфере сохранения культурных ценностей

Отдел регулирования градостроительной деятельности

Отдел лицензирования и контроля в сфере реставрации
12. Нормативно-правовой департамент

Отдел судебной работы

Отдел договорной работы и правового взаимодействия

Отдел законопроектной деятельности

Отдел нормативно-правового обеспечения

Отдел правовой экспертизы
13. Департамент контроля и кадров

Отдел государственной службы, кадров и наград

Отдел профилактики коррупционных правонарушений и контроля

Контрольно-ревизионный отдел
14. Департамент управления делами

Отдел делопроизводства и архива

Отдел контроля и обращения граждан

Отдел административно-хозяйственного и социального обеспечения

Отдел электронного документооборота и контроля исполнения

Отдел информационной политики

Аналитический отдел
14
2.1.1 Результаты
обследования
деятельности
функциональных
подразделений Минкультуры России
В перечень организационных единиц Минкультуры России, которые были подвергнуты
изучению и анализу в рамках проводимого обследования, входят подразделения центрального
аппарата Минкультуры России.
Выбор
функциональных
подразделений
в
структуре
Минкультуры
России
для
обследования осуществлялся по принципу их репрезентативности с точки зрения выполняемых
функций и решаемых в ходе проекта задач, а также по их месту и роли в организационной
структуре Минкультуры России.
Таким образом, в рамках проекта по выполнению научно-исследовательских работ на тему:
«Исследование вопросов применения новых технологий обработки больших данных в сфере
информатизации
культуры»
были
проведено
обследование
в
следующих
структурных
подразделениях Минкультуры России (организационные границы проекта), представляющих
наибольший интерес с точки зрения задач проекта:

Пресс-служба Министерства культуры;

Департамент контроля, надзора и лицензирования в сфере культурного наследия;

Департамент кинематографии;

Департамент туризма и региональной политики;

Департамент управления делами.
В целях создания благоприятных условий сбора качественных достоверных исходных
данных для выполнения работ по проекту в Минкультуры России были назначены ответственные
за предоставление информации сотрудники – представители структурных подразделений
Минкультуры России, участвующих в реализации проекта.
По итогам проведенного обследования основных направлений деятельности Департаментов
Минкультуры России, входящих в организационные границы проекта, были получены следующие
результаты:
Департамент управления делами
Основными задачами Департамента управления делами являются:

Документационное
обеспечение
деятельности
руководства
Министерства
и
структурных подразделений;

Реализация
мероприятий
по
информационному
взаимодействию
межведомственного электронного документооборота (МЭДО);
15
в
рамках

Организация работ с письменными обращениями граждан и организаций (учет,
контроль над своевременным рассмотрением и системный анализ);

Разработка и согласование с Российским государственным архивом литературы и
искусства сводную номенклатуру дел Министерства;

Обеспечение комплектования, хранения, учета и использования архивных документов
Министерства;

Принятие участия в разработке и осуществлении мероприятий по совершенствованию
организации, форм и методов ведения делопроизводства в Министерстве, в том числе в
условиях функционирования системы автоматизированного документооборота;

Консультирование сотрудников в области работы с документами, проведении занятий
и инструктивных совещаний о порядке работы с документами и организации контроля
за исполнением поручений.
Департамент принимает участие в ежегодной публикации статистической отчетности в
сфере культуры на официальном сайте, которая формируется в рамках всего Министерства.
Данные собираются в двух направлениях:

В целом по отрасли – публикуются как открытые данные;

По подведомственным учреждениям – публикуются для внутреннего пользования
Министерства.
При формировании данной отчетности часть данных поступают из существующих систем,
а часть поступают в Министерство в виде файлов Excel, Word, часто неструктурированные из
подведомственных учреждений по запросу.
Пресс-служба Министерства культуры
Отдел пресс-службы Министерства культуры отвечает за взаимодействие ведомства и
представителей СМИ.
В обязанности пресс-службы входит:

Мониторинг СМИ в отношении деятельности Министерства и его руководства;

Подготовка пресс-релизов и информационных материалов;

Подготовка и проведение пресс-конференций и брифингов;

Обеспечение сайта Министерства информационными материалами;

Работа со СМИ.
Мониторинг СМИ, социальных сетей и телевизионного эфира проводится по следующим
основным направлениям:

Выступления Министра культуры;
16

Заседание коллегии Министерства культуры России;

Заседания общественного совета Министерства культуры России.
Также проводится мониторинг по наиболее острым темам, таким как распределение
Министерством субсидий и грантов, кадровые назначения, заработные платы работников сферы
культуры и другие. При этом выявляются потенциально опасные темы обсуждения в СМИ по
различным направлениям и предпринимаются превентивные меры по недопущению разгорания
скандалов в СМИ. Регулярная аналитическая отчетность в рамках деятельности пресс-службы
передается Министру культуры и заместителям Министра.
Отдел
пресс-службы
конференций, брифингов и
подготавливает
отчеты
по
количеству
т.д. По запросу вышестоящего
проведенных
руководства
пресс-
составляются
информационные справки, отчеты, например, по объектам реставрации, финансированию
объектов.
Департамент кинематографии
Основными задачами Департамента кинематографии являются:

Содействие развитию отечественной киноиндустрии путем подготовки предложений
по стратегическим направлениям государственной политики и нормативно-правовому
регулированию в сфере кинематографии;

Разработка долгосрочных, среднесрочных и краткосрочных планов государственной
поддержки киноотрасли;

Государственное финансирование производства и проката национальных фильмов,
продвижения их на международные кинофестивали, проведения киномероприятий,
направленных на пропаганду отечественного киноискусства;

Освещение актуальных проблем российского общества средствами кинематографии;

Введение в культурный оборот лучших произведений национального кинонаследия;

Создание условий для плодотворной и эффективной творческой деятельности
российских кинематографистов, раскрытия потенциала молодых кинематографических
талантов, пополнения российского культурного достояния кинопроизведениями,
получившими мировое признание;

Формирование единого кинематографического пространства на территории страны
путем поддержки кинематографического творчества народов и народностей России, а
также создания и продвижения фильмов, отражающих культуру, быт и традиции
разных этносов;
17

Расширение, укрепление и развитие связей российских кинематографистов с мировым
кинематографическим сообществом; содействие повышению авторитета российского
кино в мире;

Создание условий для модернизации культуры России, развития современной культуры
и искусства, новых культурных форм;

Содействие созданию и распространению российских инноваций в области культуры;

Обеспечение доступности продукции и услуг кинематографии для всех слоев
населения за счет достижения жанрового и тематического разнообразия отечественных
фильмов; стимулирования внедрения цифровых технологий кинопоказа, позволяющих
значительно расширить географию кинообслуживания и состав зрительской аудитории;
субтитрирования фильмов для возможности их просмотра инвалидами по слуху;

Воспрепятствование продвижению на киноэкраны произведений, содержание которых
выходит
за
рамки
ограничений,
предусмотренных
Конституцией
Российской
Федерации и действующими федеральными законами;

Защита детей от содержащейся в киновидеофильмах информации, причиняющей вред
их здоровью и развитию.
Департамент
кинематографии
подготавливает
для
Минэкономразвития
отчеты
по
государственному финансированию производства, тиражирования, продвижения, проката и показа
национальных фильмов, кинофестивалей, а также формирует статистическую отчетность по
выданным прокатным
удостоверениям, которая предоставляется на регулярной
основе
вышестоящему руководству.
Департамент контроля, надзора и лицензирования в сфере культурного наследия
Департамент контроля, надзора и лицензирования в сфере культурного наследия
обеспечивает деятельность Министерства по вопросам осуществления государственной охраны,
контроля и надзора за соблюдением законодательства Российской Федерации в сфере культурного
наследия и лицензирования деятельности по сохранению объектов культурного наследия
(памятников истории и культуры) народов Российской Федерации.
В ведении департамента находится примерно 140 тысяч объектов культурного наследия
народов Российской Федерации, включая 1025 особо ценных объектов федерального значения, а
также объекты всемирного наследия ЮНЕСКО.
Основными задачами Департамента являются:

Лицензирование деятельности по сохранению объектов культурного наследия
(памятников истории и культуры) народов Российской Федерации. Департамент ведет
18
реестр лицензий по сохранению объектов культурного наследия на бумажном
носителе;

Выдача заданий и разрешений на проведение работ по сохранению объектов
культурного
наследия
федерального
значения,
перечень
которых
установлен
Правительством Российской Федерации;

Государственный контроль и надзор за сохранением, использованием, популяризацией
и государственной охраной объектов культурного наследия;

Согласование проектной документации по сохранению объектов культурного наследия
федерального значения, перечень которых установлен Правительством Российской
Федерации;

Организация аттестации специалистов в области сохранения объектов культурного
наследия (за исключением спасательных археологических полевых работ) и в области
реставрации иных культурных ценностей;

Рассмотрение обращения граждан, поданных в устной, письменной или электронной
форме, принимает по ним решения и направляет ответы по вопросам, относящимся к
компетенции Департамента.
В состав департамента входит отдел государственной охраны объектов культурного
наследия, в сферу деятельности которого входят особо ценных объекты культурного наследия
федерального значения, полномочия по государственной охране которых осуществляет
Министерство
Культуры.
Перечень
объектов
ежегодно
пересматривается
на
предмет
включения/исключения их из данного списка особо ценных объектов культурного наследия. Учет
объектов ведется на бумажном носителе.
Контроль над остальными объектами культурного наследия осуществляется отделом по
контролю в сфере объектов культурного наследия. Отдел взаимодействует с территориальными
органами, которые направляют отчетность по вверенным им объектам культурного наследия
регионального и муниципального значения. Данная отчетность предоставляется на электронной
почте или в бумажном виде по установленной форме. Департамент вручную собирает,
обрабатывает и анализирует полученные данные.
В обязанности департамента входит регулярная отчетность по количеству закрытых
контрактов по всем проведенным мероприятиям, таким как реконструкция или реставрация, над
объектами культурного наследия.
Департамент туризма и региональной политики
Основными задачами Департаментами являются:
19

Организация разработки предложений по формированию основных направлений и
принципов государственной политики в сфере туризма и региональной политики в
области развития культуры, определяет формы, методы и механизмы ее реализации;

Разработка или участие в разработке проектов нормативных правовых актов в
соответствии с задачами и функциями, возложенными на Департамент, включая
подготовку административных регламентов исполнения государственных функций и
предоставления государственных услуг, участвует в рассмотрении, согласовании
нормативных правовых актов, регулирующих отношения в сфере деятельности
Департамента;

Координация деятельности Агентства;

Осуществление мониторинга и анализа реализации государственной политики в сфере
туризма, государственной региональной политики развития культуры, обобщение
информации об опыте работы органов государственной власти субъектов РФ, органов
местного самоуправления, учреждений и организаций, осуществляющих деятельность
в указанных сферах и разработка предложений по их совершенствованию;

Организация подготовки сводных докладов, справок и иных материалов об итогах
развития туризма, регионального развития культуры в РФ и перспективах развития на
предстоящий год;

Осуществление анализа информационно-аналитических материалов о проводимых в
России и за рубежом туристских мероприятиях, проводимых в регионах РФ
мероприятиях в сфере культуры, готовит рекомендации по участию в них российских
организаций и направляет их в федеральные органы исполнительной власти и другие
заинтересованные организации.
В обязанности департамента входит формирование единственного вида регулярной
отчетности (Распоряжение Правительства РФ от 28 декабря 2012 г. N 2606-р О плане мероприятий
("дорожной карте") "Изменения в отраслях социальной сферы, направленные на повышение
эффективности сферы культуры"). Остальные данные собираются, как правило, по отдельным
распоряжениям или для внутреннего пользования.
Департамент принимает участие в сборе статистической отчетности по реализации
Федеральной целевой программы «Культура России» в сфере туризма, которая формируется в
рамках всего Министерства.
Также Департамент принимает участие в организации проведения социологических
опросов населения в сфере туризма. На настоящий момент есть распоряжение отказаться от
20
данной формы сбора данных, которое предлагает новую методику с использованием заказных
исследований.
2.1.2 Результаты обследования информационных потоков Минкультуры
России
Основные факторы снижения эффективности деятельности департаментов Минкультуры
России связаны со своевременностью, достоверностью и полнотой обеспечения оперативной
информации, что в значительной степени определяется состоянием системы информационных
потоков ведомства.
В результате анализа существующих бизнес-процессов в рамках основных направлений
деятельности Минкультуры России были выявлены следующие основные потоки данных:

Входные потоки данных или источники данных, формируемые внутри или вовне
Минкультуры России и используемые для выполнения стоящих перед ним
функциональных задач;

Выходные потоки данных, формируемые в результате исполнения бизнес процессов в
рамках основных направлений деятельности Минкультуры России.
В Минкультуры России осуществляется сбор разнородных наборов данных:
1.
Структурированные
данные.
К
ним
относится
информация
внутренних
информационных систем и баз данных; справочная, статистическая и отчетная
информация территориальных органов власти Российской Федерации в сфере
культуры, а также подведомственных организаций Минкультуры России в электронном
виде – используемые в текущей деятельности департаментов ведомства;
2.
Полуструктурированные данные. Складываются из данных на неэлектронных
носителях: бумажные документы (первичные документы; данные внутреннего
документооборота (бумажного и электронного), включая приказы, поручения,
протоколы и распоряжения руководителей всех уровней; нормативные акты
федерального, регионального, местного уровня; результаты заказных исследований;
данные бухгалтерского и финансового учета и другой обязательной отчетности за
текущий и прошлые периоды; другие данные), пленочные носители (архив
кинофотодокументов), и потенциально могут быть использованы в текущей
деятельности департаментов Минкультуры России;
3.
Неструктурированные данные. К этой категории информации можно отнести: СМИ
(крупные блоги, газеты, журналы, телевидение, интернет-порталы, исследовательские и
аналитические
агентства),
социальные
21
сети
(информация,
получаемая
за счет
мониторинга активности граждан в социальных сетях, просмотренных ими страниц
публичных сервисов вроде YouTube или Flickr, комментариев на форумах и т.п.) –
частично используются в текущей деятельности (Пресс-служба Министерства
культуры России), потенциально масштабы (и направления) использования могут быть
расширены.
Основной составляющей выходных потоков данных Минкультуры России являются
отчетные данные различного характера (статистическая информация о состоянии отрасли,
отчетность по деятельности Министерства культуры Российской Федерации, его структурных
подразделений и подведомственных организаций – справочники, сметы, планы, балансы, отчеты),
а также приказы, распоряжения и другие нормативно-правовые отраслевые документы.
Статистическая и операционная отчетность в сфере культуры характеризуется:

Значительными объемами;

Преобладанием неавтоматизированного сбора статистических и отчетных данных (в
виде бумажных документов, файлов Word, Excel);

Широкой разновидностью статистического материала на местах, собираемого и
хранимого в основном на бумажных носителях;

Многочисленностью форм представления информации (зачастую отсутствие единых
отчетных форм и предоставление данных в необходимых разрезах по прямому запросу
от Минкультуры России;

Большим количеством пользователей и поставщиков отчетного материала.
На данный момент, когда постоянно меняются не только условия деятельности любого
учреждения, но и методы и системы оценки деятельности учреждений сферы культуры,
происходит изменение содержания собираемых отчетных данных. Информационные потоки
между организациями и учреждениями в составе отрасли характеризуются все возрастающим
объемом всевозможной отчетности по следующим направлениям:

Формирование бюджета отрасли;

Формирование бюджета подведомственных организаций;

Текущее финансирование подведомственных организаций;

Сбор и формирование сводной бухгалтерской отчетности отрасли;

Ведение статистики;

Обеспечение подведомственных организаций и проч.
В результате проведенного обследование информационных потоков Минкультуры России
были
выявлены следующие закономерности, позволяющие говорить
информационного обмена в отрасли:
22
о несовершенстве

Большая часть отчетов перед Министерством культуры РФ носит полугодовой и
годовой характер. Это отвечает требованиям законодательства к предоставляемой
отчетности, однако не обеспечивает Минкультуры России в должном объеме
оперативной
информацией,
необходимой
для
осуществления
максимально
эффективного планирования, учета, распределения и контроля всех имеющихся
ресурсов.

Более половины отчетных документов, предоставляется на бумажном носителе, что
затрудняет их обработку и консолидацию.

Информация в отчетных формах подведомственных учреждений и организаций
представлена в консолидированной форме за полугодовой/годовой период, что не дает
возможности при анализе данных документов понять причины отклонений в значениях
показателей, представленных в них.

Зачастую происходит дублирование предоставляемой (собираемой) информации.
Выводы, которые можно сделать из имеющихся материалов:

Информация, собираемая как с подведомственных организаций, так и передаваемая
внутри подразделений Министерства культуры РФ часто дублируется. Отчасти, потому
что во многих случаях легче запросить информацию (например, с подведомственных
организаций) заново, нежели представить чуть в другом ракурсе информацию, уже
имеющуюся в других подразделениях федерального ведомства.

Отсутствие единого хранилища информации, единых справочников и согласованных
форматов электронного обмена приводит к тому, что в большинстве случаев для
формирования отчетов, справок или иных документов затрачивается значительный
труд сотрудников (как подведомственных организаций, так Минкультуры России).

Возможность
аналитической
обработки
информации
ограничена
форматом
и
определенными аналитическими срезами ее предоставления.
Таким образом, ключевыми задачами развития для Минкультуры России должны стать
расширение направлений и срезов аналитической обработки информации в сфере культуры,
обеспечение доступности информации для всех соответствующих ее пользователей, определение
обязательной информации, предоставляемой соответствующими объектами и обеспечение
совместимости информационных систем различных субъектов отрасли как на федеральном, так и
на региональном и муниципальном уровнях, а также на уровне подведомственных культурных
учреждений за счет практического воплощения системы единых справочников и классификаторов,
23
а также разработки и утверждения форматов и регламентов информационного обмена субъектов
отрасли.
2.2 Обследование вопроса текущей автоматизации деятельности
Минкультуры России
В результате обследования Министерства культуры России было выявлено, что для ведения
делопроизводства в Министерстве всеми департаментами используется система электронного
документооборота «Дело» комплексное решение, обеспечивающее автоматизацию процессов
делопроизводства, а также ведение электронного документооборота в Министерстве. Однако
данное решение работает в режиме ограниченной функциональности, а именно, отсутствие на
данный момент электронных цифровых подписей у ответственных сотрудников не позволяет в
полной мере автоматизировать документооборот и избежать дублирование электронного
документооборота бумажным. Кроме этого в Министерстве используются такие средства
автоматизации как электронная почта и программные продукты пакета Microsoft Office.
При этом были выявлены следующие средства автоматизации деятельности департаментов
Министерства:
Департамент управления делами, Отдел информационной политики:
1.
ИС
статистики
деятельности
учреждений
культуры
–
система
содержит
агрегированную статистическую информацию о деятельности различных учреждений
культуры, такие как музеи, театры и т.д. Система предназначена для обеспечения
руководства министерства (федерального агентства), органов управления отраслью, а
также отдельных организаций (предприятий, учреждений) отрасли оперативной
информацией о состоянии отрасли культуры. Данные в систему поступают двумя
способами: из иных систем ведомства или путем загрузки excel-файлов.
2.
АС «Автоматизация учета выполнения ФЦП» – автоматизированная система учета и
контроля
деятельности
структурных
подразделений
Министерства
культуры
Российской Федерации, по размещению заказов на поставку товаров, выполнение
работ, оказания услуг для государственных нужд.
3.
Информационная система показателей технологических карт межведомственного
взаимодействия – предназначена для организации информационного взаимодействия
Минкультуры России с ГАС «Управление» в части централизованной передачи
данных, полученных из различных внутренних информационных систем или путем
24
ручного ввода, согласно утвержденным технологическим картам межведомственного
взаимодействия.
4.
Информационная система для публикации открытых данных и мониторинга развития
отрасли культуры на официальном сайте Минкультуры России.
Пресс-служба Министерства культуры России:
1.
Brand Analytics – позволяет отследить все упоминания о бренде, компании, продукте,
услуге или персоне из всех социальных медиа в режиме реального времени. Система
автоматически определяет тональность высказываний, формирует связанные цепочки
обсуждений, выделяет наиболее важные сообщения и темы, определяет размер
аудитории и географию сообщений, выявляет тенденции и представляет информацию в
виде интуитивно понятных графиков и отчётов. Brand Analytics осуществляет сбор
данных из таких источников как: Twitter, ВКонтакте, Facebook, Одноклассники,
Google+, LiveJournal, YouTube, Instagram, различные блоги, форумы, сайты отзывов,
онлайн-СМИ и тематические сайты. Состав собираемой информации: текстовые
русскоязычные сообщения посты, комментарии, новости, статьи, мнения и отзывы;
информация об авторах сообщений имя, пол, возраст, география, количество читателей
и др.
На данный момент система работает в тестовом режиме и используется для
наблюдения за общественным мнением о деятельности Министерства культуры России
в социальных сетях. Работа с системой ведется в ручном режиме путем поиска
информации по заранее определенному набору ключевых слов.
2.
Dow Jones Factiva (Factiva.com) – ресурс, позволяющий быстро выявлять факты и
отслеживать тенденции, обеспечивать конкурентное преимущество и использовать на
всем предприятии эффективные средства бизнес-аналитики. Решение позволяет быстро
получить результаты, провести точный анализ и мониторинг новостей о компаниях,
отраслях и положении дел в регионах. Решение Factiva.com включает крупнейшую
подборку ведущих мировых источников информации, публикаций в сфере торговли и
потребления, а также информацию с тысяч веб-сайтов – более 28 000 глобальных
новостных и информационных источников из 159 стран на 25 языках.
На данный момент система работает в продуктивном режиме и используется для
наблюдения за реакцией в СМИ о деятельности Министерства культуры России, в
частности детально анализируются все сообщения, в которых упоминается Министр
культуры или заместители Министра культуры.
25
3.
Телемаркер – система одновременного мониторинга, анализа и трансляции прямого
эфира новостных и информационно–аналитических программ в режиме реального
времени. Источниками сигнала служат эфирные и спутниковые телеканалы, а также
внутренние видеотрансляции организаций или мероприятий. Система позволяет
производить моментальную выборку и воспроизведение интересующих телепрограмм в
прямом эфире на одной полиэкранной ТВ-панели или мониторе компьютера, дает
неограниченный доступ ко всему текущему телеэфиру, транскриптам и архивным
записям с возможностью поиска, сортировки, скачивания и дальнейшей обработки
видеоматериалов. Также имеется автоматический режим получения подписок,
теледайджестов, а также мгновенных уведомлений об упоминании интересующей темы
по e-mail и SMS.
На данный момент система работает в тестовом режиме и используется для
наблюдения за общественным мнением о деятельности Министерства культуры России
в телевизионном эфире.
На основании полученных аналитических данных из вышеупомянутых систем
составляются отчеты для руководства Министерства, а также для заинтересованных
подразделений. Полученные данные также используются для работы PR-службы,
которая, в частности, занимается проактивными действиями по нейтрализации
потенциальных скандалов вокруг Министерства.
Департамент кинематографии:
1.
Федеральная автоматизированная информационная система сведений о показах
фильмов в кинотеатрах – предназначена для сбора, учёта и обработки сведений о
публичной
демонстрации
кинофильмов в кинозалах
российских кинотеатров.
Оператором единой федеральной автоматизированной информационной системы
сведений о показах фильмов в кинозалах (ЕАИС) является Федеральный фонд
социальной и экономической поддержки отечественной кинематографии (Фонд кино) в
соответствии с заключенным государственным контрактом на оказание услуг по
модернизации и эксплуатации ЕАИС от 12.05.2014г. №1252-01-41/03/14. ЕАИС создана
и функционирует во исполнение поручения Президента Российской Федерации
Министерством культуры Российской Федерации.
2.
Система учета выданных прокатных удостоверений на фильмы, созданные в
Российской Федерации или приобретенные за рубежом для проката на ее территории –
система основана на базе программного комплекса «Парус», в котором ведется учет
выданных прокатных удостоверений на фильмы.
26
3.
Система учета выданных удостоверений национальных фильмов – система основана на
базе решения MS Access, в котором ведется учет выданных удостоверений
национальных фильмов.
Департамент контроля, надзора и лицензирования в сфере культурного наследия:
1.
АС «Памятники» - система предназначена для решения оперативных задач учёта и
управления объектами культурного наследия. Электронные архивы АС содержат
графические изображения охраняемых объектов (планы и фотографии), что дает
возможность предварительно ознакомиться с состоянием охраняемого объекта. В
системе имеется возможность хранения файлов (в т.ч. образов документов).
Департамент управления имуществом и инвестиционной политики:
1.
ИС «Единый государственный реестр объектов культурного наследия» – система учета
объектов
культурного
наследия,
разработанная
на
базе
Oracle,
содержащая
информацию о местоположении объекта, его характеристиках, приказах Министерства
по объектам, изображение объектов и другую необходимую информацию. Система на
данный момент находится в опытной эксплуатации. Перевод в промышленную
информацию планируется в декабре 2014 года.
Департамент туризма и региональной политики:
1.
ИС
статистики
деятельности
учреждений
культуры
–
система
содержит
агрегированную статистическую информацию о деятельности различных учреждений
культуры, такие как музеи, театры и т.д. Система предназначена для обеспечения
руководства министерства (федерального агентства), органов управления отраслью, а
также отдельных организаций (предприятий, учреждений) отрасли оперативной
информацией о состоянии отрасли культуры;
2.
«Консультант Плюс» справочно-правовая система.
Кроме указанного выше, не участвовавшие в обследовании департаменты Министерства
используют в своей деятельности следующие средства автоматизации:
1.
«1С: Предприятие». Модули: «1С: Бухгалтерия», «1С: Зарплата и управление
персоналом»;
2.
Программный комплекс «Утраченные, перемещенные и возвращенные культурные
ценности» программа – предназначена для сбора и обработки информации об
утраченных в период Великой отечественной войны культурных ценностях, а также о
27
культурных ценностях, ввезенных на территорию СССР в качестве репараций в счет
погашения ущерба, нанесенного войной. Так же можно получить статистическую
информацию о количестве тех или иных видов культурных ценностей, информация о
которых находится в базе данных. Предусмотрена печать этих статистических данных,
а также некоторых других отчетных документов;
3.
Программный комплекс «ЭРПАС» – база данных системы ЭРПАС представляет собой
набор реестров, в которых представлены культурные ценности;
4.
Федеральная государственная информационная система «Государственный каталог
Музейного фонда Российской Федерации» – государственный каталог представляет
собой электронную базу данных, содержащую основные сведения о каждом музейном
предмете и каждой музейной коллекции, включенных в состав Музейного фонда
Российской Федерации;
5.
«БОР-навигатор.Культура» – система по управлению процессами формирования
государственного задания на оказание государственных услуг (выполнение работ);
6.
«Высшие учебные заведения Минкультуры» – программа, позволяющая вести сбор
информации об учебных заведениях Минкультуры России;
7.
Программный
комплекс
«Бюджетное
Планирование»
–
предназначен
для
формирования, согласования и ведения бюджетной росписи и лимитов бюджетных
обязательств для главных распорядителей средств федерального бюджета;
8.
Единая
информационно-аналитическая
система
сбора
и
свода
отчетности
Министерства финансов Российской Федерации – предназначена для направления
отчетности по формам указанным в приложении к письму Минфина России от
24.09.2012 № 21-05-06/1415;
9.
Информационно-аналитическая
система
исполнения бюджетов бюджетной
мониторинга
системы Российской
ключевых
Федерации
показателей
(КПЭ)
–
предназначена для формирования оперативной информации о ходе и результатах
исполнения бюджетов бюджетной системы Российской Федерации;
10. Система удалённого финансового документооборота (СУФД) – предназначена для
формирования отчетности об исполнении бюджета и организации информационного
взаимодействия органов Федерального казначейства с участниками процессов
исполнения;
11. Программное обеспечение для заполнения форм статотчетности в режиме off-line
автоматизация подготовки электронных версий форм статистической отчетности для
передачи в Росстат России;
28
12. Программа «Формирование главными распорядителями средств справок на изменение
сводной бюджетной росписи федерального бюджета» – предназначена для заполнения
справок по изменению сводной бюджетной росписи и передачи их в электронном виде
в Министерство финансов России;
13. «Ресурсы подведомственных организаций» – система содержит информацию о
подведомственных организациях Министерства культуры Российской Федерации
общие сведения, адреса, документы, сведения об имуществе;
14. «База данных по лицензированию деятельности в области реставрации объектов
культурного наследия (памятников истории и культуры)» – программа позволяет
регистрировать заявки юридических лиц и индивидуальных предпринимателей на
получение лицензий для выполнения работ по реставрации объектов культурного
наследия, формировать лицензионные дела, отслеживать их состояние, регистрировать
входящую и исходящую корреспонденцию, организовать обмен электронными
документами
между
структурными
подразделениями
лицензирующего
органа,
формировать отчеты по выданным лицензиям и отказам в выдаче лицензий,
контролировать сроки рассмотрения лицензионных дел и сроки окончания действия
лицензий;
15. «Мониторинг молодых дарований» – в стадии разработки по запросу Департамента
науки и образования, предоставляет возможность сбора информации о талантливых
детях Российской Федерации в разных областях культуры с группировкой и
фильтрацией результатов. Внедрение планируется в 2013г., ввод в эксплуатацию
планируется в 2014г;
16. Программа «Ведение бюджетной росписи и формирование расходных расписаний
Главными распорядителями бюджетных средств»;
17. Модуль
«Парус-Бухгалтерия»
–
предназначен
для
автоматизации
ведения
бухгалтерского учета в бюджетных учреждениях любого уровня.
18. Автоматизированная
система
учета
и
контроля
деятельности
структурных
подразделений Министерства культуры Российской Федерации, по размещению
заказов на поставку товаров, выполнение работ, оказания услуг для государственных
нужд.
По результатам проведенного обследования департаментов Министерства культуры России
можно сделать вывод о том, что существующие системы автоматизации деятельности
представляют собой набор разрозненных систем, имеющих разные целевые задачи, и фактически
между собой не связаны в единое информационное пространство. Это приводит к повышению
29
трудозатрат как при внутриведомственном взаимодействии, так и при взаимодействии с
территориальными органами в сфере культуры.
При этом в ходе обследования, не были выявлены средства автоматизации деятельности
Министерства культуры России, связанные с обработкой больших данных.
2.3 Общие выводы по обследованию основных направлений
деятельности Минкультуры России
По
результатам
проведенного
обследования
основных
направлений
деятельности
Министерства культуры России, а также уровня автоматизации текущей деятельности можно
сделать следующие выводы:
 В функциональных департаментах Минкультуры России существуют потребности в
дополнительных инструментах обработки/хранения/анализа информации;
 В Минкультуры России осуществляется сбор разнородных наборов данных:

структурированные (внутренние системы, используемые в текущей деятельности);

полуструктурированные
(данные
на
неэлектронных
носителях:
бумажные
документы, пленочные носители – потенциально могут быть использованы в
текущей деятельности);

неструктурированные (например, СМИ, социальные сети – частично используются
в текущей деятельности, потенциально масштабы (и направления) использования
могут быть расширены);
 Текущей автоматизации недостаточно для решения задач, стоящих перед департаментами
Минкультуры России.
Также, в результате проведения интервью с ключевыми сотрудниками функциональных
департаментов Министерства культуры России, вошедших в организационные границы проекта,
были выявлены потребности в автоматизации ряда стоящих перед ними прикладных задач (см.
Таблицы 1-4).
Таблица 1 Пресс-служба Министерства культуры
Возможные направления по применению
технологии BigData
Потребности в автоматизации
Оценка общественного мнения об
Потребностей не выявлено
эффективности деятельности департаментов:
 Присутствие информации и публикаций
в информационном пространстве по
всем департаментам Министерства,
30
Возможные направления по применению
технологии BigData
Потребности в автоматизации
качественное
и
количественное
сравнение публикаций в СМИ о
деятельности каждого Департамента;
 Отслеживание динамики изменения
общественного мнения в отношении
деятельности Министерства и его
руководства;
 Характер публикаций в СМИ о
деятельности каждого Департамента по
конкретному набору актуальных тем:
информация о субсидиях и грантах,
заработной платы и назначениях на
новые
должности
(в
т.ч.
по
подведомственным организациям) –
адекватность отражения в публичном
пространстве;
 Реакция аудитории позитив/негатив
(социальные
сети,
сайты
учреждений/мероприятий и т.п.)
Отслеживание общественного мнения о
Министерстве Культуры России:
 Узнаваемость и понимание основных
задач и направлений деятельности;
 Образ Министерства
Таблица 2 Департамент кинематографии
Возможные направления по применению
технологии BigData
Потребности в автоматизации
 Возможность автоматической выгрузки
данных
из
системы
выдачи
удостоверений национальных фильмов
на официальный сайт Минкультуры
России;
 Перевод всего архива игровых фильмов
госфильмофонда в цифровой формат и
обеспечение вечного хранения;
 Создание
медиатеки
фильмов
в
цифровом видеоформате
Потребностей не выявлено
Таблица 3 Департамент контроля, надзора и лицензирования в сфере культурного наследия
Возможные направления по применению
технологии BigData
Потребности в автоматизации
 Система мониторинга технического
состояния и учета объектов культурного
наследия, находящихся в ведении
Потребностей не выявлено
31
Возможные направления по применению
технологии BigData
Потребности в автоматизации
отдела
государственной
охраны
объектов культурного наследия;
 Взаимодействие с территориальными
управлениями
(документооборот,
предоставление отчетности);
 Взаимодействие с органами гос.власти
через СМЭВ
Таблица 4 Департамент туризма и региональной политики
Возможные направления по применению
технологии BigData
Потребности в автоматизации
 Межведомственный
электронный
документооборот
с
электронной
подписью;
 Сбор отчетности по Министерству (для
внутреннего пользования);
 Обновление парка ПК;
 Решение вопроса с дублированием
телефонной связи;
 Оптимизация
сайта
Министерства
(визуализация для граждан, логика и
навигация, пост и прессрелизы, анонсы
мероприятий,
взаимодействие
с
общественными организациями)
Потребностей не выявлено
А по итогам проведения обследования в Департаменте управления делами были
определены возможные направления по применению технологии BigData и ближайшие планы
развития существующих систем Министерства (см. Таблица 5).
Таблица 5 Возможные направления по применению технологии BigData
Возможные направления по применению
технологии BigData
Планы по развитию систем
Определение целевой аудитории для
учреждений культуры по направлениям
(театры, музеи и т.п.), учреждениям и
мероприятиям:
 Профиль
потребителя
услуг
учреждений
культуры
(профиль
театрала, посетителя музеев и проч.);
 Пересечение
аудитории
(демографическое, географическое и
т.п.);
32
 Создание интеграционной шины;
 Система по формированию планов
информатизации Минкультуры и их
согласования с Минсвязи России –
интеграция;
 ГАС Управление – интеграция;
 Апгрейд и обновление системы по
предоставлению госуслуг;
 Сбор сведений об учреждениях и
мероприятиях для распространения
Возможные направления по применению
технологии BigData
Планы по развитию систем
 Рекомендации для учреждений по
программе мероприятий
Измерение реакции (интереса) по проводимым
мероприятиям:
 Количество публикаций в СМИ, их
уровень (федеральные, региональные и
т.п.), характер публикаций;
 Отзывы физических лиц (социальные
сети, сайты учреждений/мероприятий и
т.п.);
 Посещаемость
мероприятий,
ее
изменение в зависимости от характера
мероприятий
Финансовая эффективность
мероприятий/учреждений и anti-fraud –
реальная посещаемость с помощью
независимой централизованной системы учета
33
среди населения;
 Музейный фонд – доработка системы,
ориентировочно до конца 2015 года
 Автоматизация процесса подготовеи и
сбора
внутренней
отчетности
департаментов Минкультуры (данные
по
проведенным
конкурсам,
по
заключенным
договорам,
по
проведенным мероприятиям и т.п.)
3 ИССЛЕДОВАНИЕ ВОПРОСОВ ПРИМЕНИМОСТИ
ТЕХНОЛОГИИ BIG DATA К НАПРАВЛЕНИЯМ
ДЕЯТЕЛЬНОСТИ МИНКУЛЬТУРЫ РОССИИ
3.1 Обзор технологии Big Data
В общем смысле «Большие данные» в информационных технологиях определяются как
серия подходов, инструментов и методов обработки структурированных и неструктурированных
данных огромных объемов и значительного многообразия для получения воспринимаемых
человеком результатов. Согласно отчету McKinsey Institute «Большие данные: новый рубеж для
инноваций, конкуренции и производительности» (Big data: The next frontier for innovation,
competition and productivity), термин «большие данные» относится к наборам данных, размер
которых превосходит возможности типичных баз данных (БД) по занесению, хранению,
управлению и анализу информации.
Источником Big Data являются не только корпоративные базы данных и массив
социальных интернет-ресурсов, но и весь поток информации от разнообразных датчиков,
измерительных устройств, сенсорных сетей. Тем не менее «большие данные» предполагают нечто
большее, чем просто анализ огромных объемов информации. Проблема заключается не в том, что
организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в
формате, плохо соответствующем традиционному структурированному формату баз данных, —
это
веб-журналы,
видеозаписи, текстовые
документы,
машинный
код
или, например,
геопространственные данные. Все указанные выше данные могут храниться во множестве
разнообразных хранилищ данных, иногда даже за пределами организации. В результате
организация может иметь доступ к огромному объему своих данных и не иметь необходимых
инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе
значимые выводы. Для обработки обозначенных данных в технологии Big Data используются
инновационные инструменты и методики, разрабатываемые на базе методов искусственного
интеллекта, статистического анализа, математической лингвистики, краудсорсинга, предиктивной
аналитики и так далее. Как правило, большие данные используются для получения неизвестной,
но необходимой для деятельности организации информации.
Аналитическая компания Forester определяет понятие Big Data как технологию в области
аппаратного и программного обеспечения, которая объединяет, организует, управляет и
анализирует данные, характеризующиеся «четырьмя V»: объемом (англ. Volume, в смысле
34
величины физического объема), разнообразием (англ. Variety,
одновременной
обработки
различных
типов
и
форматов
в смысле возможности
структурированных
и
неструктурированных данных), изменчивостью (англ. Variability, в смысле скорости и
периодичности обновления данных и необходимости их высокоскоростной актуализации для
получения более точных результатов и принятия более эффективных управленческих решений) и
скоростью
(англ.
Velocity,
в
смысле
как
скорости
прироста,
так
и
необходимости
высокоскоростной обработки и получения результатов), которые, в свою очередь, выступают в
качестве определяющих характеристик для больших данных в соответствии с рисунком (см.
Рисунок 1)Error! Reference source not found..
Компания IDC тоже выделяет «четыре V», характеризующие большие данные, однако в
несколько ином наборе: объем (Volume), разнообразие (Variety), скорость (Velocity) и ценность
(Value). IDC подчеркивает, что параметр Value — один из основных, позволяющих выделить Big
Data как новое явление. Он относится к экономическому эффекту, который технология Big Data
обеспечивает пользователям.
Рисунок 1 - Границы применения традиционных BI и Big Data-технологий
(источник: Forrester)
35
Рассмотрим каждую из указанных характеристик для больших данных:
Объем данных
В условиях формирования информационного общества в различных отраслях экономики
создается и накапливается огромное количество разнообразных данных. Так, только в США объем
корпоративных данных составляет на настоящий момент более 100 Тбайт информации. При этом
в разных вертикальных индустриях объем данных существенно различается в соответствии с
рисунком (см. Рисунок 2), следовательно, актуальность применения технологии Big Data в них
различна.
Рисунок 2 - Объем накопленных данных в корпорациях из разных сфер деятельности
(источник: McKinsey)
По данным исследования IDC Digital Universe, опубликованного в декабре 2012 года, в
ближайшие 8 лет количество данных в мире достигнет 40 зеттабайт, что эквивалентно 5200
гигабайт (Гб) на каждого жителя планеты. Значительная часть произведенных данных ни разу не
была исследована с помощью специализированных аналитических инструментов. По оценкам
IDC, к 2020 году только 35% данных будет содержать ценную для анализа информацию.
36
Приведем далее несколько показательных фактов:
 В 2010 году корпорации мира накопили 7 экзабайтов данных, на наших домашних ПК и
ноутбуках хранится 6 экзабайтов информации.
 Всю музыку мира можно разместить на диске стоимостью 600 долл.
 В 2010 году в сетях операторов мобильной связи обслуживалось 5 млрд телефонов.
 Каждый месяц в сети Facebook выкладывается в открытый доступ 30 млрд новых
источников информации.
 Ежегодно объемы хранимой информации вырастают на 40%, в то время как глобальные
затраты на ИТ растут всего на 5%.
 По состоянию на апрель 2011 года в библиотеке Конгресса США хранилось 235 терабайт
данных.
 Американские компании в 15 из 17 отраслей экономики располагают большими объемами
данных, чем библиотека Конгресса США.
Разнообразие данных
Как было определено выше, способность приложений обрабатывать большие массивы
данных, поступающие из разных источников в различных форматах, является одним из главных
критериев отнесения его к технологии Big Data. Обычно Big Data-приложения объединяют данные
из разных источников (как внутренних, так и внешних по отношению к организации) и разной
степени
структурированности
(структурированные,
слабоструктурированные
и
неструктурированные). Многие бизнес-задачи и научные эксперименты требуют совместной
обработки данных различных форматов — это могут быть табличные данные в СУБД,
иерархические данные, текстовые документы, видео, изображения, аудиофайлы и т.д. Пример
подобного рода задачи из области медицины: как найти оптимальный курс лечения для
конкретного пациента, базируясь на огромном количестве историй болезней пациентов (которые
постоянно меняются), а также на базе данных медицинских исследований и геномных данных.
Другой
пример —
из
области
оптимизации
бизнес-процессов:
как
провести
анализ
структурированных данных из ERP-приложения, а также слабоструктурированных данных в виде
лог-файлов и неструктурированного текста из отзывов покупателей. Третий пример — из сферы
прогнозирования погоды: как выполнить анализ климата на базе многолетних метеорологических
данных и данных, поступающих со спутника в реальном времени.
37
Скорость поступления и обработки информации
В ряде задач, стоящих перед современной организацией, требуется очень высокая скорость
обработки данных. Например, биржевым игрокам иногда нужно мгновенно принять решение,
основываясь на большом количестве данных о состоянии рынка, — за пару секунд ситуация уже
может измениться. Существует также целый ряд задач, когда решение нужно принимать в
реальном времени, например обработка биометрических данных, получаемых в огромном потоке
людей, которые необходимо сверить с базой данных о злоумышленниках. Очень большая скорость
поступления данных характерна также для многих научных задач. Например, проект по запуску
гигантского радиотелескопа с суммарной площадью антенн 1 км2, который планируется запустить
в 2015 году, предполагает передачу сигналов с одной антенны со скоростью 160 Гбит/с, что в 10
раз превышает весь нынешний интернет-трафик. Также, к примеру, датчики, установленные на
авиадвигателе, генерируют около 10 Тб данных за полчаса. Примерно такие же потоки характерны
для буровых установок и нефтеперерабатывающих комплексов. Только один сервис коротких
сообщений Twitter, несмотря на ограничение длины сообщения в 140 символов, генерирует поток
данных в 8 Тб/сутки. Если все подобные данные накапливать для дальнейшей обработки, то их
суммарный объем будет измеряться десятками и сотнями петабайт.
Ценность для пользователей
Большие хранилища данных в сфере финансовых услуг, телекоммуникаций, розничной
торговли и государственных организаций существовали на протяжении многих лет. Применялись
также решения по обработке данных в реальном времени для управления бизнес-процессами,
например, в торговле, а также высокопроизводительные вычислительные системы для научных
исследований. Различие их состоит в том, что те системы, которые раньше решали отдельные
проблемы бизнеса на больших предприятиях, сегодня становятся основой осуществления их
бизнес-стратегии.
Технология Big Data позволяет уменьшить расходы на ИТ-инфраструктуру и ПО, сократить
затраты на рабочую силу за счет более эффективных методов интеграции данных, управления,
анализа и выработки решения; обеспечить увеличение дохода и прибыли путем новых или более
эффективных способов ведения бизнеса. То есть на современном этапе те же самые технологии
представляют качественно новую ценность для предприятия.
При этом сочетание использования ПО с открытым исходным кодом и снижение цен
аппаратных систем сделало эти технологии более доступными. Системы, доступ к которым
предоставлялся ранее только государственным учреждениям или немногим крупнейшим
компаниям, теперь стали доступны для гораздо более широкого числа пользователей, что
сформировало сравнительно массовый рынок на подобные услуги.
38
Таким образом, компании и организации, которые сумеют извлечь из доступных им данных
больше полезной для себя и своей деятельности информации, окажутся более эффективными и
конкурентоспособными. McKinsey приводит количественную характеристику данного положения
в соответствии с рисунком (см. Рисунок 3).
Рисунок 3 – Оборот и EBITDA компаний, которые применяют Big Data-технологии,
и получение ими конкурентных преимуществ
(источник: McKinsey)
Далее рассмотрим категории основных пользователей и потребителей Big Data,
автоматизируемые процессы и используемые для этого технологии.
Потребители Big Data — это организации, являющиеся, как правило, и пользователями
решения, и производителями данных, которые должны быть обработаны, а в большинстве
случаев — еще и исполнителями работ по аналитической обработке данных. Отметим, что по мере
удешевления технологии Big Data к числу ее пользователей добавляется всё больше заказчиков из
средних предприятий.
Автоматизируемые процессы:
сбор данных, их обработка, поддержка принятия и
исполнения решений. Эти шаги состоят из множества подопераций, таких как мониторинг,
обнаружение, измерение, оповещение, очистка, анализ и архивирование.
Таким образом, технологию Big Data можно рассматривать как некий стек технологий:
 Системы поддержки принятия решений с интерфейсом для пользователя. В
большинстве практических приложений анализ данных не является самоцелью. Если речь
идет об автоматизации бизнес-задач, то решение должно включать замкнутый цикл модели
принятия решений, который содержит такие шаги, как мониторинг, анализ, поддержка
принятия решения и автоматизация его исполнения. Следует выделять два класса ПО
39
поддержки принятия решений: ПО поддержки принятия решений в транзакционных и
проектных управленческих задачах. Первые требуют высокой степени автоматизации,
функционирования в режиме реального времени и потоковых данных. Принятие решений
базируется на политиках — на основе выбора действий, предписанных той или иной
ситуацией. В качестве примера можно привести выявление случаев мошенничества,
оптимизацию
торговли
ценными
бумагами,
оптимизацию
цен
на
авиабилеты,
рекомендацию товаров в системах электронной коммерции и т.п.
Второй тип ПО — обычно это анализ по запросу, включающий выявление закономерностей
в данных, прогнозирование некоторых событий и принятие решений на основе данного
интеллектуального предсказания. Примеры включают приложения для сегментации
клиентов, исследование закономерностей в проектировании фармацевтических препаратов,
исследование закономерностей в залегании природных ресурсов, прогнозирование погоды.
Технологии Big Data могут использоваться как в транзакционных, так и в проектных
задачах.
 Системы
аналитической
обработки
и
выявления
закономерностей.
ПО
для
аналитической обработки Big Data и выявление закономерностей — это большая группа
приложений, которая может быть классифицирована по разным принципам. Приложения
для офлайновой обработки или онлайновой обработки по запросу, средства выявления
закономерностей в данных, приложения для различных вертикальных областей, например
решения для розничной торговли, оптимизации транспортных потоков и т.п. Данное ПО
также может быть классифицировано по типу данных, которые анализируются: текстовые,
аудио, видео, сетевые структуры. Кроме того, приложения можно разделить по степени
сложности задач: базовая агрегация или сложные прогнозные задачи.
 Системы организации и управления данными. Технологии для организации и
управления данными относятся к программному обеспечению, которое обрабатывает и
готовит все виды структурированных и неструктурированных данных для анализа. Эти
приложения отвечают за извлечение, очистку, нормализацию и интеграцию данных. Они
включают подходы реляционных баз данных, но всё-таки в большей мере — NoSQLподходы. Такой подход направлен на реализацию моделей баз данных, отличных от
используемых в традиционных реляционных СУБД с доступом к данным средствами языка
SQL. Подход NoSQL не является полным отрицанием языка SQL и реляционной модели и
исходит из того, что SQL — это полезный инструмент, но отнюдь не оптимальный при
работе с данными очень большого объема и в проектах с разнородными данными.
Основные положения при разработке такого типа систем — нереляционная модель данных,
открытый исходный код, хорошая горизонтальная масштабируемость.
40
 ИТ-инфраструктура. ИТ-инфраструктура для задач класса Big Data как правило строится
на базе стандартных серверов, сетей, СХД, гипервизоров и кластерного ПО, что позволяет
удешевить решение. Комплексы, построенные путем масштабирования стандартных x86серверов наряду с использованием сетевых технологий Ethernet 10GbE, позволяют
достигать вычислительных мощностей, которые в прошлом были доступны только на
специализированных
суперкомпьютерах.
Следует
отметить,
что
«облачная»
инфраструктура — это удобная технология для работы с большими объемами данных.
Кроме того, в инструментах технологии Big Data используется множество разнообразных
методик анализа массивов данных, таких как, например:
 A/B testing. Методика, в которой контрольная выборка поочередно сравнивается с другими.
Тем самым удается выявить оптимальную комбинацию показателей для достижения,
например, наилучшей ответной реакции потребителей на маркетинговое предложение.
Большие данные позволяют провести огромное количество итераций и таким образом
получить статистически достоверный результат.
 Association rule learning. Набор методик для выявления взаимосвязей, т.е. ассоциативных
правил, между переменными величинами в больших массивах данных. Используется в data
mining.
 Classification. Набор методик, которые позволяет предсказать поведение потребителей в
определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и
проч.). Используется в data mining.
 Cluster analysis. Статистический метод классификации объектов по группам за счет
выявления наперед не известных общих признаков. Используется в data mining.
 Crowdsourcing. Методика сбора данных из большого количества источников.
 Data fusion and data integration. Набор методик, который позволяет анализировать
комментарии пользователей социальных сетей и сопоставлять с результатами продаж в
режиме реального времени.
 Data mining. Набор методик, который позволяет определить наиболее восприимчивые для
продвигаемого продукта или услуги категории потребителей, выявить особенности
наиболее успешных работников, предсказать поведенческую модель потребителей.
 Ensemble learning. В этом методе задействуется множество предикативных моделей за
счет чего повышается качество сделанных прогнозов.
 Genetic algorithms. В этой методике возможные решения представляют в виде `хромосом`,
которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции,
выживает наиболее приспособленная особь.
41
 Machine learning. Направление в информатике (исторически за ним закрепилось название
`искусственный интеллект`), которое преследует цель создания алгоритмов самообучения
на основе анализа эмпирических данных.
 Natural language processing (NLP). Набор заимствованных из информатики и лингвистики
методик распознавания естественного языка человека.
 Network analysis. Набор методик анализа связей между узлами в сетях. Применительно к
социальным
сетям
позволяет
анализировать
взаимосвязи
между
отдельными
пользователями, компаниями, сообществами и т.п.
 Optimization. Набор численных методов для редизайна сложных систем и процессов для
улучшения одного или нескольких показателей. Помогает в принятии стратегических
решений, например, состава выводимой на рынок продуктовой линейки, проведении
инвестиционного анализа и проч.
 Pattern recognition. Набор методик с элементами самообучения для предсказания
поведенческой модели потребителей.
 Predictive modeling. Набор методик, которые позволяют создать математическую модель
наперед заданного вероятного сценария развития событий. Например, анализ базы данных
CRM-системы на предмет возможных условий, которые подтолкнут абоненты сменить
провайдера.
 Regression. Набор статистических методов для выявления закономерности между
изменением зависимой переменной и одной или несколькими независимыми. Часто
применяется для прогнозирования и предсказаний. Используется в data mining.
 Sentiment analysis. В основе методик оценки настроений потребителей лежат технологии
распознавания естественного языка человека. Они позволяют вычленить из общего
информационного потока сообщения, связанные с интересующим предметом (например,
потребительским продуктом). Далее оценить полярность суждения (позитивное или
негативное), степень эмоциональности и проч.
 Signal processing. Заимствованный из радиотехники набор методик, который преследует
цель распознавания сигнала на фоне шума и его дальнейшего анализа.
 Spatial analysis. Набор отчасти заимствованных из статистики методик анализа
пространственных данных – топологии местности, географических координат, геометрии
объектов.
Источником
больших
данных
геоинформационные системы (ГИС).
42
в
этом
случае
часто
выступают
 Statistics. Наука о сборе, организации и интерпретации данных, включая разработку
опросников и проведение экспериментов. Статистические методы часто применяются для
оценочных суждений о взаимосвязях между теми или иными событиями.
 Supervised learning. Набор основанных на технологиях машинного обучения методик,
которые позволяют выявить функциональные взаимосвязи в анализируемых массивах
данных.
 Simulation.
Моделирование
поведения
сложных
систем
часто
используется
для
прогнозирования, предсказания и проработки различных сценариев при планировании.
 Time series analysis. Набор заимствованных из статистики и цифровой обработки сигналов
методов анализа повторяющихся с течением времени последовательностей данных. Одни
из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости
пациентов.
 Unsupervised learning. Набор основанных на технологиях машинного обучения методик,
которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых
массивах данных. Имеет общие черты с Cluster Analysis.
 Visualization. Методы графического представления результатов анализа больших данных в
виде диаграмм или анимированных изображений для упрощения интерпретации
облегчения понимания полученных результатов.
3.2 Характеристика рынка Big Data
Для оценки объема и определения перспектив рынка Big Data был проведен сравнительный
анализ результатов исследований, выполненных крупнейшими российскими и зарубежными
аналитическими компаниями.
По оценкам IDC объемы хранящихся данных будут ежегодно увеличиваться на 40%, а
рынок технологий и сервисов для обработки больших данных к 2015 году достигнет 16,9 млрд.
долларов в соответствии с рисунком (см. Рисунок 4). При этом объем рынка технологий и услуг
Big Data в 2014-2017 гг. будет ежегодно увеличиваться в среднем на 27% и в 2017 г. достигнет
32,4 млрд. долларов.
43
Рисунок 4 – Прогноз роста мирового рынка Big Data
(источник: IDC, Worldwide Big Data Technology and Services 2010-2015 Forecast)
По результатам проведенного исследования было выявлено, что рынок Big Data
экстрактивен: c одной стороны, он частично пересекается с рынком (BA Business Аnalytics)
бизнес-аналитики (который в 2012 году с учетом ПО, аппаратного обеспечения и услуг составил
около 100 млрд. долл.), а с другой — состоит из базовых рынков (серверы, СХД, сетевые
технологии, ПО и услуги) в соответствии с рисунком (см. Рисунок 5). При этом более 40% рынка
Big Data занимают услуги, в состав которых входят консалтинг, системная интеграция, обучение и
т.п.
30%
41%
Услуги
Серверы
СХД
Сетевые технологии
3%
ПО
12%
14%
Рисунок 5 - Структура рынка Big Data
(источник: IDC, Worldwide Big Data Technology and Services 2010-2015 Forecast)
Структура рынка Big Data свидетельствует, что технология открывает широкие
возможности для поставки решений от компаний, специализирующихся в различных областях
(ПО, аппаратное обеспечение, ИТ-услуги).
44
Кроме того, как отмечает IDC, на рост рынка Big Data также влияет тот факт, что задачи,
требующие применения технологий Big Data, характерны для целого ряда отраслей и видов
деятельности в соответствии с рисунком (см. Рисунок 6).
Рисунок 6 – Примеры задач, решаемых методами Big Data.
При этом согласно исследованиям IDC, было выявлено, что применение технологий Big
Data не всегда связаны с решением задач в рамках аналитических приложений. Так, более 10%
респондентов исследования (специалисты уровня ИТ-директоров и высшего руководства из
организаций США) указали на применение этой технологии для решения неаналитических задач в
соответствии с рисунком (см. Рисунок 7). Также интересно отметить, что почти для 30%
респондентов стимулом для применения Big Data-технологий послужил сравнительно новый тип
исследований, а именно анализ онлайнового поведения клиентов.
Рисунок 7 – Цели внедрения технологий Big Data
(источник: IDC Vertical IT & Communications Survey, 2012, N 4177)
45
Согласно исследованию Gartner в 2013 году 64% организаций во всем мире инвестировали
или планировали инвестировать в развертывание технологий Big Data в своих бизнес-процессах,
30% уже анализируют большие данные.
По мнению экспертов медиа-компании IDG Enterprise 70% крупных компаний уже
используют или планируют внедрить технологии Big Data в 2014 г. В секторе малого и среднего
бизнеса эта цифра составляет 56%.
Более оптимистичные прогнозы приведены в исследовании объема рынка Big Data,
проведенном компанией Wikibon, в котором говорится, что в 2013 году рынок продуктов и услуг,
связанных с Big Data, вырос на 58% в сравнении с 2012 году и достиг 18,6 млрд. долларов. При
этом 40% доходов получены от предоставления услуг, 38% от продажи оборудования и 22% от
реализации программного обеспечения.
Согласно прогнозу Wikibon объем рынка Big Data достигнет 28,5 млрд. долларов к концу
2014 г. и 50 млрд. долларов к концу 2017 г. Как видно из приведенных данных, оценка компании
Wikibon в полтора раза превышает прогноз агентства IDC.
По мнению экспертов на увеличение объема рынка влияет рост доверия к решениям Big
Data со стороны крупных компаний и организаций, зрелость продуктов и услуг, растущее число
провайдеров и вендоров, предоставляющих услуги и продающих оборудование для анализа
больших данных. В числе сдерживающих факторов отмечаются недостаток лучших практик по
интеграции анализа больших данных в существующие бизнес-процессы, неоднозначность в
вопросах безопасности и сохранности персональных данных, нехватка отлаженных и
отработанных приложений, решающих конкретные бизнес-задачи.
Таким образом, проведенные исследования рынка Big Data показывают, что мировой спрос
на технологии Big Data неуклонно растет, и они становятся одним из ключевых технологических
направлений на российском и международном ИТ-рынке.
Из примеров реализации технологии Big Data в рамках современного ИТ-рынка наиболее
часто упоминается проект Hadoop — по осуществлению распределенных вычислений для
обработки больших объемов данных, который создается в рамках Apache Software Foundation.
Коммерческую поддержку проекта осуществляет компания Cloudera. В проекте участвуют
разработчики со всего мира. С технологической точки зрения Apache Hadoop — это свободный
Java-фреймворк, поддерживающий выполнение распределенных приложений, работающих на
больших кластерах, которые построены на стандартном оборудовании. Поскольку обработка
данных организуется на кластере серверов, если один из них выходит из строя, работа
перераспределяется между оставшимися. В Hadoop реализована технология MapReduce, которая
обеспечивает автоматическое распараллеливание данных и их обработку на кластерах. Ядром
Hadoop служит отказоустойчивая распределенная файловая система HDFS (Hadoop Distributed File
46
System), оперирующая системами хранения. Она разбивает входящие данные на блоки, каждый из
которых попадает на отведенное ему место в пуле серверов. Система позволяет приложениям
масштабироваться до уровня тысяч узлов и петабайт данных.
Позднее на рынке появился целый ряд решений, в которых использовались принципы,
реализованные в MapReduce. К ним можно отнести продукты компаний Teradata, Aster Data,
Netezza, DATAllegro, Microsoft (SQL Server, Project Madison), Dataupia, Vertica (поглощена HP),
ParAccel, Neoview, Greenplum, IBM (DB2, проект Database Partitioning Feature) и Oracle (проект
Exadata).
Приведем далее список ИТ-компаний, являющихся ведущими игроками рынка Big Data.
Среди приведенных компаний есть как производители специализированных ИТ-решений по Big
Data, так и ИТ-компании, которые сталкиваются с феноменом больших данных в ходе
собственной повседневной деятельности: 1010Data, Actian, Amazon, Cloudera, Dell, eBay, EMC,
Facebook, Fujitsu, Google, Hitachi Data Systems Corporation, HortonWorks, HP, IBM, InfiniDB,
InfoBright, Kognitio, LinkedIn, Map Technologies R, Microsoft, NetApp, Oracle, Pivotal, SAP, SAS,
SGI (Silicon Graphics Inc), Teradata, VMware, Yahoo в соответствии с рисунком (см. Рисунок 8).
Рисунок 8 – Big Data-вендоры и технологии
(источник: Manuel Sevilla, Capgemeni, 2012)
Все компании на рисунке 8 помещены в отдельные категории, которые соотнесены с
четырьмя этапами обработки и управления данными:
47
 Сбор данных. Этап сбора данных предполагает процедуры ETL, часто в режиме реального
времени, в связи с большим объемом и высокой скоростью потока данных. Поскольку
данные, как правило, внешние, на этом этапе должны решаться вопросы обеспечения
безопасности данных и определения степени доверия к ним. На этом же этапе выполняется
проверка лицензионности данных и соблюдения прав на использование внешних данных.
Среди фирм, работающих в категории «Захват данных», отмечены такие технологические
компании, как Ab Initio, HP, IBM (DataStage, Streams, Data Mirror), Informatica (PowerCenter,
PowerExchange, CEP), Kalido, Microsoft, Numenta, Oracle, SAP, SAS, Splunk, Syncsort, Talend
и Tibco.
На рисунке 8 категория «Инструментарий обработки сложных событий» (Complex Event
Processing tools, CEP tools) распространяется не только на этап «Сбор», но и на
последующие этапы — «Маршалинг» и «Аналитика». Инструментарий CEP позволяет
производить обработку множества событий, происходящих на различных уровнях
организации, с идентификацией наиболее существенных из них, анализом их влияния и
принятием необходимых действий в режиме реального времени.
В категории «Поставщики данных», которая также относится к этапу «Сбор», отмечены
такие игроки, как ComScore, Datasift, Experian, Factual, GfK, Gnip, IMS, Inrix, Kaggle,
Knoema, LexisNexis, Microsoft, Nielsen, Reuters, Salesforce Radian6 и Symphony IRI.
В качестве отдельной категории поставщиков данных выделены сайты социальных сетей,
такие как Facebook, Google, LinkedIn, Tumblr, Twitter и Viadeo. Здесь также нужно отметить
всех других поставщиков открытых данных, например правительства и т.п.
 Маршалинг данных. Все полученные данные должны быть отсортированы для удаления
бесполезной информации и хранения в оптимальных форматах, исходя из применяемых
решений (Hadoop, No-SQL, BI-приложения, In-memory).
На данном этапе в категории «VLDW и программно-аппаратные комплексы BI» упомянуты
вендоры, предоставляющие большие хранилища данных и программно-аппаратные BIкомплексы для бизнес-аналитики (Actian, EMC2 (Greenplum), HP (Vertica), IBM (Netezza),
Kognitio, Microsoft (SQL 2012 и PDW), Oracle (Exadata), ParAccel, SAP (HANA и Sybase IQ),
SAS и Teradata.
В категории NoSQL основные игроки — это прежде всего Amazon (как «облачный»
провайдер с собственными NoSQL-решениями), Cassandra, Cloudera (CDH, дистрибьюция
Hadoop), CouchDB, EMC2, Google, Hadoop, Google, Hortonworks (Hadoop-дистрибьюция),
HP, IBM, KX, MapR (Hadoop-дистрибьюция), Marklogic, Microsoft (Hadoop на базе Windows
и Azure), MongoDB, Neo4J, Oracle, Palantir, Snaplogic, Sparsity, Splunk, Teradata (Aster Data)
и ZL Technologies.
48
Необходимость использования технологий Big Data в системах управления контентом тоже
связана с увеличением объема хранимых документов. На определенном этапе роста объема
данных становится слишком дорого обеспечивать их хранение и осуществлять в них поиск,
возникает потребность в применении технологий Big Data, чтобы классифицировать
данные, выделяя наиболее ценные из них для последующего сохранения.
В категории «Управление контентом» отмечены такие компании, как Adobe, Alfresco,
EMC2 (Documentum), IBM (FileNet), HP (Autonomy), Microsoft, OpenText и Oracle.
 Аналитика.
На
данном
этапе
выделены
собственно
блок
«Аналитика»,
блок
«Виртуализация данных»; частично к этапу «Аналитика» относится также блок «BIинструменты».
В блоке «Аналитика» собраны компании, которые предлагают решения в области
глубинной и прогнозной аналитики. Здесь отмечены такие вендоры, как Adobe, EMC2,
GoodData, Hadoop Map Reduce, HP, IBM (SPSS), Karmasphere, Kxen, Microsoft, Mzinga,
Oracle, R, Salesforce, SAS, SAP (R on HANA) и Teradata (Aprimo).
На этапе «Аналитика» авторы схемы выделяют также блок «Виртуализация данных».
Виртуализация данных — это процесс предоставления данных пользователям посредством
интерфейса, абстрагирующего данные от технических аспектов их хранения (способ
хранения, местоположение, структура, язык доступа). В разделе «Виртуализация данных» в
качестве лидеров выделены такие компании, как Composite, Denodo, HP (IDOL), IBM,
Informatica, Microsoft, Oracle (Exalytics), SAP и Teiid (JBoss community).
Как на стадии «Аналитика», так и на стадии «Действия» поставщиками BI-инструментов
являются такие компании, как Actuate, Dassault Systemes (Exalead), Domo, Esri, GoodData,
Google, HP (Autonomy), IBM (Cognos suite), Information Builders, LogiXML, Microsoft (SQL
2012), Microstrategy, NeutrinoBI, Oracle (OBI Foundation), Panopticon, Panorama, Pentaho,
Qlikview, Roambi, SAP (BI4 suite), SAS, SpagoBI, Tableau и Tibco.
 Действия. Обнаруженные на стадии аналитики важные зависимости и закономерности
должны быть положены в основу принятия бизнес-решений, которые трансформируют их в
прибыль за счет оптимизации расходов и т.п. На стадии «Действия» присутствуют все
игроки, специализирующиеся в захвате данных, а также разработчики ERP-, CRMи BPMсистем, в том числе Adobe, Eloqua, EMC2, IBM, iGrafx, Microsoft, OpenText, Oracle, Pega,
Progress Software, SAP, Salesforce, Software AG, Teradata (Aprimo) и Tibco.
 Управление данными. Система не может функционировать без качественных данных и
эффективного управления мастер-данными — бизнес-данными, которые служат основой
для принятия бизнес-решений и используются всеми информационными системами
компании. Управление мастер-данными заключается в сборе, агрегации, трансформации и
49
объединении основных данных при обеспечении их качества и согласованности
(исключаются повторяющиеся и противоречивые данные).
В блоке «Управление данными» (Data governance) выделены такие компании, как Adaptive,
HP, IBM, Informatica, Kalido, Microsoft, Oracle, Orchestra Networks, SAP, SAS, Talend и
Tibco.
Об интересе крупных вендоров к технологии Big Data свидетельствуют их приобретения
последних лет. Так, в 2010 году IBM купила Netezza — производителя программно-аппаратных
комплексов для BI-систем и аналитических хранилищ данных — приблизительно за 1,7 млрд
долл. Сегодня IBM предлагает решение в области хранилищ данных семейства IBM Netezza,
предназначенное специально для выполнения сложной аналитики на сверхбольших объемах
данных. В 2010 году EMC приобрела компанию Greenplum Software, занимающуюся организацией
информационных хранилищ. Фирма Greenplum разрабатывает программные средства баз данных
для организации хранилищ данных и интеллектуальных ресурсов предприятий. У Greenplum есть
несколько значительных инвесторов, в том числе Sun Microsystems и SAP Ventures. База клиентов
компании включает Skype, Equifax и T-Mobile Fox Interactive Media.
Сегодня ЕМС позиционирует себя как производителя, обладающего полным стеком
решений для построения «облачной» инфраструктуры для хранения и работы с «большими
данными».
Стоит отметить, что указанные производители являются лидерами международного рынка
в рамках исследований компании Gartner. Компания Gartner, являющаяся международной
исследовательской
и
консалтинговой
информационных технологий, проводит
компанией,
специализирующейся
на
рынке
регулярные исследования рынков информационных
технологий. Одним из таких исследований является исследование мирового рынка систем
управления хранилищами данных и представление его результатов в виде магического квадранта,
представленного в соответствии с рисунком (см. Рисунок 9).
50
Рисунок 9 – Магический квадрант провайдеров решений
в области систем управления хранилищами данных
(источник: Gartner, март 2014).
Магический квадрант Gartner представляет собой оценку производителей и их решений по
следующим параметрам:

Способность к реализации (ability to execute) – сводный параметр, характеризующий
простоту адаптации и модификации решения под нужды пользователей, насколько
решение
простое
или
запутанное,
уровень
достигнутой
вертикализации,
жизнеспособность компании-производителя, ценообразование, опыт внедрения.

Полнота видения (completeness of vision) – сводный параметр, характеризующий
способность производителя понимать потребности заказчика, наличие торговой
стратегии, продуктовой стратегии, охват индустрий, наличие инноваций в решении.
Таким образом, в квадрант «Лидеры» помещаются производители с положительными
оценками, как по полноте видения, так и по способности к реализации.
51
3.3 Исследование опыта применения технологии Big Data в
различных индустриях
3.3.1 Результаты анализа опыта успешного и эффективного применения
технологии Big Data на мировом и российском рынках
Деятельность предприятий и организаций, чаще всего реализующих проекты Big Data, как
правило, связана с выполнением функций государственной власти и управления, обеспечением
безопасности,
банковскими
и
страховыми
услугами,
телекоммуникациями,
торговлей,
транспортом, медициной. При этом в разных индустриях перспективы внедрения технологии Big
Data различны в соответствии с рисунком (см. Рисунок 10)Error! Reference source not found..
Например, потенциал применения Big Data в правительственных организациях – один из наиболее
высоких, однако индекс легкости захвата данных минимален.
Основным фактором, определяющим развитие технологий Big Data, является конкуренция,
поэтому наиболее успешные проекты реализуются в таких высоко конкурентных отраслях как
телекоммуникации, банки, розничная торговля. Наряду с крупнейшими мировыми компаниями
(IBM, ING, VISA, Merrill Lynch, Bank of America, Central Bank of India, HSBC, Capital One,
Amazon, Facebook, Twitter, Google и другие), российские компании все чаще применяют
технологии Big Data для решения собственных бизнес-задач.
Рисунок 10 – Сравнительный индекс потенциала применения технологии Big Data
и индекс легкости захвата данных в разных индустриях.
52
Сначала рассмотрим опыт применения технологий Big Data российскими и зарубежными
компаниями в перечисленных выше высоко конкурентных отраслях.
К числу лидеров рынка услуг, основанных на анализе и обработке больших объемов
информации, относятся телекоммуникационные и интернет-компании.
В компании «Яндекс» первая система обработки больших данных, используемая в режиме
промышленной эксплуатации, появилась уже в 2007-2008 годах. В настоящее время технологии
Big Data позволяют оптимизировать поиск, фильтровать спам в «Яндекс.Почте», делать
рекомендации товаров на «Яндекс.Маркет», выбирать оптимальный маршрут в реальном времени
в зависимости от загруженности магистралей и особенностей дорожной обстановки в
«Яндекс.Карты» и «Яндекс.Навигатор».
Кроме того разработанные компанией «Яндекс» технологии Big Data используются для
анализа и обработки данных геологоразведки компанией «Сейсмотек», а также для анализа и
обработки данных в проектах CERN (Европейский центр ядерных исследований, ЦЕРН).
В ближайшие годы планируется использовать большие данные, чтобы улучшить
существующие сервисы и технологии. В перспективе с учетом Big Data будет развиваться
платформа «Атом», позволяющая веб-мастерам адаптировать свои сайты под интересы
пользователей за счет экспресс-анализа профилей посетителей сайтов.
В компании считают, что технологии Big Data позволили получить конкурентные
преимущества перед другими глобальными интернет-компаниями, помогли увеличить рыночную
долю «Яндекса» в предоставляемых сервисах.
По мнению специалистов компании «Яндекс» распространение технологий Big Data
тормозит недоразвитость инфраструктуры, недостаточное количество квалифицированного
персонала, неготовность бизнеса к крупным инвестициям, а также непонимание ценности анализа
больших данных или неумение применить Big Data на практике.
Интерес компании «Mail.ru» к технологиям Big Data вызван тем, что она работает с
миллионами пользователей. Ее ИТ-инфраструктура включает более 17 000 серверов, хранящих 20
петабайт информации и формирующих 460 гигабит в секунду исходящего трафика.
Первый проект по обработке больших данных «Рейтинг Mail.ru» (изначально counter.list.ru)
существует с 1998 года. Он предоставляет веб-мастерам статистику событий, происходящих на их
сайтах. В нем использованы собственные технологии хранения данных и обработки огромного
количества входящей информации (почти 100 миллионов пользователей и несколько миллиардов
просмотров страниц в день).
В настоящее время компанией реализуются такие проекты как «Почта Mail.ru»,
«Одноклассники», «Мой мир», «Поиск Mail.ru» и многие другие. В этих проектах анализ больших
данных позволяет выявить спам, выбрать баннер индивидуально для конкретного пользователя,
53
предложить пользователям знакомство и общение с другими пользователями или подписаться на
определенные обновления.
По оценкам специалистов компании «Mail.ru» максимальный эффект от применения
технологий Big Data может быть достигнут в рекламной деятельности. В частности, в системе
автоматического размещения рекламы в социальных сетях «Таргет.Mail.ru» анализ поведения
пользователей с использованием обработки больших данных позволил значительно увеличить
эффективность рекламных объявлений.
В банковском бизнесе внедрение технологий Big Data направлено на повышение качества
обслуживания, разработку новых банковских продуктов и услуг, обеспечение безопасности,
оптимизацию расходов.
Так, например, финансовый холдинг ING с помощью технологий Big Data собирает и
анализирует информацию о действиях посетителей сайта. При этом решаются задачи оптимизации
пользовательского интерфейса и генерации индивидуальных маркетинговых предложений для
своих клиентов. В рамках реализации концепции «Next Best Action» технологии Big Data
обеспечивают выбор и персонализацию банковских продуктов, предлагаемых конкретным
клиентам.
В банке HSBC Big Data, используемые для противодействия мошенничеству с кредитными
картами, позволили повысить эффективность службы безопасности в 3 раза, а точность
распознавания инцидентов – в 10 раз. Экономический эффект превысил 10 миллионов долларов.
В России многие банки, являющиеся технологическими лидерами, также начинают
исследовать возможности применения технологий работы с большими данными.
Сбербанк реализует пилотный проект по применению технологий Big Data в продажах,
управлении рисками, маркетинге, управлении взаимоотношениями с клиентами, борьбе с
мошенничеством и других направлениях своей деятельности.
В «Альфа-Банке» успешно завершена разработка прототипа решения по взаимодействию с
социальными сетями, идет несколько пилотных проектов с применением технологий Big Data. По
мнению специалистов банка, это позволит на основании анализа клиентского поведения,
клиентской активности и клиентских операций оперативно принимать решения и эффективно
предлагать банковские продукты.
В «Райффайзенбанке» выполняется несколько проектов Big Data, направленных на
улучшение обслуживания и работы с потенциальными частными клиентами за счет отслеживания
поведенческих характеристик при противодействии мошенничеству, принятии решений по
кредитным заявкам, а также при сегментации клиентов и создании маркетинговых кампаний в
аналитической CRM. Внедрение технологий Big Data помогло «Райффайзенбанку» значительно
ускорить обработку данных для формирования ежедневной отчетности.
54
Также в профессиональных СМИ сообщается о применении технологий Big Data в банках
«Санкт-Петербург», ВТБ24, «Тинькофф Кредитные Системы», «Открытие» и других.
В целом
анализ проектов Big Data в банковском бизнесе показывает, что в условиях
ужесточения конкуренции основными задачами применения технологий анализа больших данных
являются
оперативное
получение
отчетности,
скоринг,
противодействие
сомнительным
операциям, мошенничеству и действиям злоумышленников, а также персонализация продуктов.
Выделяют два ключевых направления использования технологий Big Data в банковской
сфере:

Нацелено на формирование профиля клиента на основе анализа данных внутренних
банковских систем и внешних источников, включая открытые базы данных
госструктур, программы лояльности, сведения коллекторских агентств, социальные
сети и другие источники.

Нацелено на проведение анализа банковских транзакций, а также данных, получаемых
от банкоматов и другого банковского оборудования.
С маркетинговых позиций технологии Big Data позволяют найти скрытые взаимосвязи,
новые источники информации; повысить качество и оперативность принимаемых решений по
персонализации клиентских предложений, удержанию клиентов; разработать новые уникальные
услуги.
Маркетинговые службы банковских и финансовых структур, используя продукты Big Data,
разрабатывают и реализуют различные инновационные сценарии взаимодействия с клиентами.
Рассмотрим в качестве примера несколько из таких сценариев:
1.
Применение технологий Big Data на этапе сбора и анализа сведений о поведении
клиента на сайте банка, изучения истории его банковских операций, данных из
социальных сетей. Используя эту информацию, система управления маркетинговыми
коммуникациями
готовит
персональные
рекламные
предложения,
которые
отправляются клиенту банка по наиболее эффективному каналу (письмо по
электронной почте, sms, рассылка, социальные сети и т.п.).
2.
Оперативная маркетинговая реакция на интерес клиента к определенному продукту или
услуге банка. На основе анализа данных о посещении клиентом сайта банка и страницы
по заинтересовавшей его услуге система управления маркетинговыми коммуникациями
формирует персонализированное предложение по данной услуге. Это предложение
клиент получит при переходе на другой сайт, размещающий контекстную рекламу, или
на свои странички в социальных сетях.
3.
Анализ телефонных разговоров операторов call-центра с клиентами, в процессе
которого
оператору
оперативно
предоставляется
55
необходимая
информация
предыдущей истории отношений с клиентом, формируются подсказки, позволяющие
уточнить запросы клиента и побуждающие его к определенным действиям.
Таким образом, применение технологий Big Data, эффективное использование всего объема
информации позволяет банкам увеличить выручку и уменьшить отток клиентов за счет
повышения эффективности маркетинговых кампаний и создания индивидуальных предложений.
Еще одной отраслью, в которой технологии Big Data наиболее востребованы, является
розничная торговля. Рассмотрим несколько примеров анализа больших данных зарубежными и
российскими торговыми предприятиями.
Для розничной торговли важна скорость обработки постоянно обновляющихся огромных
массивов данных. Американская сеть Guess, продающая джинсовую одежду и аксессуары,
применяет технологии Big Data для отслеживания информации о продажах и движении товаров.
Используемая сетью система HP Vertica анализирует, какие товары хорошо продаются; выявляет
товары, не пользующиеся спросом; определяет комбинации совместно приобретаемых товаров.
При этом актуальная информация о продажах предоставляется сети магазинов на утро
следующего дня. Совместно в системой HP Vertica используется приложение для планшетных
компьютеров, позволяющее дизайнерам и менеджерам (непрофессиональным потребителям
аналитики) использовать полученные результаты на своих рабочих местах.
Сеть супермаркетов Wal-Mart применяет технологию Big Data для решения задач
прогнозирования спроса, оптимизации цен, разработки акций и маркетинговых кампаний, собирая
и анализируя 2,5 петабайт данных в час.
Крупнейшая международная сеть супермаркетов Tesco использует технологии Big Data для
работы с покупателем непосредственно в торговых точках. В магазинах сети внедряется
программное обеспечение, реализующее технологии распознавания лиц (face recognition). Оно
позволяет при приближении покупателя на мониторе транслировать рекламу, предназначенную
для соответствующей потребительской аудитории.
В России компания «Глория Джинс», занимающаяся дизайном, производством и продажей
одежды, начала анализировать Big Datа для обеспечения своевременных поставок товаров в более
чем 600 магазинов в 319 городах России и Украины в 9 часовых поясах. Центральный офис
компании находится в Ростове-на-Дону, откуда происходит управление 9 региональными
представительствами, 7 логистическими комплексами и 48 фабриками.
Для построения системы управления базами данных выбрана платформа HP Vertica,
показавшая в ходе тестирования скорость обработки данных, в несколько раз превышающую
показатели конкурентных решений. Так, сложные отчеты, которые на других платформах
выполнялись в течение 4 часов, HP Vertica выполняла за 20 секунд, что позволило существенно
повысить производительность труда сотрудников компании. Руководство компании «Глория
56
Джинс» считает, что анализ данных в реальном времени помогает принимать быстрые и точные
бизнес-решения, основанные на актуальных данных, что в конечном счете приводит к улучшению
бизнес-показателей и повышению удовлетворенности покупателей.
Проведенный анализ практики применения Big Data в розничной торговле показывает, что
внедрение современных решений Big Data по сбору, обработке, анализу и предоставлению данных
позволяет розничным предприятиям и сетям оптимизировать цены и работать с ассортиментом,
совершенствовать логистические процессы, эффективнее управлять запасами и транспортными
потоками. Современные технологии анализа больших данных дают возможность оперативно
решать аналитические задачи, используя как накопленный массив информации, так и данные о
текущих продажах.
Кроме того, у маркетинговых служб розничных сетей появляются новые возможности
анализа данных о лояльности покупателей. При этом сведения о покупках позволяют точнее
сегментировать клиентскую базу для рекламной рассылки. Объединение этих сведений с данными
из социальных сетей дает дополнительную информацию об интересах покупателя и помогает
формировать персонифицированные рекламные предложения.
Таким образом, несмотря на определенные сложности и проблемы развития, технологии
Big Data становятся одним из важнейших направлений формирования новых сервисов, повышения
конкурентоспособности сервисных предприятий и организаций, создания инновационных
маркетинговых инструментов продвижения услуг.
Далее рассмотрим опыт использования технологий Big Data в работе государственных
организаций разных стран.
В государственном секторе Big Data позволяет отслеживать и анализировать огромные
массивы неструктурированных текстовых данных, содержащихся в документах, в Интернете, в
социальных сетях и в СМИ. Данная технология позволяет проводить автоматический анализ
тональности и оценку мнений и сообщений о деятельности государственного органа.
В США в государственном секторе инвестировано около 200 миллионов долларов на
развитие технологий «больших данных», что, безусловно, является показателем высокого
интереса к Big Data. Основными направлениями инвестиций являются Национальный научный
фонд, Национальный институт здравоохранения, Пентагон и Министерство энергетики.
В сфере здравоохранения США (United HealthCare) было построено решение на базе
текстовой аналитики SAS, которое позволило исследовать записи в медицинских картах
пациентов. Анализ этой информации позволил повысить точность диагностики и подбора
медикаментов, при этом всегда есть возможность проверить, соответствует ли диагноз описанным
симптомам и анамнезу пациента и насколько адекватным является лечение. Кроме того,
57
существуют и применяются специализированные решения предиктивной аналитики, позволяющие
предсказывать вероятность мошенничества в сфере здравоохранения.
Для формирования программы развития здравоохранения Канады, необходимо было
агрегировать, подготовить и проанализировать все имеющиеся медицинские данные, накопленные
за семнадцать лет. В результате внедрения аналитического решения, с применением технологии
Big Data, государство смогло исследовать факторы, влияющие на заболеваемость населения,
провести их статистический анализ, оценить качество оказываемой медицинской помощи и
использовать полученные результаты для разработки и реализации инициатив по развитию
системы здравоохранения.
Налоговая служба США с помощью подобных решений повышает уровень собираемости
налогов, Корейская таможня — выявляет нелегальный экспорт и импорт, а Пенсионный
департамент Великобритании
— граждан, которые неправомерно получают различные
социальные льготы и пособия.
Департамент специальных расследований Таиланда, созданный Министерством юстиции
Таиланда в 2002 году, также использует технологии Big Data. Объем информации, которой
оперирует ведомство, колоссален: это миллионы записей, собранных из разных источников и
хранящихся в структурированных и неструктурированных форматах, таких как документы,
изображения, видео. Обработка и поиск необходимых данных в таком массиве обычно занимают
очень много времени, особенно в условиях, когда невозможно задать четкие параметры для
поиска. Это сильно влияло на сроки раскрытия преступлений. Для преодоления этой проблемы
департамент внедрил решение Microsoft для хранения и управления большими данными на основе
Microsoft SQL Server 2012 и программного обеспечения Apache Hadoop. Внедрение решений
обработки больших данных позволило сократить время обработки и анализа информации по ряду
дел с двух лет до двух недель.
Государственное агентство занятости Германии разработало сервис по формированию
индивидуальных предложений для безработных за счет анализа исторических данных своих
клиентов и технологий сегментации и изучения поведенческой активности. Результатом
внедрения технологий Big Data является экономия за три года (наряду со смежными
инициативами) примерно 10 миллиардов евро бюджетных денег, при этом сокращение времени
поиска гражданами работы и, следовательно, повышение их удовлетворенности сервисом.
Налоговая служба Швеции, введя для граждан сервис по предварительному заполнению
налоговых деклараций персональными данными и данными за прошлые периоды, высвободила
примерно 15% своих штатных сотрудников.
Департамент повышения эффективности при правительстве Гонконга (КНР) создал систему
анализа жалоб на базе технологии Big Data, куда поступают сведения обо всех жалобах
58
и обращениях, а это 2,65 миллиона телефонных звонков и 98 тысяч электронных писем ежегодно.
Собранная
важная
социальная
информация,
содержащаяся
в жалобах,
используется
для углубленного анализа существующих и назревающих в обществе проблем. В результате,
правительство имеет возможность оценить эффективность работы государственных учреждений
и, при необходимости, принимать меры по ее повышению.
Что касается России, применение технологий «больших данных» в государственном
секторе пока находится на стадии исследования их потенциала для повышения эффективности
организаций. Однако ряд долгосрочных проектов уже стартовал. Можно утверждать, что многие
министерства или ведомства оперируют огромными массивами данных, даже если речь идет об
отдельном регионе, не говоря уже о стране в целом. С помощью технологии «больших данных»
решается очень широкий спектр задач правоохранительных органов: от предотвращения терактов
до поиска пропавших детей; при этом может использоваться анализ текстовой информации из
социальных сетей и различных форумов, анализ базы инцидентов, самой разнообразной
агрегированной информации о знакомых семьи, об освобожденных преступниках и так далее.
Решения обработки больших данных позволяют повысить эффективность деятельности
министерств и ведомств, улучшить процессы прогнозирования и принятия решений.
В Федеральной налоговой службе РФ реализована инфраструктурная часть в проекте по
внедрению автоматизированной информационной системы «Налог 3». С вводом АИС «Налог-3»
можно будет более эффективно бороться с «серыми зарплатами» или же привлечь к
ответственности предпринимателей, работающих без регистрации.
Также на текущий момент ведутся проекты по внедрению решений обработки больших
данных в Федеральном казначействе РФ, которые решают задачи анализа плановых и фактических
показателей исполнения бюджетов территориальными органами и органами государственной
власти.
3.3.2 Потенциальные возможности технологии Big Data, которые могут
быть полезными в сфере деятельности Минкультуры России
По результатам проведенных исследований технологии Big Data, а также учитывая
результаты обследования существующей схемы организации работы Министерства культуры
России и выявленные в ходе него потребности в информационно-технологических решениях,
можно сделать следующие выводы:

На технологии работы с большими данными в 2013 году в мире было потрачено
порядка $34 млрд., а к 2015 году в этом секторе будет создано 4,4 млн. рабочих мест.
59

Как и источники больших данных, средства и алгоритмы их обработки чрезвычайно
многообразны. Среди них как традиционные методы статистики и информатики, так
и специально разработанные для Big Data инструменты. Это методики выявления
взаимосвязей, позволяющие предсказать поведение потребителей в определенном
сегменте рынка, инструменты анализа комментариев в социальных сетях, алгоритмы
машинного самообучения, методики анализа пространственных (географических
данных), модели симуляции, средства визуализации и многие другие.

Самое известное и распространенное аппаратное решение – Hadoop от Apache. Это
программный комплекс с открытым кодом, и в ИТ-индустрии уже появилось целое
направление по созданию продуктов на его базе. В настоящее время практически все
современные средства анализа больших данных предоставляют средства интеграции
с Hadoop.
Их разработчиками
выступают
как
начинающие
компании,
так
и общеизвестные мировые бренды ИТ-индустрии.
Основываясь на проанализированных примерах успешного и эффективного использования
технологий Big Data в деятельности государственных структур и коммерческих организаций в
России и за рубежом, можно выделить несколько возможных направлений, потенциально
применимых при решении прикладных задач Минкультуры России (см. Таблица 6).
Таблица 6 Возможные направления использования российского и международного опыта по
технологии Big Data в деятельности Минкультуры России
№
п/п
1.
2.
Краткое описание проекта использования
технологии Big Data
Крупный авиаперевозчик, компания Air FranceKLM, внедрил систему обработки данных о своих
рейсах за более чем двухлетний период,
позволяющую оценивать и оптимизировать
расписание и стоимость билетов, исходя из данных
о конкретных пассажирах. Система также
оценивает вероятность отмены бронирования или
неявки пассажира на рейс, определяя величину
возможного избыточного бронирования.
Измерение эффективности рекламы на outdoorщитах в Лондоне. Раньше охват подобной рекламы
можно было измерить лишь поставив возле
рекламных конструкций людей со специальным
устройством, подсчитывающим прохожих. При
использовании технологий Big Data в оценке
эффективности рекламы появилось больше
возможностей, например, в результате
использования данных операторов сотовой связи в
60
Возможное направление
использования (аналог) в рамках
Минкультуры России
Планирование мероприятий (прогноз
эффективности, посещаемости и т.п.)
на основе ретроспективных данных по
ранее проведенным мероприятиям.
Планирование места проведения
мероприятий и размещения рекламных
площадок на основе данных сотовых
операторов о потоках целевой
аудитории и ретроспективных
геолокационных данных по абонентам
сотовой сети.
№
п/п
3.
4.
Краткое описание проекта использования
технологии Big Data
качестве постоянно пополняемого и
актуализируемого источника информации
(местонахождение абонентов, их демографические
характеристики, пол, возраст, семейное
положение, и т.д.).
Подобные данные используются при решении
размещения рекламных щитов в определенной
локации на основе данных о наличии мощного
целевого потока людей, для изменения содержания
рекламного сообщения на основе предпочтений
конкретного человека, проходящего мимо
рекламного щита. Если данные показывают, что
проходящий мимо человек много путешествует, то
ему показывается реклама курорта. Также,
организаторы футбольных матчей получили
возможность планировать места для размещения
рекламы следующих матчей, используя
информацию оператора сотовой связи о том, где
посетители находились за час, день или месяц до
него.
Проект всемирного фонда здравоохранения по
централизованному сбору информации
по больницам, клиникам и лабораториям, а также
отслеживанию вакцинированных пациентов
привел к впечатляющим результатам в борьбе
с полиомиелитом в Нигерии, Пакистане,
Афганистане, Индии и Эфиопии. Во всех регионах
собранная фондом информация была намного
более полной и объективной, чем официальная
статистика.
Крупная европейская сеть ресторанов быстрого
питания смогла оперативно отреагировать на
непредвиденное событие, тщательно
проанализировав внешние данные с помощью
программного обеспечения для бизнес-аналитики.
В 2011 г. мальчик съел два гамбургера и умер от
пищевого отравления. Этот случай, не
сопровожденный какими-либо медицинскими
свидетельствами, немедленно стал достоянием
прессы и интернета, в результате чего образ
компании был запятнан, а заведениям пришлось
столкнуться с лавиной проверок. Предприятие
решило применить методы чувствительного
анализа, основанные на отслеживании
распространенных слов и фрагментов текста
в интернете (например, социальных сетях, блогах и
интернет-изданиях). Им удалось понять, какие
эмоции испытывают потребители, и сравнить их
61
Возможное направление
использования (аналог) в рамках
Минкультуры России
Проверка выдачи прокатного
удостоверения на транслирующийся
фильм в кинотеатрах на основе данных
централизованной системы учета
выдачи прокатных удостоверений и
открытой информации о расписании
сеансов фильмов в кинотеатрах.
Деятельность пресс-службы
Министерства культуры Российской
Федерации (общественное мнение о
деятельности, образ Министерства и
его руководства и т.п.).
№
п/п
5.
6.
Краткое описание проекта использования
технологии Big Data
реакцию с откликом на подобные случаи у
конкурентов.
Кроме того, в результате анализа обнаружилось,
что пользователи социальных сетей комментируют
материалы французской газеты La Provence
особенно часто. Компания, желая быть
услышанной как можно более широкой
аудиторией, связалась с редакцией газеты.
Осознавая ожидания потребителей на основе
анализа больших данных, компания смогла
адаптировать свою PR-стратегию. Через месяц она
запустила сайт, посвященный соблюдению
санитарных норм в сети ее ресторанов быстрого
питания. Такой шаг изменил образ компании и
позволил ей сохранить долю и позиции на рынке.
Компания Nike запустила проект с открытыми
данными – Nike responsibility, задачей которого
является повышение прозрачности компании, а
также укрепление положительного образа и
улучшение отношения к бренду.
Nike часто критиковали за плохие условия труда
сотрудников, низкие заработные платы и
экологические загрязнения в Азии. Целью
указанного проекта была публикация сведений о
воздействии, которое оказывает продукция
компании на окружающую среду, и
производственной информации (например,
аудиторские отчеты о работе компанийсубподрядчиков).
В российских телекоммуникационных компаниях
(Вымпелком, МТС) с помощью технологий Big
Data осуществляется в том числе и управление
лояльностью абонента, в рамках которого
выполняется:
 Формирование
профиля
абонента:
сегментация клиентской базы, оценка
предпочтений и расчёт доходности для
каждой группы;
 Анализ записей о звонках клиентов по
десяткам
и
сотням
настраиваемых
параметров, определение социальных групп
абонентов, выявление лидеров мнений,
последователей и другие роли внутри этих
социальных групп;
 Нахождение внутренних взаимосвязей и
зависимостей: позволяет создавать модели
оттока абонентов, сегментировать их, что в
целом
расширяет
аналитические
62
Возможное направление
использования (аналог) в рамках
Минкультуры России
Повышение прозрачности деятельности
Минкультуры России и укрепление
положительного образа за счет
публикации информации на портале
открытых данных с использованием
современных средств визуализации.
Формирование профиля пользователей
услуг учреждений культуры по
направлениям, сегментация,
планирование и оценка эффективности
мероприятий и т.п. на основе данных от
сотовых операторов, данных
социальных сетей и открытых
интернет-ресурсов.
№
п/п
7.
Краткое описание проекта использования
технологии Big Data
возможности оператора;
 Планирование и предварительная оценка
маркетинговых кампаний, качественное
таргетирование исходя из профилей
абонентов;
 Предотвращение оттока абонентов, за счет
выявления и оценки значимости факторов,
которые влияют на лояльность клиентов;
 Принятий решения о необходимости
удержания
клиента
исходя
из
экономических соображений
В Лондоне для регулировки дорожного движения,
выявления контрабандистов и сбора оплаты за
въезд в город применяются специальные
технологии на основе Big Data.
Чтобы избежать возникновения пробок, служба
мониторинга дорожного движения совместно
с госслужащими собирали данные, поступающие
из социальных сетей, с камер видеонаблюдения
и систем автоматического слежения за
транспортными потоками, объединяя их с
данными о погоде, служебной информацией
полиции и контентом сетей. Это позволило им
предсказать часы пик и найти способы
регулирования транспортных потоков.
Например, они могли в любой момент
предоставить информацию о загруженности
дорожной сети представителям СМИ, гражданам,
поставщикам различных услуг и спортсменам, а
также быстро реагировать на любые инциденты
или события и принимать соответствующие меры
по координации для управления дорожным
движением и проведения работ.
Кроме того, понимание поведения людей,
перемещающихся по городу, позволило службе
мониторинга дорожного движения успешно
адаптироваться в режиме реального времени и с
максимальным качеством предоставлять свои
услуги пользователям.
63
Возможное направление
использования (аналог) в рамках
Минкультуры России
Планирование места проведения
мероприятий, формирование профиля и
сегментация пользователей услуг
учреждений культуры, анализ
пересечения аудитории и т.п. на основе
данных сотовых операторов,
геолокационных данных, интернетресурсов.
3.4 Оценка возможности адаптации технологии Big Data к
прикладным задачам Минкультуры России
3.4.1 Категории бизнес-процессов на предмет допустимого использования
технологии
Исходя из результатов проведенного обследования основных направлений деятельности
Министерства культуры России, анализа технологии и опыта применения Big Data можно
выделить следующие категории бизнес-процессов на предмет допустимого использования
технологии Big Data:

Мониторинг CМИ в отношении деятельности Министерства и его руководства;

Обеспечение доступности продукции и услуг кинематографии для всех слоев
населения;

Содействие сохранению и развитию всех видов и жанров профессионального искусства
(музыкального, театрального, циркового, изобразительного) и народного творчества
Российской Федерации;

Осуществление экономического анализа деятельности подведомственных федеральных
государственных учреждений и унитарных предприятий в сфере профессионального
искусства и народного творчества;

Воспрепятствование продвижению на киноэкраны произведений, содержание которых
выходит
за
рамки
ограничений,
предусмотренных
Конституцией
Российской
Федерации и действующими федеральными законами;

Защита детей от содержащейся в киновидеофильмах информации, причиняющей вред
их здоровью и развитию.
На основе выделенных бизнес-процессов далее будет сформирован перечень предложений
по использованию технологии Big Data в Министерстве культуры России.
3.4.2 Концепция
перевода
деятельности
Минкультуры
России
на
использование технологии Big Data
По результатам проведенного обследования основных направлений, а также уровня
автоматизации текущей деятельности Минкультуры России было выявлено, что эффективность
решения прикладных задач, стоящих перед Министерством, зависит от грамотной организации
информационных потоков и связана с дальнейшим совершенствованием используемых
64
программно-технических
средств.
Достижение положительных результатов в
указанных
направлениях возможно только при условии формирования полной и адекватной модели
управления информацией – создания единого информационного пространства.
Учитывая тот факт, что в ходе настоящего проекта была выявлена потребность в сборе и
взаимной увязке данных, получаемых из множества различных источников, формирование
единого информационного пространства в Минкультуры России рекомендуется осуществлять на
основе комплексного решения, включающего в себя технологии Big Data в соответствии с
рисунком 11.
Рисунок 11 – Схема концептуального программно-технического решения с использованием
технологии Big Data.
Предлагаемое комплексное программно-техническое решение состоит из следующих
компонентов:

Источники данных;

Сбор, обработка и хранение данных;

Анализ и потребление данных;

Управление данными.
Источники данных
Этот компонент включает в себя все источники данных, содержащие ценные сведения,
требующиеся для решения прикладных задач, стоящих перед Минкультуры России. Данные
(структурированные, полуструктурированные и неструктурированные) могут поступать в систему
из множества различных источников:

Унаследованные информационные системы – ИТ-приложения, обеспечивающие
функционирование внутренних процессов Минкультуры России;
65

Данные в виде электронных таблиц Microsoft Excel и документов Microsoft Word –
официальные данные (отчетность, статистика), внутренние политики, нормативноправовая информация и различные документы других видов;

Внутренние базы данных и реестры;

Информация от различных поставщиков агрегированных данных (операторы сотовой
связи, аналитические агентства и проч.);

Дополнительные
источники
данных
(географическая
информация,
карты,
региональные сведения, навигационные инструменты, социальные сети, электронная
почта, блоги, СМИ и проч.).
Сбор, обработка и хранение данных
Данный компонент отвечает за получение всех видов данных из источников данных и, в
случае необходимости, за преобразование их в нужный формат для последующего анализа
(например, преобразование изображения, которое позволяло бы с целью дальнейшей обработки
сохранить его в HDFS-хранилище (Hadoop Distributed File System) или в репозитарии на основе
реляционной базы данных).
Целевая архитектура предлагаемого комплексного программно-технического решения
предусматривает сбор данных по двум направлениям:

Загрузка данных в систему из информационных систем Минкультуры России и
последующая их обработка. При этом источники структурированных данных должны
быть интегрированы с разрабатываемой в настоящий момент в Минкультуры России в
рамках отдельного проекта системной интеграционной шиной, позволяющей иметь
стандартизированный доступ к данным для всех систем-потребителей. После того, как
данные готовы к сбору, используется стандартный механизм ETL для сбора,
преобразования к фиксированному формату и загрузки данных в хранилище с
согласованной периодичностью. После ETL процесса, данные в хранилище доступны
для создания витрин и построения на их основе управленческой отчетности.

Загрузка и последующая обработка полуструктурированных и неструктурированных
данных. В данном случае сложнейшие алгоритмы на Hadoop и машинное обучение
позволят выделить из подобного рода информации наиболее важные и актуальные
данные, недоступные для использования ранее. Далее информация поступает в
интеллектуальный интегрированный архив, содержащий в себе все необходимые
алгоритмы по обработке информации и выявлении скрытых закономерностей в данных.
Таким образом, компонент сбора, обработки и хранения данных должен быть достаточно
интеллектуальным для обеспечения совокупной работы системы со структурированной и
66
неструктурированной
информацией,
позволяющей
обогащать
данные
дополнительными
атрибутами как на стороне реляционных баз данных, так и на стороне Big Data, а также для
принятия самостоятельного решения о необходимости тех или иных манипуляций с данными
перед их сохранением или о непосредственной отправке этих данных на уровень бизнес-анализа.
Анализ и потребление данных
После всех преобразований информация попадает в BI (Business Intelligence) инструмент,
предоставляющий удобный способ просмотра и анализа любой информации.
В рамках данного компонента происходит чтение и осмысление обработанных данных с
помощью следующих инструментов:

Идентификация и наполнение контекстно-зависимых сущностей, используемых
аналитическими механизмами при выполнении анализа.

Аналитический механизм используется для обработки данных и их последующего
анализа, может иметь различные потоки работ, алгоритмы и инструменты с
поддержкой параллельной обработки данных.

Сопровождение различных статистических моделей, а также верификация и валидация
этих моделей посредством непрерывного обучения с целью повышения их точности.
Далее результаты анализа потребляются различными пользователями внутри Минкультуры
России, а также внешними по отношению к нему субъектами (другими органами государственной
власти на всех уровнях управления, гражданами Российской Федерации и других государств,
СМИ и проч.).
Также внутренним пользователям предоставляется возможность для поиска данных, для их
понимания и для навигации по этим данным внутри Минкультуры России и за его пределами.
Кроме
того,
для
повышения
эффективности
текущей
деятельности
функциональных
подразделений Минкультуры России результаты обработки и анализа данных в системе смогут
быть использованы в реализации следующих механизмов:

Мониторинг событий/ключевых показателей эффективности в режиме реального
времени с возможностью автоматической рассылки уведомлений/предупреждений
заинтересованной группе пользователей в структуре Минкультуры России;

Формирование отчетности (специальные отчеты, плановые отчеты, самостоятельные
запросы и исследования и проч.), а также формирование специализированных
инструментальных панелей для разных категорий пользователей в структуре
Минкультуры России для повышения эффективности и обоснованности принимаемых
управленческих и операционных решений.
67

Визуализация и обнаружение необходимых данных в рамках одного пользовательского
интерфейса
посредством
инструментов
навигации
по
данным
в
различных
используемых источниках данных внутри Минкультуры России и за его пределами.
Управление данными
Данный компонент охватывает всю логическую структуру предлагаемого комплексного
программно-технического решения и включает в себя:

Интеграция информации – подключение к различным источникам данных;

Разработка инструкций, политик и нормативных требований для принятия решений
относительно данных в рамках контроля, структурирования, хранения и защиты
данных с момента их поступления в систему до момента их уничтожения или
архивирования.

Качество данных – своевременность предоставления данных с учетом необходимой
актуальности, точность верификации данных, непротиворечивость данных и т.п.

Разработка политики в области конфиденциальности и безопасности используемых
системой данных, организации доступа к ним и обеспечение хранения этих данных.
Суммируя все вышесказанное, можно выделить ряд преимуществ от использования
предлагаемой
схемы
реализации
комплексного
программно-технического
решения
с
использованием технологии Big Data и формирования на его основе единого информационного
пространства в Минкультуры России:

Формирование единого информационного пространства и интеграция ключевых
систем, используемых в текущей деятельности департаментов;

Оперативная аналитика на детальных данных;

Индикация ключевых событий в реальном времени;

Анализ ранее недоступных видов информации;

Отсутствие ограничений по объемам и нагрузке;

Поиск по смыслу и по ключевым словам и другие.
68
Настоящую концепцию перевода деятельности Минкультуры России на использование
технологии Big Data следует рассматривать не только как программно-техническое комплексное
решение,
позволяющее
качественно
повысить
уровень
информационно-технического
и
информационно-аналитического обеспечения деятельности функциональных департаментов
Минкультуры России, но и как долговременную концептуальную программу, формирующую
основные направления информатизации в сфере культуры.
3.4.3 Оценка ожидаемого результата применения технологии Big Data в
Минкультуры России
Учитывая масштабность и комплексность предлагаемого в рамках настоящего НИР
концептуального решения по формированию единого информационного пространства в
Минкультуры России с использованием технологий Big Data, а также различные уровни, глубину
и степень влияния современных технологий хранения, обработки и анализа больших данных на
повышение эффективности деятельности Минкультуры России, ожидаемые эффекты от их
реализации могут быть разделены на следующие группы:

Общеполитические и системные эффекты (эффекты для федерального уровня системы
управления в сфере культуры и всей системы в целом);

Эффекты, обуславливающие повышение качества деятельности в сфере культуры;

Эффекты, связанные с ростом эффективности деятельности в сфере культуры;

Эффекты, приводящие к повышению доступности современных информационных
технологий в сфере культуры;

Социальные эффекты (эффекты, касающиеся прежде всего работников сферы культуры
РФ).
Общеполитические и системные эффекты
К общеполитическим (обеспечивающим гарантии конституционных прав граждан и
влияющие на международное положение России) и системным эффектам (влияющим на развитие
сферы культуры в целом) относятся:

Создание условий для повышения конкурентоспособности Российской Федерации в
сфере культуры на международной арене;

Повышение туристической и культурной привлекательности России на международной
арене;

Повышение доступности информации о сфере культуры Российской Федерации для
граждан страны и за ее пределами;
69

Формирование базы для развития технологий, методологий и перспективных форм
процесса информатизации культуры с использованием современных информационных
технологий, в том числе технологии Big Data;

Расширение сферы и повышение эффективности просветительской деятельности в
области культуры в Российской Федерации и т.д.
Повышение качества деятельности в сфере культуры
К эффектам, связанным с повышением качества деятельности Минкультуры России,
относятся:

Упрощение (снижение стоимости, повышение качества данных, экономия времени)
процедур
контроля
деятельности
органов
государственной
власти
субъектов
Российской Федерации в области культуры и подведомственных организаций
Минкультуры
России
при
использовании
коммуникационных
интерфейсов
и
централизованных информационных систем в рамках единого информационного
пространства Минкультуры России;

Сохранение и приумножение информации, кадрового и материального потенциалов,
накопленных учреждениями в сфере культуры;

Расширение объемов и повышение качества электронных ресурсов и баз данных,
создание и развитие информационной базы для развития информатизации сферы
культуры России, продвижение новых технологий в сферу культуры;

Мониторинг и обсуждение предложений по развитию культуры в Российской
Федерации и повышению качества и эффективности деятельности Минкультуры
России со стороны профессионального сообщества и населения.
Повышение эффективности деятельности в сфере культуры
К эффектам, влияющим на повышение эффективности деятельности в сфере культуры
(прежде всего на снижение затрат, повышение возврата от инвестиций в развитие культуры)
относятся:

Минимизация затрат на техническую поддержку электронных ресурсов при их
централизации, расширение возможностей использования передового опыта, лучшей
практики, готовых материалов и заготовок;

Обеспечение эффективности деятельности по управлению и государственному
регулированию сферой культуры за счет организации эффективного использования1
Эффективность использования цифровых информационных ресурсов и технологий Big Data определяется как
востребованность ресурсов (со стороны пользователей) и пользовательских сервисов Big Data, отнесенная к стоимости
информационного наполнения (контента)/реализации сервиса и технической поддержки соответствующих ресурсов и сервисов.
1
70
цифровых ресурсов и современных технологий управления и анализа данных при
решении прикладных задач Минкультуры России;

Появление эффективных механизмов управления издержками (в т.ч. механизмов
аналитической поддержки принятия управленческих решений) на создание и
использование административного аппарата, обеспечения прозрачности бюджетных
расходов, противодействия нецелевому использованию бюджетных средств;

Повышение эффективности инвестиций в развитие культуры, в расширение сферы
использования информационных технологий в сфере культуры за счет адресности,
приоритезации объектов инвестирования с учетом полного комплекса реальных
показателей эффективности расходования бюджетных средств и будущих потребностей
развития культуры Российской Федерации;

Появление альтернативных, экономически и технологически эффективных способов
управления и аналитической обработки (нового поколения) в противовес экономически
необоснованным процедурам, базирующимся в основном на ручной обработке
больших объемов бумажных документов и т.п.
Повышение доступности современных информационных технологий
К эффектам от реализации мероприятий по формированию единого информационного
пространства и внедрению современных технологий управления и анализа данных в Минкультуры
России, способствующим повышению доступности современных информационных технологий в
сфере культуры (доступности данных, расширения количества их источников, доступности
аналитических сервисов) относятся:

Увеличение охвата информационных источников и данных различного характера и
формата при решении прикладных аналитических задач Минкультуры России при
общем снижении затрат на организацию процесса управления информационными
потоками;

Обеспечение
доступности
современных
информационно-технологических
и
аналитических инструментов за счет организации доступа к цифровым электронным
ресурсам Министерства культуры и за его пределами;

Развитие единого информационного пространства в рамках Минкультуры России и
страны в целом, подразумевающее обеспечение возможности получения различного
рода данных и результата их аналитической обработки в любой точке создаваемого
информационного пространства и т.д.
71
Социальные эффекты
К социальным эффектам от реализации предлагаемых в настоящем НИР решений
относятся:

Формирование и информационно-технологическая поддержка новых механизмов
аналитической деятельности работников сферы культуры;

Снижение рабочей нагрузки на состав специалистов на всех уровнях управления в
сфере культуры за счет замены рутинных процедур по сбору и подготовке отчетных
материалов на высокотехнологичные:

Повышение и выравнивание уровня информационно-технологической подготовки
работников сферы культуры на всей территории страны, быстрое распространение
передовых методик и современных технологий;

Повышение комфортности рабочего процесса, сокращение числа профессиональных
заболеваний, вызванных, в том числе, перегрузками;

Увеличение показателей использования высококвалифицированного персонала в сфере
информационных технологий, рост доходов специалистов в области информационных
технологий, занятых в сфере культуры и т.д.
3.5 Формирование предложений для Минкультуры России по
вариантам использования технологии Big Data
По результатам комплексного обследования Министерства Культуры РФ, команда
экспертов ООО «ЭйТи Консалтинг» подготовила комплекс предложений по решениям на основе
технологии BigData для внедрения в промышленную эксплуатацию на мощностях Министерства
Культуры РФ, предварительная оценка бюджетов на реализацию которых представлена в таблице
(см. Таблица 7).
В таблице (см. Таблица 7) указан бюджет на задачи (из расчёта предоставления входных
данных одним мобильным оператором). Стоимостная оценка реализации предлагаемых решений
осуществлялась на основе экспертного мнения специалистов ООО «ЭйТи Консалтинг». Стоимость
услуг конкретного мобильного оператора может отличаться от заявленной.
Для задач, в которых не используются данные мобильных операторов, приведена полная
оценка.
В соответствии с Федеральным законом от 27 июля 2006 г. N 152-ФЗ "О персональных
данных", в выборке предоставляемой информации могут присутствовать только те абоненты,
72
которые дали согласие на обработку персональных данных при заключении договора с
оператором сотовой связи.
Данные по всем абонентам могут быть предоставлены только в агрегированном виде.
Предлагаемые решения на основе технологии Big Data и алгоритмы их технической
реализации будут реализовываться в рамках отдельных проектов развития информационных
технологий в сфере культуры, а также предварительно уточняться и конкретизироваться в
процессе формирования технических заданий к указанным проектам.
При разработке настоящих предложений были учтены основные требования, пожелания и
рекомендации, полученные при обследовании функциональных подразделений Минкультуры
России, входящих в организационные рамки проекта.
73
Таблица 7 Пользовательские сервисы на основе технологии Big Data и их предварительная стоимостная оценка
CASE
Подзадача
Предложения
Базовый алгоритм
для
геоаналитических
задач
Базовый алгоритм
для задач по
машинному
обучению
Культурно-массовые
мероприятия и
учреждения
a1. Расчёт количества посетителей
мероприятия
a2. Район отправления посетителей
(количество посетителей, которые прибыли
из каждого района на мероприятие)
a3. Время, за которое посетитель добрался
a. Реальная оценка
от места отправления до места проведения
посещаемости
мероприятия (агрегированные данные)
гражданами
культурно-массовых a4. Определение из дома или с работы
мероприятий
отправился посетитель на мероприятие
(агрегированные данные для каждого
района)
a5. Сегментация. Автомобилисты /
Пассажиры метро
a6. Сегментация. Пол / Возраст абонента
Бюджет, тыс.
Бюджет, тыс.
руб. (не
руб. (из расчёта
зависящий от
трудозатрат
данных сотовых одного сотового
операторов)
оператора)
Бюджет,
тыс. руб.
ИТОГО
0
2160
2160
1680
0
1680
0
1200
1200
0
840
840
0
720
720
0
840
840
0
1200
1200
0
960
960
CASE
Подзадача
Предложения
a7. Показатель доступности места
проведения массового мероприятия в
динамике в зависимости от времени
b1. Парсинг текстовых интернет-ресурсов
b. Реальная оценка
(социальные сети, блоги, форумы).
полезности
Разделение рейтинга по группам
проводимых
пользователей
ведомством
культурно-массовых b2. Парсинг видео-/аудио- интернетресурсов. Разделение рейтинга по группам
мероприятий,
пользователей
анализ
общественного
b3. Парсинг СМИ. Разделение рейтинга по
мнения
группам пользователей
с1. Транспортная доступность культурных
c. Анализ зоны
учреждений
влияния
с2. Выделение из посетителей Influence
учреждений
Agents (Влияющих на мнение окружающих).
культуры в
Выделение групп общения.
зависимости от их
расположения на
с3. Определение количества районов, из
популяризацию
которых приезжают посетители в
культуры
культурное учреждение
d1. Выделение возраста абонентов в
d. Помощь в
процентах для каждого района
принятии решения о d2. Выделение пола абонентов в процентах
месте проведения
для каждого района
культурно-массовых d3. Выделение статуса абонентов
мероприятий на
(работающие/неработающие)
75
Бюджет, тыс.
Бюджет, тыс.
руб. (не
руб. (из расчёта
зависящий от
трудозатрат
данных сотовых одного сотового
операторов)
оператора)
Бюджет,
тыс. руб.
ИТОГО
320
400
720
1200
0
1200
4800
0
4800
480
0
480
140
340
480
450
150
600
0
240
240
0
240
240
0
120
120
0
120
120
CASE
Подзадача
основании анализа
факторов,
влияющих на его
«удачность»
Предложения
d4. Транспортная доступность района
проведения мероприятия
d5. Показатели посещаемости района в
зависимости от времени суток
d6. Количество посетителей из района, в
котором находится культурное учреждение
относительно общего количества
жителей/работающего населения района
e1. Показатели динамики посещаемости
культурных учреждений по месяцам
Пресс-служба
Бюджет,
тыс. руб.
ИТОГО
60
60
120
0
360
360
0
120
120
0
360
360
720
0
720
a1. Парсинг отзывов о Министерстве и его
руководстве из интернет-ресурсов
(социальные сети, блоги, форумы)
480
0
480
a2. Алгоритм для автоматической
классификации отзывов (позитивные,
негативные, нейтральные)
840
0
840
e. Оценка
эффективности
использования
денежных субсидий,
e2. Парсинг отзывов из интернет-ресурсов
выделяемых
об учреждениях культуры. Составление
ведомством
рейтингов в динамике
учреждениям
культуры
a. Отслеживание
динамики
общественно
мнения в
отношении
деятельности
Министерства и его
руководства
Бюджет, тыс.
Бюджет, тыс.
руб. (не
руб. (из расчёта
зависящий от
трудозатрат
данных сотовых одного сотового
операторов)
оператора)
76
CASE
Определение целевой
аудитории для
учреждений
культуры по
направлениям
(театры, музеи и
т.п.), учреждениям и
мероприятиям
Подзадача
Предложения
Бюджет, тыс.
Бюджет, тыс.
руб. (не
руб. (из расчёта
зависящий от
трудозатрат
данных сотовых одного сотового
операторов)
оператора)
Бюджет,
тыс. руб.
ИТОГО
b. Количество
публикаций в СМИ
о деятельности
каждого
Департамента
b1. Создание алгоритма поиска сообщений
на основании обучающей выборки
360
0
360
с. Образ
Министерства
с1. Построение рейтинга отзывов по
категориям (деятели культуры, журналисты,
массовые потребители) на основании
информации СМИ, социальных сетей,
блогов, форумов
600
0
600
340
280
140
80
192
480
360
192
0
360
360
0
360
360
0
840
840
0
250
120
200
120
450
0
360
360
0
1080
1080
a. Профиль
потребителя услуг
учреждений
культуры
b. Пересечение
аудитории
a1. Сегментация по возрастным категориям
a2. Сегментация по полу
a3. Сегментация по мобильности
a4. Сегментация по количеству
посещений/динамике посещений
учреждений культуры
a5. Сегментация по интересам (театр, музеи
и т.д.)
a6. Сегментация по составу семьи/группам
общения
a7. Сегментация по способу передвижения
a8. Сегментация по интернет-активности
a9. Сегментация по активности в мобильной
сети
b1. Анализ направления движения (треков)
посетителей
77
CASE
Кинематограф
Подзадача
Предложения
Бюджет, тыс.
Бюджет, тыс.
руб. (не
руб. (из расчёта
зависящий от
трудозатрат
данных сотовых одного сотового
операторов)
оператора)
Бюджет,
тыс. руб.
ИТОГО
(демографическое,
географическое и
т.п.)
b2. Тепловая карта по количеству
посетителей учреждений культуры в
нескольких срезах (по количеству
посещений за период, по времени
посещения, по отзывам, по направлениям,
по транспортной доступности)
360
120
480
a.
Воспрепятствование
продвижению на
киноэкраны
произведений,
содержание
которых выходит за
рамки ограничений,
предусмотренных
действующими
федеральными
законами
a1. Парсинг и обучение модели для
сортировки фильмов по тексту сценария
(разрешённых и запрещённых для массового
показа)
840
0
840
a2. Алгоритм автоматического определения
возрастного ценза
720
0
720
78
3.5.1 Базовый алгоритм для геоаналитических задач
Входные данные:

Записи о 2G и 3G транзакциях абонентов сотовых операторов;

Справочники базовых станций операторов сотовой связи;
Алгоритм:

Фильтрация строк с информацией о транзакциях за требуемый период;

Отбираются строки с информацией о транзакциях, где заполнены поля Идентификатора
сим-карты (IMSI), Информация о локации (LAC), Идентификатор соты (Cell_ID);

Рассматриваются события входящие/исходящие сообщения, входящие/исходящие
звонки, изменение локации (Location_Update), интернет-трафик;

Для каждого абонента формируются временные интервалы, в соответствии с
транзакциями;

Объединяются последовательные временные интервалы, для которых событие
зафиксировано на одной соте;

Данные уточняются при помощи справочника соседних базовых станций;

Для каждого временного интервала определяется, был ли абонент неподвижен или
находился в движении;
Выходные данные:

Информация о местоположении абонентов в любой момент времени в виде:
Идентификатор абонента; Время начала интервала; Время окончания интервала; Набор
сот для абонента; Статус перемещения.
3.5.2 Базовый алгоритм для задач по машинному обучению
Входные данные:

Файлы в текстовом формате (*.csv);
Алгоритм:

Создание обучающей модели;

Реализация алгоритма взаимозависимых событий;

Нахождение полной вероятности наступления события в зависимости от априорной и
апостериорной вероятности.
3.5.3 Реальная оценка посещаемости гражданами культурно-массовых
мероприятий
Расчёт количества посетителей мероприятия
Входные данные:

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Список мероприятий;
Алгоритм:

Для каждого абонента в любой момент времени известна локация;

Данные
сопоставляются
со
справочником
локаций
проведения
мероприятий/учреждений культуры;

Определяется суммарное количество абонентов, посетивших культурное учреждение
хотя бы один раз за рассматриваемый период;
Выходные данные:

Идентификатор мероприятия;

Дата;

Количество посетителей.
Район отправления посетителей (количество посетителей, которые прибыли из
каждого района на мероприятие)
Входные данные:

Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.);

Справочник территориального деления;

API сервиса Яндекс.Карты;

Список мероприятий;
Алгоритм:

По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.) определяется маршруты следования абонентов;

Определяется загруженность маршрутов следования для каждого учреждения
культуры, как общее количество абонентов на маршруте в интервал времени;

Данные сопоставляются со справочником территориального деления;

Статистика дополняется информацией сервиса Яндекс.Карты;

Данные агрегируются по учреждениям культуры и временным интервалам;
80
Выходные данные:

Данные предоставляются в формате: Идентификатор района; Временной интервал;
Количество абонентов; Количество абонентов проездом; Количество абонентов дома;
Количество абонентов на работе.
Время, за которое посетитель добрался от места отправления до места проведения
мероприятия (агрегированные данные)
Входные данные:

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Алгоритм:

Для каждого абонента определяется время начала и время окончания поездки;

На основании алгоритма определения расстояния между точками на окружности;

Рассчитывается время поездки для каждого абонента;
Выходные данные:

Идентификатор локации отправления;

Идентификатор локации прибытия;

Временной срез;

Количество посетителей.
Определение из дома или с работы отправился посетитель на мероприятие
(агрегированные данные для каждого района)
Входные данные:

Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.);

Справочник учреждений культуры (spape-файлы с граничными координатами)
предоставляется заказчиком или составляется исполнителем по согласованию с
заказчиком;

API сервиса Яндекс.Карты;

Список мероприятий;

Справочник территориального деления;
Алгоритм:

По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.) определяется маршруты следования абонентов;

Определяется загруженность маршрутов следования для каждого учреждения
культуры, как общее количество абонентов на маршруте в интервал времени;

Данные сопоставляются со справочником территориального деления;
81

Определяется количество абонентов, прибывших в район расположения учреждения
культуры из дома;

Определяется количество абонентов, прибывших в район расположения учреждения
культуры с работы;

Статистика дополняется информацией сервиса Яндекс.Карты;

Данные агрегируются по учреждениям культуры и временным интервалам;
Выходные данные:

Данные предоставляются в формате: Идентификатор мероприятия; Временной
интервал; Количество абонентов; Количество абонентов, прибывших из дома;
Количество абонентов, прибывших с работы.
Показатель доступности места проведения массового мероприятия в динамике в
зависимости от времени.
Входные данные:

Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.);

Справочник учреждений культуры (spape-файлы с граничными координатами)
предоставляется заказчиком или составляется исполнителем по согласованию с
заказчиком;

API сервиса Яндекс.Карты;

Список мероприятий;
Алгоритм:

По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.) определяется маршруты следования абонентов;

Определяется загруженность маршрутов следования для каждого учреждения
культуры, как общее количество абонентов на маршруте в интервал времени;

Данные сопоставляются со справочником территориального деления;

Определяется количество абонентов, находящихся в районе учреждения культуры
проездом;

Определяется количество абонентов, находящихся в районе учреждения культуры
дома;

Определяется количество абонентов, находящихся в районе учреждения культуры на
работе;

Статистика дополняется информацией сервиса Яндекс.Карты;

Данные агрегируются по учреждениям культуры и временным интервалам;
82
Выходные данные:

Данные предоставляются в формате: Идентификатор мероприятия; Временной
интервал; Количество абонентов; Количество абонентов проездом; Количество
абонентов дома; Количество абонентов на работе.
Сегментация. Автомобилисты/Пассажиры метро.
Входные данные:

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Алгоритм:

Для каждого абонента определяется локация для заданного интервала времени по
базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);

Для локаций абонентов находятся соответствия по справочнику учреждений культуры;

Выделяются абоненты, транзакции которых отмечаются на базовых станциях,
соответствующих метро;

Определяется скорость перемещения абонентов;

Выделяются маршруты следования абонентов;

Абоненты
разделяются
на
группы:
автомобилисты;
пассажиры
метро;
передвигающиеся на маршрутном ТС; смешанный стиль;

Данные группируются по времени;
Выходные данные:

Абонент2 3;

Временной период;

Группа учреждений культуры;

Способ передвижения.
Сегментация. Пол/Возраст абонента
Входные данные:

Детальные данные о транзакциях сотовых операторов;

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Данные социальных сетей;
В соответствии с Федеральным законом от 27 июля 2006 г. N 152-ФЗ "О персональных данных", в выборке могут
присутствовать те абоненты, которые дали согласие на обработку персональных данных при заключении договора с
оператором сотовой связи.
2
3
Данные по всем абонентам могут быть предоставлены в агрегированном виде.
83

Справочник учреждений культуры (spape-файлы с граничными координатами)
предоставляется заказчиком или составляется исполнителем по согласованию с
заказчиком;
Алгоритм:

Обучение алгоритма для нахождения ключевых слов в тексте;

Классификация абонентов на группы по текстам сообщений;

Обогащение классификации данными из социальных сетей;

Определения количества транзакций абонентов, разделение на группы;

Определение количества и динамики перемещений;

Соотношение показателей, полученных в предыдущих пунктах со справочником
учреждений культуры;

Выходные данные:

Учреждение культуры;

Данные о поле посетителей в процентах;

Данные о возрасте посетителей в процентах.
3.5.4 Реальная оценка полезности проводимых ведомством культурномассовых мероприятий, анализ общественного мнения
3.5.4.1 Парсинг текстовых интернет-ресурсов (социальные сети, блоги,
форумы). Разделение рейтинга по группам пользователей
Входные данные:

API или XML-шлюз интернет-ресурсов;

Список культурно-массовых мероприятий;
Алгоритм:

Формирование обучающей выборки;

Проставление признаков, основанное на экспертном мнении;

Обучение алгоритма путем определения относительных частот значений всех
атрибутов входных данных при фиксированных значениях атрибутов класса;

Парсинг ресурса;

Обработка сообщений интернет-ресурса при помощи обученного алгоритма;

Составление рейтинга;

Разделение на группы;
84
Выходные данные:

Название культурно-массового мероприятия;

Ссылка на статью;

Категория пользователя;

Статус.
3.5.4.2 Парсинг видео-/аудиоинтернет-ресурсов. Разделение рейтинга по
группам пользователей
Входные данные:

Список ресурсов;

Список культурно-массовых мероприятий;
Алгоритм:

Формирование обучающей выборки;

Проставление признаков, основанное на экспертном мнении;

Обучение алгоритма путем определения относительных частот значений всех
атрибутов входных данных при фиксированных значениях атрибутов класса;

Парсинг аудио-/видеозаписи;

Разбиение на фрагменты;

Обработка аудио-/видеозаписи интернет-ресурса при помощи обученного алгоритма;

Составление рейтинга;

Разделение на группы;
Выходные данные:

Название культурно-массового мероприятия;

Ссылка на запись;

Категория пользователя;

Статус.
3.5.4.3 Парсинг СМИ. Разделение рейтинга по группам пользователей
Входные данные:

API или XML-шлюз интернет-ресурсов;

Список культурно-массовых мероприятий;
Алгоритм:

Формирование обучающей выборки;
85

Проставление признаков, основанное на экспертном мнении;

Обучение алгоритма путем определения относительных частот значений всех
атрибутов входных данных при фиксированных значениях атрибутов класса;

Парсинг аудио-/видеозаписи;

Разбиение на фрагменты;

Обработка аудио-/видеозаписи интернет-ресурса при помощи обученного алгоритма;

Составление рейтинга;

Разделение на группы;
Выходные данные:

Название культурно-массового мероприятия;

Ссылка на статью;

Категория пользователя;

Статус.
3.5.5 Анализ зоны влияния учреждений культуры в зависимости от их
расположения на популяризацию культуры
3.5.5.1 Транспортная доступность культурных учреждений
Входные данные:

Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.);

Справочник учреждений культуры (spape-файлы с граничными координатами)
предоставляется заказчиком или составляется исполнителем по согласованию с
заказчиком;

API сервиса Яндекс.Карты;

Справочник территориального деления;
Алгоритм:

По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.) определяется маршруты следования абонентов;

Определяется загруженность маршрутов следования для каждого учреждения
культуры, как общее количество абонентов на маршруте в интервал времени;

Данные сопоставляются со справочником территориального деления;

Определяется количество абонентов, находящихся в районе учреждения культуры
проездом;
86

Определяется количество абонентов, находящихся в районе учреждения культуры
дома;

Определяется количество абонентов, находящихся в районе учреждения культуры на
работе;

Статистика дополняется информацией сервиса Яндекс.Карты;

Данные агрегируются по учреждениям культуры и временным интервалам;
Выходные данные:

Данные предоставляются в формате: Идентификатор культурного учреждения;
Временной интервал; Количество абонентов; Количество абонентов проездом;
Количество абонентов дома; Количество абонентов на работе.
3.5.5.2 Выделение из посетителей Influence Agents (Влияющих на мнение
окружающих). Выделение групп общения.
Входные данные:

Детальные данные сотовых операторов о транзакциях;
Алгоритм:
Определяются меры центральности для определения:

Degree centrality колво абонентов, с которыми совершались транзакции за искомый
период;

Betweenes centrality нахождение доли кратчайших путей, соединяющих все пары
абонентов, звонки которых "проходят" через данного абонента. Находятся кратчайшие
пути и их количество, а потом долю кратчайших путей относительно данного абонента;

Closeness centrality величина, обратная сумме длин кратчайших путей от данного
абонента к остальным;

Eigenvalue centrality мера важности абонента в сети. Рассчитывается по принципу:
соединение узла (абонента) с важными абонентами (у которых высокие показатели);
Выходные данные:

Абонент (Influence Agent);

Группа общения.
87
3.5.5.3 Определение
количества
районов,
из
которых
приезжают
посетители в культурное учреждение
Входные данные:

Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.);

Справочник территориального деления;
Алгоритм:

Для каждого абонента в любой момент времени известна локация;

Данные сопоставляются со справочником территориального деления;

Для каждого абонента, посетившего культурное учреждение хотя бы один раз за
рассматриваемый период, определяется локация отправления;

Рассчитывается суммарное количество локаций отправления для каждого учреждения
культуры;
Выходные данные:

Данные предоставляются в следующем формате:
Идентификатор
учреждения
культуры; Количество районов отправления.
3.5.6 Помощь в принятии решения о месте проведения культурномассовых мероприятий на основании анализа факторов, влияющих
на его «удачность»
3.5.6.1 Выделение возраста абонентов в процентах для каждого района
Входные данные:

Детальные данные о транзакциях сотовых операторов;

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Данные социальных сетей;

Справочник территориального деления;
Алгоритм:

Обучение алгоритма для нахождения ключевых слов в тексте;

Классификация абонентов на группы по текстам сообщений;

Обогащение классификации данными из социальных сетей;

Определения количества транзакций абонентов, разделение на группы;

Определение количества и динамики перемещений;
88

Соотношение показателей, полученных в предыдущих пунктах со справочником
территориального деления;
Выходные данные:

Идентификатор района;

Возрастная группа;

Процентное соотношение.
3.5.6.2 Выделение пола абонентов в процентах для каждого района
Входные данные:

Детальные данные о транзакциях сотовых операторов;

Данные социальных сетей;

Справочник территориального деления;

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Алгоритм:

Обучение алгоритма для нахождения ключевых слов в тексте;

Классификация абонентов на группы по текстам сообщений;

Обогащение классификации данными из социальных сетей;

Соотношение показателей, полученных в предыдущих пунктах со справочником
учреждений культуры;
Выходные данные:

Идентификатор района;

Пол;

Данные о поле посетителей в процентах.
3.5.6.3 Транспортная доступность района проведения мероприятия
Входные данные:

Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.);

Справочник локаций проведения мероприятий;

API сервиса Яндекс.Карты;

Справочник территориального деления;
89
Алгоритм:

По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.) определяется маршруты следования абонентов;

Определяется загруженность маршрутов следования для каждого учреждения
культуры, как общее количество абонентов на маршруте в интервал времени;

Данные сопоставляются со справочником территориального деления;

Определяется количество абонентов, находящихся в районе локации проведения
мероприятия проездом;

Определяется количество абонентов, находящихся в районе локации проведения
мероприятия дома;

Определяется количество абонентов, находящихся в районе локации проведения
мероприятия на работе;

Статистика дополняется информацией сервиса Яндекс.Карты;

Данные агрегируются по мероприятиям и временным интервалам;
Выходные данные:

Данные предоставляются в формате: Идентификатор мероприятия; Временной
интервал; Количество абонентов; Количество абонентов проездом; Количество
абонентов дома; Количество абонентов на работе.
3.5.6.4 Показатели посещаемости района в зависимости от времени суток
Входные данные:

Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.);

API сервиса Яндекс.Карты;

Справочник территориального деления;
Алгоритм:

По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.) определяется маршруты следования абонентов;

Определяется загруженность маршрутов следования для каждого района, как общее
количество абонентов на маршруте в интервал времени;

Данные сопоставляются со справочником территориального деления;

Определяется количество абонентов, находящихся в районе проездом;

Определяется количество абонентов, находящихся в районе дома;

Определяется количество абонентов, находящихся в районе на работе;
90

Статистика дополняется информацией сервиса Яндекс.Карты;

Данные агрегируются по мероприятиям и временным интервалам;
Выходные данные:

Данные предоставляются в формате: Идентификатор района; Временной интервал;
Количество абонентов; Количество абонентов проездом; Количество абонентов дома;
Количество абонентов на работе.
3.5.6.5 Количество
посетителей
культурное
учреждение
из
района,
относительно
в
котором
общего
находится
количества
жителей/работающего населения района
Входные данные:

Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.);

API сервиса Яндекс.Карты;

Справочник территориального деления;

Справочник учреждений культуры;
Алгоритм:

По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.) определяется маршруты следования абонентов;

Определяется загруженность маршрутов следования для каждого района, как общее
количество абонентов на маршруте в интервал времени;

Данные сопоставляются со справочником территориального деления;

Определяется количество абонентов, находящихся в районе дома;

Определяется количество абонентов, находящихся в районе на работе;

Определяется количество посетителей учреждения культуры;

Статистика дополняется информацией сервиса Яндекс.Карты;

Данные агрегируются по мероприятиям и временным интервалам;
Выходные данные:

Данные предоставляются в формате: Идентификатор района; Временной интервал;
Количество абонентов; Количество абонентов дома; Количество абонентов на работе;
Процентное соотношение по району.
91
3.5.7 Оценка
эффективности
использования
денежных
субсидий,
выделяемых ведомством учреждениям культуры
3.5.7.1 Показатели динамики посещаемости культурных учреждений по
месяцам
Входные данные:

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Справочник учреждений культуры (spape-файлы с граничными координатами)
предоставляется заказчиком или составляется исполнителем по согласованию с
заказчиком;
Алгоритм:

Определение локации абонента в любой момент времени по базовому алгоритму для
геоаналитических задач (см. подраздел 3.5.1.);

Сопоставление локаций абонента со справочником учреждений культуры;

Определение количества посещений учреждения культуры за месяц;

Составление динамики посещений;
Выходные данные:

Учреждение культуры;

Количество посетителей за месяц n;

Количество посетителей за месяц n-1;

...;

Количество посетителей за месяц n-k.
3.5.7.2 Парсинг отзывов из интернет-ресурсов об учреждениях культуры.
Составление рейтингов в динамике
Входные данные:

Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

Список интернет-ресурсов;

Список учреждений культуры;
Алгоритм:

Парсинг интернет-ресурсов, поиск ключевых слов;

Создание обучающей выборки;

Проставление признаков в выборке;
92

Формирование обучающего словаря;

Обучение на основании базового алгоритма для задач по машинному обучению (см.
подраздел 3.5.2.);

Для получения качественных результатов обучение производится итеративно;

Формирование сводного рейтинга;
Выходные данные:

Идентификатор учреждения;

Дата;

Ссылка на статью;

Статус;

Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное,
позитивное).
3.5.8 Отслеживание
динамики
общественно
мнения
в
отношении
деятельности Министерства и его руководства
3.5.8.1 Парсинг отзывов о Министерстве и его руководстве из интернетресурсов (социальные сети, блоги, форумы)
Входные данные:

Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

Список интернет-ресурсов;

Список деятелей министерства;
Алгоритм:

Парсинг интернет-ресурсов, поиск ключевых слов;

Создание обучающей выборки;

Проставление признаков в выборке;

Формирование обучающего словаря;

Обучение на основании базового алгоритма для задач по машинному обучению (см.
подраздел 3.5.2.);

Для получения качественных результатов обучение производится итеративно;

Формирование сводного рейтинга;
Выходные данные:

Деятель министерства;
93

Дата;

Ссылка на статью;

Статус;

Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное,
позитивное).
3.5.9 Количество
публикаций
в
СМИ
о
деятельности
каждого
Департамента
3.5.9.1 Создание алгоритма поиска сообщений на основании обучающей
выборки
Входные данные:

Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

Список департаментов;

Алгоритм:

Парсинг интернет-ресурсов, поиск ключевых слов;

Создание обучающей выборки;

Подсчёт количества публикаций;
Выходные данные:

Идентификатор департамента;

Дата;

Количество публикаций.
3.5.10Образ Министерства
3.5.10.1
Построение
рейтинга
отзывов
по
категориям
(деятели
культуры, журналисты, массовые потребители) на основании
информации СМИ, социальных сетей, блогов, форумов
Входные данные:

Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

Список интернет-ресурсов;

Список деятелей Министерства;
94
Алгоритм:

Парсинг интернет-ресурсов, поиск ключевых слов;

Создание обучающей выборки;

Проставление признаков в выборке;

Формирование обучающего словаря;

Обучение на основании базового алгоритма для задач по машинному обучению (см.
подраздел 3.5.2.);

Для получения качественных результатов обучение производится итеративно;

Классификация отзывов по группам пользователей;

Формирование сводного рейтинга;
Выходные данные:

Деятель министерства;

Дата;

Ссылка на статью;

Категория пользователей;

Статус;

Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное,
позитивное), а в поле категория пользователей разделение по категориям (деятели
культуры, журналисты, массовые потребители).
3.5.11Профиль потребителя услуг учреждений культуры
3.5.11.1
Сегментация по возрастным категориям
Входные данные:

Детальные данные о транзакциях сотовых операторов;

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Данные социальных сетей;

Справочник учреждений культуры (spape-файлы с граничными координатами)
предоставляется заказчиком или составляется исполнителем по согласованию с
заказчиком;
Алгоритм:

Обучение алгоритма для нахождения ключевых слов в тексте;

Классификация абонентов на группы по текстам сообщений;

Обогащение классификации данными из социальных сетей;
95

Определения количества транзакций абонентов, разделение на группы;

Определение количества и динамики перемещений;

Соотношение показателей, полученных в предыдущих пунктах со справочником
учреждений культуры;
Выходные данные:

Учреждение культуры;

Данные о возрасте посетителей в процентах.
3.5.11.2
Сегментация по полу
Входные данные:

Детальные данные о транзакциях сотовых операторов;

Данные социальных сетей;

Справочник учреждений культуры (spape-файлы с граничными координатами)
предоставляется заказчиком или составляется исполнителем по согласованию с
заказчиком;
Алгоритм:

Обучение алгоритма для нахождения ключевых слов в тексте;

Классификация абонентов на группы по текстам сообщений;

Обогащение классификации данными из социальных сетей;

Соотношение показателей, полученных в предыдущих пунктах со справочником
учреждений культуры;
Выходные данные:

Учреждение культуры;

Данные о поле посетителей в процентах.
3.5.11.3
Сегментация по мобильности
Входные данные:

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Справочник территориального деления;
Алгоритм:

Для каждого абонента определяется локацию для заданного интервала времени по
базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
96

Определяется для каждой локации территориального деления количество абонентов в
интервал времени;

В
соответствии
с
количеством
изменений
локаций
абонента,
определяется
коэффициент мобильности;

Данные агрегируются по группам мобильности;
Выходные данные:

Идентификатор района;

Группа мобильности;

Количество человек.
3.5.11.4
Сегментация по количеству посещений/динамике посещений
учреждений культуры
Входные данные:

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Справочник учреждений культуры (spape-файлы с граничными координатами)
предоставляется заказчиком или составляется исполнителем по согласованию с
заказчиком;
Алгоритм:

Для каждого абонента определяется локацию для заданного интервала времени по
базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);

Определяется общее количество посещений абонентом локации учреждения культуры
за заданный период;

Рассчитывается динамический показатель за длительный период по месяцам;

Данные агрегируются по учреждениям культуры;
Выходные данные:

Идентификатор учреждения культуры;

Количество посещений за текущий период;

Количество посещений в динамике.
97
3.5.11.5
Сегментация по интересам (театр, музеи и т.д.)4 5
Входные данные:

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Справочник учреждений культуры (spape-файлы с граничными координатами) с
разделением на группы. Предоставляется заказчиком или составляется исполнителем
по согласованию с заказчиком;
Алгоритм:

Для каждого абонента определяется локацию для заданного интервала времени по
базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);

Для локаций абонентов находятся соответствия по справочнику учреждений культуры;

Данные группируются по учреждениям культуры;
Выходные данные:

Абонент;

Группа учреждений культуры;

Количество посещений.
3.5.11.6
Сегментация по составу семьи/группам общения4 5
Входные данные:

Детальные данные о транзакциях абонентов сотовых операторов;

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Алгоритм:

Для каждого абонента выделяются группы телефонных номеров, с максимальным
количеством транзакций;

Определяется локация абонентов в любой момент времени в соответствии с базовым
алгоритмом для геоаналитических задач (см. подраздел 3.5.1.);

Определяется домашняя локация абонентов, как топовая за рассматриваемый период с
23.00 до 06.00;

Абоненты считаются принадлежащими одной семье, если они входят в группу общения
и имеют одинаковую домашнюю локацию;
В соответствии с Федеральным законом от 27 июля 2006 г. N 152-ФЗ "О персональных данных", в выборке могут
присутствовать те абоненты, которые дали согласие на обработку персональных данных при заключении договора с
оператором сотовой связи.
4
5
Данные по всем абонентам могут быть предоставлены в агрегированном виде.
98
Выходные данные:

Абонент;

Группа общения;

Признак, где в поле группа общения записываются номера абонентов из группы
общения, а в поле признак записывается является ли группа общения домашней или
нет.
3.5.11.7
Сегментация по способу передвижения6 7
Входные данные:

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Алгоритм:

Для каждого абонента определяется локацию для заданного интервала времени по
базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);

Для локаций абонентов находятся соответствия по справочнику учреждений культуры;

Выделяются абоненты, транзакции которых отмечаются на базовых станциях,
соответствующих метро;

Определяется скорость перемещения абонентов;

Выделяются маршруты следования абонентов;

Абоненты
разделяются
на
группы:
автомобилисты;
пассажиры
метро;
передвигающиеся на маршрутном ТС; смешанный стиль;

Данные группируются по времени;
Выходные данные:

Абонент;

Временной период;

Группа учреждений культуры;

Способ передвижения.
В соответствии с Федеральным законом от 27 июля 2006 г. N 152-ФЗ "О персональных данных", в выборке могут
присутствовать те абоненты, которые дали согласие на обработку персональных данных при заключении договора с
оператором сотовой связи.
6
7
Данные по всем абонентам могут быть предоставлены в агрегированном виде.
99
3.5.11.8
Сегментация по интернет-активности8 9
Входные данные:

Детальные данные о транзакциях абонентов сотовых операторов;
Алгоритм:

Определение количества интернет-трафика;

Определение количества посещённых ресурсов;
Выходные данные:

Абонент;

Количество интернет-трафика;

Количество посещённых ресурсов.
3.5.11.9
Сегментация по активности в мобильной сети8 9
Входные данные:

Детальные данные о транзакциях абонентов сотовых операторов;
Алгоритм:

Для каждого абонента находится количество входящих/исходящих звонков;

Определяется продолжительность звонков;

Для каждого абонента находится количество входящих/исходящих sms/mms;

Определяется количество уникальных абонентов с которыми совершались транзакции;

Строится сводная таблица по показателям;
Выходные данные:

Абонент;

Количество входящих звонков;

Количество исходящих звонков;

Количество входящих сообщений;

Количество исходящих сообщений;

Количество уникальных связей.
В соответствии с Федеральным законом от 27 июля 2006 г. N 152-ФЗ "О персональных данных", в выборке могут
присутствовать те абоненты, которые дали согласие на обработку персональных данных при заключении договора с
оператором сотовой связи.
8
9
Данные по всем абонентам могут быть предоставлены в агрегированном виде.
100
3.5.12Пересечение аудитории (демографическое, географическое и т.п.)
3.5.12.1
Анализ направления движения (треков) посетителей
Входные данные:

Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.);

API сервиса Яндекс.Карты;

Справочник территориального деления;
Алгоритм:

По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел
3.5.1.) определяется маршруты следования абонентов;

Определяется загруженность маршрутов следования для каждого района, как общее
количество абонентов на маршруте в интервал времени;

Данные сопоставляются со справочником территориального деления;

Определяется количество абонентов, находящихся в районе проездом;

Определяется количество абонентов, находящихся в районе дома;

Определяется количество абонентов, находящихся в районе на работе;

Статистика дополняется информацией сервиса Яндекс.Карты;

Данные агрегируются по мероприятиям и временным интервалам;
Выходные данные:

Данные предоставляются в формате: Идентификатор района; Временной интервал;
Количество абонентов; Количество абонентов проездом; Количество абонентов дома;
Количество абонентов на работе.
3.5.12.2
Тепловая карта по количеству посетителей учреждений
культуры в нескольких срезах (по количеству посещений за
период, по времени посещения, по отзывам, по направлениям, по
транспортной доступности)
Предпочтительным решением для реализации является SAP BI (SAP Business Objects).
Финансовая оценка в таблице (см. Таблица 7) указана без стоимости лицензии на продукт.
Входные данные:

Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Отчёт 3.5.12.1. Анализ направления движения (треков) посетителей;
101

Отчёт 3.5.5.1. Транспортная доступность культурных учреждений;

Отчёт 3.5.7.2. Парсинг отзывов из интернет-ресурсов об учреждениях культуры.
Составление рейтингов в динамике;
Алгоритм:

Построение тепловой карты по данным из отчётов.
3.5.13Воспрепятствование продвижению на киноэкраны произведений,
содержание
которых
выходит
за
рамки
ограничений,
предусмотренных действующими федеральными законами
3.5.13.1
Парсинг и обучение модели для сортировки фильмов по тексту
сценария (разрешённых и запрещённых для массового показа)
Входные данные:

Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

Сценарии фильмов в текстовом формате;
Алгоритм:

Создание обучающей выборки;

Проставление признаков в выборке;

Формирование обучающего словаря;

Парсинг текста сценариев;

Обучение текстов сценариев на основании базового алгоритма для задач по машинному
обучению (см. подраздел 3.5.2.);

Для получения качественных результатов обучение производится итеративно;
Выходные данные:

Название фильма;

Ключевые слова;

Вердикт, где в списке ключевых слов указаны все слова из сценария, влияющие на
запрет для массового показа данного фильма, а в поле вердикт указано разрешён или
запрещён фильм для показа по результатам обработки алгоритмом.
102
3.5.13.2
Алгоритм автоматического определения возрастного ценза
Входные данные:

Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

Сценарии фильмов в текстовом формате;
Алгоритм:

Создание обучающей выборки;

Проставление признаков в выборке;

Формирование обучающего словаря;

Парсинг текста сценариев;

Обучение текстов сценариев на основании базового алгоритма для задач по машинному
обучению (см. подраздел 3.5.2.);

Для получения качественных результатов обучение производится итеративно;
Выходные данные:

Название фильма;

Ключевые слова;

Возрастной ценз, где в списке ключевых слов указаны все слова из сценария,
влияющие на запрет для массового показа данного фильма, а в поле возрастной ценз
указан возраст аудитории, для которой разрешён просмотр данного фильма по
результатам обработки алгоритмом.
103
4 ОБОБЩЕНИЕ И ОЦЕНКА РЕЗУЛЬТАТОВ
ИССЛЕДОВАНИЙ
Поставленные задачи решены в полном объеме. Обобщенным результатом исследования
является положительное принципиальное решение вопроса о возможности адаптации технологии
Big Data к прикладным задачам Минкультуры России. Причем технологии Big Data должны стать
частью комплексного решения автоматизации деятельности Минкультуры России.
Дальнейшим направлением работ является последующее распространение современных
информационных технологий управления и анализа данных на территориальные органы и
учреждения культуры России, однако в качестве предварительных этапов необходимо выполнить
следующие работы:

научно-исследовательская работа по детальному изучению рабочих процессов
в территориальных органах и учреждениях культуры России;

работы по проектированию решений реализации пользовательских сервисов на базе
технологии Big Data, запуск соответствующих проектов по внедрению;

работы по проектированию предлагаемого комплексного решения и его отдельных
компонентов, запуск соответствующих проектов по внедрению;

параллельно
с проектом внедрения комплексного решения автоматизации и
аналитических инструментов Big Data на уровне структурных подразделений
Минкультуры России необходимо выполнить ряд работ, направленных на изменение
нормативно-правовых актов, должностных инструкций.
104
ЗАКЛЮЧЕНИЕ
В процессе разработки настоящего документа были использованы:

передовой
российский
и
международный
опыт
по
внедрению
современных
информационных технологий управления и анализа данных;

результаты анализа существующей ситуации по использованию информационных
технологий и средств автоматизации в Минкультуры России;

результаты
анализа
текущей
деятельности
функциональных
департаментов
Минкультуры России;

проектный опыт ООО «ЭйТи Консалтинг».
Системный подход и использование передового опыта позволили предложить эффективные
(технологические, методологические, инфраструктурные) решения для следующих проблем сферы
культуры Российской Федерации:

Разрозненность и неравномерность информационно-технологического обеспечения для
различных уровней управления сферы культуры;

Недостаточная информационно-аналитическая поддержка текущей
деятельности
Минкультуры России;

Недостаточная
востребованность
существующих
внутренних
информационных
ресурсов, а следовательно и низкая отдача от инвестиций в их развитие;

Отсутствие единых стандартов и методик реализации информационного обмена между
Минкультуры России и органами государственной власти и местного самоуправления в
сфере культуры, а также между отдельными департаментами ведомства;

Неудовлетворенная потребность в дополнительных информационных источниках и
данных, низкий
уровень использования современных технологий в текущей
деятельности Минкультуры России;

Отсутствие типовых решений для автоматизации различных управленческих процессов
в сфере культуры (например, только 2% отчетности в системе управления сферой
культуры передается полностью в электронном виде).
105
Суть системного подхода заключалась в логической декомпозиции целей и задач развития
информатизации сферы культуры в целом до целей и задач использования современных
информационных технологий управления и анализа данных в сфере информатизации культуры с
учетом выявленной на этапе обследования проблематики.
Для решения выявленных проблем была разработана концептуальная схема формирования
единого информационного пространства на основе комплексного ИТ-решения, включающего в
себя технологии Big Data, направленная как на создание централизованной информационной
платформы на базе Минкультуры России и развитие ИТ-инфраструктуры, так и на развитие
аналитического и методологического обеспечения текущей деятельности Минкультуры России.
Не вызывает сомнения, что программное и взаимосвязанное развитие информационных
технологий в сфере культуры сопровождается целым рядом эффектов, в том числе:

Общеполитические и системные эффекты (эффекты для федерального уровня системы
управления в сфере культуры и всей системы в целом);

Эффекты, обуславливающие повышение качества деятельности в сфере культуры;

Эффекты, связанные с ростом эффективности деятельности в сфере культуры;

Эффекты, приводящие к повышению доступности современных информационных
технологий в сфере культуры;

Социальные эффекты (эффекты, касающиеся прежде всего работников сферы культуры
РФ).
Конкретная реализация предлагаемых в настоящем НИР решений предусматривается через
использование программно-целевого метода, в том числе в рамках мероприятий ФЦП «Культура
России (2012-2018 годы)» и ГП РФ «Развитие культуры и туризма» на 2013-2020 годы, и через
конкурсные механизмы по выполнению государственных контрактов на соответствующие
проекты, в случае принятия решения об их реализации.
106
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1 Постановлению Правительства Российской Федерации от 20 июля 2011 г. № 590 О
Министерстве культуры Российской Федерации;
2 Положения о Департаментах Министерства культуры Российской Федерации;
3 Распоряжение Правительства РФ от 28 декабря 2012 г. N 2606-р О плане мероприятий
("дорожной карте") "Изменения в отраслях социальной сферы, направленные на
повышение эффективности сферы культуры";
4 Отчет McKinsey Institute «Большие данные: новый рубеж для инноваций, конкуренции и
производительности» (Big data: The next frontier for innovation, competition and
productivity);
5 Исследования IDC Digital Universe, опубликованного в декабре 2012 года;
6 IDC, Worldwide Big Data Technology and Services 2010-2015 Forecast;
7 IDC Vertical IT & Communications Survey, 2012, N = 4177;
8 Manuel Sevilla, Capgemeni, 2012;
9 Магический квадрант провайдеров решений в области систем управления хранилищами
данных Gartner, март 2014;
10 Федеральный закон от 27 июля 2006 г. N 152-ФЗ "О персональных данных";
11 Федеральная целевая программа «Культура России (2012-2018 годы)»;
12 ГП РФ «Развитие культуры и туризма» на 2013-2020 годы.
107
Download