Государственный университет- Высшая школа экономики «Системы бизнес-интеллекта»

advertisement
Государственный университетВысшая школа экономики
Факультет бизнес-информатики
Программа дисциплины
«Системы бизнес-интеллекта»
для направления «Бизнес-информатика»
подготовка магистра
Авторы: Д.В.Исаев, Т.К.Кравченко, Е.В.Огуречников, Г.И.Перминов
Рекомендовано секцией УМС
Секция «Бизнес-информатика»
Председатель
______________ Г.А.Левочкина
«____» _______________ 2008 г.
Одобрено на заседании
кафедры бизнес-аналитики
Зав. кафедрой
______________ Т.К.Кравченко
«____» _______________ 2008 г.
Утверждено Ученым советом
факультета бизнес-информатики
Ученый секретарь
___________________ В.А.Фомичев
«___» _______________2008 г.
Москва – 2008
2
I. Тематический план учебной дисциплины
№
п/п
Наименование
тем и разделов
1.
ПРАКТИЧЕСКОЕ
ПРИМЕНЕНИЕ
ТЕХНОЛОГИЙ
ОПЕРАТИВНОГО
АНАЛИЗА ДАННЫХ
64
12
12
40
1.1.
Технологии анализа данных
28
4
4
20
1.2.
Практическое применение
хранилищ данных
18
4
4
10
1.3.
Практическое применение
OLAP-систем и других BIрешений
18
4
4
10
АВТОМАТИЗИРОВАННЫЕ
СИСТЕМЫ
ФОРМИРОВАНИЯ
КОНСОЛИДИРОВАННОЙ
ФИНАНСОВОЙ
ОТЧЕТНОСТИ
64
12
12
40
Стандарты и методы
формирования
консолидированной
финансовой отчетности
36
8
8
20
Автоматизация формирования
финансовой отчетности
28
4
4
20
СИСТЕМЫ
ИНТЕЛЛЕКТУАЛЬНОГО
АНАЛИЗА ДАННЫХ
88
16
16
56
3.1.
Синергетические модели
32
6
6
20
3.2.
Методы DataMining
36
6
10
20
3.3.
Методы TextMining
10
2
8
3.4.
Методы WebMining
10
2
8
216
40
2.
2.1.
2.2.
3.
ИТОГО
ВСЕГО
(часов)
Аудиторные занятия
(час)
в том числе
Лекции Семинары и
практич.
занятия
40
Самостоя
тельная
работа
136
3
II. Базовые учебники
Перминов Г.И. Системы интеллектуального анализа данных (Business Intelligence).
Учебно-методический комплекс. – М.: ГУ-ВШЭ, 2007.
Исаев Д.В., Кравченко Т.К. Автоматизированные системы формирования
консолидированной финансовой отчетности. Учебное пособие. – М.: 2006. – 370 с.
Аннотации:
Учебно-методический комплекс (УМК) «Системы интеллектуального анализа
данных (Business Intelligence)» (автор Г.И.Перминов) представляет собой элемент
обеспечения проходящего в России скачкообразного внедрения BI-систем как методов,
технологий, средств извлечения и представления знаний. В этом контексте курс нацелен
на подготовку специалистов, способных решать сложные комплексные задачи,
рассматривая business intelligence и как процесс и как результат процесса извлечения
знаний — как сами знания о бизнесе для принятия решений.
Учебно-методический комплекс включает в себя разделы: лекции, хрестоматия
(Reader), практикум. Учебно-методический комплекс снабжен значительным
библиографическим материалом, который позволит студентам успешно готовиться к
практическим занятиям, к экзамену, а также поможет при подготовке письменных работ.
УМК стремится обеспечить слушателей как солидной теоретической базой в сфере
интеллектуальных методов анализа, так и разнообразными практическими знаниями и
навыками, которые дадут им возможность непосредственно участвовать в реализации
программ и проектов, связанных с информационными технологиями поддержки принятия
решений.
В лекциях предусматривается сочетание теоретических материалов и практических
примеров (кейсов), представляющих практику применения интеллектуальных методов
анализа данных на уровне федеральных органов государственной власти, бизнеса,
корпораций, общественных организаций и других участников процессов принятия
стратегических и тактических решений. Практические занятия предполагают
значительную работу слушателей с различными моделями, реальными массивами данных
и различными предметными областями и предполагают проведение каждого
практического занятия в режиме «делай за мной». В то же время данный подход может
быть скорректирован в соответствие с актуальностью изучения той или иной проблемы и,
соответственно, применяемыми методами анализа, а также интересами и возможностями
слушателей.
Учебное
пособие
«Автоматизированные
системы
формирования
консолидированной финансовой отчетности» (авторы Д.В.Исаев, Т.К.Кравченко)
посвящено вопросам формирования и анализа консолидированной финансовой
отчетности и практического применения консолидированной отчетности в рамках
современных систем корпоративного управления. В пособии рассматриваются основные
аспекты корпоративного управления и современные проблемы, имеющиеся в этой
области. При этом подчеркивается роль финансовой отчетности (в т.ч.
консолидированной) как основного канала информации, предоставляемой акционерам и
другим заинтересованным лицам. Также рассматриваются возможности применения
принципов и методов консолидации для формирования и анализа управленческой
информации (данных управленческого учета и бюджетной информации).
В части информационно-технологических решений, предназначенных для
формирования и анализа консолидированной отчетности, рассматриваются различные
4
варианты,
наиболее
предпочтительным
из
которых
является
применение
специализированных систем консолидации, которые, в свою очередь, входят в состав
комплексных систем управления эффективностью бизнеса (Business Performance
Management, BPM).
III. Формы контроля
В рамках учебной дисциплины применяются следующие формы текущего и
итогового контроля:
(1) домашнее задание по 1 разделу;
(2) реферат по 2 разделу;
(3) экзамен по 3 разделу.
Итоговая оценка по учебной дисциплине складывается следующим образом:
R = 0,3  M1 + 0,3  M2 + 0,4  M3
где M1
M2
M3
– оценка за домашнее задание;
– оценка за реферат;
– оценка за экзамен.
IV. Содержание программы
Раздел 1. ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ ТЕХНОЛОГИЙ ОПЕРАТИВНОГО
АНАЛИЗА ДАННЫХ
Тема 1.1. Технологии анализа данных
Практическое использование систем поддержки принятия решений (СППР) на
предприятиях и в организациях. Базы данных как основа СППР. Неэффективность
использования систем обработки транзакций (OLTP-систем) для анализа данных. Роль
хранилищ данных (ХД), технологий оперативного анализа данных (OLAP-технологий),
систем бизнес-интеллекта (BI-платформы) и технологий интеллектуального анализа
данных (Data Mining, DM) в системах поддержки принятия решений.
Основная литература:
Перминов Г.И. Системы интеллектуального анализа данных (Business Intelligence).
Учебно-методический комплекс. – М.: ГУ-ВШЭ, 2007.
Дополнительная литература:
Методы и модели анализа данных: OLAP и Data Mining. /А.А.Барсегян,
М.С.Куприянов, В.В.Степаненко, И.И.Холод. СПб.: БХВ-Петербург, 2004. 13-26 с.
Введение в OLAP-технологии Microsoft. /А.Федоров, Н.Елманова. М.: ДиалогМИФИ, 2002. 268 с.
Тема 1.2. Практическое применение хранилищ данных
Примеры применения хранилищ данных на предприятиях и в организациях.
Организация ХД. Очистка данных. Хранилища данных и анализ. Oracle Warehouse Builder.
SQL. Многомерная модель данных. Двенадцать правил Кодда. Архитектура OLAP-систем.
5
Применение различных разновидностей многомерного хранения данных. Oracle Hyperion
Essbase.
Загрузка данных из OLTP БД в хранилище данных при помощи Oracle Warehouse
Builder. Преобразование и очистка данных внутри хранилища. Загрузка данных в кубы
Essbase. Архитектура и пример действующей системы.
Основная литература:
Перминов Г.И. Системы интеллектуального анализа данных (Business Intelligence).
Учебно-методический комплекс. – М.: ГУ-ВШЭ, 2007.
Дополнительная литература:
Методы и модели анализа данных: OLAP и Data Mining. /А.А.Барсегян,
М.С.Куприянов, В.В.Степаненко, И.И.Холод. СПб.: БХВ-Петербург, 2004. 27-49 с.
Хранилища данных. От концепции до внедрения / С.Архипенков, Д.Голубев.,
О.Максименко. М.: Диалог-МИФИ, 2002. 528 с.
Oracle & Data Warehousing / L.Hobbs, S.Hillson. – Digital Press, 2000. 380 с.
Тема 1.3. Практическое применение OLAP-систем и других BI-решений
Виды приложений Oracle Hyperion Essbase. Block Storage и Aggregate Storage. MDX.
Построение кубов Oracle Hyperion Essbase из реляционной схемы «звезда» с помощью
Oracle Hyperion Analytic Integration Services. Анализ данных в Excel при помощи
надстройки Essbase Spreadsheet Add-In для Excel. Анализ данных в Oracle Hyperion WebAnalysis. Построение отчетов в Oracle Hyperion Financial Reporting. Комплексный анализ
данных в Oracle Hyperion Interactive Reporting.
Основная литература:
Перминов Г.И. Системы интеллектуального анализа данных (Business Intelligence).
Учебно-методический комплекс. – М.: ГУ-ВШЭ, 2007.
Дополнительная литература:
Методы и модели анализа данных: OLAP и Data Mining. /А.А.Барсегян,
М.С.Куприянов, В.В.Степаненко, И.И.Холод. СПб.: БХВ-Петербург, 2004. 49-66 с.
Раздел 2. АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ ФОРМИРОВАНИЯ
КОНСОЛИДИРОВАННОЙ ФИНАНСОВОЙ ОТЧЕТНОСТИ
Тема 2.1. Стандарты и методы формирования консолидированной финансовой
отчетности
Сущность консолидированной финансовой отчетности и ее роль в современном
бизнесе. Основные понятия теории консолидации финансовой отчетности – группа
компаний, материнская и дочерняя компания. Владение и контроль. Критерии контроля:
право голоса, политика, совет директоров, голосующие права директоров.
Основные принципы формирования консолидированной финансовой отчетности.
Метод полной консолидации, его применимость. Понятие внутригрупповых операций.
Элиминирование внутригрупповых операций. Понятие гудвила. Понятие накопленного
капитала.
Понятие
доли
меньшинства.
Непосредственное
формирование
консолидированной финансовой отчетности.
6
Понятие совместной деятельности. Метод пропорциональной консолидации.
Понятие зависимой (ассоциированной) компании. Понятие и критерии
существенного влияния. Метод долевого участия.
Сравнение методов консолидации: полная консолидация, пропорциональная
консолидация, метод долевого участия. Формирование консолидированного балансового
отчета. Расчетные примеры: дочерняя компания, совместное предприятие, зависимая
компания. Комплексный расчетный пример.
Формирование консолидированного отчета о прибылях и убытках и
консолидированного отчета о движении денежных средств.
Проблемы формирования и анализа консолидированной финансовой отчетности.
Основная литература:
Исаев Д.В., Кравченко Т.К. Автоматизированные системы формирования
консолидированной финансовой отчетности. Учебное пособие. – М.: 2006. – 370 с. (Главы
1, 2).
Дополнительная литература:
Концепция Business Performance Management: начало пути. / Е.Ю.Духонин,
Д.В.Исаев, Е.Л.Мостовой и др., под ред. Г.В.Генса. – М.: Альпина Бизнес Букс, 2004. – 269
с.
Федеральный закон «О консолидированной финансовой отчетности» (проект
№ 55792-4, во втором чтении).
МСФО (IAS) 27 «Консолидированная и индивидуальная финансовая отчетность»
(Consolidated and separate financial statements).
МСФО (IAS) 28 «Учет инвестиций в ассоциированные компании» (Accounting for
investments in associates).
МСФО (IAS) 31 «Финансовая отчетность об участии в совместной деятельности»
(Financial reporting of interests in joint ventures).
МСФО (IFRS) 3 «Объединение бизнеса» (Business combinations).
Исаев Д.В., Слепов Ю.В. Методы и технологии консолидации финансовой
отчетности. – Финансовая газета. Региональный выпуск, 2004, №22. – с.14-15, № 23 – с.1415.
Слепов Ю.В., Мостовой Е.Л. Проблемы формирования и анализа
консолидированной финансовой отчетности. – Финансовая газета, 2004, №36. – с.14-15.
Тема 2.2. Автоматизация формирования финансовой отчетности
Понятие специализированных систем формирования и анализа консолидированной
финансовой отчетности. Роль специализированных систем консолидации в составе
комплексных
BPM-решений.
Функциональность
программных
комплексов,
предназначенных для консолидации финансовой отчетности (аналитические направления,
процедуры
сбора
и
структурирования
исходной
информации,
поддержка
мультивалютности, организация процесса консолидации, формирование отчетов).
Аналитические направления. Процесс сбора исходных данных для формирования
консолидированной финансовой отчетности. Возможности консолидации финансовой
отчетности, представленной в разных валютах. Понятие бизнес-правил, их назначение.
7
Понятие журналов, их назначение. Функции централизованного управления процессом
консолидации. Расчетные процедуры в системах консолидации. Функциональность в
части системной отчетности. Доступ к информации через Интернет и система
безопасности.
Основная литература:
Исаев Д.В., Кравченко Т.К. Автоматизированные системы формирования
консолидированной финансовой отчетности. Учебное пособие. – М.: 2006. – 370 с. (Глава
3.).
Дополнительная литература:
Концепция Business Performance Management: начало пути. / Е.Ю.Духонин,
Д.В.Исаев, Е.Л.Мостовой и др., под ред. Г.В.Генса. – М.: Альпина Бизнес Букс, 2004. – 269
с.
Духонина О.В., Горянский П.С.
Автоматизация формирования и анализа
консолидированной отчетности. – Финансовая газета, 2004, №37. – с. 14-15, №38. – с. 1415.
Исаев Д.В., Слепов Ю.В. Методы и технологии консолидации финансовой
отчетности. – Финансовая газета. Региональный выпуск, 2004, №22. – с.14-15, № 23 – с.1415.
Ковени М., Гэнстер Д., Хартлен Б., Кинг Д. Стратегический разрыв: Технологии
воплощения корпоративной стратегии в жизнь. – М.: Альпина Бизнес Букс, 2004. – 232 с.
Раздел 3. СИСТЕМЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
Тема 3.1. Синергетические модели
Возможности применения методов нелинейной динамики к изучению временной
динамики экономических рядов. Анализ одномерных временных рядов и теория
детерминированного хаоса. Понятие об аттракторе.
Меры хаотичности временных рядов. Показатель трендоустойчивости временного
ряда Херста. Алгоритм нормированного размаха Херста (R/S-анализ).
Показатели Ляпунова. Оценка показателей Ляпунова по временному ряду.
Энтропия Колмогорова. Длина памяти в экономических рядах. Горизонт
прогнозирования.
Корреляционная размерность. Фрактальная размерность.
Определение
фрактальной размерности по одноразовому измерению временного ряда. ТеоремаТакенса.
Алгоритмы расчета фазовой размерности.
Спектральный анализ. Вейвлет анализ. Дискретный вейвлет анализ. Непрерывный
вейвлет анализ. Сингулярный спектральный анализ.
Возможности предсказывания финансовых крахов.
Основная литература:
Перминов Г.И. Системы интеллектуального анализа данных (Business Intelligence).
Учебно-методический комплекс. – М.: ГУ-ВШЭ, 2007. (Тема 15).
8
Дополнительная литература:
Гринченко В.Т., Мацыпура В.Т., Снарский А.А. Введение в нелинейную
динамику. Хаос и фракталы. Гл.2. ЛКИ, 2007
Кричевский М.Л. Интеллектуальные методы в менеджменте. Гл. 4. СПб.: Питер,
2005. Малинецкий Г.Г., Потапов А.Б., Подлазов А.В. Нелинейная динамика. Подходы,
результаты, надежды. М.: КомКнига/URSS. 2006.
Петерc Э. Фрактальный анализ финансовых рынков. Применение теории хаоса в
инвестициях и экономике. М.: Интернет-трейдинг, 2004.
Ширяев В.И. Финансовые рынки и нейронные сети. Гл.6. ЛКИ, 2007
Тема 3.2. Модели DataMining
Методы
DM,
основанные
на
эволюционном
или
генетическом
программировании. Сходства и различия между эволюционными стратегиями и
генетическими алгоритмами. Различия между эволюционными стратегиями и
генетическими алгоритмами. Основные принципы, заложенные в эволюционные
программы: кроссинговер, мутация, селекция. Фундаментальная теорема генетического
алгоритма.
Разновидности генетических алгоритмов: по методы селекции, по процедуре
репродукции,
по генетическим операторам, по методам кодирования, по
масштабированию функции приспособленности.
Краткий обзор программных средств, реализующих эволюционные алгоритмы.
Методы, основанные на нечеткой логике. Основные понятия. Способы задания
характеристической функции. Логические функции для нечетких множеств. Нечеткая и
лингвистическая переменная.
Прямой нечеткий вывод. Этапы нечетного вывода. Модификации алгоритма
нечеткого вывода.
Алгоритмы нечеткого логического вывода: Мамдани (Mamdani), Цукамото
(Tsukamoto),
Сугэно (Sugeno), алгоритм Ларсена (Lаrsеn), упрощенный алгоритм
нечетного вывода. Методы приведения к четкости.
Пример анализа риска банкротства. Постановка задачи комплексного анализа
банкротства. Решение задачи с использованием нечетких множеств. Классификация
значений. Построение функций принадлежности. Выводы.
Нейронные сети (Neural Networks). Понятия об нейронных сетях (НС).
Преимущества и недостатки нейротехнологии. Области применения. Общие черты НС.
Нейроны. Классификация по типу нейронов: классификация нейронов по виду
функции стимуляции, классификация нейронов по виду функции активации,
классификация нейронов по типу сигнала, классификация нейронов по вероятностной
определенности.
Классификация нейросетевых архитектур: по типу связей в сети - сеть прямого
распространения, рекуррентная сеть, соревновательная сеть; по наличию скрытых
элементов; по динамическим характеристикам.
Классификация методов обучения: по используемым парадигмам - «с учителем»
(контролируемое обучение), «без учителя» (самообучение) и смешанная;
по
9
используемым правилам - коррекция по ошибке; машина Больцмана; правило Хебба;
обучение методом соревнования; обучение методом селекции.
Многослойный персептрон (MLP). Методы нахождения глобального минимума
функции ошибок.
Радиальная базисная функция (RBF). Преимущества сети RBF перед сетями MLP.
Принципы обучения RBF-сети.
Вероятностная нейронная сеть (PNN). Преимущества и недостатки PNN–сетей.
Сеть Кохонена. Основной итерационный алгоритм Кохонена. Область применения
сети Кохонена.
Гибридные сети (ГС). Необходимость построения гибридной сети.
Эффективность гибридизации. Принцип работы гибридной сети. Отличие ГС от обычной
нейросети. Принцип обучения ГС. База знаний гибридной сети. Алгоритм вывода для ГС.
Адаптивная нечеткая нейросистема (ANFIS). Архитектура нейронной сети ANFIS.
Примеры использования системы Anfis: построение регрессионно-авторегрессионной
модели сильно зашумленного ряда; прогноз сильно зашумленного ряда.
Методы нахождения «ближайшего соседа» (Nearest-Neighbor matching).
Характеристика методов извлечения и адаптации прецедентов. Метод ближайшего соседа.
Преимущества и недостатки метода.
Модификации методов ближайшего соседа. Метод k-ближайших соседей и
взвешенный метод (к-БС). Адаптивные методы ближайшего соседа. Метод ускоренного
поиска ближайшего соседа (Fast Nearest Neighbor Searching). Модифицированный метод
ближайшего соседа (ММБС). Выбор опорных точек. Алгоритм выбора опорных точек.
Вычислительная сложность ММБС. Редуцированные методы ближайшего соседа (РМБС).
Процедуры фильтрации шумовых документов в выборке. Алгоритм РМБС. Обобщенный
метод ближайшего соседа (ОМБС). Алгоритм ОМБС.
Деревья решений (Decision Tree – DT). Понятие об алгоритмах построения
деревьев решений. Преимущества использования деревьев решений. Правила построения
деревьев решений: разбиений; остановки; отсечения.
Разновидности DT – алгоритмов: альтернативные методы расщепления данных в
узлах дерева, альтернативные методы отсечения незначимых ветвей (pruning),
оптимизация построенного дерева, использование нечетких критериев расщепления,
построение вместо дерева ациклического графа (решетки) более общего вида, тернарное
разбиение данных в узлах для учета случаев, когда значение критерия разбиения не может
быть вычислено для части записей.
Методы кластеризации (Clustering). Понятия о кластеризации. Особенности
кластеризации в Data Mining.
Методы кластеризации с числовыми атрибутами. Классификация методов
кластеризации.
Иерархические методы. Иерархические агломеративные методы. Меры расстояния
между объектами. Методы объединения: метод одиночной связи (ближайшего соседа);
метод полных связей (наиболее удаленного соседа); метод средней связи; метод Уорда
(Ward’s method).
Иерархические дивизимные методы. Алгоритм Макнаотона. Пример дивизимного
метода.
Итеративный метод кластеризации - k средних.
Метод нечеткой кластеризации Fuzzy C-Means. Алгоритм Fuzzy C-Means.
10
Кластеризация категорийных данных.
Масштабируемый алгоритм CLOPE.
Формальное описание алгоритма. Реализация алгоритма. Области применения алгоритма
кластеризации.
Метод Naive Bayes. Понятие о методе Naive Bayes. Пример применения метода
Navie Bayes.
Проблемы использования метода Navie Bayes. Область применения метода Naive
Bayes.
Дискриминантный анализ. Назначение, цели, предпосылки, особенности
дискриминационного анализа.
Дискриминантные функции и их геометрическая интерпретация. Количество
дискриминантных функций.
Алгоритм дискриминационного анализа 2-х классов. Пример дискриминации двух
групп. Проверка решения и классификация новых объектов
Дискриминационный анализ при числе групп более двух. Алгоритм решения
задачи для общего случая k классов. Пример классификации при числе групп более двух.
Влияние числа выбранных переменных на результат анализа. Методы отбора
переменных. Критерии отбора переменных для двух и более групп: Wilks' lambda {Лямбда
Уилкса), Mahalonobis distance (Расстояние Махалонобиса), Smallest F ratio (Наименьшее Fотношение), Rao's V (V Pao), Sum of unexplained variance (Сумма необъясненной
дисперсии).
Классификация без интерпретации.
Взаимосвязь между дискриминантными переменными и дискриминантными
функциями Вклад отдельной переменной в значение дискриминантной функции. Степень
корреляционной зависимости между переменными и дискриминантными функциями.
Методы ассоциации. Понятие об ассоциации. Метод Basket Analysis. Оценка
полезности ассоциативных правил: поддержка (support), достоверность (confidence),
улучшение (improvement).
Методы нахождения последовательностей (сиквенциальный анализ).
Разновидности ассоциативных правил.
Алгоритмы. Алгоритм Apriori. Пример применения алгоритма Apriori.
Разновидности алгоритма Apriori.
Методы построения логических правил (If-Then). Понятие о методе If-Then.
Поиск логических правил в данных (на примере системы WizWhy). Основные черты
метода. Загрузка и управление данными. Задание параметров процедуры поиска правил.
Настройки выдачи отчетов.
Дополнительные возможности построения логических правил. Работа с окном
диалога Ошибки/Примеры (Errors/Examples). Работа с окнами форматирования. Окно
работы с внешними данными. Отчеты системы (Отчет о правилах, список правил,
визуализация полученных правил, содержание записи в деталях, индекс признака, окно
распечатки, окно экспорта правил, отчет о трендах, отчет о неожиданных правилах).
Предсказание на основе полученных правил.
Построение множества правил и деревьев решений на примере системы See5.
Подготовка данных для See5 (Файл имен переменных, файл данных, файлы тестовых
данных, файл стоимости). Интерфейс пользователя.
Построение дерева решений. Детальное изучение результатов. Преобразование
дерева решений в набор правил. Усиление решения (Boosting).
11
Использование правил для принятия решений. Смягчение порогов.
Дополнительные настройки алгоритма. Перекрестная проверка полученных результатов.
Выборка из больших наборов данных. Учет стоимости различных ошибок классификации.
Использование классификаторов. Детальная проверка и сохранение результатов.
Основная литература:
Перминов Г.И. Системы интеллектуального анализа данных (Business Intelligence).
Учебно-методический комплекс. – М.: ГУ-ВШЭ, 2007.
Дополнительная литература:
Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные
системы. – М.: ФиС, 2004,
Барсегян А.А. и др. Методы и модели анализа данных: OLAP и Data Mining. –
С.Пб.: БХВ-Петербург, 2004,
Дюк В., Самойленко А. Data Mining. Учебный курс. С-Пб.: Питер, 2001.
Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных.
Интеллектуальная обработка информации. –М.: Издатель – Молгачева, 2001.
Кричевский М.Л. Интеллектуальные методы в менеджменте. СПб.: Питер, 2005.
Круглов В.В., Дли М.И. Интеллектуальные информационные системы.
Компьютерная поддержка систем нечеткой логики и нечеткого вывода. –М.: Физматлит.
2002.
Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические
алгоритмы и нечеткие системы. Пер. с польского. –М.: Горячая линия - Телеком, 2006,
Чубукова И.А. Data Mining. – М.: Интернет – Университет Информационных
Технологий; БИНОМ. 2006.
Тема 3.3. Text Mining
Понятие о Text Mining. Особенности данных для Text Mining
Задачи Text Mining. Суммаризация (реферирование). Составление выдержек.
Формирование краткого изложения. Классификация. Кластеризация. Семантические
карты. Ответ на запросы, поиск по ключевым словам. Хранилище слов.
Аналитическая обработка текстовой информации. Применение нейронных сетей
при анализе текстовой информации
Пример алгоритма Text mining
Модули текстового анализа в системе PolyAnalyst. Text Analysis (ТА) - текстовый
анализ. Text Categorizer (TC) - каталогизатор текстов. Link Terms (LT) - связь понятий.
Основная литература:
Перминов Г.И. Системы интеллектуального анализа данных (Business Intelligence).
Учебно-методический комплекс. – М.: ГУ-ВШЭ, 2007. (Тема 16).
Дополнительная литература:
Ильин Н., Киселев С., Рябышкин В., Танков С. Технологии извлечения знаний из
текста. – http://www.osp.ru/text/302/2700556/ p2.html
Ландэ Д. Добыча знаний. – http://www.visti.net/~dwl/art/dz/
Хан
У.,
Мани
И.
Системы
автоматического
реферирования.
–
http://www.osp.ru/text/302/178370/ p3.html
Селезнев К. Обработка текстов на естественном языке. – http://www.osp.ru/text/302/l
83694/
12
http://megaputer.ru
Text Mining and the Knowledge Management Space / Semio Corporation
http://www.dmreview.com/whitepaper/paper_sub.cfm?whitepaperld=10080
Тема 3.4. Web Mining
Направления применения Web Mining и Web Usage Mining.
Задачи применения Data Mining в Web Сети. Спецификация доступных ресурсов.
Увеличение ценности каждого посетителя. Учет интересов посетителя вебсайта.
Дифференцированное управление своими ресурсами. Сбор информации новыми
способами. Проверка качества содержания и архитектуры вебсайта.
Области применения Web Analyst (WA). E-участник. Сайты по рекламированию.
Интеграторы Сети. Поиск в сети с помощью Data Mining. ( Задача структуризация Сети.
Вертикальный Поиск. Мобильный Поиск. Мультимедийный Поиск.)
Архитектура Web-Analyst. Компоненты Web-Analyst On-Line. Автономные
Компоненты Web-Analyst. Перспективы применения WA.
Направление Web Content Mining. Продукты Ontos Series. Light Ontos – управление
информацией и поиском документов.
LightOntos Personal Edition. LightOntos Business Edition. LightOntos for Workgroups.
Сферы применения LightOntos.
База знаний в Web Mining. Понятие онтологии. Онтологии в Web Mining.
Практическая реализация задач Web Mining. Сбор данных для анализа.
Определение
предметной
области.
Аналитическая
обработка
документов.
Структурирование знаний, обеспечение их хранения, обновления и представления.
Формирование базы знаний. Представление знаний. Организация приближенного поиска
и передача знаний заинтересованным лицам. Поиск по объекту во внешнем источнике
информации. Поиск по ситуации во внешнем источнике информации. Поиск с
применением технологии триплетов. Передача знаний.
Основная литература:
Перминов Г.И. Системы интеллектуального анализа данных (Business Intelligence).
Учебно-методический комплекс. – М.: ГУ-ВШЭ, 2007. (Тема 17).
Дополнительная литература:
http://www.megaputer.com/products/wa/testprogram.php3
http://www. cs.uic.edu/~liub. WWW-2005. Web Component Mining
http://ontos.com
Cai D., Yu S., Wen J-R, Ma W-Y. Extracting Content Structure for Web Pages based on
Visual Representation. Fifth Asia Pacific Web Conference (APWeb-03), 2003.
Gupta S., Kaiser G., Neistadt D., Grimm P. DOM based Content Extraction of HTML
Documents, WWW-03, 2003.
13
V. Тематика заданий по различным формам
текущего контроля
Тематика домашних заданий:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
Описание
модели
данных,
используемой
большинством
OLAP-систем.
Демонстрация модели данных реальной OLAP-системы.
OLTP-системы и их применимость для оперативного анализа данных.
Хранилища данных, их классификация по видам и типам. Примеры реальных
хранилищ данных.
Витрины данных, их роль в ХД. Примеры реальных ВД.
Компоненты ХД. Примеры реальных ХД.
Описание модели данных, используемой большинством ХД. Примеры схем данных.
Процессы извлечения, трансформации и загрузки данных (ETL). Примеры ETLпроцессов.
Архитектура OLAP-систем. Описание задач OLAP. Примеры OLAP-систем.
Описание правил Кодда для OLAP-систем. Аналитический обзор систем,
удовлетворяющих этим правилам.
Тест FASMI. Аналитический обзор систем, удовлетворяющих этому тесту.
Аналитический обзор по ROLAP, MOLAP, HOLAP, DOLAP- системам.
Технологии Data Mining. Классификация задач Data Mining.
Соотношение Data Mining и OLAP. Демонстрация взаимодействия двух технологий
на примерах.
Аналитический обзор архитектуры и компонентов Oracle Warehouse Builder (или MS
DTS).
Построение ETL-процессов в OWB (или MS DTS). Аналитический обзор
компонентов мэппингов.
Построение ETL-процессов в OWB (или MS-DTS).
Аналитический обзор основных операторов SQL. Примеры использования SQL для
анализа данных.
Аналитический обзор архитектуры и компонентов Oracle-Hyperion Essbase.
Аналитический обзор структуры MDX-запросов. Примеры использования MDX для
анализа данных.
Аналитический обзор архитектуры и компонентов Oracle-Hyperion Analytic
Integration Services.
Описание процесса построения кубов Oracle-Hyperion Essbase из реляционной БД.
Примеры построения.
Описание процесса построения логической схемы «звезда» в AIS. Примеры
построения.
Описание процесса построения отображения «звезды» на куб в AIS. Примеры
построения.
Тематика рефератов:
1.
2.
Современные тенденции развития бизнеса, ведущие к повышению актуальности
формирования и анализа консолидированной финансовой отчетности.
Сущность и проблемы корпоративного управления (corporate governance).
14
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
Требования к информационному обеспечению корпоративного управления: акт
Сарбенса-Оксли (США).
Требования к информационному обеспечению корпоративного управления:
разработки в области корпоративного управления в Великобритании.
Требования к информационному обеспечению корпоративного управления:
разработки в области корпоративного управления в Германии.
Требования к информационному обеспечению корпоративного управления:
разработки в области корпоративного управления в России.
Роль информационных технологий в обеспечении требований информационной
поддержки корпоративного управления.
Практика корпоративной отчетности и корпоративного управления в ведущих
российских и международных компаниях.
Функциональность специализированных информационных систем формирования
консолидированной финансовой отчетности: решения Oracle Hyperion.
Функциональность специализированных информационных систем формирования
консолидированной финансовой отчетности: решения SAP.
Функциональность специализированных информационных систем формирования
консолидированной финансовой отчетности: решения IBM Cognos.
Сравнительная характеристика функциональности специализированных систем
формирования консолидированной финансовой отчетности.
Современное состояние и тенденции развития мирового рынка специализированных
систем формирования консолидированной финансовой отчетности.
Функциональность ERP-систем в области формирования финансовой отчетности:
решения SAP.
Функциональность ERP-систем в области формирования финансовой отчетности:
решения Oracle.
Функциональность ERP-систем в области формирования финансовой отчетности:
решения SSA Global).
Функциональность ERP-систем в области формирования финансовой отчетности:
решения Microsoft).
Функциональность российских учетных и ERP-систем в области формирования
финансовой отчетности (на примере разработок компаний 1С, Парус, Галактика и
др.).
Реализация параллельного учета в ERP-системах.
Проблемы формирования единой системы финансового и управленческого учета в
российских компаниях.
Проблемы сбора и структурирования учетных данных предприятий группы для
последующего формирования консолидированной финансовой отчетности.
Возможности применения систем бизнес-интеллекта для решения задач анализа
корпоративной финансовой информации.
Учет требований управленческого учета при проектировании систем консолидации
финансовой отчетности и корпоративных хранилищ данных.
Практические проблемы внедрения методов и информационных систем
формирования и анализа консолидированной финансовой отчетности в российских
компаниях.
Оценка эффективности автоматизации функций формирования и анализа
корпоративной отчетности.
Российский и зарубежный опыт практического применения информационных систем
формирования консолидированной финансовой отчетности: нефтегазовые компании.
15
27. Российский и зарубежный опыт практического применения информационных систем
формирования
консолидированной
финансовой
отчетности:
предприятия
металлургии.
28. Российский и зарубежный опыт практического применения информационных систем
формирования
консолидированной
финансовой
отчетности:
предприятия
машиностроения.
29. Российский и зарубежный опыт практического применения информационных систем
формирования консолидированной финансовой отчетности: предприятия пищевой
промышленности.
30. Российский и зарубежный опыт практического применения информационных систем
формирования консолидированной финансовой отчетности: телекоммуникационные
компании.
31. Российский и зарубежный опыт практического применения информационных систем
формирования консолидированной финансовой отчетности: банки.
32. Применение информационных технологий для решения задач формирования
финансовой и управленческой отчетности в организациях государственного сектора:
органы государственного и муниципального управления.
33. Применение информационных технологий для решения задач формирования
финансовой и управленческой отчетности в организациях государственного сектора:
жилищно-коммунальное хозяйство.
34. Применение информационных технологий для решения задач формирования
финансовой и управленческой отчетности в организациях государственного сектора:
образование.
35. Применение информационных технологий для решения задач формирования
финансовой и управленческой отчетности в организациях государственного сектора:
здравоохранение.
36. Применение информационных технологий для решения задач формирования
финансовой и управленческой отчетности в организациях государственного сектора:
судебная система.
37. Подходы конслтинговых и ИТ-компаний к проектированию и внедрению
информационных систем консолидации финансовой отчетности.
VI. Вопросы для оценки качества освоения
дисциплины
Раздел 1. ТЕХНОЛОГИИ ОПЕРАТИВНОГО АНАЛИЗА ДАННЫХ
Вопросы по теории:
1. Какую модель данных использует большинство OLAP-систем?
2. Чем обусловлена неприменимость OLTP-систем для оперативного анализа
данных?
3. Дайте определение ХД. Перечислите виды и задачи ХД.
4. Что такое витрины данных? Какова их роль в ХД?
5. Что входит в состав ХД?
6. Что такое таблицы фактов и измерений? Поясните понятия «схема звезда» и
«схема снежинка».
7. Дайте определение ETL. Приведите пример ETL-процессов.
8. Опишите многомерную модель данных.
16
9. Дайте определение OLAP. Опишите задачи OLAP.
10. Перечислите правила Кодда для OLAP-систем.
11. Что такое тест FASMI?
12. Приведите пример архитектур OLAP-систем.
13. Что такое ROLAP, MOLAP, HOLAP, DOLAP?
14. Дайте определение Data Mining. Приведите классификацию задач Data Mining.
15. Каково соотношение Data Mining и OLAP?
Практические вопросы:
1. Опишите архитектуру и компоненты Oracle Warehouse Builder.
2. Опишите построение ETL-процессов в OWB. Перечислите компоненты
мэппингов.
3. Опишите построение ETL-процессов в OWB. Перечислите компоненты
Workflow.
4. Перечислите основные операторы SQL. Какова структура SELECT?
5. Опишите архитектуру Oracle Hyperion Essbase. Что такое приложения и БД
Essbase?
6. Какова структура MDX-запросов?
7. Опишите архитектуру Oracle Hyperion Analytic Integration Services.
8. Опишите процесс построения кубов Essbase из реляционной БД.
9. Опишите процесс построения логической схемы «звезда» в AIS.
10. Опишите процесс построения отображения «звезды» на куб в AIS.
Раздел 2. АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ ФОРМИРОВАНИЯ
КОНСОЛИДИРОВАННОЙ ФИНАНСОВОЙ ОТЧЕТНОСТИ
Вопросы к теме 2.1. «Стандарты и методы формирования консолидированной
финансовой отчетности»
1. В чем состоит сущность консолидированной финансовой отчетности?
2. Какова роль консолидированной финансовой отчетности в современном
бизнесе?
3. Кто является пользователями консолидированной финансовой отчетности?
4. Какие управленческие решения принимаются на основе консолидированной
финансовой отчетности?
5. Что такое группа компаний? Что такое материнская компания? Что такое
дочерняя компания?
6. Что такое владение? Что такое контроль? Каковы основные критерии контроля?
7. Каковы основные принципы формирования консолидированной финансовой
отчетности?
8. В чем состоит сущность метода полной консолидации?
9. Для каких предприятий группы применяется метод полной консолидации?
10. Каковы основные шаги процесса формирования консолидированной
финансовой отчетности?
11. Что такое внутригрупповые операции, как они отражаются в
консолидированной финансовой отчетности?
12. Что такое гудвил, как он отражается в консолидированной финансовой
отчетности? Что такое идентифицируемые чистые активы? Что такое
справедливая стоимость?
13. Как накопленный капитал отражается в консолидированной финансовой
отчетности?
17
14. Что такое доля меньшинства, как она отражается в консолидированной
финансовой отчетности?
15. Что такое совместная деятельность? Каковы основные виды совместной
деятельности, какова их сущность?
16. В чем состоит сущность метода пропорциональной консолидации?
17. Что такое зависимая (ассоциированная) компания? Что такое существенное
влияние? Каковы критерии существенного влияния?
18. В чем состоит сущность метода долевого участия?
19. Как соотносятся между собой основные методы консолидации финансовой
отчетности?
20. Каковы основные проблемы формирования и анализа консолидированной
финансовой отчетности?
21. В чем заключается задача рационального использования консолидированной
отчетности?
Вопросы к теме 2.2. «Автоматизация формирования финансовой отчетности»
1. Какова функциональность специализированных систем формирования и
анализа консолидированной финансовой отчетности?
2. Какие аналитические направления применяются в специализированных
системах консолидации финансовой отчетности?
3. Какие средства сбора и структурирования исходной информации применяются
в специализированных системах консолидации финансовой отчетности?
4. Какие средства вычислений и корректировки исходной информации
применяются в специализированных системах консолидации финансовой
отчетности?
5. Какие средства вычислений и корректировки исходной информации
применяются в специализированных системах консолидации финансовой
отчетности?
6. Какие средства управления процессами формирования консолидированной
финансовой отчетности и контроля доступа к финансовой информации
применяются в специализированных системах консолидации?
7. Каков практический опыт применения специализированных систем
консолидации финансовой отчетности в России и за рубежом?
Раздел 3. СИСТЕМЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
Какова классификация интеллектуальных систем?
Что такое методы ИАД и каково их назначение?
Каковы особенности методов ИАД?
Охарактеризуйте области применения методов ИАД.
Каковы этапы исследований методами ИАД?
В чем заключается этап предварительной обработки данных при использовании
ИАД?
7. Охарактеризуйте метод «Деревьев решений».
8. Охарактеризуйте особенности регрессионного анализа в методах ИАД.
9. Какие разновидности регрессионного метода ИАД Вы знаете?
10. Охарактеризуйте модели временных рядов с запаздываниями.
11. Охарактеризуйте метод «Ближайшего соседа».
12. Охарактеризуйте метод поиска правила.
13. Охарактеризуйте метод кластеризации.
1.
2.
3.
4.
5.
6.
18
14. Охарактеризуйте метод классификации.
15. Охарактеризуйте метод дискриминации.
16. Какие различия в целях и алгоритмах статистического и интеллектуального
подходов.
17. Охарактеризуйте генетические алгоритмы.
18. Охарактеризуйте нейросетевые методы анализа.
19. Охарактеризуйте методы для анализа нечетких множеств.
20. Перечислите основные направления эволюционного моделирования и
приведите основные факторы, определяющие неизбежность эволюции.
21. В чем особенности эволюционного программирования? Приведите основные
шаги обобщенного алгоритма эволюционного программирования.
22. Охарактеризуйте метод эволюционных стратегий. В чем его отличие от
эволюционного программирования и от генетических алгоритмов?
23. Применение эволюционных вычислений в ИИС.
24. Какие алгоритмы называют генетическими? Сформулируйте основные
особенности генетических алгоритмов.
25. Охарактеризуйте простой генетический алгоритм. Приведите пример.
26. Опишите операторы репродукции и кроссинговера в простом генетическом
алгоритме. Приведите примеры.
27. Приведите примеры использования простого генетического алгоритма для
вычисления функции f(x) = х4 на интервале [0,1, 2, 3,4].
28. Составьте примеры, иллюстрирующие работу операторов репродукции,
кроссинговера, мутации и инверсии.
29. Дайте характеристику понятию «схема» в простом генетическом алгоритме.
Приведите примеры.
30. Фундаментальная теорема генетического алгоритма.
31. Приведите пример применения фундаментальной теоремы генетического
алгоритма.
32. Сформулируйте
прикладную
экономическую
или
управленческую
оптимизационную задачу и опишите ее решение с применением генетического
алгоритма.
33. Классифицирующие системы Холланда.
34. Перечислите основные этапы технологии генетического программирования.
Авторы программы:
_____________________________ (Д.В.Исаев)
_____________________________ (Т.К.Кравченко)
_____________________________ (Е.В.Огуречников)
_____________________________ (Г.И.Перминов)
Download