Системы ИАД (2013-04-09)

advertisement
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
«Национальный исследовательский университет
«Высшая школа экономики»
Факультет бизнес-информатики
Программа дисциплины
«Системы интеллектуального анализа данных»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
для магистерской программы «Бизнес-информатика»
Автор программы:
Перминов Г.И., к.т.н., доцент
Одобрена на заседании кафедры
бизнес-аналитики
Зав. кафедрой Кравченко Т.К. ________________________
«____»______________ 2012 г.
Рекомендована секцией УМС «Бизнес-информатика»
«____»______________ 2012 г.
Председатель Таратухина Ю.В. ________________________
Москва, 2012
Настоящая программа не может быть использована другими подразделениями университета
и другими вузами без разрешения кафедры – разработчика программы.
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
1
Область применения и нормативные ссылки
Настоящая программа учебной дисциплины устанавливает минимальные требования к
знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных
ассистентов и студентов направления 080500.68 «Бизнес-информатика» подготовки магистра,
обучающихся по магистерской программе «Бизнес-информатика».
Программа разработана в соответствии с:
 образовательным стандартом Федерального государственного автономного
образовательного
учреждения высшего профессионального образования
«Национальный исследовательский университет «Высшая школа экономики»,
уровень подготовки: магистр, утвержденным 26.06.2011;
 рабочим учебным планом университета по направлению 080500.68 «Бизнесинформатика» подготовки магистра для магистерской программы «Бизнесинформатика», специализация «Информационная бизнес-аналитика», утвержденным
в 2011 г.
2
Цели освоения дисциплины
Целями освоения дисциплины является формирование у студентов комплекса
теоретических знаний и методологических основ в области систем интеллектуального анализа
данных, а также практических навыков, необходимых для внедрения и практического
использования таких систем.
3
Компетенции обучающегося, формируемые в результате освоения
дисциплины
В результате освоения дисциплины студент должен:
 знать характеристики рынка систем интеллектуального анализа данных и
перспективы развития информационных систем управления, основные классы и
принципы построения информационных систем;
 уметь применять информационные системы для решения задач бизнес-аналитики;
 иметь навыки (приобрести опыт) анализа тенденций развития мирового и
российского рынка информационных систем интеллектуального анализа данных
и лучших практик их применения на предприятиях различных отраслей.
В результате освоения дисциплины студент приобретает следующие компетенции:
Компетенция
Способность принимать
управленческие решения,
оценивать их возможные
последствия и нести за них
ответственность
Способность выявлять и
прогнозировать основные
направления
использования
современных ИКТ для
Код по Дескрипторы – основные признаки
ФГОС/ освоения (показатели достижения
НИУ
результата)
СК-5
Демонстрирует
ПК-11
Владеет и применяет
Формы и методы обучения,
способствующие
формированию и развитию
компетенции
Лекции, практические
занятия, выполнение
домашних заданий
Лекции, практические
занятия, выполнение
домашних заданий
2
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
Компетенция
управления
эффективностью бизнеса
Способность проводить
научные исследования и
готовить аналитические
материалы для оценки
мроприятий и выработки
стратегических решений в
сфере ИКТ
Способность
разрабатывать и применять
экономикоматематические модели
для обоснования
проектных решений в
сфере ИКТ
Способность организовать
самостоятельную и
коллективную научноисследовательскую работу
на предприятии и
управлять ею
4
Код по Дескрипторы – основные признаки
ФГОС/ освоения (показатели достижения
НИУ
результата)
Формы и методы обучения,
способствующие
формированию и развитию
компетенции
ПК-12
Владеет и применяет
Лекции, практические
занятия, выполнение
домашних заданий
ПК-14
Владеет и применяет
Лекции, практические
занятия, выполнение
домашних заданий
ПК-16
Демонстрирует
Лекции, практические
занятия, выполнение
домашних заданий
Место дисциплины в структуре образовательной программы
Для специализации «Информационная бизнес-аналитика» в рамках магистерской
программы «Бизнес-информатика» настоящая дисциплина является дисциплиной по выбору.
Изучение данной дисциплины базируется на следующих дисциплинах:
 «Проектирование информационных систем»;
 «Системный анализ и проектирование»;
 «Совершенствование архитектуры предприятия».
Для освоения учебной дисциплины, студенты должны знать концептуальные основы
архитектуры предприятия, основные классы информационных систем управления бизнесом,
лучшие практики и современные стандарты в сфере информационных технологий, владеть
методами проектирования информационных систем, уметь систематизировать и обобщать
информацию, разрабатывать конкретные предложения по результатам исследований, готовить
справочно-аналитические материалы для принятия управленческих решений в сфере
информационных технологий.
Основные положения дисциплины должны быть использованы в дальнейшем при
изучении следующих дисциплин:
 «Информационные системы целевого управления (BSC-системы)»;
 «Системы бизнес-интеллекта»;
 «Системы поддержки принятия решений».
3
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
5
Тематический план учебной дисциплины
№
п/п
Наименования тем
1.
2.
3.
4.
5.
6.
7.
8.
9.
Всего
часов
Аудиторные часы
Практические
Всего
занятия
аудиторных
часов
Внеаудиторные
часы
Лекции
Тема 1.
Синергетические
модели.
Тема 2.
Генетические и
эволюционные
модели.
Тема 3. Нечеткие
множества и
нечеткая логика.
52
12
12
24
28
18
4
4
8
10
16
4
4
8
8
Тема 4. Нейронные
сети.
Тема 5. Гибридные
нечеткие
нейросистемы.
Тема 6. Модели
«Ближайший
сосед».
Тема 7. Деревья
решений. Методы
кластеризации и
дискриминации.
Тема 8. Методы
Naive Bayes,
ассоциации,
построения
логических правил
(If- Then).
Тема 9. Модели
TextMining и
WebMining.
Итого часов
18
4
4
8
10
16
4
4
8
8
14
4
4
8
6
20
4
4
8
12
20
4
4
8
12
6
2
0
2
4
180
42
40
82
98
4
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
6
Формы контроля знаний студентов
Тип
контроля
Текущий
(неделя)
Форма контроля
2
Контрольная
работа
Реферат
Домашнее
задание
Итоговый Зачет
(неделя)
1 год
3
10
Параметры
4
Письменная работа 60 минут, оценка
результатов – 1 неделя
9
10
12
Объем 20-25 стр., оценка результатов
– 2 недели
Пояснительная записка до 15 стр.,
оценка результатов – 2 недели
Устный экзамен, 20 минут на студента
Критерии оценки знаний, навыков
Студент должен продемонстрировать знание разделов дисциплины и способность
представить результаты выполнения домашних заданий и качественный реферат на заданную
тему в соответствии с требуемыми компетенциями.
Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале.
6.1
5
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
7
Содержание дисциплины
Тема 1. Синергетические модели
Возможности применения методов нелинейной динамики к изучению временной
динамики экономических рядов.
Анализ одномерных временных рядов и теория
детерминированного хаоса. Понятие об аттракторе.
Меры хаотичности временных рядов. Показатель трендоустойчивости временного ряда
Херста. Алгоритм нормированного размаха Херста (R/S-анализ).
Оценка показателей Ляпунова по временному ряду.
Энтропия Колмогорова. Длина памяти в экономических рядах. Горизонт
прогнозирования.
Корреляционная размерность. Фрактальная размерность.
Определение фрактальной
размерности по одноразовому измерению временного ряда. ТеоремаТакенса.
Алгоритмы расчета фазовой размерности.
Спектральный анализ. Вейвлет анализ. Дискретный вейвлет анализ. Непрерывный
вейвлет анализ. Сингулярный спектральный анализ.
Возможности предсказывания финансовых крахов
Основная литература
Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business
Intelligence). Тема 15. ГУ-ВШЭ, 2007.
Дополнительная литература
Гринченко В.Т., Мацыпура В.Т., Снарский А.А. Ввведение в нелинейную динамику.
Хаос и фракталы. Гл.2. ЛКИ, 2007
Кричевский М.Л. Интеллектуальные методы в менеджменте. Гл. 4. СПб.: Питер, 2005.
Малинецкий Г.Г., Потапов А.Б., Подлазов А.В. Нелинейная динамика. Подходы, результаты,
надежды. М.: КомКнига/URSS. 2006.
Петерc Э. Фрактальный анализ финансовых рынков. Применение теориии хаоса в
инвестициях и экономике. М.: Интернет-трейдинг, 2004.
Ширяев В.И. Финансовые рынки и нейронные сети. Гл.6. ЛКИ, 2007
Тема 2. Генетические и эволюционные модели
Сходства и различия между эволюционными стратегиями и генетическими алгоритмами.
Различия между эволюционными стратегиями и генетическими алгоритмами. Основные
принципы, заложенные в эволюционные программы: кроссинговер, мутация, селекция.
Фундаментальная теорема генетического алгоритма.
Разновидности генетических алгоритмов: по методы селекции, по процедуре
репродукции, по генетическим операторам, по методам кодирования, по масштабированию
функции приспособленности.
Краткий обзор программных средств, реализующих эволюционные алгоритмы.
6
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
Основная литература
Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business
Intelligence). Тема 15. ГУ-ВШЭ, 2007.
Дополнительная литература
Http://www.statsoft.ru/home/textbook/modules/stdatmin.html
Http://www.codeney.ru/progr/alg/smart/#top
Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа
данных OLAP и DataMining. - С-Пб.:БХВ-Петербург, 2004. прил. 2.
Дюк В., Самойленко А. Data Mining. Учебный курс. С-Пб.: Питер, 2001. гл. 3
Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы
и нечеткие системы. Пер. с польского. –М.: Горячая линия - Телеком, 2006, гл.4.
Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. –
М.: ФиС, 2004, гл.6.
Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная
обработка информации. –М.: Издатель – Молгачева, 2001. гл.7.
Тема 3. Нечеткие множества и нечеткая логика
Основные понятия. Способы задания характеристической функции.
Логические
функции для нечетких множеств. Нечеткая и лингвистическая переменная.
Прямой нечеткий вывод
Этапы нечетного вывода. Модификации алгоритма нечеткого вывода.
Алгоритмы нечеткого логического вывода: Мамдани (Mamdani), Цукамото (Tsukamoto),
Сугэно (Sugeno), Алгоритм Ларсена (Lаrsеn), Упрощенный алгоритм нечетного вывода.
Методы приведения к четкости.
Пример анализа риска банкротства. Постановка задачи комплексного анализа
банкротства. Решение задачи с использованием нечетких множеств. Классификация значений.
Построение функций принадлежности. Выводы.
Основная литература
Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business
Intelligence). ГУ-ВШЭ, 2007.
Дополнительная литература
Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. –
М.: ФиС, 2004, гл.3
Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная
обработка информации. –М.: Издатель – Молгачева, 2001. гл.8.
Круглов В.В., Дли М.И. Интеллектуальные информационные системы. Компьютерная
поддержка систем нечеткой логики и нечеткого вывода. –М.: Физматлит. 2002. гл.1, 2.
Леоненков А. Нечеткое моделирование в среде MatLab и fuzzyTech._С-Пб.: БХВПетербург. 2005. гл. 1-7
7
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
Применение нечетких множеств в бизнесе, экономике и финансах. Недосекин А.О.
[http://fsscef.narod.ru]
Применение нечетких множеств для оценки риска портфельных инвестиций. Пономарев
А.Ю. [http://joumal.seun.ru/j2003_lr/Economy/economy.htm]
Применение теории нечетких множеств к задачам управления финансами. Недосекин
А.О. [http://cfin.ru].
Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы
и нечеткие системы. Пер. с польского. –М.: Горячая линия - Телеком, 2006, гл.3
Тема 4. Нейронные сети
Понятия о нейронных сетях (НС). Преимущества и недостатки нейротехнологии.
Области применения. Общие черты НС.
Нейроны. Классификация по типу нейронов: классификация нейронов по виду функции
стимуляции, классификация нейронов по виду функции активации, классификация нейронов по
типу сигнала, классификация нейронов по вероятностной определенности.
Классификация нейросетевых архитектур: по типу связей в сети - сеть прямого
распространения, рекуррентная сеть, соревновательная сеть; по наличию скрытых элементов;
по динамическим характеристикам.
Классификация методов обучения: по используемым парадигмам - «с учителем»
(контролируемое обучение), «без учителя» (самообучение) и смешанная; по используемым
правилам - коррекция по ошибке; машина Больцмана; правило Хебба; обучение методом
соревнования; обучение методом селекции.
Многослойный персептрон (MLP). Методы нахождения глобального минимума функции
ошибок.
Радиальная базисная функция (RBF). Преимущества сети RBF перед сетями MLP.
Принципы обучения RBF-сети.
Вероятностная нейронная сеть (PNN). Преимущества и недостатки PNN–сетей.
Сеть Кохонена. Основной итерационный алгоритм Кохонена. Область применения сети
Кохонена.
Основная литература
Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business
Intelligence). ГУ-ВШЭ, 2007.
Дополнительная литература
Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. –
М.: ФиС, 2004, гл.5.
Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы
и нечеткие системы. Пер. с польского. –М.: Горячая линия - Телеком, 2006, гл.5.
Дюк В., Самойленко А. Data Mining. Учебный курс. С-Пб.: Питер, 2001. гл. 3.
Галушкин А.И. Теория нейронных сетей. Кн. 1/Под ред. А.И.Галушкина - М.: ИПРРЖР,
2000.
Нейронные сети. STATISTICA Neural Networks. M.: Телеком. 2001.
Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная
обработка информации. –М.: Издатель – Молгачева, 2001. гл.6.
8
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
Маслобоев
Ю.П.
Введение
в
Neural
http://matlab.exponenta.ru/neuralnetwork/book1/index.php
Короткий С. Нейронные сети: основные положения.
Korotky/N1/kor_nn1.htm
Network
Toolbox.
http://lii.newmail.ru
/NN/
Тема 5. Гибридные и нечеткие нейросистемы
Необходимость построения гибридной сети. Эффективность гибридизации. Принцип
работы гибридной сети. Отличие ГС от обычной нейросети. Принцип обучения ГС. База знаний
гибридной сети. Алгоритм вывода для ГС.
Адаптивная нечеткая нейросистема (ANFIS). Архитектура нейронной сети ANFIS.
Примеры использования системы Anfis: построение регрессионно-авторегрессионной модели
сильно зашумленного ряда; прогноз сильно зашумленного ряда.
Основная литература
Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business
Intelligence). ГУ-ВШЭ, 2007.
Дополнительная литература
Дьяконов В.П., Круглов В.В. MatLab 6,5. Инструменты искусственного интеллекта и
биоинформатика. –М.: СОЛОН-ПРЕСС, 2006. Раздел 3,5.
Леоненков А. Нечеткое моделирование в средем MatLab и fuzzyTECH. –С.Пб.: БХВПетербург, 2005. Гл.15.
Тема 6. Модели «Ближайший сосед»
Характеристика методов извлечения и адаптации прецедентов. Метод ближайшего
соседа. Преимущества и недостатки метода.
Модификации методов ближайшего соседа. Метод k-ближайших соседей и взвешенный
метод (к-БС). Адаптивные методы ближайшего соседа. Метод ускоренного поиска ближайшего
соседа (Fast Nearest Neighbor Searching). Модифицированный метод ближайшего соседа
(ММБС). Выбор опорных точек. Алгоритм выбора опорных точек. Вычислительная сложность
ММБС. Редуцированные методы ближайшего соседа (РМБС). Процедуры фильтрации
шумовых документов в выборке. Алгоритм РМБС. Обобщенный метод ближайшего соседа
(ОМБС). Алгоритм ОМБС.
Основная литература
Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business
Intelligence). ГУ-ВШЭ, 2007.
Дополнительная литература
Некрасов И. В., Толчеев В. О. Модифицированный метод ближайшего соседа с
использованием опорных точек для классификации текстовых документов // Вестник МЭИ.
2004. № 1. С. 76-81.
9
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
Толчеев В.О. Разработка и исследование новых модификаций метода ближайшего
соседа. – М.: Информационные технологии, №3, 2005.
Salzberg S., Delcher A., Heath D., Kasif S. Best-Case Results for Nearest Neighbor Learning //
IEEE Transactions on Pattern Analysis and Machine Intelligence. 1995. N 17. P. 599-609.
http://www.statsoft.ru
http://www. Graficon.ru/catalog/26
Тема 7. Деревья решений. Методы кластеризации и дискриминации
Понятие об алгоритмах построения деревьев решений. Преимущества использования
деревьев решений. Правила построения деревьев решений: разбиений; остановки; отсечения.
Разновидности DT – алгоритмов: альтернативные методы расщепления данных в узлах
дерева. Альтернативные методы отсечения незначимых ветвей (pruning), оптимизация
построенного дерева
, использование нечетких критериев расщепления, построение
вместо дерева ациклического графа (решетки) более общего вида, тернарное разбиение данных
в узлах для учета случаев, когда значение критерия разбиения не может быть вычислено для
части записей.
Понятия о кластеризации. Особенности кластеризации в Data Mining.
Методы кластеризации с числовыми атрибутами. Классификация методов
кластеризации.
Иерархические методы. Иерархические агломеративные методы. Меры расстояния
между объектами. Методы объединения: метод одиночной связи (ближайшего соседа); метод
полных связей (наиболее удаленного соседа); метод средней связи; метод Уорда (Ward’s
method).
Иерархические дивизимные методы. Алгоритм Макнаотона. Пример дивизимного
метода.
Итеративный метод кластеризации - k средних.
Метод нечеткой кластеризации Fuzzy C-Means. Алгоритм Fuzzy C-Means.
Кластеризация категорийных данных. Масштабируемый алгоритм CLOPE. Формальное
описание алгоритма. Реализация алгоритма. Области применения алгоритма кластеризации.
Назначение, цели, предпосылки, особенности дискриминационного анализа.
Дискриминантные функции и их геометрическая интерпретация. Количество
дискриминантных функций.
Алгоритм дискриминационного анализа 2-х классов. Пример дискриминации двух
групп. Проверка решения и классификация новых объектов
Дискриминационный анализ при числе групп более двух. Алгоритм решения задачи для
общего случая k классов. Пример классификации при числе групп более двух.
Влияние числа выбранных переменных на результат анализа. Методы отбора
переменных. Критерии отбора переменных для двух и более групп: Wilks' lambda {Лямбда
Уилкса), Mahalonobis distance (Расстояние Махалонобиса), Smallest F ratio (Наименьшее Fотношение), Rao's V (V Pao), Sum of unexplained variance (Сумма необъясненной дисперсии).
Классификация без интерпретации.
Взаимосвязь между дискриминантными переменными и дискриминантными функциями
Вклад отдельной переменной в значение дискриминантной функции. Степень корреляционной
зависимости между переменными и дискриминантными функциями.
10
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
Основная литература
Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business
Intelligence). ГУ-ВШЭ, 2007.
Дополнительная литература
Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа
данных OLAP и DataMining. - С-Пб.:БХВ-Петербург, 2004. гл. 5.
http://www.wikipedia.org
И.
Андреев.
Деревья
http://www.basegroup.ru
решений
-
CART
математический
аппарат.
//
Деревья решений. // http://cdo.bseu.bv/stat 1 /lab_7.htm
А. Шахиди. Деревья решений - общие принципы работы.// http://www.basegroup.ru
С. Ларин, И. Ходжаева. Использование деревьев решений
кредитоспособности
физических
лиц
BaseGroup
http://www.basegroup.ru/practice/solvency.htm
для оценки
Labs
//
Poly Analyst & Data mining // http://www.megaputer.ru/doc.php7production/pa/polvanalyst
info.html#3
Проект Data Mining// http://decision-trees.fromru.com/
Деревья решений
http://www.olap.rU/ basic/dm2.asp#4.5. %20%C4%E5%F0%E5%
E2%FC%FF%20%F0%E5 %F8%E5%ED%E8%E9%20 (decision%20trees)
www.ics.uci.edu/~mlearn/MLRepository.html
Барсегян А.А. и др. Методы и модели анализа данных: OLAP и Data Mining. –С.Пб.:
БХВ-Петербург, 2004, гл.7.
Воеводин Ю., Тихонова Н. Исследование методов кластеризации в динамических
интеллектуальных системах. http://molod.mephi.ru/reports.asp7ricN572
Елманова Н. Введение в Data Mining. КомпьютерПресс, 2003, № 8.
Кластерный анализ в сегментировании рынка, www.segmentation-market.ru
Паклин Н. Алгоритмы кластеризации на службе Data Mining, www.basegroup.ru
Паклин Н. Кластеризация категорийных данных: масштабируемый алгоритм CLOPE.
www.basegroup.ru
Сапегин Л.Н. Метод кластеризации многомерных статистических данных. Труды
научно-технической конференции «Безопасность информационных технологий» под редакцией
Волчихина В.И., Зефирова С.Л., Иванова А.И. Пенза: Издательство Пензенского научноисследовательского электротехнического института, 2004.
http://www.intuit.ru
Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шеффер М. Многомерный статистический
анализ в экономике. –М.: ЮНИТИ. 1999. гл. 9
Айвазян С.А., Бухшбер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика.
Классификация и снижение размерности. –М.: Финансы и статистика. 1989. гл. 2-4.
Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. –М.:
ЮНИТИ. 1998. гл.12.
11
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
Афифи А., Эйзен С. Статистический анализ: подход с использованием ЭВМ. –М.: Мир,
1992.
Ким Дж., Мюллер Ч.У. и др. Факторный, дискриминационный и кластерный анализ.
Пер. с англ. –М.: Финансы и статистика. 1989.
Плюта В. Сравнительный многомерный анализ в экономическом моделировании. Пер. с
польского. –М.: Финансы и статистика. 1989
Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шеффер М. Многомерный статистический
анализ в экономике. –М.: ЮНИТИ. 1999. гл. 10
Тема 8. Методы Naive Bayes, ассоциации, построения логических правил (If- Then)
Понятие о методе Naive Bayes. Пример применения метода Navie Bayes.
Проблемы использования метода Navie Bayes. Область применения метода Naive Bayes.
Понятие об ассоциации. Метод Basket Analysis. Оценка полезности ассоциативных
правил: поддержка (support), достоверность (confidence), улучшение (improvement).
Методы нахождения последовательностей (сиквенциальный анализ).
Разновидности ассоциативных правил.
Алгоритмы. Алгоритм Apriori. Пример применения алгоритма Apriori. Разновидности
алгоритма Apriori.
Понятие о методе If-Then. Поиск логических правил в данных (на примере системы
WizWhy). Основные черты метода. Загрузка и управление данными. Задание параметров
процедуры поиска правил. Настройки выдачи отчетов.
Дополнительные возможности построения логических правил. Работа с окном диалога
Ошибки/Примеры (Errors/Examples). Работа с окнами форматирования. Окно работы с
внешними данными. Отчеты системы (Отчет о правилах, список правил, визуализация
полученных правил, содержание записи в деталях, индекс признака, окно распечатки, окно
экспорта правил, отчет о трендах, отчет о неожиданных правилах).
Предсказание на основе полученных правил.
Построение множества правил и деревьев решений на примере системы See5.
Подготовка данных для See5 (Файл имен переменных, файл данных, файлы тестовых данных,
файл стоимости). Интерфейс пользователя.
Построение дерева решений. Детальное изучение результатов. Преобразование дерева
решений в набор правил. Усиление решения (Boosting).
Использование правил для принятия решений. Смягчение порогов. Дополнительные
настройки алгоритма. Перекрестная проверка полученных результатов. Выборка из больших
наборов данных. Учет стоимости различных ошибок классификации. Использование
классификаторов. Детальная проверка и сохранение результатов.
Основная литература
Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business
Intelligence). ГУ-ВШЭ, 2007.
Дополнительная литература
Перминов Г.И. УМК .Reader. Nabie Bayea algoritm
Перминов Г.И. УМК . Reader. Nabie Bayea.pdf
Перминов Г.И. УМК. Reader. The learnability of Nabie.pdf
12
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
Иерархическая модель Navie Bayes
<http://en.wikipedia.org/wiki/Hierarchical_Bayes_model>
Обучающая программа на Изучении С Bayesian Сетями
<http://citeseer.ist.psu.edu/heckerman96tutorial.html>
Сеть Байсиана <http://en.wikipedia.org/wiki/Bayesian_network>
Барсегян А.А. и др. Методы и модели анализа данных: OLAP и Data Mining. –С.Пб.:
БХВ-Петербург, 2004, гл.6
Чубукова И.А. Data Mining. –М.: Интернет – Университет Информационных
Технологий; БИНОМ. 2006. гл. 15.
WWW.OLAP.ru
Бонгард М.М. Проблемы узнавания. –М.: Наука. 1967
Дюк В., Самойленко А. Data Mining. Учебный курс. С-Пб.: Питер, 2001. гл. 5
Киселев М., Соломатив Е. Средства добычи знаний в бизнесе и финансах. Открытые
системы, № 4, 1997, с. 41-44
Тема 9. Модели TextMining и WebMining
Понятие о Text Mining. Особенности данных для Text Mining
Задачи Text Mining. Суммаризация (реферирование). Составление выдержек.
Формирование краткого изложения. Классификация. Кластеризация. Семантические карты.
Ответ на запросы, поиск по ключевым словам. Хранилище слов.
Аналитическая обработка текстовой информации. Применение нейронных сетей при
анализе текстовой информации
Пример алгоритма Text mining
Модули текстового анализа в системе PolyAnalyst. Text Analysis (ТА) - текстовый анализ.
Text Categorizer (TC) - каталогизатор текстов. Link Terms (LT) - связь понятий.
Направления применения Web Mining и Web Usage Mining.
Задачи применения Data Mining в Web Сети.
Спецификация доступных ресурсов. Увеличение ценности каждого посетителя. Учет
интересов посетителя вебсайта. Дифференцированное управление своими ресурсами. Сбор
информации новыми способами. Проверка качества содержания и архитектуры вебсайта.
Области применения Web Analyst (WA). E-участник. Сайты по рекламированию.
Интеграторы Сети. Поиск в сети с помощью Data Mining. ( Задача структуризация Сети.
Вертикальный Поиск. Мобильный Поиск. Мультимедийный Поиск.)
Архитектура
Web-Analyst.
Компоненты Web-Analyst On-Line.
Автономные
Компоненты Web-Analyst . Перспективы применения WA.
Направление Web Content Mining.
Продукты Ontos Series. Light Ontos – управление информацией и поиском документов.
LightOntos Personal Edition. LightOntos Business Edition. LightOntos for Workgroups.
Сферы применения LightOntos.
База знаний в Web Mining. Понятие онтологии. Онтологии в Web Mining.
Практическая реализация задач Web Mining.
Сбор данных для анализа. Определение предметной области. Аналитическая обработка
документов.
Структурирование знаний, обеспечение их хранения, обновления и
представления.
Формирование базы знаний. Представление знаний.
Организация
13
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
приближенного поиска и передача знаний заинтересованным лицам. .Поиск по объекту во
внешнем источнике информации. Поиск по ситуации во внешнем источнике информации.
Поиск с применением технологии триплетов. Передача знаний.
Основная литература
Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business
Intelligence). Тема 16 - 17. ГУ-ВШЭ, 2007.
Дополнительная литература
«Технологии извлечения знаний из текста» Н.Ильин, С. Киселев, В. Рябышкин, С.
Танков http://www.osp.ru/text/302/2700556/ p2.html
«Добыча знаний» Дмитрий Ландэ http://www.visti.net/~dwl/art/dz/
«Системы автоматического реферирования» У. Хан, И. Мани
http://www.osp.ru/text/302/178370/ p3.html
«Обработка текстов на естественном языке» Константин Селезнев
http://www.osp.ru/text/302/l 83694/
. http://megaputer.ru
"Text Mining and the Knowledge Management Space" Semio Corporation
http://www.dmreview.com/whitepaper/paper_sub.cfm?whitepaperld=10080
http://www.megaputer.com/products/wa/testprogram.php3
http://www. cs.uic.edu/~liub. WWW-2005. Web Component Mining
http://ontos.com
Cai, D, Yu, S., Wen, J-R and Ma, W-Y. "Extracting Content Structure for Web Pages based on
Visual Representation", Fifth Asia Pacific Web Conference (APWeb-03), 2003.
Gupta, S., Kaiser, G., Neistadt, D. and Grimm, P. DOM based Content Extraction of HTML
Documents, WWW-03, 2003.
8
Образовательные технологии
Образовательные технологии, используемые при реализации различных видов учебной
работы: доклады, обсуждения, решение задач, рассмотрение кейсов.
14
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
9
9.1
Оценочные средства для текущего контроля и аттестации студента
Тематика домашних работ
1. Построение модели для оценка кредитоспособности предприятия
2. Выбор коммерческого банка
3. Оценка конкурентоспособности продукции
4. Выбор поставщика продукции
5. Анализ макроэкономических показателей
6. Прогноз экономических показателей
7. Построение портрета покупателя на основе анализа опросных листов
9.2 Вопросы для оценки качества освоения дисциплины
1.
Какова классификация интеллектуальных систем?
2.
Что такое методы ИАД и каково их назначение?
3.
Каковы особенности методов ИАД?
4.
Охарактеризуйте области применения методов ИАД.
5.
Каковы этапы исследований методами ИАД?
6.
В чем заключается этап предварительной обработки данных при использовании ИАД?
7.
Охарактеризуйте метод «Деревьев решений».
8.
Охарактеризуйте особенности регрессионного анализа в методах ИАД.
9.
Какие разновидности регрессионного метода ИАД Вы знаете?
10. Охарактеризуйте модели временных рядов с запаздываниями.
11. Охарактеризуйте метод «Ближайшего соседа».
12. Охарактеризуйте метод поиска правила.
13. Охарактеризуйте метод кластеризации.
14. Охарактеризуйте метод классификации.
15. Охарактеризуйте метод дискриминации.
16. Какая разница в целях и алгоритмах статистического и интеллектуального подходов.
17. Охарактеризуйте генетические алгоритмы.
18. Охарактеризуйте нейросетевые методы анализа.
19. Охарактеризуйте методы для анализа нечетких множеств.
20. В чем особенности эволюционного программирования? Приведите основные шаги
обобщенного алгоритма эволюционного программирования.
21. Какие алгоритмы называют генетическими? Сформулируйте основные особенности
генетических алгоритмов.
22. Опишите операторы репродукции и кроссинговера в простом генетическом алгоритме.
Приведите примеры.
23. Составьте примеры, иллюстрирующие работу операторов репродукции, кроссинговера,
мутации и инверсии.
24. Перечислите основные этапы технологии генетического программирования.
25. Расскажите о дискретном вейвлет анализе временных рядов.
26. Расскажите о непрерывном вейвлет анализе временных рядов.
27. Как спрогнозировать хаотичный временной ряд построением гибридной нейронной
сети с нечетким выводом?.
28. Расскажите о классификации объектов с помощью сети Кохонена.
29. Как строятся логические правила в алгоритмах «Что если – то»?
30. Как построить советующую систему для ЛПР по результатам прошлых торгов?
31. Как определяется фазовая размерность для определения числа переменных,
представляющих одномерный временной ряд?
32. Что такое детерминированный хаос?
15
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
Как определяется степень хаотичности временного ряда?
Расскажите о горизонте прогнозирования и от чего он зависит?
Что такое устойчивость по Ляпунову и как можно её определить для одномерного
временного ряда?
Как выглядит гибридная нейросеть с нечетким выводом и для чего она применяется?
Что такое нечеткий логический вывод и как он строится?
Что дель в случаях, если объект попадает под действие противоположных правил?
Как иденфицировать временной ряд с помощью авторегрессионного – регрессионного
метода?
Как спрогозировать наблюдения, представленные количественными и качественными
аттрибутами?
Классификация интеллектуальных систем.
Методы ИАД. и их назначение.
Особенности методов ИАД.
Области применения методов ИАД.
Этапы исследований методами ИАД.
Суть этапа предварительной обработки данных при использовании ИАД.
Особенности регрессионного анализа в методах ИАД.
Разновидности регрессионного метода ИАД. Модели временных рядов с
запаздываниями.
Метод «Ближайшего соседа».
Метод поиска правила.
Методы Деревья решений (DT). Построения DT в случае двух возможных дискретных
состояний результирующей переменной. Обобщение алгоритма, когда результирующая
переменная принимает не два, а большее количество дискретных значений. Леса
решений.
Метод кластеризации.
Метод классификации.
Метод дискриминации.
Основные различия в целях и алгоритмах статистического и интеллектуального
подходов.
Генетические алгоритмы.
Нейросетевые методы анализа.
Методы для анализа нечетких множеств.
Основные направления эволюционного моделирования и основные факторы,
определяющие неизбежность эволюции.
Особенности эволюционного программирования. Основные шаги обобщенного
алгоритма эволюционного программирования.
Метод эволюционных стратегий. Его отличие от эволюционного программирования и
от генетических алгоритмов?
Применение эволюционных вычислений в ИИС.
Генетические алгоритмы и их основные особенности.
Простой генетический алгоритм.
Операторы репродукции и кроссинговера в простом генетическом алгоритме.
Примеры использования простого генетического алгоритма для вычисления функции
f(x) = х4 на интервале [0,1, 2, 3,4].
Примеры, иллюстрирующие работу операторов репродукции, кроссинговера, мутации
и инверсии.
Характеристика понятия «схема» в простом генетическом алгоритме. Назначение и
способы использования схем.
Фундаментальная теорема генетического алгоритма. Пример применения
фундаментальной теоремы генетического алгоритма.
16
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
70.
71.
72.
Формулировка прикладной экономической или управленческой оптимизационной
задачи и ее решение с применением генетического алгоритма.
Классифицирующие системы Холланда.
Основные этапы технологии генетического программирования.
10 Порядок формирования оценок по дисциплине
Формирование оценок по учебной дисциплине производится в соответствии с
Положением об организации контроля знаний, утвержденного Ученым советом НИУ ВШЭ от
24.06.2011, протокол №26.
В соответствии с Рабочим учебным планом, формами текущего контроля являются
контрольная работа, реферат и домашнее задание. Каждая из форм текущего контроля
оценивается по 10-балльной шкале. Общая оценка за текущий контроль (по 10-балльной шкале)
рассчитывается по формуле:
Отекущий = 0,2 · Ок/р + 0,4 · Ореф + 0,4 · Одз ,
где
Ок/р – оценка за контрольную работу;
Ореф – оценка за реферат;
Одз – оценка за домашнее задание.
При определении накопленной оценки (по 10-балльной шкале) аудиторная работа и
самостоятельная внеаудиторная работа не оцениваются. Поэтому накопленная оценка
совпадает с оценкой за текущий контроль и рассчитывается по формуле:
Онакопленная = 1,0 · Отекущий + 0,0 · Оауд + 0,0 · Осам.работа ,
где
Отекущий – оценка за текущий контроль;
Оауд – оценка за аудиторную работу;
Осам.работа – оценка за самостоятельную работу.
Результирующая оценка (выставляется в диплом) формируется на основе итоговой
оценки за зачет (по 10-балльной шкале) и накопленной оценки. Результирующая оценка
рассчитывается по формуле:
Орезульт = 0,3 · Озачет + 0,7 · Онакопленная ,
где
Озачет – оценка за итоговый контроль (зачет);
Онакопленная – накопленная оценка.
При формировании оценок на основе весовых коэффициентов применяется округление
до целого числа в большую сторону.
17
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
11 Учебно-методическое и информационное обеспечение дисциплины
11.1 Базовый учебник
Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических
данных и восстановление скрытых закономерностей. – Москва, Санкт-Петербург, Киев: DiaSoft,
2002.
Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия
экономических решений. - М.: ГУ-ВШЭ, 2006.
11.2 Основная литература
Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических
данных и восстановление скрытых закономерностей. – Москва, Санкт-Петербург, Киев: DiaSoft,
2002.
Макаров А.А., Тюрин Ю.Н. Статистический анализ на компьютере. М., Наука, 1997.
Кравченко Т.К., Перминов Г.И. Информационные технологии принятия экономических
решений. – М.: ГУ-ВШЭ. Тасис, 2006.
Дюк В., Самойленко А. Data Mining. Учебный курс. - С-Пб.: Питер, 2001., гл.1.
Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. –
М.: ФиС, 2004, гл.6.
Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы
и нечеткие системы. Пер. с польского. – М.: Горячая линия-Телеком, 2006, гл.5.
Толчеев В.О. Разработка и исследование новых модификаций метода ближайшего
соседа. – М.: Информационные технологии, №3, 2005.
Барсегян А.А. и др. Методы и модели анализа данных: OLAP и Data Mining. – С.Пб.:
БХВ-Петербург, 2004, гл.4.
11.3 Дополнительная литература
Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.:
Питер, 2005. – 192 с.: ил.
SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и
Сервис. 1996.
SPSS statistical algorithms. 2nd ed. Chicago. SPSS Inc. 1991.
SPSS Base 9.0 Руководство по применению
SPSS Base 9.0 Руководство пользователя
Turban E., Aronson J.E. Decision support systems and intelligent systems. - N.Y.: Prentice
Hall International. 2001.
www.Megaputers.ru.
Галушкин А.И. Теория нейронных сетей. Кн. 1/Под ред. А.И.Галушкина - М.: ИПРРЖР,
2000.
Нейронные сети. STATISTICA Neural Networks. M.: Телеком. 2001. 182 с.
18
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Системы управления эффективностью бизнеса»
для направления 080500.68 «Бизнес-информатика» подготовки магистра
Некрасов И.В., Толчеев В.О. Модифицированный метод ближайшего соседа с
использованием опорных точек для классификации текстовых документов// Вестник МЭИ.
2004. № 1. 76-81 с.
www.BaseGroup.ru.
12 Материально-техническое обеспечение дисциплины
Используются персональный компьютер (ноутбук) и проектор для проведения лекций и
практических занятий, техническое оснащение компьютерных классов
Практические занятия и самостоятельная работа студентов освоению интеллектуальных
методов анализа данных проводятся с использованием пакетов PolyAnalyst, MatLab,
Нейросистема Статистика, Фрактан, See -5 и Wiz-Why.
Автор программы:
_____________________________________ Г.И.Перминов
19
Download