FomProgrDataSearch08f1

advertisement
Министерство экономического развития и торговли
Российской Федерации
Государственный университет –
Высшая школа экономики
Факультет БИЗНЕС-ИНФОРМАТИКИ
Программа дисциплины
Технологии поиска, анализа данных
и распространения информации в Интернет
для направления 080700.68 «Бизнес-информатика»
подготовки магистра
Автор д.т.н. В.А. Фомичев (vfomichov@hse.ru)
Рекомендована секцией УМС
«Бизнес-информатика»
Одобрена на заседании
кафедры инноваций и бизнеса
в сфере информационных
логий
Председатель
______________ Г.А.Лёвочкина
«___» _________2008 г
Зав. кафедрой
_______________С.В. Мальцева
« »
2008 г.
Утверждена УС факультета
бизнес-информатики
Учёный секретарь
___________ В.А. Фомичев
«___» ________2008 г.
Москва
техно-
I. Тематический план учебной дисциплины
№
Название темы
Всего
часов
по дисциплин
е
Лекции
Семинары,
практ.занятия
Принципы организации
современных поисковых
систем в Интернет
8
2
2
4
2
Значение проекта Семантическая
Паутина
для расширения возможностей смыслового поиска информации в сети
Интернет
10
2
2
6
3
Хранилища данных
7
2
1
4
4
OLAP-системы
7
2
1
4
5
Интеллектуальный анализ данных
15
2
3
10
6
Интеллектуальный анализ естественноязыковых текстов
16
2
4
10
7
Дистанционное
ние
7
2
1
4
70
14
14
42
1
Аудиторные часы
Самостоятельная
работа
П
обуче-
Итого
II. Базовый учебник
1. Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа
данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – СанктПетербург: БХВ- Петербург, 2007. – 375 с.
2
III. Формы текущего контроля знаний студентов и
структура итоговой оценки
Итоговая оценка по учебной дисциплине складывается из следующих элементов:
- работа на лекциях и семинарских занятиях (доклады, обсуждения);
- письменная аудиторная контрольная работа (60 мин.);
- реферат (12-20 стр.);
- устный экзамен (30 минут на 1 студента).
Структура итоговой оценки по учебной дисциплине:
Формы работы
Вклад в итоговую оценку (%)
Работа на лекциях и семинарских
занятиях
20
Реферат
20
Аудиторная контрольная работа
20
Экзамен
40
IV. Содержание программы
Тема 1. Принципы организации современных поисковых систем в Интернет
Основные идеи гипертекстовой информационной технологии. Построение запросов на поиск информации в сети Интернет. Организация современных систем поиска информации в Интернет. Принципы поиска информации. Принципы ранжирования найденных источников.
Основная литература
1. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии
– М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. - 304 с.
Тема 2. Значение проекта Семантическая Паутина для расширения возможностей
смыслового поиска информации в сети Интернет
Семантически-структурированные
языки представления информации в проекте Семантическая Всемирная Паутина (Semantic Web). Основные структуры данных языка
RDF. Примеры. Основные структуры данных языка RDF Schema Specification Language.
Определение и использование понятия “онтология” в информатике. Общая характеристика терминологических языков представления знаний. Примеры выражений таких языков.
Общая характеристика языка разработки онтологий OWL. Виды описаний классов в языке
OWL. Описание класса посредством перечисления в языке OWL. Описание класса посредством ограничений на значения в языке OWL. Описание класса посредством ограничений на свойства представителей класса в языке OWL. Описание подклассов в языке
OWL. Применение онтологий для сопоставления содержания запроса пользлвателя Сети с
содержанием элетронного документа.
Основная литература:
3
1. Resource Description Framework (RDF) Model and Syntax Specification. W3C Recommendation. January 1999, on-line at http://www.w3.org/TR/WD-rdf-syntax.
2. Resource Description Framework (RDF) Schema Specification 1.0. W3C Candidate
Recommendation 27 March 2000; URL http://www.w3.org/TR/rdf-schema.
3. McGuinness, D.L. and van Harmelen, F. (Eds.)(2004), OWL Web Ontology Language
Overview.
W3C
Recommendation
10
February
2004;
available
online
at
http://www.w3.org/TR/owl-features/.
Дополнительная литература:
1. Фомичев В.А. Математические основы представления содержания посланий компьютерных интеллектуальных агентов. - М.: Издательский Дом ГУ-ВШЭ, 2007.
Тема 3. Хранилища данных
Концепция хранилища данных. Принципы организации хранилищ данных. Очистка данных.
Основная литература
1. Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа
данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – СанктПетербург: БХВ- Петербург, 2007. – 375 с. (Глава 2).
Тема 4. OLAP-системы
Концепция многомерной модели данных. 12 правил Кодда, характеризующих концептуальное многомерное представление. Дополнительные правила Кодда. Тест FASMI.
Архитектура OLAP-систем. MOLAP-серверы. ROLAP-серверы. HOLAP-серверы.
Основная литература
1. Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа
данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – СанктПетербург: БХВ- Петербург, 2007. – 375 с. (Глава 3).
Тема 5. Интеллектуальный анализ данных
Определение и предпосылки возникновения интеллектуального анализа данных
(ИАД), или добычи данных (Data Mining, DM), или извлечения знаний из данных
(Knowledge Discovery in Databases, KDD). Место и роль Data Mining в процессе принятия
решений. Основные задачи Data Mining, виды моделей. DM и статистический анализ. Data
Mining и хранилища данных. DM и OLAP. Data Mining как самостоятельная отрасль индустрии программного обеспечения. Методы и инструментарий Data Mining. Типы закономерностей, которые позволяют выявлять методы Data Mining.
Компоненты систем Data Mining. Практическое применение систем Data Mining.
Интернет-технологии. Торговля. Телекоммуникации. Промышленное производство. Медицина. Банковское дело. Страховой бизнес.
Модели Data Mining. Предсказательные модели. Описательные модели. Методы
Data Mining. Базовые методы. Применение нечеткой логики. Генетические алгоритмы.
Нейронные сети. Область их применения. Основные этапы процесса обнаружения знаний.
4
Основная литература:
1. Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – Санкт-Петербург:
БХВ- Петербург, 2007. – 375 с.
Тема 6. Интеллектуальный анализ естественно-языковых текстов
Лингвистические процессоры. Полнотекстовые базы данных. Проблема извлечения знаний из
текстов. Text Mining и Web Mining. Определение семантического представления текста на
естественном языке (ЕЯ). Построение семантических представлений ЕЯ-текстов средствами
языков логики предикатов первого порядка. Ограниченность выразительных возможностей
класса языков логики предикатов первого порядка. Понятие семантической сети. Построение
семантических представлений ЕЯ-текстов в виде семантических сетей. Концептуальные
графы. Проблема разработки универсального семантического сетевого языка и существующие подходы к ее решению. Семантический сетевой язык UNL (Universal Networking Language). Ограниченность выразительных возможностей языка UNL.
Краткая характеристика системы правил, предлагаемых теорией К-представлений для
формирования семантических представлений ЕЯ-текстов.
Построение семантических
представлений описаний ситуаций в теории К-представлений. Построение семантических
представлений вопросов в теории К-представлений. Построение семантических представлений связных текстов (дискурсов) в теории К-представлений.
Структура лингвистической базы данных. Морфологические базы данных. Структура
лексико-семантического словаря. Cловари глагольно-предложных семантико-синтаксических
фреймов. Словари предложных семантико-синтаксических фреймов.
Принципы и методы семантико-синтаксического анализа естественно-языковых текстов.
Компонентно-морфологическое представление входного текста. Структура матричного
семантико-синтаксического представления ЕЯ – текста. Метод преобразования ЕЯ-текстов в
их семантические представления. Метод выявления вида входного текста. Метод обработки
ролевых вопросительных словосочетаний.
Метод поиска возможных смысловых связей
между значением глагольной формы и значением зависящей от нее группы слов. Принципы
обработки причастных оборотов и придаточных определительных предложений. Обработка
прилагательных, предлогов, количественных числительных и существительных. Принципы
сборки семантического представления входного текста по его матричному семантикосинтаксическому представлению.
Методы кластеризации текстов. Проблема автоматизации реферирования (аннотирования)
текстов. Методы извлечения фрагментов для аннотаций. Компьютерные средства интеллектуального анализа естественно-языковых текстов.
Основная литература:
1. Фомичев В.А. Математические основы представления содержания посланий компьютерных интеллектуальных агентов. - М.: Издательский Дом ГУ-ВШЭ, 2007.
Дополнительная литература:
1. Фомичев В.А. Формализация проектирования лингвистических процессоров – М.:
МАКС Пресс, 2005. 368 с.
2. Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа
данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – СанктПетербург: БХВ- Петербург, 2007. – 375 с.
5
Тема 7. Дистанционное обучение
Сущность, актуальность и содержание дистанционного обучения. Виды дистанционного обучения. Психологические и социальные аспекты. Достигнутые результаты. Характеристики различных поколений систем дистанционного обучения. Технические средства для построения систем дистанционного обучения третьего поколения. Структура и
возможности Веб-платформы дистанционного обучения Blackboard, версия 7.0. Методологические особенности дистанционного обучения. Возможные структуры дистанционного курса. Лекционный материал. Упражнения. Домашние задания. Экзамены. Ритм
учебного процесса. Формы стимулирования познавательной деятельности студентов. Значение дискуссионных форумов для стимулирования совместной учебной деятельности
студентов дистанционного класса. Формы взаимодействия с преподавателем. Необходимость дифференцированного подхода к студентам. Информационные технологии и инструментальные средства создания методических материалов для дистанционного обучения. Роль онтологий в системах дистанционного обучения.
Основная литература:
1. Педагогические технологии дистанционного обучения. Под ред. Полат Е.С.,
Академия, 2006.
2. Бабешко В.Н., Нежурина М.И. Система оценки качества программных комплексов для дистанционного обучения, 2007 (информация о книге – на портале http://dlc.miem.edu.ru/newsite.nsf/cdonotes/0003.html)
V.Тематика заданий по различным формам текущего контроля:
Контрольная работа:
Содержание
Задачи по теме “ Интеллектуальный анализ естественно-языковых текстов”.
Основные типы задач контрольной работы:
1. Построение семантического представления текста на русском языке в виде
формулы логики предикатов первого порядка.
2. Построение семантических К-представлений описаний ситуаций.
3. Построение семантических К-представлений описаний множеств.
4. Построение семантических К-представлений вопросов с ответом "Да"/"Нет".
5. Построение семантических К-представлений вопросов со словами “какие”,
“каким” и т.д.
6. Построение семантических К-представлений вопросов о количестве предметов.
7. Построение семантических К-представлений связных текстов (дискурсов).
VI. Вопросы для оценки качества освоения дисциплины
Основные идеи гипертекстовой информационной технологии.
Организация современных систем поиска информации в Интернет.
Принципы поиска информации.
6
Задачи проекта Семантическая Всемирная Паутина.
Определение и использование понятия “онтология” в информатике.
Общая характеристика терминологических языков представления знаний. Примеры выражений таких языков.
Семантически-структурированные
языки представления информации в проекте Семантическая Всемирная Паутина.
Основная структура данных языка RDF. Пример
Назначение и разновидности структуры данных container в языке RDF.
Назначение и структуры данных языка RDF Schema Specification Language.
Виды описаний классов в языке OWL.
Описание класса посредством перечисления в языке OWL.
Описание класса посредством ограничений на значения в языке OWL.
Описание класса посредством ограничений на свойства представителей класса в языке
OWL.
Описание подклассов в языке OWL.
Применение онтологий для сопоставления содержания запроса пользлвателя Сети с содержанием элетронного документа.
Концепция хранилища данных.
Принципы организации хранилищ данных.
Очистка данных.
12 правил Кодда, характеризующих концептуальное многомерное представление. Дополнительные правила Кодда.
Тест FASMI.
Архитектура OLAP-систем.
MOLAP-серверы.
ROLAP-серверы. HOLAP-серверы.
Определение и предпосылки возникновения интеллектуального анализа данных (ИАД),
или добычи данных (Data Mining, DM), или извлечения знаний из данных (Knowledge
Discovery in Databases, KDD).
Место и роль Data Mining в процессе принятия решений.
Основные задачи Data Mining, виды моделей.
Data Mining как самостоятельная отрасль индустрии программного обеспечения. Методы
и инструментарий Data Mining.
Типы закономерностей, которые позволяют выявлять методы Data Mining.
Компоненты систем Data Mining.
Практическое применение систем Data Mining.
Предсказательные модели Data Mining.
Описательные модели Data Mining..
Базовые методы Data Mining.
Применение нечеткой логики в системах Data Mining.
Генетические алгоритмы.
Нейронные сети. Область их применения.
Основные этапы процесса обнаружения знаний.
Полнотекстовые базы данных.
Проблема извлечения знаний из текстов. Text Mining и Web Mining.
Области применения лингвистических процессоров
Определение семантического представления текста на естественном языке
7
Построение семантических представлений ЕЯ-текстов средствами языков логики предикатов
первого порядка.
Ограниченность выразительных возможностей класса языков логики предикатов первого
порядка.
Семантические сети.
Концептуальные графы.
Проблема разработки семантического сетевого языка и существующие подходы к ее решению.
Краткая характеристика системы правил, предлагаемых теорией К-представлений для формирования семантических представлений ЕЯ-текстов.
Построение семантических представлений описаний ситуаций в теории К-представлений
Построение семантических представлений описаний множеств в теории К-представлений
Построение семантических представлений вопросов с ответом "Да"/"Нет".в теории Кпредставлений
Построение семантических представлений вопросов со словами “какие”, “каким” и т.д. в
теории К-представлений
Построение семантических представлений вопросов о количестве предметов в теории Кпредставлений
Построение семантических представлений вопросов о количестве событий
в теории К-представлений.
Структура лингвистической базы данных.
Морфологические базы данных.
Структура лексико-семантического словаря.
Структура словаря глагольно-предложных семантико-синтаксических фреймов.
Структура словаря предложных семантико-синтаксических фреймов.
Принципы и методы семантико-синтаксического анализа естественно-языковых текстов.
Методы кластеризации текстов.
Проблема автоматизации реферирования (аннотирования) текстов.
Методы извлечения фрагментов для аннотаций.
Компьютерные средства анализа естественно-языковых текстов.
Технические средства для построения систем дистанционного обучения третьего поколения.
Структура и возможности Веб-платформы дистанционного обучения Blackboard, версия 7.0.
Методологические особенности дистанционного обучения. Возможные структуры дистанционного курса. Лекционный материал. Упражнения. Домашние задания. Экзамены. Ритм
учебного процесса.
Формы стимулирования познавательной деятельности студентов. Значение дискуссионных
форумов для стимулирования совместной учебной деятельности студентов дистанционного
класса.
Формы взаимодействия с преподавателем. Необходимость дифференцированного подхода к
студентам.
Информационные технологии и инструментальные средства создания методических материалов для дистанционного обучения.
Роль онтологий в системах дистанционного обучения.
Автор программы: _____________В.А. Фомичев
8
Download