Распознавание образов и анализ данных

advertisement
1. Цели и задачи дисциплины
Цель преподавания дисциплины – показать студентам, как изученные ими ранее
математические методы решения абстрактно поставленных задач можно применять для
работы с реальными данными (неточными, неполными, противоречивыми и т.д.) в
решении реальных нечетко сформулированных производственных задач в рамках
методов, предлагаемых теорией распознавания образов.
2. Место дисциплины в структуре ООП
Дисциплина относится к профессиональному циклу. При изучении дисциплины
«Распознавание образов» используются знания, полученные студентами в рамках
дисциплин «Алгебра и геометрия», «Математический анализ», «Дискретная математика»,
«Теория вероятностей и математическая статистика», «Методы оптимизации». Знания,
полученные в рамах данной дисциплины, могут быть основой для выполнения студентом
научно-исследовательской работы и выпускной квалификационной работы.
3. Требования к результатам освоения дисциплины:
Распознавание образов – один из подходов к использованию математического аппарата
линейной алгебры, методов оптимизации, теории вероятностей, комбинаторики, теории
графов, функционального анализа, алгебры логики в решении реальных прикладных задач
поддержки принятия решений. Предмет методов распознавания образов – это процедуры,
позволяющие переходить от реальных задач прогнозирования, выбора наилучшего
решения, оценки ситуации и т.п. к формальной математической постановке этих задач. В
результате изучения дисциплины студент должен приобрести систематизированные
знания и практические навыки переформулировки прикладных задач поддержки принятия
решений в терминах математических методов и обратной переформулировки полученных
формальных решений в терминах прикладных задач.
4. Объем дисциплины и виды учебной работы
Общая трудоемкость дисциплины составляет 9 зачетных единиц.
Вид учебной работы
Всего
Семестр
часов
8
80
80
Аудиторные занятия (всего)
В том числе:
Лекции
24
24
Практические занятия (ПЗ)
24
24
Семинары (С)
Лабораторные работы (ЛР)
32
32
56
56
Самостоятельная работа (всего)
В том числе:
Курсовой проект (работа)
Расчетно-графические работы
Контрольные работы (реферат, эссе и др.)
Другие виды самостоятельной работы
Контроль самостоятельной работы
Вид промежуточной аттестации (зачет, экзамен)
Общая трудоемкость
час
зач. ед.
5. Содержание дисциплины
5.1. Содержание разделов дисциплины
36
172
Экзамен
172
4,75
4,75
№
п/п
1
Наименование
раздела дисциплины
Задачи обучения по
прецедентам
Содержание раздела
1.1. Основные понятия и постановка задачи распознавания
1.1.1. Классическое и информационное моделирование:
факторы, затрудняющие построение
математических моделей реальных процессов и
явлений; этапы построения моделей:
формализация знаний и идентификация
параметров.
1.1.2. Основные понятия: прецеденты, обучающая
выборка, алгоритм обучения, обобщающая
способность.
1.1.3. Простейшая постановка задачи распознавания
образов: пространство параметров и пространство
поиска, метод обучения, функционал качества
1.1.4. Разновидности постановки задач: классификация,
кластеризация, регрессия, прогнозирование;
гарантированная и вероятностная постановка
задачи.
1.1.5. Признаковое описание объектов: типы признаков,
матрица объект/признак, синтез признаков
1.2. Примеры прикладных задач распознавания образов
1.2.1. Характеристики прикладных задач: система
признаков, источники информации для
обучающей выборки, алфавит классов.
1.2.2. Области приложения методов распознавания:
медицинская диагностика, техническая
диагностика, управление качеством продукции,
геологические приложения, рубрикация
информационных потоков, распознавание текста,
оценка заемщиков, оценка инвестиционной
привлекательности проектов, прогнозирование
спроса, прогнозирование финансовых рынков,
анализ клиентских сред.
1.3. Организация решения задачи распознавания образов
1.3.1. Оценка качества обучения: функция потерь,
функционал
качества,
минимизация
эмпирического риска, контрольная выборка,
проблема переобучения, функционал среднего
риска, эмпирические оценки риска.
1.3.2. Свойства реальных данных: неточные данные,
выбросы, неполные данные, противоречивые
данные, разнородные данные, структурированные
данные; проблема малых и сверхбольших
выборок.
1.3.3. Этапы решения задачи распознавания: постановка
задачи, сбор данных, предобработка, выбор
моделей алгоритмов и методов их настройки,
оценка качества алгоритмов, опытная эксплуатация,
автоматизированное принятие решений.
1.4. Эвристические принципы обучения по прецедентам
1.4.1. Принцип сходства: гипотеза компактности,
2
Линейный
классификатор и
его обобщения
пример алгоритма (метод ближайшего соседа),
выбор метрики.
1.4.2. Принцип регуляризации: функционал
структурного риска, пример эвристического
критерия регуляризации.
1.4.3. Принцип разделимости: разделяющая
поверхность, персептронный алгоритм,
вероятностная интерпретация разделяющей
поверхности.
1.4.4. Принцип покрытия: эталоны классов, модель
голосования, пример алгоритма построения
эталонов.
1.4.5. Принцип самоорганизации: критерии для выбора
структуры и выбора параметров модели.
1.4.6. Принцип композиции: механизмы усреднения и
специализации, функции компетентности.
1.4.7. Источники тестовых данных: эксперименты на
реальных данных, регулярные модельные данные,
репозитории тестовых задач.
2.1. Линейное решающее правило
2.1.1. Определение линейного и аффинного решающего
правила: соотношение между линейным и
аффинным правилом, их геометрическая
интерпретация, линейная и аффинная
разделимость множеств, двойственная
интерпретация решающего правила в
пространстве решений, максимизация зазора.
2.1.2. Алгоритмы построения линейного решающего
правила: разделение выпуклых оболочек,
перцептронный алгоритм для оптимизационного
поиска в пространстве состояний, коэффициент
обжига; выбор функционала качества;
комбинаторные алгоритмы построения
решающего правила.
2.2. Алгоритмические композиции
2.2.1. Пространство
оценок
и
корректирующие
операции:
алгоритмический
оператор,
корректирующая операция, базовые алгоритмы;
основные виды корректирующих операций.
2.2.2. Алгоритмы
построения
композиций:
последовательная, параллельная и глобальная
оптимизация – сравнение свойств; общая схема
последовательной
оптимизации;
пример
алгоритма параллельной оптимизации – бэггинг
2.3. Нелинейные обобщения линейного классификатора
2.3.1. Нелинейное преобразование пространства
параметров: альтернативное представление для
нелинейного алгоритмического оператора, метод
опорных векторов
2.3.2. Многослойные нейронные сети: нелинейное
решающее правило, его соотношение с
искусственным нейроном, многослойная
3
Вероятностные
классификаторы
4
Методы
классификации по
структурному
описанию
5
Отбор и синтез
информативных
признаков
нейронная сеть прямого распространения, другие
топологии нейронных сетей.
3.1. Параметрические методы
3.1.1. Особенности вероятностной постановки задачи
классификации: априорные вероятности классов,
функция правдоподобия класса, классификация
вероятностных методов по уровню принятых
вероятностных допущений.
3.1.2. Функционал среднего риска: ошибки 1-го и 2-го
рода, алгоритм минимизации среднего риска.
3.1.3. Восстановление плотности распределения: метод
максимума правдоподобия и результаты его
работы
в
частных
случаях,
геометрия
разделяющих
поверхностей
для
разных
вероятностных
предположений,
возможные
причины вырождения ковариационной матрицы
3.1.4. Робастные
методы
оценивания:
понятие
робастности, алгоритм робастного оценивания
плотности
распределения,
использование
параметрических методов для тестирования не
вероятностных методов обучения.
3.2. Смеси распределений
Задача построения смеси, алгоритм максимизации
ожиданий.
3.3. Непараметрические методы
Ядро плотности, часто используемые ядра
плотности. Метод потенциальных функций.
Критерии для выбора ширины окна.
4.1. Логические алгоритмы классификации
Логические закономерности как обучающая
информация. Способы бинаризации признаков.
Задача разбиения интервала значений признаков
на зоны.
4.2. Решающие списки и деревья
Решающие списки: жадный алгоритм синтеза,
разновидности решающих правил в списках.
Решающие деревья: алгоритм синтеза, редукция,
бустинг над решающими деревьями
5.1. Методы селекции признаков
5.1.1. Предобработка вектора признаков.
5.1.2. Селекция признаков на основе проверки
статистических гипотез: постановка задачи, мера
различия плотности признаков.
5.1.3. Векторная селекция признаков: дивергенция,
матрицы рассеивания, стратегии сокращения и
наращивания вектора признаков, алгоритм
плавающего поиска.
5.2. Методы синтеза признаков
5.2.1. Однородное преобразование признакового
пространства: базисные вектора; преобразование
Карунена-Лоэва, дискретное преобразование
Фурье, преобразования Адамара и Хаара.
5.2.2. Неоднородное преобразование признакового
пространства: региональные признаки, признаки
для описания текстуры, признаки формы и
размера,скелетизация
ПК3
ПК2
5.2. Матрица соотнесения тем/разделов учебной дисциплины/модуля и формируемых
в них профессиональных и общекультурных компетенций.
Компетенции
Темы,
Σ
разделы
Количество
общее
дисципли
часов
количество
ны
компетенций
1
38
+ +
2
2
28
+ +
2
3
24
+ +
2
4
22
+ +
2
5
24
+ +
2
5.4. Разделы дисциплин и виды занятий
№
Наименование
Лекц. Практ. Лаб.
п/п
раздела
зан.
зан.
дисциплины
1
Задачи обучения по
8
6
8
прецедентам
2
Линейный
8
6
8
классификатор и
его обобщения
3
Вероятностные
4
4
6
классификаторы
4
Методы
10
4
4
классификации по
структурному
описанию
5
Отбор и синтез
6
6
информативных
признаков
6. Лекции
№
№ раздела
п/п дисциплины
1
2
3
4
5
6
7
8
9
10
1
1
1
1
2
2
2
3
3
3
Семи- СРС
нары
КСР
16
Всего
час.
38
10
28
10
24
10
22
10
24
Наименование лекционного занятия
Основные понятия и постановка задачи распознавания
Примеры прикладных задач распознавания образов
Организация решения задачи распознавания образов
Эвристические принципы обучения по прецедентам
Линейное решающее правило
Алгоритмические композиции
Нелинейные обобщения линейного классификатора
Параметрические методы
Смеси распределений
Непараметрические методы
Формы
текущего
контроля
Контр.
работа
Контр.
работа
Трудоемкость
(час.)
1
1
1
3
2
2
2
2
1
1
11
12
13
14
4
4
5
5
Логические алгоритмы классификации
Решающие списки и деревья
Методы селекции признаков
Методы синтеза признаков
7. Практические занятия (семинары)
№
№ раздела
Тематика практических занятий (семинаров)
п/п дисциплины
1
1
2
2
3
3
4
4
5
5
Разбор прикладных задач, сводимых к задачам
распознавания образов. Формализация основных
элементов задачи распознавания: прецедентов,
параметров состояния, обучающей выборки, классов
Оптимизационный и комбинаторный подходы к
построению решающих правил: разбор дополнительных
алгоритмов, сравнительный анализ
Сравнение вероятностной и геометрической
интерпретации задач распознавания
Использование механизмов бинаризации признаков
различных типов. Конструирование составных
предикатов.
Применение методов неоднородного преобразования
признакового пространства в задачах анализа
изображений.
8. Лабораторный практикум
№
№ раздела
Наименование лабораторных работ
п/п дисциплины
1
1
2
2
3
2
4
3
Кластеризация по методу ближайшего соседа
Знакомство с возможностями программного пакета
MathWorks Matlab в части решения задач
распознавания образов.
Генерация модельных данных для задач кластеризации
и классификации.
Реализация метода k ближайших соседей и подбор
метрики для решения задачи кластеризации на
сгенерированных данных.
Линейные решающие правила
Реализация перцептронного алгоритма для построения
линейного
решающего
правила.
Графическое
представление
оптимизационного
поиска
в
пространстве параметров состояния и в пространстве
поиска. Выбор правила масштабирования шага поиска.
Композиция на основе линейных решающих
правил
Реализация последовательного алгоритма построения
комитета большинства на основе линейных решающих
правил. Реализация алгоритма для выбора начального
приближения в алгоритме построения композиции.
Вероятностный классификатор на основе
2
2
2
2
Трудоемкость
(час.)
8
4
4
4
4
Трудоемкость
(час.)
8
4
4
6
5
4
6
5
потенциальных функций
Генерация
модельных
данных
для
задачи
классификации в вероятностной постановке.
Реализация метода потенциальных функций для
нормально распределенных классов. Подбор функции
ядра плотности для решения задачи классификации
Построение решающих деревьев
Бинаризация параметров объектов.
Реализация жадного алгоритма построения решающего
дерева на основе оценок информативности разбиений узла
дерева по различным признакам.
Селекция признаков на автоассоциативной нейронной
сети
Реализация автоассоциативной нейронной сети и
алгоритма ее обучения. Преобразование данных
обучающей выборки для решения задачи селекции
признаков
4
4
10. Учебно-методическое и информационное обеспечение дисциплины:
а) основная литература
1. Duda R.O., Hart P.E., Stork D.G. Pattern classification. N.Y.: Wiley Intersciences, 2002.
680 p.
2. Ту Дж., Гонсалес Р. Принципы распознавания образов /Пер. с англ. /Под ред.Ю.И.
Журавлева. М.:Мир,1978.
3. Распознавание. Классификация. Прогноз (Серия сборников). Вып. 1–4. М.: Наука,
1989–1994.
4. Горелик А.Л., Скрипкин В.А. Методы распознавания. М.: Высшая школа, 1989.
б) дополнительная литература
Мазуров В.Д. Метод комитетов в задачах оптимизации и классификации. М.: Наука,
1990.
6. Воронцов К.В. Математические методы обучения по прецедентам: Курс лекций.
http://www.ccas.ru/voron/download/Introduction.pdf
7. Местецкий Л. М. Математические методы распознавания образов. Курс лекций.
www.ccas.ru/frc/papers/mestetskii04course.pdf.
8. Загоруйко, Н.Г. Прикладные методы анализа данных и знаний / Н.Г. Загоруйко. –
Новосибирск: ИМ СО РАН, 1999.
5.
в) программное обеспечение
Программный пакет MathWorks Matlab (академическая версия).
г) базы данных, информационно-справочные и поисковые системы
Шаблоны лабораторных работ в виде текста программ на языке Matlab
10. Материально-техническое обеспечение дисциплины
Компьютерный класс для выполнения лабораторных работ.
11. Кадровое обеспечение дисциплины:
Лектор: доц., к.т.н. Кувшинов Б.М.
Резервный лектор: преп. Бородянко О.Н.
12. Методические рекомендации по организации изучения дисциплины:
При изучении дисциплины необходимо показать студентам, что распознавание образов –
один из подходов к использованию математического аппарата линейной алгебры, методов
оптимизации, теории вероятностей, комбинаторики, теории графов, функционального
анализа, алгебры логики в решении реальных прикладных задач поддержки принятия
решений. Предмет методов распознавания образов – это процедуры, позволяющие
переходить от реальных задач прогнозирования, выбора наилучшего решения, оценки
ситуации и т.п. к формальной математической постановке этих задач.
12.1. Применяемые образовательные технологии
– лабораторные работы, включающие согласование с преподавателем постановки задачи,
самостоятельную реализацию и тестирование программ, защиту разработанных программ
Удельный вес занятий, проводимых в интерактивных формах в учебном процессе
составляют 40% аудиторных занятий. Занятия лекционного типа составляют 30%
аудиторных занятий.
12.2. Оценочные средства для текущего контроля успеваемости и промежуточной
аттестации по итогам освоения дисциплины и учебно-методическое обеспечение
самостоятельной работы студентов
По результатам самостоятельной работы студенты отчитываются о выполнении
следующих видов работ:
– самостоятельная проработка алгоритмов, которые на лекциях рассматриваются
только до уровня сведения исходной задачи к стандартным задачам линейной алгебры,
методов оптимизации, теории вероятностей, комбинаторики, теории графов,
функционального анализа, алгебры логики
– изучение по рекомендованной литературе существующих вариаций типовых методов
и алгоритмов, которые на аудиторных занятиях рассматриваются только в одной из
возможных реализаций
– самостоятельный поиск современных версий алгоритмов, которые в классическом
виде имеют ограничения на применимость, обсуждаемые на лекциях
13. Разделы дисциплины, выносимые на итоговую государственную аттестацию
(ИГА)
нет
Download