Шестаков К.М. Теория принятия решений и распознавание

advertisement
ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Факультет радиофизики и электроники
Кафедра интеллектуальных систем
КУРС ЛЕКЦИЙ
по специальному курсу
«Теория принятия решений и распознавания образов»
Учебное пособие для студентов
факультета радиофизики и электроники
Минск
2005
1
УДК 681.31:621.38
ББК 32.841я43+32.85я43
ISBN 5-06-0004597
Рецензенты
доктор технических наук В. А. Зайка
кандидат технических наук, доцент А. А. Белый
Рекомендовано
Ученым советом факультета радиофизики и электроники
__ __________2003 г., протокол №___
Шестаков К. М.
Р15 Курс лекций по специальному курсу «Теория принятия решений
и распознавания образов»: Учебное пособие для студентов факультета радиофизики и электроники. – Мн.: БГУ, 2005. – .
ISBN 985-445-093
Рассматривается методика формирования описаний классов и ситуаций,
составления алфавита признаков и его минимизации, распознавания образов по цветовому описанию, геометрическим параметрам, а также по принятию решений в интеллектуальных системах. Теоретические сведения помогают разрабатывать рациональные алгоритмы процедур поддержки принятия решений, распознавания образов и реализовывать их в современных
средах программирования.
Предназначено для студентов факультета радиофизики и электроники.
УДК 681.31:621.38
ББК 32.841я43+32.85я43
ISBN 5-06-0004597
© БГУ, 2005
2
ВВЕДЕНИЕ
Промышленность развитых стран, банковские структуры, службы охраны, правоохранительные органы широко используют системы технического зрения для управления технологическими процессами, сортировки изделий, автоматизированной дактилоскопии, охраны и т. п. Применение этих систем создает базу для построения полностью автоматизированного производства, роботизированных предприятий торговли и
т.д. Развитее компьютерных технологий в последнее десятилетие вывело
в практическую плоскость задачу создания систем с элементами искусственного интеллекта. Теория принятия решений важнейшее звено в
формировании математического базиса таких систем.
Рост вычислительной мощности цифровых систем обработки данных,
удешевление компонентов мультимедийной аппаратуры сделали реальными, в приемлемом диапазоне цен, разработку и создание автоматизированных комплексов по идентификации объектов на базе их двумерных
и трехмерных описаний. Использование таких комплексов в охранных
системах банков, различных предприятий работающих с клиентами позволит повысить качество обслуживания и надежность проводимых операций, а также позволит автоматизировать технологический процесс
сборки и контроля промышленной продукции, особенно на конвейерах.
В пособии анализируются истоки курса теории принятия решений. Основное внимание уделяется современным методам анализа ситуаций, образов, классическим и производным критериям принятия решений.
Рассмотрены модели используемые для описания риска и полезности,
количественным характеристикам ситуаций возникающих при принятии
решений. Правила выбора решений при распознавании образов, оптимизация процесса распознавания, вероятностные модели компонентов пространства признаков, правила проверки гипотез.
Учебное пособие ориентировано и на специалистов, работающих в
области компьютерных систем и технологий.
3
1. Истоки курса теории принятия решений и распознавания образов
1.1. Введение в проблематику курса
Курс тесно связан с понятием – “интеллектуальные системы”. В прошлом термин «интеллект» можно было применить напрямую только к
человеку. Различные науки выделяли отдельные признаки, пытаясь дать
определение данному понятию. Вот некоторые из них.
Наука
Биология
Психология
Философия
Познание, понимание,
Что
Способность Характеристика умрассудочная способтакое человека
ственного развития,
ность к абстрактноанаинтел адекватно
определяющая его
телреагировать способность целесо- литическому расчленелект
на изменение образно действовать, нию (Гегель); способность к образованию
окружающей рационально мыспонятий (Кант).
среды.
лить.
В двадцатом столетии в области исследования интеллекта сформировались два важных научных направления:
- распознавание образов;
- принятие решений.
Теория принятия решений и теория распознавания образов прочно
вошли в математический базис интеллектуальных систем, составляя
сердцевину теории искусственного интеллекта. Они имеют довольно
много схожего, как в предмете, методике исследования так и в приложении результатов. Зарождение данных направлений связано с появлением
компьютеров. Носителем результатов исследований стало программное
обеспечение, а в отдельных случаях и архитектура вычислительных сред.
Собственно интеллектуальность в искусственных системах присуще
именно программным продуктам или, если говорить более обобщенно,
наполнению памяти и переключателей связей интеллектуальных систем.
В подавляющем большинстве своем аппаратные средства современных компьютеров и системы на их основе в той или иной степени потенциально интеллектуальны, но только построенный по определенным
принципам программный продукт добавляет им это свойство. Сегодня
мы только приближаемся к построению программ способных распознавать другие программные продукты, определять их свойства, задействовать их функции в своих задачах. Такие виртуальные миры дело будущего и думается ближайшего.
В средах же программирования на уровне компиляторов, процессы
заимствования идут полным ходом и составляют важнейшие парадигмы
4
современного программирования. Начинаются они с присвоения программному продукту уникального имени – идентификатора и продолжаются до объявления доступных объектов и их свойств передаваемых через интерфейсы COM, CORBA и т.п.
Однако признаки искусственного интеллекта и их возможные носители (задача о приделах возможностей технической системы в оценке ситуации) исторически рассматривались довольно давно. Декарт, Лейбниц
делали попытки сравнить человека с машиной в области умственной
деятельности. Легендарные прообразы искусственных интеллектуальных
систем - Франкенштейн, Голлем отображали и страх человека перед механическими существами, наделенными искусственным разумом.
Но реально, только в сороковые годы прошлого столетия началось освоение предметной области.
У.Р. Эшби в связи с началом работ по моделированию интеллектуальной деятельности человека ввел понятие “самоорганизующаяся система”.
В 1955-1956 г. Дж. Маккарти впервые употребил термин “искусственный интеллект”, который и получил дальнейшее развитие, став обозначением обширной области науки и техники. Между ними работа Алана
Тьюринга “ Может ли машина мыслить” (1950), в которой наиболее просто ставится вопрос о достижении границы искусственного разума.
Стала стандартом и процедура Тьюринга: А задает вопросы В и С отвечают, В или С – машина. Необходимо по ответам распознать машину.
Испытания по данному тесту продолжаются до сего времени.
Интересно и то, что одновременно были высказаны количественные
оценки требуемой мощности аппаратных средств. Например, объем памяти компьютера в миллиард бит должен быть достаточен для 5 минутного общения среднего человека с 70% вероятностным исходом не распознавания машины, как источника ответов. Достижение этой границы
автор предсказывал через 50 лет.
Однако по мере развития науки о искусственном интеллекте изменяются и прогнозы. Один из них – компьютер производительностью в миллиард операций в секунду, с памятью объемом 1012 − 1015 бит с временем доступа 50 нс потенциально достаточен для принятия решений при
неполном описании ситуации с логической надежностью близкой к человеку. Сегодня данным требованиям практически удовлетворяет персональный компьютер.
Последние десятилетия наибольшие успехи в области интеллектуальных систем достигнуты в решении частных задач. Текущее столетие же
переводит в практическую плоскость решение следующих вопросов:
5
- Сможет ли человек познать процесс анализа ситуации, принятия решений идущий в его мозге?
- Можно ли вложить полученные знания в архитектуру технической
системы, ее программное обеспечение?
- Сможет ли искусственная система превзойти своего создателя, быть
«умнее» его?
Как шутил кибернетик И.А. Полетаев «Определите, что такое мышление и мы его быстренько запрограммируем».
Внешне проявление осмысленного участия кого то в принятии «разумных» решений выглядит как его правильность, оптимальность, доказанные по прошествии некоторого времени, достаточного для исчезновения неопределенности в оценки последствий этого решения.
Принимаемые решения – правильны, если они предполагают риск не
выше допустимого и дают наибольший выигрыш по априорной информации о ситуации. Поведение системы, принимающей правильные решения, часто называют стандартным.
«Разумные» решения дают наибольший выигрыш по апостериорным
данным, полученным по прошествии принятия решения.
Можно считать что системы «думают не стандартно», если разница
выигрыша от принятия ими «разумных» решений по сравнению с последствиями правильных решений существенна. Конечно наиболее просто такой результат выявляется в конкурирующей среде многих систем с
различным поведением, направляемых через механизм конкуренции.
При этом, так же ощутимый процент участников проигрывает системам,
принимающим правильные решения.
Интеллектуальные системы потенциально обучаемы, если они содержат средства корректировки решающих правил, метрик пространств, в
которых анализируются ситуации и оснащены техническими средствами
получения информации о последствиях принимаемых решений.
Однако не следует упрощать проблему понимания механизмов функционирования мозга человека. Это задача не только столетий но и, думается, тысячелетий. Весьма серьезные исследователи функций мозга не
отвергают и гипотез о вне земном происхождении мысли.
В двадцатом столетии значительную нагрузку в области умственной
деятельности взяли на себя САПР, созданные для различных областей
деятельности человека, сократив в десятки и сотни раз затраты человекочасов, необходимых для выполнения явно интеллектуальных задач в
разработке, проектировании, проведении экспериментов и анализе их результатов. Эти системы не конкурируют с человеком, а дополняют его
6
способности. Но без них создание конкурентно способных изделий не
реально.
Технические системы начинают распознавать речь человека и подражать ему в ответах, имитируя ритм и тон собеседника, ведутся работы в
области распознавания слов по движениям губ. Они берут на себя управление самолетами, автомашинами на испытательных трассах и оценивают ситуацию не редко более правильно, чем это делает человек. В конкурентную схватку они вступили на игровых полигонах – шахматах и др.
Роботы-гуманоиды соревнуются между собой в лиге гуманоидов на футбольных полях. Перед разработчиками ставится задача в обозримом будущем выставить команду для игры с командами людей и обыгрывать
последних.
Все эти признаки показывают стремительный рост реальных научных
достижений в распознавании образов и принятии решений техническими
системами.
Начинаются работы по стандартизации конструкции роботов, их
внутренней электроники, беспроводных интерфейсов, системам навигации. Эти процессы сосредоточены в одних руках, их координируют специалисты фирмы Intel и связаны в основном с продвижением линейки
процессоров технологии Xscale, но данная отрасль привлекает интересы
многих производителей, что должно привести к появлению и независимой организации по стандартизации систем.
Теория принятия решений в определенном смысле более общая наука,
чем теория распознавания образов, она как бы поглощает последнюю. Но
исторически сложилось так, что как в теории так и в практике достижения в распознавание образов, существенно опередили применение выводов теории принятия решений. Да и наработанный материал, введенные
термины вносят свою специфику. На рис.1. приведены узловые интегральные операции построения выводов в обеих науках.
7
Рис.1. Последовательность действий при распознавании образов (а) и принятии решений (б)
Курс состоит из двух дополняющих друг друга разделов. Вопросам
подготовки описания ситуации наибольшее внимание будет уделено в
разделе теория распознавания образов (ТРО), а формирование окончательного вывода детально рассматривается в разделе теория принятия
решений (ТПР).
1.2. Краткий анализ рекомендуемых литературных источников
Рассматриваемые в курсе вопросы тесно связаны с предметной областью теорий статистических выводов, игр, оценок, полезности, планирования эксперимента, оптимального управлением, оптимальной обработки сигналов и т. п.
Математическая статистика, дающая наиболее гибкие инструменты
для анализа экспериментальных данных, часто рассматривается и с активной позиции, как наука о статистических решениях, вырабатывающая
рекомендации по выбору оптимальных способов поведения и управления
в случайных ситуациях. Именно в этом понимании, она является базой
теорий принятия решения и распознавания образов.
8
В определенной степени указанные науки вошли в математический
базис кибернетики [1]. Математические модели, описывающие случайные процессы рассматриваемые в курсе, достаточно полно изложены в
учебном пособии [2]. Однако, каждый слушатель в вопросах связанных с
приложениями теории вероятностей [3] может опираться и только на полученные знания в университете и те литературные источники, которые
он изучал.
В работах [4-9] рассмотрена специфика наработанного материала по
формирования образов, идентификации объектов в различных областях.
Монография Себестиана [10], вышедшая в 1962 году, в области распознавания образов является первой работой, интегрирующей результаты
исследований в США. Как говорится в предисловии редактора перевода,
только эта страна в то время обладала вычислительными машинами с огромной оперативной памятью в 100 тысяч слов, которые необходимы
для ведения работ в данной области.
Книга написана как учебное пособие, математический аппарат строг,
но просто изложен. Практически все узловые вопросы современной теории распознавания образов обозначены. Изображения трактуются как
вектора в пространстве признаков. В этом пространстве определены метрики и расстояние. Распознаваемые подмножества в этом пространстве,
определены как классы.
Метрика пространства признаков преобразуется для повышения компактности классов. Вероятность принадлежности нового объекта к данному классу оценивается через функцию подобия. Разделяющая функция
относит точку в пространстве признаков к тому классу, которому она
наиболее подобна. Классификация рассматривается как задача теории
решений. Решающее правило минимизирует риск при распознавании.
Рассмотрены и вопросы обучения, нейросетевые приложения в распознавании и т. п.
В монографии Вапника В.Н. и Червоненко А.Я. [11] основной акцент
делается на обучение систем распознавания образов, в частности применительно к нейросетевым структурам.
В работе Дуда Р., Харта П. [12] очень хорошо изложены основы байесовского подхода к распознаванию образов и принятия решений.
Цикл лекций Гренандера У. [13-15] подытоживает развитее науки о
распознавании в период ее становления.
В монографии Патрика Э. [16] излагаются вопросы теории распознавания образов на академическом уровне, с довольно абстрактным математическим аппаратом. Она полезна для углубленного изучения вопроса.
9
Учебные пособия [17-18] образуют предельно минимальный набор
литературных источников, дополняющих курс лекций.
В последние годы наибольшее применение в описании проблематики
теории принятия решений находит понятие нечеткой информации, модели и их анализа. Такой подход можно изучить по работам [19-23].
Последующие работы [24-44] дополняют список литературы, конкретизируя отдельные вопросы, рассматриваемые в курсе. Как правило,
смысловое содержание названия книги соответствует специфике рассматриваемого в ней вопроса.
Лабораторные практикумы позволят Вам получить навыки в формировании образов – [42], их обработке и принятию решений применительно к специфике курса – [43].
2. Случайные события и процессы
2.1. Статистические модели в описании объектов, признаков, образов, классов, ситуаций и процедур
Предметом анализа ТПР и ТРО являются объекты различной физической, химической, биологической, социальной природы. Это могут быть
изображения, звуки, описания рыночной конъюнктуры по виду товара в
определенной области земного шара, математические формулы, концепции и т. п.
В результате анализа формируется математическая модель объекта –
вспомогательный искусственный объект, имеющий сходство с оригиналом в определенном пространстве его свойств и характеристик. Модель
должна удерживать только полезные для изучения свойства объекта, это
один из наиболее очевидных путей получения более простого представления об оригинале, чем он сам.
Модель должна быть при последующем использовании
y адекватна оригиналу с заданной точностью, удерживать частное в
общем в конкретной группе задач,
y эффективна (проще, удобнее или давать новую информацию об объекте),
y экономична т.е. не требовать для анализа больших ресурсов, чаще
вычислительных, чем имеет исследователь в своем распоряжении для
решения поставленной задачи.
y Процесс создания модели включает в себя следующие механизмы:
y определения состава (кортежа, алфавита) свойств объекта, подлежащих исследованию,
10
y составление набора технических средств для оценки выбранных
свойств объекта,
y получения сведений (опыта, знаний), от других систем об свойствах
подобных объектов,
y использование аналогий,
y анализ всех данных для формирования описания области существования объекта в пространстве обозначенных свойств.
Можно выделить две цели, преследуемых при анализе конкретного
объекта:
1. Составление описания группы схожих объектов (класса), в пространстве выбранных свойств (признаков);
2. Отнесения текущего объекта к одной из обозначенных групп (классов).
В системах с самообучением, как правило, параллельно стремятся
достичь обе цели.
Свойства объекта в математической формулировке – переменные могут быть детерминированными и случайными, числовыми и лингвистическими. Детерминированные числовые не требуют пояснения. Числовые случайные и лингвистические переменные рассмотрим подробнее.
Лингвистическая переменная описывается кортежем
[X,T(X),U,G,P],
где: X – имя переменной (пример из [19] о возрасте на шкале лет - молодой);
T(X) – множество значений переменной (термы) (очень молодой, молодой, старый, очень старый);
U – универсальное множество (универсум), на котором задана переменная (возраст), такое множество удерживает свойства всех объектов (например: множество всех действительных чисел, на шкале которого задается возраст, или множество всех комплексных чисел используемых для
отображения спектральных образов колебательных процессов);
G – синтаксическое правило, порождающее термы;
P – семантическое правило, ставящее каждому X его смысл, P(X) – нечеткое множество заданное на U (27 лет – молодой, 62 года – старый или
очень старый).
Семантическое правило может выдавать и цифры, например вероятности, в данной точке U существования конкретного терма.
Область существования свойств X на U реально может быть ограничена. Ограничения на существование x в u отображаются зависимостями
R(x;u). Они допускают только те x=u, которые удовлетворяют условию
11
u ∈ R (x) . Например: возраст человека ограничивается диапазоном чисел
от 0 до 200.
Рис.2. Области задания лингвистических переменных (ин, ик, нн, нк, ндн, ндк – начало и конец идеальной, нечеткой, недопустимой областей)
На рис.2 представлены примеры областей задания логических переменных: 2а – на оси одного свойства, 2б – в пространстве трех свойств
на поверхности.
Наряду с ограничениями задается и семантическое правило формирования имени переменной. На рис. 2в приведен пример задания вероятности P определения конкретного значения переменной в границах нечеткой области.
Причиной появления не четкого описания переменных служат:
1. Ограничения на ресурсы измерительных средств, средств наблюдения, средств очувствления и т. д. приводят к описанию объекта в нечеткой словесной (символьной) форме.
12
2. Пакет передачи опыта включает в себя и совокупность не четких правил. Оценки свойств интервальные или заданы по экспертным заключениям с разрешением не достаточным для проведения анализа.
3. В процессе создания (жизни) объекта реализуется ряд альтернативных
вариантов промежуточных решений по его самоорганизации, которые
приводят к неопределенности свойств объекта , появляется нечеткое
описание свойств, например, образ самолета противника.
4. В описании цели присутствует ряд не четко заданных словесных конструкций.
Различают так же синтаксическую нечеткость (Железные болты и
гайки. Ограничение, железные, действует только на болты или и на гайки
тоже) и семантическую – не ясен смысл фразы. Часто в литературе
встречаются термины: случайные исходы, нечеткая информация, нечеткая функция полезности, нечеткая цель и т. п. Новая терминология порождает и новую формулировку задач, как, например. Интерпретация
вероятности и возможности на основе распределения уверенности.
Лингвистические переменные в первом приближении можно оцифровать, ранжировав их по эффективности. Тогда переменная превращается
в вектор, число степеней свободы которого равно числу ее термов. Далее
эффективно используется аппарат анализа числовых случайных переменных.
Случайной функцией называется функция, значение которой при каждом данном значении аргумента (или нескольких аргументов) является
случайной величиной. Всякая функция, которой оказывается равна случайная в результате опыта, называется реализацией случайной функции.
Скалярная функция одного скалярного вещественного аргумента (в качестве которого обычно выступает время) называется случайным процессом. Случайная функция нескольких скалярных вещественных аргументов (обычно координат точек пространства) называется случайным полем.
Случайная величина, событие появляется в некотором пространстве
размерностью n . Это пространство определено в классической теории
вероятностей, как пространство исходов. Размерность пространства зависит от числа составляющих случайную величину частей (компонентов)
и возможных числовых значений (уровней), которые могут принимать
эти компоненты. В компьютерных приложениях, как правило, число разрешимых уровней ϖ i для i -го компонента принимается равным ϖ i = 2ti ,
где ti - целое число.
13
Изображения имеют некоторую специфику формирования потока данных. Растровые форматы представления изображений передают информацию о нем по точкам. Если точка (пиксель) характеризуется кодированием цвета с ti = 1 , то говорят о бинарном представлении i - компоненты,
при ti > 1 - о полутоновом. Точка обычно представлена в трех RGB или
четырех RGBα компонентном пространстве, в последнем случае добавляется α - компонента, характеризующая прозрачность пикселя.
Трех компонентное пространство в целочисленном представлении для
полутонового описания пикселя может быть представлено в формате с
перекодировкой, это 16 - и 256 - цветные модели. Такой файл описания
изображений сопровождается перекодировочной таблицей. По таблице
коды преобразуются в представление без кодировки с ti = 8 . Эти форматы получили еще название индексированных. Элемент матрицы ai,j является указателем на таблицу цветов. Число используемых цветов равно 2K,
где K - количество бит, используемый для хранения элемента матрицы.
Цвета в указываемой таблице могут кодироваться другим числом бит.
Например, в 256 цветовых режимах видеоадаптеров выбирается 256 цветов из 262144 возможных, так как выбираемые цвета представляются в
RGB формате и для каждой цветовой компоненты кодируется 6-ю битами. Существует много методов преобразования многоканальных изображения в индексированные (Error diffusion, ближайшего цвета ...).
Форматы без перекодировки включают в себя и варианты с комбинациями t R = 5 , tG = 6 , t B = 5 и ti = 5 .
Однако в практике систем распознавания образов более правильно обрабатывать сигналы непосредственно с АЦП CCD или SMOS матриц
приборов наблюдения.
Монохромные приборы дают однокомпонентное описание точки с
t = 8 , 10, 12, 14 и у приборов ультра высокого качества t = 16 .
Описание точки с цветных приборов существенно усложнено. На рисунках 3, 4 приведены варианты нанесения цветовых фильтров на фотоприемники матрицы.
14
Рис.3. Однородное заполнение
Рис.4. Выделен зеленый цвет
Каждый фотоприемник поставляет сигнал, который с учетом окружения перекодируется в RGB представление цифровым процессором сигналов камеры. Однако указанное не исчерпывает всех вариантов встречающихся описаний изображений. Дальнейшие преобразования продолжают изменения.
Представление пикселя в распространенных цветовых системах приведено в таблице 1.
Цветовая
система
RGB
Truecolor
RGB
Highcolor
RGB
Extended
Бит
8:8:8
5:6:5
5:5:5
12:12:12
16:16:16
CMY
8:8:8
LAB
8:8:8
YIQ
8:8:8
HLS
8:8:8
HSB
8:8:8
Таблица 1.
1-ый компо2-ой
нент
компонент
Красный
Зеленый
0-255
0..255
Красный
Зеленый
0-31
0-63
0-31
0-31
Красный
Зеленый
0-4095
0-4095
0-65535
0-65535
Голубой
Пурпурный
0-255
0-255
Яркость
Канал A
0-255
0-100%
Яркость
Синфазный
0-255
0-255
Яркость
Тон
0-100%
0-3600
Тон
Насыщенность 00
0-360
100%
3-ий компонент
Синий
0-255
Синий
0-31
0-31
Синий
0-4095
0-65535
Желтый
0-255
Канал B
0-100%
Суммарный
0-255
Насыщенность
0-100%
Яркость
0-100%
Такие преобразования, естественные для восприятия изображения человеком или удобные для передачи данных, печати в системах распознавания является дополнительными, зашумляющими сигнал операциями.
15
Кроме того при изменении соотношения цветовых составляющих смещаются оценки положения границ объектов, что в высокоточных приборах не допустимо.
При цветовых преобразованиях необходимо также помнить, что между цветовыми моделями CIE, CMY, RGB, YIQ существуют аффинные
преобразования, тогда, как между HLS и HSV- нет. Данное обстоятельство будет заметно, если изображение, содержащее непрерывные цветовые переходы, переводить, например, из HLS в RGB (на изображениях
может появиться разрыв непрерывности).
Наиболее эффективно вести распознавание получив «чистый» сигнал
с матрицы. Но на практике это решение не всегда возможно. Цифровые
процессоры сигналов камеры наблюдения, последующих устройств формируют сигналы в одном из указанных стандартов и обратное преобразование не эффективно, так как первичная информация частично потеряна.
Не редко отличительными признаками могут являться сами компоненты
стандартного сигнала, например, цветовой тон в стандарте HSB. Поэтому
все указанные кодировки сигналов встречаются в задачах распознавания.
Как следует из выше сказанного в современных системах с распознаванием изображений описание пикселя представляется 8-16 битами, которое может первичным преобразованием увеличиваться до
24-32 битного.
Распознаваемый объект представлен j пикселями. Тогда объем пространства исходов
∑ ∑ ti
Ω = ∏ϖ i или Ω = 2 j i .
j
Специфика описания ситуации в задачах распознавания образов и
принятия решений в значительной величине объема пространства исходов. Даже для сегмента описания объекта 3 × 3 и с 24 - битным представлением пикселя он превышает 10 65 .
Наряду с пространством исходов в математической статистике вводятся понятия F - σ - алгебры подмножеств заданных на Ω . Которое
определяет совокупность подмножеств множества Ω , базирующихся на
теоретико-множественных операциях – объединении, пересечении, образовании дополнения и замкнутых относительно счетных объединений. В
ТПР особенно актуален расчет метрики пространства, она определяет
расстояния между объектами и в конечном итоге потери при не правильных решениях.
Третий объект P - вероятность на F .
16
Набор объектов (Ω, F , P ) называется вероятностной моделью или вероятностным пространством задачи и полностью описывает ситуацию,
если определены в нем все рассматриваемые классы, цели и потери.
Обозначим результаты наблюдения, заданные в пространстве исходов, X t −τ , где t , τ - целые положительные числа. Для текущего наблюдения моменты съема информации будем считать расположенными во
времени равномерно. Отсчет t будем вести от нуля в каждом новом наблюдении. Разность t − τ < τk или t − τ < 0 индексирует данные опыта,
которые или предшествовали текущему наблюдению, или отстоят от текущего отсчета на расстоянии большем, чем расстояние влияния (корреляции) τk . При τ ≤ τk мы имеем текущую обучающую выборку, которая
влияет на вывод в момент времени τ .
Данные опыта, дополненные оценками результатов распознавания,
принятия решений и составляют априорную информацию об объекте исследования на момент начала текущего наблюдения. Как следует из определения, вероятностное пространство можно считать заданным если
известно Pj для всех распознаваемых классов, ситуаций ( j - индекс
класса). Исследователь сам решает интегральную или дифференциальную форму описания (функция распределения или плотность вероятности) использовать на практике. Однако большее распространение получила дифференциальная форма. Она более наглядна. Рассмотрим несколько часто используемых функций распределения вероятности.
Нормальное распределение.
px =
1
2 ⋅π ⋅σ
17
⋅l
−
( x−µ )2
2⋅σ 2
,
Рис. 5. Нормированная плотность одномерного нормального распределения
( σ =1, µ =0)
Его плотность (рис. 5) зависит от двух параметров σ - среднеквадратичного отклонения и µ - математического ожидания.
Вид нормированной функции распределения для нормального закона Fx =
x
∑ pt
приведен на рис. 6.
t = −5σ
18
Рис. 6. Нормированная интегральная функция одномерного нормального распределения ( σ =1, µ =0)
Нормальный закон в ТРО и ТПР используется довольно часто. Он хорошо подходит для оценки симметричных, много причинных случайных
событий при слабом доминировании какой либо из причин. В описании
шумовых сигналов, подчиняющихся нормальному закону, утвердился
термин – белый шум (обычно шум от многих источников практически
равной энергии).
В игровых ситуациях нередко приходится иметь дело с событиями,
образами, плотность распределения вероятности появления которых
близка к равномерному закону распределения.
На рис 7-8 приведены нормированные функции дифференциальная и
интегральная для равномерного распределения вероятности.
19
Рис. 7. Нормированная плотность одномерного равномерного распределения ( σ ≅ 1, µ =0)
Рис. 8. Нормированная интегральная
функция одномерного равномерного
распределения ( σ ≅ 1, µ =0)
Равномерное распределение вероятности задается как правило на
слитном участке оси пространства исходов. Хотя такой признак не обязателен, в сложных системах отдельные участки на оси могут быть запрещены и события в них не появляются.
Для равномерного закона при нулевом значении центра интервала
⎧1
⎪ ⇒ ( x ≤ a)
, где a - ширина полуинтервала.
p x = ⎨ 2a
⎪⎩ 0 ⇒ ( x > a )
Это примеры симметричных законов распределения. Многие образы
имеют тенденцию к многочисленности на границе интервала своего существования. К ним относятся многие биологические объекты, природные включения (например, камешки и т. п. в пластах полезных ископаемых), отсортированные по размеру. На рис. 9, 10 приведен вид кривых
экспоненциального закона распределения, практически хорошо подходящий для указанных случаев.
20
Рис. 9. Нормированная плотность одномерного экспоненциального распределения ( σ ≅ 1)
Рис. 10. Нормированная интегральная
функция одномерного экспоненциального распределения ( σ ≅ 1)
Экспоненциальный закон распределения
p x = r ⋅ exp(− r , x) , ( r > 0 , x > 0 ),
где r - параметр, имеющий размерность, обратную размерности оси x и
определяющий разброс случайной величины.
Для удобства сравнения, все примеры (рис. 7-10) приведены с тем же
параметром σ ≅ 1, что и пример нормального закона распределения (рис.
5, 6).
Но реальные образы как правило многомерны. В практике обработки
изображений наибольшее распространение находят двумерные функции
описания яркости и соответственно двумерные распределения вероятности появления простейших образов.
На рис. 11, 12 представлено изображение и распределение интенсивности в сечении сформированного лазерного пучка, часто используемого
в сканирующих системах. Оно близко по форме к двумерной функции
плотность нормального распределения.
21
Рис.11. Изображение зондирующего лазерного пучка (пиксель)
Рис.12. Распределение интенсивности в приделах пикселя
Двумерные функции распределения учитывают взаимное влияние выпадения у текущего случайного события определенной координаты по
одной оси от величины на второй. Наиболее просто это пояснить на примере.
22
⎧
⎤⎫
⎡ ( x − µ )2
x
⎪
+
⎥⎪
⎢
2
⎪
σ
⎥⎪
⎢
x
⎪
⎥⎪
⎢
2
y
µ
−
⎪
⎥ ⎪⎪
⎢
1
−1
⎪
y
p y, x =
⋅ exp⎨
⋅⎢
−
⎥ ⎬,
2
2
2
ρ
σ
2
1
⋅
−
⎪
2 ⋅π ⋅σ y ⋅σ x ⋅ 1− ρ
⎥⎪
⎢
y
⎪
⎥⎪
⎢
(
)
µ
µ
x
y
−
⋅
−
x
y
⎪
⎥⎪
⎢2 ⋅ ρ ⋅
⎪
⎥⎪
⎢
σ x ⋅σ y
⎪⎩
⎦ ⎪⎭
⎣
где ρ <1 – коэффициент корреляции координат x, y случайного события, σ i >0 – среднеквадратичное отклонение (стандартное отклонение) по
оси i , µ i - математическое ожидание по оси i .
Для непрерывного представления осей пространства исходов
K y, x
,
ρ=
σ y ⋅σ x
(
где K y , x =
)
(
)
(
)
∞ ∞
∫ ∫ (x − µ x ) ⋅ (y − µ y ) ⋅ p( y, x ) ⋅ dy ⋅ dx
- взаимная корреляци-
−∞ −∞
онная функция.
Степень взаимосвязи между параметрами точек в пространстве исходов уменьшается по мере увеличения расстояния между ними. Обще
принято считать независимыми события разнесенные в пространстве исходов на наименьшее расстояние, на котором ρ ≤ ε ( ε - допустимый в
анализе коэффициент ошибки). Это расстояние получило название радиуса корреляции. События разнесенные на расстояние большее, чем радиус корреляции принято считать не зависимыми.
В задачах распознавания образов взаимосвязь не редко сохраняется в
приделах всего сегмента образа. Под сегментом образа будем понимать
участок пространства минимальных размеров, описывающей рассматриваемый образ. Например, сохраняется связь цветовых характеристик
пикселей биологического, ботанического объекта по всему объему при
его конкретной реализации в большей степени, чем между различными
объектами конкретного класса. Еще больше расстояние и степень связи у
искусственных объектов. Это необходимо учитывать при проведении исследований. Проведя оценку цветовых характеристик пикселей в приделах одного объекта нельзя считать выборки не зависимыми. Только исследование многих объектов дает достоверную информацию для описания характеристик класса.
23
Функции распределения вероятности в технических системах могут
быть заданы аналитически или таблично. В практике же статистического
анализа более принято использовать функционалы от них.
2.2. Оценка параметров и функций в анализе ситуаций
Наиболее употребимы определения точек ожидания появления событий, это математическое ожидание, медиана, мода. Для одномерного
пространства исходов это скаляры, для многомерного - вектора.
Математическое ожидание µ можно определить по плотности функции распределения - µ = ∑ x ⋅ p x , или по выборке размером n + 1 x
µ=
1
⋅ ∑ xi , где i - порядковый номер зафиксированного события xi ,
n +1 i
i изменяется от 0 до n , недостоверные отсчеты не фиксируются. Данная
характеристика получила еще название абсциссы центра тяжести плотности распределения случайной величины. Не достоверные выбросы, которые могут появляться в ряде случаев сильно смещают этот параметр.
Математическое ожидание, как основная характеристика свойства объекта часто используется в задачах с многократным повторением процедур распознавания или принятия решения.
Медиана ( median ) определяет координаты точки, относительно которой появление событий справа и слева равновероятно. Другое определение – абсцисса прямой, параллельной оси ординат и делящей фигуру под
плотностью вероятности на две одинаковой площади. Для возрастающего ряда x без интерполяции можно записать:
⎛
⎞
⎜
x max ⎟
x
median = min⎜ x
,
pi ⎟
⎜ i = x∑ pi ≥ i∑
⎟
=x ⎠
⎝
min
где xmin , xmax - границы интервала проявления x , знак выделяет условие, которому должен удовлетворить переменная, в данном случае x
выбираются только те, для которых
x
x max
i = x min
i=x
∑ pi ≥ ∑ pi . Ориентация на ме-
диану оправдана тогда, когда величина отклонения случайной величины
от интервала положения медианы не играет роли и важно только попадание в цель. При этом процедура распознавания применяется многократно. Медиана более устойчивая к аномальным явлениям характеристика,
чем математическое ожидание.
24
Мода ( moda ) выделяет точку или отрезок на оси, на котором величина плотности вероятности имеет максимальное значение. Другое определение – абсцисса наиболее вероятного события.
moda = x max p .
x
Мода часто выбирается в качестве цели при однократном применении
решения. Эта характеристика наиболее чувствительна к помехам и не
четкости информации, чем математическое ожидание.
Перечисленные параметры оценивают координату ожидаемого результата. Возможна в практическое применение и их комбинации, как
нелинейная так и линейная, например, величина wait _ µ :
wait _ µ = k1 ⋅ µ + k 2 ⋅ median + k3 ⋅ moda ,
где k1 , k 2 , k3 - коэффициенты доверия и
3
∑ ki = 1 .
i =1
Вторым по важности параметром является оценка ожидания разброса
случайной величины. Эти оценка могут быть выражена числом, или интервалом на оси абсцисс, а для многомерных величин эллипсоидом, нередко носящим имя эллипсоида рассеяния.
На практике наибольшее применение получили функционалы вида
g
m
1 −1 n
m
⋅ m ∑ xi − µ или m −1 ∑ p j ⋅ x j − µ ,
n
i =0
j =0
где i - номер зафиксированного события (0-n),
j - номер канала,
x j , p j - абсцисса канала, вероятность попадания события в канал, на
графике плотности вероятности (0-g),
m - показатель степени, положительная величина, целая или дробная,
определяет метрику данного критерия.
При m =1, говорят об оценке разброса через величину среднего арифметического отклонения, при m =2, оценивается разброс через величину
среднеквадратичного или стандартного отклонения. Чем выше величина
m , тем более влияют выбросы в измерениях и соответственно величина
отклонения.
Определим усредненную симметричную оценку параметра разброса
σs случайной величины при наличии неопределенности в задании коэффициента m .
b
σs = ∑ kσ i ⋅ σmi ,
i =1
25
где kσ i коэффициенты доверия оценки отклонения с mi - показателем
степени и
b
∑ kσ i = 1;
i - порядковый номер функционала со степенным
i =1
коэффициентом mi , i изменяется от 1 до b - числа конкурирующих оценок.
Оценка интервала (его границ), существования проявлений объектов
исследуемого события, обычно ведется при задании ограничения на вероятность появления события вне интервала или внутри интервала.
Рис.13. Интервалы анализа
Для одномерного случая с равным распределением вероятности
ошибки определения интервала справа и слева границы доверительного
интервала можно определить, как
x1 = max( x x p ≤ α ) ;
∑ i
i = min_x
max_x
x 2 = min( x
∑ pi ≤
i= x
2
α ),
2
где α - заданная вероятность ошибки, min_x, max_x границы интервала
учета событий.
Определение доверительного интервала позволяет уменьшить пространство исходов.
Очень часто одно из граничных значений координаты появления события берется за исходную точку для осторожного принятия решения,
которое обычно ориентируется на наихудшее стечение обстоятельств.
Эта координата соответствует появлению наиболее не желательного события. В этом случае вводится понятие допустимой вероятности появления более неблагоприятного события, чем те которые учитываются. Исходя из этого ограничения и определяется наиболее важная граница доверительного интервала.
Наряду с естественными системами координат, описывающими пространство исходов, используются и искусственные системы, производные от естественных. Например, из координат трехмерного пространства
и времени формируются системы пространственных и временных частот.
В таких системах так же задаются интервалы существования объектов
одного класса.
26
2.3. Статистические исследования при формировании описания
образов и ситуаций
Одно из ключевых понятий теории распознавания образов - понятие
класса. Это искусственный объект удерживающий отличительные свойства группы объектов подлежащих распознаванию, как образ с одним
именем. Отличительные свойства, участвующие в распознавании, получили название признаков, а их набор – алфавита признаков.
Рис.14. Сегмент в поле изображения
Рис.15. Сегмент в памяти вычислителя
Изображения после ввода их в память компьютеров, ЦПС, микроконтроллеров имеют вид слитного массива с по пиксельным описанием. Интуитивно и, как показывает практика, более корректно при программировании его представить двумерным массивом, состоящим из строк и
столбцов.
Сегментация неизбежный атрибут обработки изображений, широко
применяемый при распознавании образов. Разбиение изображения на
фрагменты позволяет ограничить размер исходных файлов. В выделенных сегментах, содержащих исследуемые объекты, и проводится их
дальнейшая обработка. Это позволяет сократить объем пространства исходов и понизить вычислительную нагрузку на систему обработки данных.
Простейшее формирование сегментов для последующей обработки
заключается в выделении прямоугольного окна, перемещающегося по
массиву.
27
Пусть координата столбца – x отсчитывается слева направо, координата строки – y сверху вниз. Сформируем бегущий сегмент и зафиксируем его на характерных участках объектов.
Пусть исходное изображение имеет размеры ym, xm. Назначим размеры сегмента ys, xs и зададим шаг сегмента по столбцу и строке – hy, hx.
Размер строки анализа xm равен целому числу шагов hx плюс размер
сегмента xs. Число строк анализа ym равно целому числу шагов hy плюс
размер сегмента ys.
Общее количество сегментов в строке nx, в столбце ny и по полю ns
будут равны:
ym − ys
xm − xs
ns = ny ⋅ nx = floor (
+ 1) ⋅ floor (
+ 1) ,
hy
hx
где floor – целая часть числа.
Введем текущий номер сегмента j от нуля и определим координаты
первого пикселя сегмента yj, xj:
j
yj0 = floor ( ) ⋅ ny , xj0 = mod( j, nx) ⋅ nx ,
nx
где mod(x,a) – остаток от x по модулю a.
Сегмент с текущим номером j (например: r(j)) сформируем как субматрицу из общей матрицы (R), указав начало и конец субматрицы по
столбцу и строке:
r ( j ) = submatrix ( R, yj0 , yj0 + ys − 1, xj0 , xj0 + xs − 1) .
Реальный адрес ячеек в памяти для последнего пикселя в строке, если
адрес первого пикселя Adr0 = 0 ,
Adrxm −1 = ( xm − 1) ⋅ p ,
где p - размер описания пикселя в байтах.
Адрес первого пикселя ( N ) сегмента в памяти устройства распознавания на j шаге
AdrN j = yj0 ⋅ xm ⋅ p + xj0 ⋅ xs ⋅ p .
Адрес первого пикселя следующей строки данного сегмента
AdrN1 j = yj0 ⋅ xm ⋅ p + xj0 ⋅ xs ⋅ p + xm ⋅ p .
Рассмотрим методику формирования описаний объектов на примере
задачи сортировки интегральных схем различных типов. На рис.16.
представлено изображение корпусов различных микросхем. Ниже в таблице 2 представлены выбранные сегменты корпусов, фона и гистограмм
ы цветовых составляющих их описаний.
28
Рис.16. Корпуса интегральных микросхем
Металл
1
Фон
Таблица 2
Пластик
2
3
29
Керамика
4
В таблице 3 и на рисунках 17-19 проведены величины интегральных
параметров и их взаимное положение в пространстве исходов.
Металл
Фон
1
2
meanR = 185
meanG = 184
meanB = 162
stdevR = 15.26
stdevG = 12.14
stgevB = 12.03
stgevR
= 0.082
meanR
stgevG
= 0.066
meanG
stgevB
= 0.074
meanB
Таблица 3
Пластик
Керамика
4
3
3
meanR = 153
meanG = 201
meanB = 233
stdevR = 8.33
stdevG = 3.51
stgevB = 8.16
stgevR
= 0.054
meanR
stgevG
= 0.017
meanG
stgevB
= 0.035
meanB
meanR = 18.27
meanG = 81.05
meanB = 52.84
stdevR = 10.88
stdevG = 10.77
stgevB = 14.14
stgevR
= 0.595
meanR
stgevG
= 0.133
meanG
stgevB
= 0.267
meanB
meanR = 194
meanG = 171
meanB = 158
stdevR = 31.31
stdevG = 38.31
stgevB = 31.29
stgevR
= 0.162
meanR
stgevG
= 0.224
meanG
stgevB
= 0.198
meanB
Рис.17. Оценка величин математического ожидания
30
Рис.18. Оценка величин среднеквадратического отклонения
Рис.19. Оценка относительных величин среднеквадратического отклонения
Абсолютные значения сигналов редко на практике используются в качестве координат пространства исходов. Они зависят от множества факторов – освещенности и т.п. Поэтому рассмотрим более стабильные параметры, для чего разделим цветовые компоненты сигналов на суммарный сигнал на объекте и определим доверительные интервалы существования объектов в пространстве исходов.
Ri
ri =
;
Ri + Gi + Bi
31
Gi
;
Ri + Gi + Bi
где i - 1-4 порядковый номер объекта.
На рис. 20 и рис. 21 приведены графики доверительных зон по r и g
компонентам раздельно.
gi =
Рис.20. Оценка доверительных интервалов нормированного красного
Рис.21. Оценка доверительных интервалов нормированного зеленого
Интегральные зоны показаны на рис. 22 и рис. 23. На первом из них
не учитывается понижение вероятности появления обеих признаков на
краю зон, в этом случае описание зон существования объектов имеет вид
прямоугольников. Более правильное их представление – упрощенными
эллипсоидами рассеяния показано на втором рисунке. Номера параметров соответствуют номерам объектов в таблицах 2, 3.
32
Рис.22. Оценка доверительных интервалов с предположением равномерной вероятности появления признака у объекта по всему доверительному интервалу
Рис.23. Оценка доверительных интервалов при понижающейся к границе интервала
вероятности появления признака у объекта
Приведенный пример пробного, прикидочного исследования признаков объектов не свободен от ряда упрощений и неточностей.
Рассмотрим их в ходе рекомендуемой методики проведения исследований положения объектов, классов в пространствах признаков и ситуаций.
1. Определитесь с целью исследования – формализуйте задачу. Это важный этап, он может привести к, так называемым, системным ошибкам в
постановке и решении задачи. Исправить последствия этих ошибок чрезвычайно сложно, практически решение задачи придется начинать заново.
В рассматриваемом примере мы ставим задачу распознавания четырех
объектов по RGB описаниям их пикселей с телекамеры низкого качества.
2. Наберите достаточный статистический материал об объектах
рассматриваемых классов. Мы ограничились выборкой 600 слитных точек с объектов. Практически взято по одному зашумленному сегменту
без фильтрации (результат хорошо виден на примере объекта №4 - кера33
мический корпус в сегменте соседствует с металлической пластиной).
Такой выбор возможен только при поверхностном анализе. В практике
распознавания объектов по их изображениям число точек включаемых в
анализ превышает сотни тысяч, а главное их необходимо брать с различных объектов исследуемого класса, в различных условиях наблюдения и
освещения. Практическая рекомендация – информация с одного экземпляра объекта только одно измерение, пусть при этом проанализировано
несколько тысяч пикселей. Корреляция между параметрами точек на
объекте достаточно велика и это делает отсчеты зависимыми.
3. Постройте гистограммы и по их виду сделайте оценку формы функций распределения, рассчитайте рабочие функционалы, планируемые в
алфавит признаков. Стремитесь использовать мало зависящие от
внешних условий параметры. Мы выбрали в признаков R , G , B описания и их среднеквадратичные отклонения, для справки вычислили относительные величины.
4. Постройте доверительные интервалы существования объектов
классов в пространстве признаков. Современные компьютеры, математические пакеты позволяют проводить довольно большие объемы исследований в короткие сроки. Наиболее просто для визуального анализа
отобразить положение классов в пространстве двух признаков.
5. Если области существования классов пересекаются увеличьте количество признаков измените существующие. На рис. 22 объекты классов
практически не различимы по выбранным признакам.
На рис. 24 представлены области существования классов по измененным
признакам. В качестве последних выбраны выражения
4 ⋅ Ri
rni =
,
∑ (Ri + Gi + Bi )
i
gni =
4 ⋅ Ri
,
∑ (Ri + Gi + Bi )
i
что практически означает нормировку по интегральному световому потоку со всех объектов. На рис. 24 представлен результат – класс пластиковых корпусов (№3) в данном пространстве резко выделен и различим.
34
Рис.24. Оценка доверительных интервалов с предположением равномерной вероятности появления признака у объекта по всему доверительному интервалу и нормировкой по общему световому фону
Необходимо учитывать то, что формализованные алгоритмы стандартных расчетов даже на объемных массивах данных в тысячи пикселей
выполняются в миллисекунды, поэтому рабочий алфавит признаков может содержать несколько десятков компонентов. Все полученные значения ожидаемых оценок случайных величин – каждый столбик гистограммы, оценки центральных моментов сами по себе случайные величины. Для корректного использования они должны удовлетворять определенным требованиям, вернее стремиться соответствовать им:
y При увеличении числа испытаний они должны стремиться к истинной
величине параметра, с ростом объема данных n разница между искомым
значением и расчетным - ε должна становиться сколь угодно малым
числом ( ε → 0 при n → ∞ ). Такие оценки получили название состоятельных.
y Оценка считается несмещенной , если она не содержит систематических составляющих погрешности Оценка должна быть эффективной т. е.
обеспечивать минимальный разброс в оценке искомой величины в заданном объеме исследований.
Первое требование не всегда можно обеспечить так как эргодических
случайных описаний образов на практике не так много. Окружающий
нас мир непрерывно развивается и практически все свойства объектов
имеют определенную тенденцию изменения значений (тренд). Поэтому
наибольший вес в анализе имеют “свежие” данные.
Важной спецификой в анализе исходных данных в принятии решений
является и очень большой объем возможной информации, можно потратить жизнь изучая специфику изображений определенного класса, например, бровей на лице человека, выбирая все большее количество объектов. Это с одной стороны.
35
С другой стороны достаточно в течении нескольких часов проанализировать несколько десятков реализаций, что бы вложить стартовый материал в систему распознавания лиц форму бровных дуг в рабочий алфавит.
В развивающейся интеллектуальной системе компоненты алфавита
признаков непрерывно корректируются, при этом вес последней информации, как правило, выше веса данных более ранних.
Аппаратное вычисление параметров закона распределения, плотности
распределения одна из традиционных основных составных частей математической статистики. Специфика ПР и РО конкретизирует решение
данной задачи. При анализе статистического ряда x0 ...xi ...xn рекомендуется следующая последовательность действий:
y определение математического ожидания µ ;
y определение среднеквадратичного отклонения σ ;
y прореживание статистического ряда;
y задание метрики оси абсцисс и числа каналов;
y подсчет чисел событий попавших в каналы;
y при близости полученной гистограммы к известным законам
распределений заменяют исследуемую гистограмму известной кривой
распределения.
Отметим специфику некоторых из перечисленных операций.
При прореживании статистического ряда удаляются недостоверные
отсчеты с номером j , таких что x j − µ ≥ (3...5) ⋅ σ , на практике не редко
их не удаляют, а перемещают в ближайшую точку доверительного интервала, это позволяет сохранить метрику сетки последовательных отсчетов, что важно при проведении корреляционных, спектральных исследований.
Количество каналов анализа задается исходя из соображений по - требуемой компактности описания конкретного класса, реального объема
выборки, потерь от недостоверного определения формы функции плотности вероятности.
Вычислительная нагрузка возрастает в квадратичной степени или более резко от увеличения объема описания классов. Конкретный вид зависимости определяется сложностью алгоритмов распознавания.
Число событий попавших в канал является в каждом эксперименте
случайной величиной и величина ее доверительного интервала зависит
от числа событий принимающих участие в эксперименте, а положение
его еще и от параметров, вида функции плотности распределения вероятности исследуемого события.
36
При малом числе испытаний определение доверительного интервала
наиболее корректно через биноминальный закон распределения - закон
Пуассона.
На рис. 25, 26, 27 приведены графики плотностей распределения этого
закона для различных длин каналов анализа и различных чисел опытов.
События не зависимы.
Рис.25. Вид плотности распределения вероятности появления событий в каналепри
числе опытов 6 для длин интервалов подсчета 5 и 1
Рис.26. Вид плотности распределения вероятности появления событий в канале
при числе опытов 10 для длин интервалов подсчета 2 и 7
37
Рис.27. Вид плотности распределения вероятности появления событий в канале при
числе опытов 30 для длин интервалов подсчета 20 и 5
Исследуемый процесс подчинен равномерному закону распределения
и может принимать значения от 0 до n. Индексы при p1. Величина отношения значения индекса к n – искомая вероятность.
Во всех случаях математические ожидания, полученные в экспериментах, совпадают с искомыми. С ростом числа экспериментов дисперсии определения оценок плотности вероятности уменьшаются. Изменяется и вид кривых распределения – они становятся симметричней и приближаются по форме к нормальному распределению.
Реально при n > 10 целесообразнее в силу его простаты и распространенности пользоваться графиками нормального закона.
Центральная предельная теорема (ЦПТ) в теории оценок говорит о
том, что при большом числе случайных явлений их средние характеристики перестают зависеть от каждого отдельного явления и получают устойчивость т. е. перестают быть случайными. Пользуясь ими можно распознавать случайные явления и предсказывать поведение случайных
процессов. Для сумм случайных отсъемов, фигурирующих в оценках
функций распределения и их параметров можно записать:
n x
Y =∑ i ,
i =1 kn ⋅ ki
где i - 1...n номера отсчетов, kn , ki - нормировочный, и весовой коэффициенты учета отсчета в итоговой сумме.
∑ kn ⋅ ki = 1 .
i
Математическое ожидание и дисперсия случайной величины для независимых по ЦПТ равны:
38
µY = ∑ µ xi ⋅ (kn ⋅ ki )−1 ,
i
DY = ∑ Dxi ⋅ (kn ⋅ ki )−1 ,
i
Для µ xi = µ x = const и D xi = D x = const
kn ⋅ ki = n ,
µY = µ x ,
D
DY = x ,
n
а среднее квадратичное отклонение оценки величины Y уменьшается с
ростом n
σ
σY = x .
n
Усреднение лежит в основе подавляющего числа исследований в вообще и определения зон существования классов в пространстве признаков.
На первый взгляд различные по величине Dxi отсчеты не так уж часты. Но в практике интеллектуальных систем при самообучении новая
информация и та, что отражает накопленный опыт соседствуют рядом.
Новая информация имеет большую достоверность, чем предыдущие отсчеты того же объема. Тем не менее оценка на основании накопленного
опыта, в следствии интеграции качественно большего объема данных,
характеризуется высокой достоверностью. При этом дисперсии могут
разнятся на несколько порядков. Однако накопленный опыт не содержит
детальной предыстории. Один из простейших выходов из ситуации, но
довольно рациональный, это эволюционная корректировка данных, например, с
ki = D x−1 .
i
Изложенный подход используется при определении всех параметров
законов распределения и его вида.
При определении дисперсии уменьшают делитель на единицу, отображая тот факт, что число независимых данных при расчете дисперсии
меньше на единицу общего количества отсчетов.
∑ (xi − µ x )2
Dxo = i
.
n −1
Эта оценка не смещенная. Дисперсия оценки величины дисперсии
39
n−3
1
⋅ µ4x −
⋅ D x2 ,
n
n ⋅ (n − 1)
где µ 4 - четвертый центральный момент, зависящий от вида закона расDD x =
пределения, для нормального закона распределения µ 4 x = 3 ⋅ Dx2 и
2
DD x =
⋅ Dx2 ,
для
равномерного
µ 4 x = 1.8 ⋅ D x2
и
n −1
0.8 ⋅ n + 1.2 2
DD x =
⋅ Dx .
n ⋅ (n − 1)
Если вид закона распределения не известен то используют методику
определения величины доверительного интервала через параметры закона распределения Стьюдента. В этом случае абстрагируются от параметров закона распределения, а ориентируются только на число опытов и
заданную из вне вероятность появления события в доверительном интервале. Величина доверительного интервала тогда
∆o = t ( p, n ) ⋅ σ ,
где t ( p, n ) - коэффициент Стьюдента. Данный коэффициент находится из
одноименного закона распределения исходя из заданной величины вероятности попадания в доверительный интервал. Вид плотности распределения для числа степеней свободы n − 1
n
⎛n⎞
Γ⎜ ⎟ ⎛
2 ⎞− 2
1
t ⎟
2
⋅ ⎝ ⎠ ⋅ ⎜1 +
p(t , n ) =
,
π ⋅ (n − 1) Γ⎛ n − 1 ⎞ ⎜⎝ n − 1 ⎟⎠
⎟
⎜
⎝ 2 ⎠
где Γ( x ) - гамма функция. Интегральное распределение задает величину
доверительного интервала.
На рис. 28, 29 показано влияние заданной величины вероятности промаха от числа опытов и значения коэффициента.
40
Рис.28. Вид плотности распределения вероятности Стьюдента в зависимости от величины коэффициента и числа опытов (индекс 20 и 4)
Рис.29. Изменение участка распределения вероятности Стьюдента в зависимости от
величины коэффициента (индекс 3 и 2) и числа опытов
Графики повторно показывают практическое снижение влияния числа
опытов на вид закона распределения величины оценки доверительного
интервала при числе независимых отсчетов более 10.
Гистограмма оценивает вероятность появления события в определенной зоне пространства признаков.
x, ∆ j
∑ Ii
p∆o = i
j
41
n
,
x, ∆
где I i j - индекс появления события на участке ∆ j в отсчете i , он равен 1 при появлении события на участке и нулю если был промах. Данная оценка не смещенная. Ее дисперсия
p∆ j ⋅ 1 − p∆ j
D o =
.
p∆
n
j
(
)
Выше приведенные выражения работают строго только для независимых отсчетов, отстоящих друг от друга на расстоянии большим, чем радиус корреляции.
Корреляционный анализ случайных величин является одним из важных разделов математической статистики. Он широко используется уже
в течение многих десятилетий. Большие возможности применения корреляционных представлений в физических и технических науках открылись с возникновением корреляционного анализа случайных функций,
которое можно отнести к 1920г., когда Тэйлор ввел понятие корреляционной функции. Очень важное значение имело установление в 30-х годах
Н. Винером и А. Я. Хинчиным связи между корреляционными и спектральными характеристиками случайных процессов. Разработка теории
информации, сформировавшейся к концу 40-х годов, показала, что количество информации, заключенной в сигнале, существенно зависит от
корреляционных свойств.
Реально встречающиеся случайные функции очень часто можно считать нормальными, а каждая нормальная случайная функция может быть
полностью описана в рамках корреляционной теории. В то время и для
случайных функций, не являющихся нормальными, эта теория дает ответ
на целый ряд важных вопросов. Выделим два направления по использованию аппарата корреляционного анализа:
y применение корреляционных функций и их параметров в качестве характеристик идентифицирующих сигналы,
y применение корреляционных функций в качестве характеристик
идентифицирующих системы передачи информации.
К первому из указанных направлений можно отнести исследования, относящиеся к распространению волн, в том числе радиоволн, звуковых
волн, исследование шумов различной физической природы, статистических свойств изображений; анализ отдельных звуков речи и слогов; применение в геофизике и метеорологии; применение в биологических и медицинских исследованиях и т. д.
Во второй группе ведущее место занимает экспериментальное определение корреляционных характеристик объектов; оно позволяет выяс42
нить динамические свойства объектов по данным их нормальной работы
без применения каких-либо искусственных возмущений и играет весьма
важную роль при проектировании систем. К этой же группе относятся
корреляционные методы снижения влияния искажений, вносимых при
передаче сигнала, оценки качества переходных процессов в линейных
системах; исследования акустических характеристик помещений, измерения звукоизоляции и звукопоглощения; определения частотоконтрастных характеристик систем наблюдения.
Уже приведенный здесь беглый перечень дает представление о значении и достаточно широком распространении корреляционного анализа.
В курсе наибольшее внимание уделяется распознаванию объектов по
форме и параметрам взаимно корреляционных функций между исследуемым объектом и эталонами классов.
Величина корреляционной функции может быть представлена следующим образом:
K y, x =
∞ ∞
∫ ∫ x ⋅ y ⋅ p( y, x ) ⋅ dy ⋅ dx ,
−∞ −∞
или расширив пространство исходов временными осями процессов ( t1 ,
t 2 ) получим
K y , x,t1 ,t 2 =
∞ ∞
∫ ∫ x ⋅ y ⋅ p( y, x, t1, t2 ) ⋅ dy ⋅ dx .
−∞ −∞
Положив x = y , получим автокорреляционную функцию процесса X (t ) .
Таким образом, автокорреляционную функцию можно рассматривать как
частный вид взаимной корреляционной функции.
Автокорреляционные и корреляционные функции зависят как от степени взаимосвязанности случайных процессов, так и от дисперсии этих
процессов. Для того чтобы получить меру взаимосвязанности, абстрагированную от величин дисперсии, производят нормирование корреляционных функций. Нормированные корреляционные функции называют
коэффициентами корреляции:
K x, y , t1 , t 2
ρ x, y ,t1 ,t 2 =
.
K x,t1 K y , t 2
В практике широко используется представление описаний классов в
производных пространствах. Наиболее широко рассматриваются поиск
отличительных признаков объектов в области пространственных частот.
На рис. 30 представлены модуль частотного спектра изображения рамки
43
и на рис. 31 его сечение. Видны четко участки преобладающих частот,
которые можно использовать как признаки.
Рис. 30. Фурье образ R составляющей сегмента рамки
С учетом корреляционных соотношений и понятий верхних и нижних
частот (временных для случайных процессов, пространственных для
объектов в 3 мерном пространстве) уточним понятия оценки дисперсии
параметров случайной величины.
Рис. 31. Сечение Фурье образа R составляющей сегмента рамки
44
Для оценки математического ожидания, получаемой накоплением
данных за временной интервал 0...T
T
2 ⎛ Q⎞
Dµ = ⋅ ∫ ⎜1 − ⎟ ⋅ K (Q ) ⋅ dQ .
T ⎝ T⎠
o
0
Здесь связь с корреляционной функцией. Довольно часто
−α τ
K (τ ) = C ⋅ e
⋅ cos(β ⋅ τ ) ,
где C , α , β параметры характеризующие размах, скорость спада частоту колебаний корреляционной функции.
Для вычисления K (τ ) с погрешностью менее 5% от K (0 ) необходимо
интегрировать данные не менее
⎛
1⎞
α
+ ⎟.
T ≥ 20 ⋅ ⎜
⎜α 2 + β 2 α ⎟
⎝
⎠
π −1
Например: при α =0,2 c −1 , β =
c
T ≥ 102 с.
2
Реально данные поступают дискретно с интервалом ∆ (во времени, в
геометрическом пространстве и т. п.)
K (µ ⋅ ∆ ) =
1
⋅ ∑ x(ν ⋅ ∆ ) ⋅ x[(ν + µ ) ⋅ ∆ ] ,
N
где ν =1, 2, ... и µ =1, 2, ... слагаемые номера отсчета.
Для 2% точности вычисления корреляционной функции необходимо
1
1
1
∆≤
, часто выбирают ∆ ≤
, или ∆ ≤
,
20 ⋅ f max
10 ⋅ f max
5 ⋅ f max
где f max - максимальная частота важная для анализа и учета.
2.4. Распознавание в математической статистике
Два раздела математической статистики тесно связаны с процедурой
распознавания:
y определения вида и параметров функциональной зависимости между
случайными событиями и их сочетаниями;
y проверка статистических гипотез, в ходе которой выбирается вид закона распределения наиболее подходящий для описания исследуемого
события, определяются его параметры и устанавливается степень согласия принятых решений с реальным объектом.
Статической называют зависимость, при которой изменение одной из
величин влечет изменение распределения другой. В частности, статисти45
ческая зависимость появляется в том, что при изменении одной из величин изменяется среднее значение другой; в этом случае статическую зависимость называют корреляционной.
Зависимость между двумя и более случайными событиями из множеств Y , X можно представить в общем виде
Y = ϕ ( X , A) ,
где A - множество параметров a j ∈ A .
Рассмотрим простейший случай. Пусть реальные отсчеты в i - том
эксперименте порождают наборы результатов yi и xi ( i = 1...n ), между
которыми предполагается наличие связи yi = ϕ ( xi , A) .
Будем искать такие a j , которые минимизируют функционалы отклонений (ошибок) предсказания величины yi по значениям xi .
В качестве рабочего функционала ошибки примем сумму квадратов
отклонений
∑ [ yi − ϕ (xi , A)]2 → min .
i
Будем искать решение в точках экстремума для чего дифференцируем
выражение по компонентам вектора A .
∂ϕ
= 0,
∑ [ yi − ϕ (xi , A)] ⋅ ∂a
ν x= x
i
i
где ν =1... m .
Это m нелинейных уравнений и в общем случае они аналитически не
решаются.
Для поиска линейной зависимости между двумя величинами решение
существует.
y = a1 ⋅ x + a2 ,
∂ϕ
= xi ,
∂a1 x = x
i
∂ϕ
= 1,
∂a2 x = x
i
∑ [ yi − (a1 ⋅ xi + a2 )] ⋅ xi = 0 ,
i
∑ [ yi − (a1 ⋅ xi + a2 )] = 0 .
i
Решая систему уравнений находим
46
n −1 ⋅ ∑ xi ⋅ yi − µ oy ⋅ µ xo
a1 =
n
i
−1
⋅∑
xi2 −
( )
2
µ xo
,
i
a2 = µ oy − a1 ⋅ µ xo ,
где µ o - оценки математических ожиданий.
Задавая исходный участок по x не большим по размеру и расширяя
его с проверкой постоянства параметров A (через их положение в доверительном интервале оценок) можно получить кусочно-линейную оценку функциональной зависимости для большинства случаев анализа компонентов пространства признаков. При нарушении постоянства A (при
выходе за пределы доверительного интервала) вводится новый участок.
Реально аналитические выражения существуют и для квадратичного
вида зависимости.
Проверка статистических гипотез предполагает оценку вероятности и
достоверности принадлежности закона распределения рассматриваемой
случайной величины одному из известных. При этом такие понятия, как
доверительный интервал оценки плотности распределения вероятности
по полученной гистограмме работает и в этом случае.
Совокупность известных и включенных в описание гистограмм составляют набор классов.
Проведенные исследования добавляют в рассмотрение новую гистограмму, которая может быть отнесена к известному классу.
Такой подход стандартен в составление описания классов, т. е. часть
описания класса может быть заменена ссылкой - именным индексом на
известные описания свойств одного из классов.
Для примера воспользуемся генератором случайных чисел и сгенерируем вектор из 1000 чисел. Найдем разницу в оценке гистограммы реализации px j (рис. 32) и теоретического распределения p j
(рис. 33).
47
Рис. 32. Нормированная гистограмма Рис. 33. Плотность распределения с павектора из 1000 чисел, распределенных раметрами исследуемого вектора
по нормальному закону
Рис. 34. Погрешность отнесения гистограммы реального вектора к теоретическому
закону
График разности приведен на рис. 34. Вычислим интегральную оценку ошибки по формуле
d=
∑ ( p j − px j )2 .
j
Расчетная величина d = 0,03.
Из приведенного примера можно сделать вывод о том, что реальная
погрешность представления гистограммы случайного вектора чисел теоретической гистограммой или одной из известных всегда будет иметь
место.
48
Методика определения подходит или нет один из имеющихся в базе
данных классов гистограмм для исследуемого класса может быть представлена последовательностью следующих шагов:
1. Вычисляем нормированную гистограмму исследуемого вектора данных (нормировка заключается в делении чисел в каналах на общее число
учтенных реализаций).
2. Генерируем известные графики распределений.
3. Определяем разность между гистограммой исследуемого вектора и известными.
4. Определяем метрику риска или потери полезности и вычисляем интегральный параметр ошибки.
5. По min (где - k индекс класса) данного параметра выбираем искомый
k
класс k .
6. Проверяем на допустимость ошибки, если ошибка не допустима формируем описание исследуемого класса с новой формой функции распределения, внося ее в базу данных распределений.
Если ошибка допустима проверяем гипотезу статистической достоверности принадлежности реализации случайной величины к известным
по форме и параметрам законам распределения.
Для проверки формы функции обычно используют критерии согласия
Пирсона или Колмогорова. Проверка гипотез о значении параметра
функции распределения заслуживает в нашей теме более детального рассмотрения.
Для простоты, задачу о параметре a функции распределения f a ( x )
n - мерной случайной величины x ( x1...xn ) рассмотрим, как проверку
двух гипотез H 0 и H1 .
При этом H = H 0 (a = a0 ) и H = H1 (a = a1 ) .
Все пространство исходов разбивается на две не пересекающиеся области E0 , E1 , в которых наиболее целесообразны решения a = a0 (E0 )
и a = a1 (E1 ). Пространство решений полное т. е. H 0 = H1 .
При распознавании образов под искомым параметром понимается, как
правило, физическая величина, например, выход изделия в брак, наличие
или отсутствие примеси, сигнал или шум в локации и т. д.
Отношение правдоподобия или коэффициент правдоподобия определяется по формуле
f a ( x1,...xn )
,
Ln ( x1,...xn ) = 1
f a0 ( x1 ,...xn )
49
где f a j ( x1,...xn ) вероятность того, что при конкретной реализации
x1,...xn имеет место событие a j .
Вывод о событии a1 делается если Ln ≥ C , где C - порог принятия
решения.
Реально величина порога зависит от многих факторов и прежде всего
от допустимой вероятности принятия не правильного решения.
Ошибка первого рода - принимается решение a1 , а это a0 , обозначим
вероятность такого решения .
Ошибка второго рода - принимается решение a0 , а это a1 , обозначим
вероятность такого решения β .
Часто данные ошибки имеют символьное описание, например в локации пропуск цели, ложная тревога или в промышленности риск изготовителя (отбраковано хорошее изделие), риск потребителя (получен брак).
Очевидно продолжение испытаний (рост n ) приводит при слабо коррелированных xi к понижению α и β . Т. е. порог принятия решения в
общем случае является функцией платы за ошибочные решения, допустимой вероятности ошибки первого или второго рода и числа испытаний
C (α , n ) , C (β , n ) , C (α , β ) . Задание такого порога при ограничении на
α или β позволяет минимизировать n . При заданном n минимизировать β или α .
Для однородной независимой выборки введя логарифмирование получим логарифм коэффициента правдоподобия ln , который также широко используется на практике, получив название "различимости" a1 , a2
в точке x1,...xn .
n
] [
{[
]}
ln = ln Ln = ∑ ln f a1 ( xi ) − ln f a0 ( xi )
i =1
.
В теории распознавания образов часто используют понятие случайной
смеси. При этом параметрическое пространство A представляется конечным числом точек a1 ,... am с заданной вероятность появления P a j .
( )
Для вектора можно вычислить конечную смесь
H (x ) = ∑ f a j (x ) ⋅ P a j .
( )
j
В этой трактовке классы определяются как индексы тех параметрических векторов, которые имеют не нулевые смеси.
50
2.5. Риск и его описание
В структуру основных математических конструкций ТПР и ТРО входит матрица последствий принятия решений.
В ТРО наиболее распространена, как правило, квадратная матрица,
строки и столбцы которой представляют распознаваемые классы. В таблице 4 представлена квадратная матрица состоящая из n столбцов и n
строк.
Строки показывают ситуации, которые могут возникнуть при распознавании неизвестного объекта, например объекта с номером i .
Столбцы показывают последствия решений ei,j при наличии (предъявлении) образа из j -го класса, а распознавании его как образа из i -го
класса.
Предъявлен/
Распознан
Образ 1
...
Образ i
...
Образ n
Таблица 4
...
Образ j
...
Образ n
e1,1
...
e1,j
...
e1,n
...
...
...
...
...
...
...
Образ 1
ei,1
...
en,1
ei,j
...
...
...
en , j
...
...
ei,n
...
en , n
В ТПР данная матрица как правило не симметрична (таблица 5).
Строки отражают последствия конкретного решения (1... n ), столбцы выделяют ситуации в которых осуществляется принятое решение (1... m ).
Под ситуацией часто понимается внешняя обстановка, например, характер и объем решаемых задач, которые могут возникнуть при функционировании компьютерной системы, решения по типу конфигурации которой принимается.
Ситуация/
Решение
Решение 1
Ситуация 1
...
e1,1
...
...
Решение i
...
...
...
...
Решение n
ei,1
...
en,1
Таблица 5
Ситуация j
...
Ситуация m
e1,j
...
e1,m
...
...
...
...
ei,j
...
...
...
en , j
51
...
...
ei,m
...
en , m
Для конкретной области применения ei,j часто называют полезностью
решения т. е. предполагается то, что данная величина положительна. В
заранее убыточных задачах матрица заполняется величинами платы за
принимаемые решения. Реально ei,j - вектор, нередко объединяющий
оценки разнородных величин, например, потери мощности, стоимость,
безопасность в эксплуатации, габариты в задачах проектирования систем
электропитания. Если компоненты вектора ei,j нельзя привести к одному
знаменателю, например, денежному эквиваленту, то такие задачи относят к многокритериальным.
Отдельный разговор о метрике компонентов ei,j , не редко на практике
существует нелинейность в оценке платы за неправильные решения и
отдельные потери не допустимы, тогда говорят о границах приемлемости
существования ошибки. Например, перегрев процессора без системы защиты, приводящий к его разрушению, не допускается.
При распознавании образов правильное решение для всех образов в
большинстве случаев оценивается одинаково. ei,i = const . Тогда целесообразно перестроить матрицу полезности, превратив ее в матрицу рисков от принятия не правильных решений.
В ТПР возможна также подобная процедура, но за желаемый результат принимается выигрыш или минимальные потери при оптимальном
решении. Вычисление величины риска для квадратной матрицы выполняется по формуле
ri, j = ei, j − ei,i .
Результаты представлены в таблице 6. Квадратная матрица в этом
случае имеет нулевые диагональные элементы.
Таблица 6
...
Образ j
...
Образ n
0
...
r1,j
...
r1,n
...
Образ i
...
ri,1
...
...
...
ri,j
...
...
...
ri,n
...
Образ n
...
rn,1
...
...
...
rn, j
...
...
...
0
Предъявлен/
Распознан
Образ 1
Образ 1
В конечном итоге формируется некоторый алгоритм распознавания.
Его эффективность в значительной степени зависит от интегральной величины среднего риска при выбранной стратегии. По строкам можно оп52
ределить усредненный риск от принятия решения с индексом i , который
не зависит от стратегии.
rµi = ∑ ri, j ⋅ p j ,
j
где p j вероятность появления образа j - го типа.
Учет стратегии заключается в ведении коэффициента pki j , который
имеет смысл вероятности оценки объекта j , как i в стратегии k .
Тогда для стратегии k средний риск при принятии i - го решения
rkµi = ∑ ri, j ⋅ p j ⋅ pki j .
j
Наряду со средней величиной риска при решении i используют понятие максимального риска. Учитывая отрицательный характер величины
ri, j получим
( ).
r max i = min ri, j
j
Эта величина не зависит от стратегии и часто используется, как опорная, показывающая наибольший риск от принятия решения i , его опасность.
Средний риск принятия решения при стратегии k
rk = ∑ rkµi .
i
В системах с противодействием матрица потерь немного изменяется.
В качестве опорной ситуации ищется наилучшее решение противника.
Тогда матрица, например, платежей ai, j принимает вид расплаты в случае применения противником решения j и нами решения i .
По минимаксному критерию ищется решение, которое обеспечивает
наибольший выигрыш в наихудших условиях.
По Бейесу ищется решение минимизирующее средний риск.
По Нейману – Пирсону - решение дающее максимальную величину
условной вероятности правильного обнаружения при заданной величине
ложной тревоги.
Таким образом работа с матрицей рисков – итоговая процедура распознавания образов, принятия решений. Анализ ситуации, формирование
описаний классов подготавливает условия корректного решения этой
процедуры. Сказанное не снимает целесообразности запуска итерационного процесса (подготовки описания ситуаций, дополнительных измерений и т. д.), если прогнозируемый риск выше допустимого или желательного.
53
Теория полезности изучает предпочтения в среде последствий решений. При этом считается то, что каждое решение порождает вектор или
матрицу полезности ui, j ∈ U учитывающую интересы всех агентов (инвесторы, работники и т. п.). Считается что решение i1 предпочтительнее
или эквивалентно решению i 2 , если полезность ui1, j f ui 2, j для всех j .
В матрице рисков для отдельных задач учитывается и вероятность появления придельных последствий, таких как смерть человека.
При принятии решений она должна быть ниже, чем вероятность летального исхода указанная в шкале профессионального риска.
Например:
y Горные работы
3 ⋅10 − 7 чел/час;
y Металлургическая промышленность
0,6 ⋅10 − 7 чел/час;
y Транспортные работы
-
y Работа с электричеством
3. Распознавание образов
54
10 ⋅10 − 7 чел/час;
51 ⋅10 − 7 чел/час.
Распознавание образов является сегодня и наукой и искусством. Наука ограничена наличием нескольких методик, имеющих относительно
небольшое использование на практике. Но практическое использование
реальных систем формирует тот экспериментальный материал, который
неизбежно приведет к формированию фундаментальных основ данной
науки.
Эталоном системы распознавания образов до настоящего времени является система восприятия человека (если абстрагироваться от быстродействия).
Обычно целью конструирования систем является оптимизация ее
функционирования над выборочным набором образов.
Проверка реальности того, что задача может быть решена: это действия системы анализа образов человека.
Логично искать принципы построения системы в аналогах к биологических моделей и попытаться определить, каким образом они функционируют так хорошо. Очевидно, что это трудно сделать по нескольким
причинам. Сверхвысокая сложность человеческого мозга затрудняет понимание принципов его функционирования.
Трудно понять общие принципы функционирования и взаимодействия его приблизительно 1011 нейронов и 1014 синоптических связей.
Кроме того, существует множество проблем при проведении экспериментальных исследований.
Микроскопические исследования требуют тщательно подготовленных
образцов (заморозка, срезы, окраска) для получения маленького двумерного взгляда на большую трехмерную структуру.
Техника микропроб позволяет провести исследования внутренней
электрохимии узлов, однако трудно контролировать одновременно
большое количество узлов и наблюдать их взаимодействие.
Наконец, этические соображения запрещают многие важные эксперименты, которые могут быть выполнены только на людях. Большое значение имели эксперименты над животными, однако животные не обладают способностями человека описывать свои впечатления.
В общей схеме распознавания образов и принятия решений (рис. 35)
преобладающей по трудовым затратам является операция преобразования пространства наблюдений с целью получения компактного описания
объектов в пространстве признаков.
Системы распознавания объектов – сложные динамические системы с
элементами искусственного интеллекта. Эти системы могут включать и
подготовленных специалистов, экспертов т. е. быть комплексными чело55
веко-машинными системами. Сегодня они в основном специализированны.
Рис.35. Обобщенная схема принятия решений при распознавании образов
В процессе разработки таких систем формируются описания физикоматематических, химических, биологических, социальных моделей характеризующих объекты исследования.
В них должны отображаться только те признаки, значения которых
можно измерить, или получить в процессе последующего общения с
объектом распознавания.
Признаки могут быть детерминированные, вероятностные, логические и структурные.
Для формирования зон существования признаков, характеристики и
параметры которых носят случайный характер, используют методы математической статистики.
Наиболее часто - это определение законов распределения и их параметров по имеющимся выборкам.
По результатам наблюдений проявлений признаков в различных реализациях распознаваемых объектов, ситуаций формируется статистическая гипотеза о виде и параметрах закона распределения.
Однако основную часть алфавита признаков, как правило, составляет
множество детерминированных параметров и характеристик распознаваемых классов.
3.1 Классификация систем распознавания образов
Классификация систем распознавания образов позволяет понять
взаимосвязи в таких системах и решать задачу выбора признаков (процесс эвристический).
Классификация также способствует планированию использования как
априорной информации (описание классов), так и апостериорных данных
(измерения по данному неизвестному подлежащему классификации объекту).
Классификация - это распределение предметов, явлений по классам в
зависимости от их общих свойств. В основе классификации лежат определенные принципы.
56
Для классификации систем распознавания можно использовать следующие признаки:
1. Однородность информации для описания распознаваемых объектов
или явлений.
2. Способ получения апостериорной информации.
3. Количество первоначальной априорной информации.
4. Характер информации о признаках распознавания.
1. Однородность информации. Здесь под однородностью следует понимать - различную или единую физическую природу информации (признаков).
По этому принципу системы распознавания образов делятся на простые и сложные.
Простые системы распознавания характеризуются единой физической природой признаков. Например, только масса — для систем распознавания жетонов, монет в автоматах таких, как междугородный телефон, турникет метро; геометрические размеры - для таких систем распознавания, как всякого рода замки.
Сложные системы распознавания характеризуются физической неоднородностью признаков.
2. Способ получения апостериорной информации. По этому принципу
сложные системы распознавания делятся на одноуровневые и многоуровневые.
Многоуровневые сложные системы распознавания отличаются от одноуровневых тем, что не все признаки от разнородных физических измерителей используются непосредственно для решения задачи распознавания.
Здесь на основе объединения признаков нескольких измерителей и
соответствующей обработки могут быть получены вторичные признаки,
которые могут как использоваться в следующей ступени, так и сами в
свою очередь служить основой для объединения. То есть, получаем 2-й,
3-й и др. уровни признаков, определяющие иерархичность системы распознавания. Причем подсистемы, которые осуществляют объединение
признаков, в свою очередь могут представлять собой также устройства
распознавания (локальные системы распознавания ).
Таким образом:
57
y в одноуровневых СР информация о признаках распознаваемого объекта (апостериорная информация) формируется непосредственно на основе обработки прямых измерений;
y в многоуровневых СР информация о признаках формируется на основе косвенных измерений как результат функционирования вспомогательных распознающих устройств (например, при измерении дальности
радиолокатором по времени задержки излученного импульса).
3. Количество первоначальной априорной информации.
Здесь вопрос касается того, достаточно или недостаточно априорной
информации для определения априорного алфавита классов, построения
априорного словаря признаков и описания каждого класса на языке этих
признаков в результате непосредственной обработки исходных данных.
Соответственно этому системы распознавания делятся на системы без
обучения, обучающиеся (ОСР) и самообучающиеся системы (ССР).
Конечно многоуровневые сложные системы распознавания однозначно нельзя разделить на указанные классы, так как каждая из локальных
систем распознавания, входящих в их состав, сама может представлять
как систему без обучения, так и систему обучающуюся или самообучающуюся.
Для построения системы без обучения необходимо располагать полной первоначальной априорной информацией.
Для обучающихся систем нужно иметь дело с ситуацией, когда априорной информации не хватает для описания распознаваемых классов на
языке признаков . (Возможны случаи, когда информации хватает, однако
делать упомянутое описание нецелесообразно или трудно).
Исходная информация для обучающихся систем распознавания (ОСР)
представляется в виде набора объектов w1, w2,...,wl, распределенных по
m классам:
(w1 ,w2 ,...,wr )
W1
(w r+1 ,w r+2 ,...,wq ) W2
..................
(wg+1 ,wg+2 ,...,wl )
Wm
Простейшая цель обучения заключаются для ОСР в определении разделяющих функций
Fi(X1 ,X2 ,.....,Xn),
где i = 1,2,....,m (номер класса).
Определение этой функции осуществляется путем многократного
предъявления системе указанных объектов (из набора w1,w2,....,wl ) с
указанием, какому классу они принадлежат.
58
То есть, на стадии формирования ОСР работают с “учителем”, осуществляющим указание о принадлежности предъявленного для обучения
объекта. И прежде, чем система будет применяться, должен пройти этап
обучения.
В отличии от систем без обучения и систем, обучающихся с учителем,
для самообучающихся систем характерна недостаточность информации
для формирования не только описаний классов, но даже алфавита классов. То есть, определен только словарь признаков распознавания.
Однако для организации процесса обучения задается все-таки некоторый набор правил, в соответствии с которым система сама вырабатывает классификацию.
Для ССР также, как для ОСР существует период обучения, характерно наличие периода самообучения, когда ей предъявляются объекты
обучающей последовательности. Только при этом не указывается принадлежность их к каким-либо классам.
Системы распознавания по характеру информации
Детерминированные
Таблица 7
Характерные особенности
метод решения задачи распометод априорного описания классов
знавания
использование геометрических
мер близости
координаты векторов-эталонов по
каждому из классов или координаты
всех объектов, принадлежащих
классам
вероятностные зависимости между
признаками и классами
Вероятностные
вероятностный, основанный на
вероятностной мере близости
Логические
логический, основанный на
дискретном анализе и исчислении высказываний
логические связи, выражаемые через
систему булевых уравнений, где
признаки - переменные, классы - неизвестные величины
Структурные
грамматический разбор предложения, описывающего объект
на языке непроизводных структурных элементов с целью определения его правильности
специальные методы вычисления оценок
подмножества предложений, описывающих объекты каждого класса
Комбинированные
59
табличный, предполагающий использование таблиц, содержащих
классифицированные объекты и их
признаки (детерминированные, вероятностные, логические)
Завершая рассмотрение классификации СР по количеству первоначальной априорной информации, заметим, что СР, в которых недостаточно информации для назначения словаря признаков, не существует.
Без этого не создается никакая система.
4. Характер информации о признаках распознавания.
В соответствии с ее отличительными особенностями задач создания
системы распознавания можно подразделить на детерминированные, вероятностные, логические, структурные (лингвистические), комбинированные.
Отметим характерные особенности этих систем, а именно: метод решения задачи распознавания и метод априорного описания классов.
Характеристики систем по данному признаку классификации приведены
в таблице 7.
3.2. Алфавит признаков, его компоновка и минимизация
Методика формирования компактного алфавита признаков
Признаки как правило выбираются итерационной процедурой, исходя
из априорных сведений об объектах, фоне, и результатах сравнения перекрытий описаний классов. Сравнение проводится при отсутствии корреляции между признаками на числовой оси признака, или в комплексном гиперпространстве коррелированных признаков.
Понижение размерности исследуемого пространства признаков классическая задача в теории распознавания образов. В технических приложениях ее сводят к задаче построения преобразующего фильтра, выходной вектор сигнала которого имеет заметно меньшую размерность, чем
входной вектор. Классификация в пространстве меньшей размерности
выполняется быстрее и проще.
В технике наиболее распространенным принципом понижения размерности является преобразование исследуемого пространства в пространство базисных функций (тригонометрических, экспоненциальных, δ
- функций). Выбор типа базисных функций базируется на понятии расстояния между различаемыми классами в новых пространствах. Важную
роль играют априорные сведения об исследуемых объектах и их образах.
При достаточном объеме данных можно решать задачу так, чтобы, сохранив вероятность правильного принятия решения о принадлежности
объекта к собственному классу, получить новое описание в базисных
функциях минимального размера.
60
Практически правило сжатия гиперпространства базисных функций,
содержащего образ исходного вектора, может быть сформулировано для
случая непересекающихся классов следующим образом:
y сжатие допустимо до тех пор, пока не пересекутся крайние точки доверительных интервалов классов дополненные доверительными зонами
крайних объектов в соседних классах (рис. 36).
Рис.36. Сжатие описаний пространства признаков до соприкосновения доверительных интервалов границ классов (А и В)
В исходном описании изображений первой процедурой является процедура укрупнения пикселя.
Укрупнение пикселя - это расчет интегрального значения интенсивности для новой точки по ее окрестности с учетом вида передаточной
функции системы. Критерием допустимости задаваемого коэффициента
сжатия является сохранение возможности распознавания объектов. Операция укрупнения пикселя проводится через сегментацию и идентификацию миниобъектов внутри сегмента (например, при распознавании
чертежей не уничтожаются последние пиксели линий).
На рис. 37 приведены графики сигналов до GQ1 (пунктир) и после
GQ (сплошная) укрупнения. Сигнал GQ1 поднят на 200 единиц для лучшего различия. Из графиков видно то, что два объекта после сжатия сохранили свойство обнаружения.
61
Рис.37. Сигналы от объектов до и после сжатия
Следующей процедурой идет уменьшение размерности описания пикселя. Обычно исходное описание в 3-х цветной модели имеет размер 24,
30, 48 бит в зависимости от разрядности систем оцифровки аналоговых
сигналов.
Уменьшение разрядности линейным, нелинейным масштабированием
сигналов цвета или адаптивным выбором цветов, сохраняющих межклассовую специфику объектов, позволяет снизить объем описания пикселя в несколько раз.
Как правило при перекодировке учитывается частота появления цветов о объектов исследуемого класса.
Перекодировка обычно выполняется табличным преобразованием,
при котором исходные компоненты описания пикселя является смещениями для таблиц перекодировки.
Интегрально таблицы преобразований выглядят как новые цветовые
палитры.
Предельным вариантом сжатия является бинаризация описания, т.е.
представление яркости и цвета пикселя нулем или единицей. Выбор порога в бинаризации достаточно сложная процедура. В простейшем случае величина порога задается фиксированной по всему полю изображения.
Например: если W - исходное изображение , w - бинаризованное изображение, y, x - координаты бинаризуемый точки, xs, ys - размеры сег62
мента, hx, hy - шаг смешения сегмента, nx - число сегментов по x, то правило бинаризации можно записать следующим выражением:
⎛
⎞
⎜
⎟
w y ,x = if ⎜W y ,x ≤ m
,
0
,
255
⎟,
⎛ y − ys ⎞
⎛ x − xs ⎞
floor
floor
+
⋅
nx
⎜
⎟
⎜
⎟
⎜
⎟
⎜ hy ⎟
⎝ hx ⎠
⎝
⎠
⎝
⎠
где m j среднее, медиана или мода j - го сегмента.
3.3. Распознавание объектов по геометрическим параметрам
Идентификация объектов по их геометрическим параметрам (размерам, форме, положению) широко используется во многих отраслях
техники, в медицине, криминалистике и т.п. Многообразие объектов и
специфика их применения порождают и множество алгоритмов их распознавания. Примером может служить обработка сигналов в стереодальномере.
Рис.38. Сигнал в стереоскопическом дальномере
На рис.38 приведены сигналы с фотоприемника на который проецируются изображения с двух разнесенных в пространстве каналов наблюдения.
Вначале производится обнаружение объектов. Результатом выполнения данной процедуры будет координата ~ 5000 мкм, которая указывает
63
на положение двух объектов, расстояние до которых необходимо определить.
Далее формируется описание объектов в пространстве их яркостных и
геометрических параметров (линейных размеров).
По данным признакам ищутся схожие объекты схожих объектов в зоне левого канала.
После обнаружения определяются координата схожих объектов в зоне
левого канала наблюдения ( ~ 23000 мкм).
Разность найденных координат в первом приближении пропорциональна искомому расстоянию до объекта.
Вторая задача – идентификация стволов нарезного оружия по следам
на пулях.
Рис. 39 показывает трассы сканирования оболочки пули и полученные
профилограммы. Сравнение с эталоном конкретного ствола, хранящегося в пулегильзотеке дает оценку степени схожести..
Рис. 39. Трассы сканирования оболочки пули и профилограммы
В ходе съема профилограмм возникают промежуточные задачи распознавания геометрических образов и их параметров. Например, влияние
эксцентриситета установки пуль приводит к искажению получаемых результатов. На рис. 40 и 41 приведены исходный и выходной сигнал опе-
64
рации определения распознавания эксцентриситета и определения его
параметров – фазы и максимальной величины смещения.
Рис. 40. Профилограмма с эксцентриситетом
Рис. 41. Профилограмма после устранения эксцентриситета
Полученные данные могут поступать на финишную обработку, которая может проводится и в полярной системе координат (рис. 42).
65
Рис. 42. Сравниваемые профилограммы в полярной системе координат
Во втором примере вычисляется несколько сотен размерных признаков, которые служат для распознавания объектов.
Реальные схожие задачи в микроэлектроники распознавание дефектов топологии технологических компонентов (фотошаблонов, масок и
т.п.), а также самих изделий (металлические проводники, слои СБИС и т.
п.). Трехмерные объекты также часто распознаются по двумерным изображениям. Определение качества паянных соединений, например, контактных площадок, пропайка выводов микросхем проводится по девиации яркости, зависящей от формы фрагментов застывших волн припоя.
В физическом эксперименте следы частиц позволяют определить параметры источника. В многих случаях контур объекта должен принадлежать некоторой заданной зоне, это характерно для биологических, медицинских и отдельных технических задач. В криминалистике поиск
объектов проводится нередко по сходству геометрии линий.
Исходной операцией процедуры распознавания во всех указанных
случаях является определение геометрических параметров объектов.
Рассмотрим две группы алгоритмов, часто применяемых на практике:
- упрощенные с определением искомых параметров при погрешностях
сравнимых или больших, чем эквивалентный размер пикселя;
66
- точные с интегрирующими цифровыми фильтрами и аппроксимацией
результата с разрешением в десятые и сотые доли эквивалентного размера пикселя.
Упрощенное определение геометрических параметров широко используется в системах обнаружения, как первая процедура при локализации объектов. Полное решение задачи распознавания, как правило содержит много процедур, в дальнейшем часть из них будем опускать, останавливаясь только на ключевых.
Определение положения границ объекта по переходам свет/тень.
Часто данная операция проходит путем сравнения с порогом фиксированным или адаптивно перестраиваемым по форме сигнала в зоне фронта.
В таких алгоритмах эффективно применяется операция укрупнения
пикселя. Это позволяет увеличить соотношение сигнал/шум и надежнее
распознать объекты по энергии сигнала. Размеры укрупненного пикселя
принимаются равными размерам искомого объекта.
Корректное выполнение операций поиска координат требует проведения низкочастотной фильтрации изменений среднего в сегменте для
устранения тренда в сигнале, обусловленного конкретным положением
источника света.
Точное определение геометрических параметров производится с изображениями максимального разрешения. Снижение вычислительной нагрузки обеспечивается ориентацией зональной обработки на координаты
объекта, полученные при грубой локации.
Поясним последовательность и специфику операций на примере.
Пусть требуется определить координату по строке и размер объекта приведенного на рис. 38.
Сформируем пороговой обработкой адаптивный фильтр – рис. 43.
Вычислим свертку сигнала с правой частью фильтра. Результат вычислений приведен на рис. 44. Отчетливо виден пик сигнала, по его положению несложно оценить координату объекта (4214 мкм). Это и есть
грубо вычисленная координата. Ее дискретность – 14 мкм (шаг элементов фотоприемной матрицы).
67
Рис. 43. Цифровой фильтр селекции сигналов
Рис. 44. Отклик на интегрирующий поисковый фильтр
Как видно из графиков (рис. 38 и рис. 44) улучшилось соотношение
сигнал /шум. Оценить улучшение количественно можно оценив шум вне
зоны сигнала и размах сигнала.
⎛ r − r _ mean ⎞
si = 20 ⋅ log⎜⎜ a ,b
,10 ⎟⎟ ,
r
stdev
_
⎠
⎝
68
где si – соотношение сигнал/шум в децибелах для исходного и отфильтрованного сигналов , точка b – положение максимума сигнала, r_mean,
r_stdev – оценки среднего и среднеквадратичного отклонения на участке
предшествующем сигналу. Расчеты показали увеличение si после фильтрации практически на 8 децибел.
Для более точного расчета изменяют форму фильтра. Как правило
используют приближение от первой производной искомого сигнала.
Формулу свертки оставляют прежней.
Новый фильтр помещают в зону грубой координаты сместив его на
границу доверительного интервала локализации сигнала и проходят расстояние равное удвоенной величине возможной ошибки.
Для определения размера приближают форму фильтра к форме второй производной от фронта сигнала.
Рассмотренные фильтры являются квазиоптимальными для линейных
алгоритмов определения координат, размеров объектов, т. е. они по форме только близки к оптимальным.
Более корректное решение предполагает распознавание формы сигнала, оценку его параметров, генерацию эталонного сигнала полученной
формы, получение разностного сигнала при смещении эталонного вдоль
распознаваемого и определение положения эталонного, при котором минимизируются штрафы за не точную оценку координаты, размера.
Обычно для количественных расчетов в этих случаях используются корреляционные соотношения.
По сути, процедура решения задач распознавания объекта часто подобна раскрытию матрешки. Определившись с одним объектом для распознавания, обнаруживаете задачу распознавания его компонентов и т. д.
Описав геометрию объекта, необходимо распознать форму границы объекта, решить вопрос с определением понятия “положение границы объекта”, составить описания классов помех во всех случаях и т. п. распознать границу, определить грубо ее положение и уточнить координаты.
Наряду с анализом признаков одиночных объектов, не редко требуется определить геометрические признаки и для групповых объектов. К
ним относятся средние величины расстояний, средние размеры объектов,
входящих в группу.
Рассмотрим пример расчета геометрических характеристик изображения текста. Определим величину межстрочечного интервала и координаты центров строк.
69
Рис. 45. Изображение анализируемого текста
Рис. 46. Интегральный сигнал
Рис. 47. Частотный спектр интегрального сигнала
На рис. 45 представлено изображение текста. Как уже указывалось,
возможность распознавания можно улучшить, интегрируя участки изображения, в данном случае в направлении перпендикулярном направлению анализа. Вычислим интегральный сигнал Y 2 y = ∑ Y y , x , он также
x
приведен на рис. 46. На данном сигнале отчетливо видно хорошее различие заполненных черными точками текста участков.
Переходя в частотное пространство определим величину интервала между строками. Уменьшим размер вектора до 64 (кратно 2 в степени n), и
вычислим модуль F2 частотного спектра сигнала
Y 2 f j1 = Y 2s j1 − mean(Y 2s ) ,
где Y 2 s j1 = Y 2 j1 .
F 2 k = F1k ,
70
где F1 = fft (Y 2 f ) - Фурье образ Y2f, а k=0..c и c = last ( F1) - индекс последнего элемента вектора (рис. 47).
Интервал между строками в пикселях - h равен:
⎡ 2⋅c
⎤
+ 0.5⎥ ,
h = floor ⎢
⎣ max ( f 2 )
⎦
где f 2 k = if (F 2 k ≠ max( F 2),0, k ) - массив нулей с координатой максимума частотного спектра. В нашем случае h=13.
3.4. Распознавание объектов по цвету
Понятие цвета связано с селекцией наблюдаемого излучения в определенном достаточно локальном диапазоне длин волн или наборе поддиапазонов. Цветовая компонента может удерживать информацию о
энергии излучения
λ2
G (λ ) ⋅ W j (λ ) ⋅∂λ ,
λ1 i
Vi = ∫
где i – номер компонента (от 1 до N),
G i ( λ ) – спектральная чувствительность i – канала,
W j ( λ ) - спектральная плотность потока от j – го объекта попавшая в i –
канал,
λ – длина волны оптического излучения,
λ1 ... λ 2 – рабочий диапазон длин волн.
При отказе от информации о общем уровне энергии переходят в пространство цветов. Это понижает размерность исходного пространства на
единицу и облегчает процедуру распознавания, если распознавание ведется только по цветовым признакам.
Сформируем нормированные, не зависящие от общего уровня сигнала цветовые составляющие:
v i = Vi
N
∑V
i =1
i
.
Величина N определяет размерность цветового пространства R N до
N
нормировки или R N −1 после нормировки ( ∑ v i = 1 ). Часто говорят N –
i =1
компонентном цветовом пространстве.
Очень распространена трехцветная модель RGB в видимом диапазоне
длин волн оптического излучения. Она отображает чувствительность рецепторов глаза человека.
Для данного диапазона создана недорогая аппаратура считывания и
генерации изображений, разработаны стандарты описаний файлов и име71
ется множество графических программных продуктов для работы с ними. Как правило информационное наполнение изображений полученных
не в RGB пространстве переносят в него для более естественного анализа.
Человеческий глаз состоит примерно из 7 млн. колбочек и 120 млн.
палочек. Функция палочек заключается в «ночном зрении» - светочувствительности и приспособлении к окружающей яркости.
Функция колбочек - «дневное зрение» - восприятие цвета, формы и
деталей предмета. В них заложены три типа воспринимающих элементов, каждое из которых воспринимает световое излучение только определенной длины волн, соответствующих одному из трех основных цветов: красному, зеленому и синему. Остальные цвета и оттенки получаются смешением этих трех.
Воспринимая цветовую информацию в диапазоне волн примерно от
380 нм (начало синих цветов) до 760 нм (конец красных цветов) человеческий глаз имеет наилучшую чувствительность имеет в районе 550 нм
(зона зеленых цвет).
Немецкий математик Грассман в 1848 году на основе опытов вывел
следующие закономерности восприятия цвета человеком, которые могут
с определенными оговорками расширены на любую перекрывающуюся
трехцветную систему:
Трехмерность природы цвета. Глаз реагирует на три различных
цветовых составляющих. Примеры: красный, зеленый и синий цвета;
цветовой тон (доминирующая длина волны), насыщенность (чистоту) и
яркость (светлость).
Четыре цвета всегда линейно зависимы, то есть cC = rR + gG + bB , где
c, r , g , b ≠ 0 . Для смеси двух цветов (cC ) 1 и (cC ) 2 имеет место равенство:
(cC ) 1 + (cC ) 2 = (rR) 1 + (rR ) 2 + ( gG ) 1 + ( gG ) 2 + (bB) 1 + (bB ) 2 .
Если цвет C1 равен цвету C и цвет C2 тоже равен цвету C , то ⇒ цвет
C1 равен цвету C2 независимо от структуры спектров энергии C , C1 , C2 .
Данная зависимость предполагает и наличие отрицательных сигналов
среди слагаемых.
Цветовое пространство непрерывно. Если в смеси трех цветов один
непрерывно изменяется, а другие остаются постоянными, то цвет смеси
будет меняться непрерывно.
Основной рабочей цветовой моделью является модель RGB. Данная
модель построена на копировании строения глаза. Она идеально удобна
для светящихся поверхностей (мониторы, телевизоры, цветные лампы и
т.п.).
72
В основе ее лежат три цвета: Red- красный, Green- зеленый и Blueсиний. Еще Ломоносов заметил, что с помощью этих трех основных цветов можно получить почти весь видимый спектр. Например, желтый
цвет- это сложение красного и зеленого.
Поэтому RGB называют аддитивной системой смешения цветов.
Чаще всего данную модель представляют в виде единичного куба с
ортами: (1;0;0)- красный, (0;1;0)- зеленый, (0;0;1)- синий и началом
(0;0;0)- черный.
В процедурах распознавания могут оказаться более эффективны и
другие модели.
Как признаки могут выступать цветовой тон - преобладающий основной цвет (длину волны, преобладающей в излучении); насыщенность
цвета - чем она больше, тем «чище» цвет (то есть ближе к тоновой волне), например, у белого цвета - насыщенность= 0, так как невозможно
выделить его цветовой тон. Введем, наконец, для завершения яркость (у
черного цвета= 0, у белого=1).
Таким образом, мы построили трехмерное цветовое пространство
HSV - Hue, Saturation, Volume (Тон, Насыщенность и Яркость).
Обычно его представляют в виде конуса. Начало координат - вершина
конуса - черный цвет. Высота, направленная к основанию - яркость.
Точка пересечения высоты с основанием - белый цвет. На высоте находятся оттенки серого цвета от черного (вершина конуса) к белому. На
окружности, ограничивающей основание конуса, находятся чистые цветовые тона: от красного ( 0 рад ), через зеленый (
(
4π
рад ).
3
2π
рад ), к синему
3
Радиус конуса - насыщенность цвета. С такой системой работают художники, меняя насыщенность с помощью белой краски, его оттенок с
помощью черной и тон, комбинируя с основными цветами.
HSV часто представляют и в виде шестигранного конуса, у которого в
основании лежит правильный шестиугольник с вершинами, соответствующими следующим цветам : красный - желтый - зеленый - голубой синий – пурпурный.
Приведем формулы связи RGB и HSV, представленного в виде шестигранного конуса –
HSV в RGB:
73
H=
3H
π
; F = H − int( H )
M = V (1 − S ); I = int( H )
N = V (1 − SF )
K = V (1 − s (1 − F ))
⎧ (V , K , M ) • рЏ I = 1
⎪( N , V , M ) • рЏ I = 2
⎪
⎪( M ,V , K ) • рЏ I = 3
( R, G , B ) = ⎨
⎪( M , N , V ) • рЏ I = 4
⎪( K , M , V ) • рЏ I = 5
⎪
⎩(V , M , N ) • рЏ I = 6
RGB в HSV:
V = max( R, G, B ); v = min( R, G, B)
⎧0; Њ–‘Џ V = 0
S =⎨
⎩ (V − v) / V ;
Cr = (V − R ) /(V − v) : Cg = (V − G ) /(V − v); Cb = (V − B ) /(V − v)
⎧Cb − Cg ; Њ–‘Џ R = V
H = * ⎨2 + Cr − Cb; Њ–‘Џ G = V
3 ⎪
⎩4 + Cg − Cr ; Њ–‘Џ B = V
π ⎪
RGB в HLS:
3
(G − R) / S )
2
L = ( R + G + B) / 3
H = arcsin(
S = R 2 + G 2 + B 2 − RG − BG − RB
HLS в RGB:
74
1
R = L − S cos H −
3
2
G = L + S cos H
3
1
B = L − S cos H +
3
1
S sin H
3
1
S sin H
3
Пример перевода RGB в HSB. В данном формате RGB имеет на каждую из компонент R, G, B по 8 бит (256 уровней градации) - True Color.
HSB представлен тремя плоскостями, соответствующими H, S, B, в виде
черно/белых изображений с 256 уровнями градации .
Процедура отображения изображений в пространство RGB содержит
однозначную операцию отображения пикселя, которая состоит в последовательности следующих шагов:
y формируются матрицы R, G, и B в двухмерном геометрическом пространстве;
y формируется новая матрица с числом столбцов равным числу уровней
квантования первой цветовой составляющей и числом строк равным
числу уровней квантования второй цветовой составляющей пикселя;
y матрица заполняется тегом отсутствия запроса ячейки, например, 256 (число выбирается вне зоны существования уровней квантования
третьей цветовой составляющей пикселя);
y в матрицу по координатам описания первой и второй цветовых составляющих записывается значение третьей цветовой составляющей
пикселя.
Данная процедура может быть распространена и на все изображение,
однако пиксели запрашивающие одинаковые координаты по значениям
первой и второй цветовых составляющих будут конкурировать друг с
другом по записи, преимущество отдается последнему запросу и информация о предыдущих запросах будет утеряна.
Искусственно можно устранить этот недостаток проверкой тега запроса ячейки, и при наличии факта предыдущего запроса кодировать
информацию в ячейке, например, формируя число в позиционной системе счисления с основанием равным числу уровней квантования третьей
цветовой составляющей пикселя +1 (для тега отсутствия запроса позиции). В дальнейшем мы будем допускать потерю части информации о
предыдущих запросах.
75
Рис. 48. Кластеры объектов в RGB пространстве (однородный тон)
Рис. 49. Кластеры объектов в RGB пространстве (керамический корпус микросхемы)
Рис. 50. Кластеры объектов в RGB пространстве (цветовой “хаос”)
На рис. 48, 49 приведен вид зон существования объектов в RGB пространстве там же приведены и исследуемые изображения.
Как видно они образуют соприкасающиеся группы точек. Для сравнения, на рис. 50 показано отображение цветового “хаоса”.
Матрица Z на рисунках рис. 48, 49 и 50 заполнена по формуле:
76
ZG
y , x ,B y , x
= Ry ,x .
Для упрощения в качестве тега отсутствия запроса ячейки принято
число “0”, а информация о точках с R y , x = 0 утеряна, имеет место и маскирование пикселями с R y , x = 0 предыдущих записей.
В качестве решающих границ в трехмерном пространстве описания
пикселей используются различные поверхности. Более просто, но с определенной потерей общности анализа, можно учитывать только следы
точек на координатной плоскости (рис. 51, 52).
В этом случае решающие границы вырождаются в линии разделяющие следы точек на плоскости.
Рис. 51. Индикатор цвета Z на цвето- Рис. 52. Индикатор цвета Z на цветовой плоскости rg (однородный фон)
вой плоскости rg ( керамический корпус микросхемы)
Рис. 53. Индикатор цвета Z на цветовой плоскости rg ( цветовой “хаос”)
Матрица Z на рисунках рис. 51, 52 и 53 заполнена по формуле:
Z g y , x , ry , x = 1 .
77
Оси цветов для представления индексов в целых числах умножены на
100.
Можно усложнить формулу и сохранить информацию о частотах появления в образах отдельных цветов. Выполняя последовательно преобразования
Z g y , x , ry , x = 0 , Z g y , x , ry , x = Z g y , x , ry , x + 1
получим цветовые гистограммы образов, которые как сами так и их параметры могут войти в алфавит признаков.
На рис. 54 показан результат преобразования для изображения керамического корпуса.
Рис. 54. Цветовая гистограмма на цветовой плоскости rg ( керамический корпус
микросхемы)
На рис. 60 для сравнения показан результат преобразования для фрагмента однородного фона. Очевидно их различие, как по виду цветовой
гистограммы так и по параметрам оценок математического ожидания и
дисперсии. Что обеспечивает уверенное различие объектов.
78
Рис. 55. Цветовая гистограмма на цветовой плоскости rg ( однородный фон)
Рис. 56. Вариант оформления работы по анализу цветовых гистограмм
Вариант несколько иного представления о цветовых компонентах
описаний полей пикселей приведен на рис. 56. Отдельно анализируются
79
сигналы в трехмерном цветовом пространстве и строятся гистограммы в
соответствии с заданной по осям метрикой.
Простейшие задачи распознавания решаются сечением пространства
признаков плоскостями, разделяющих зоны описаний классов, например,
через задание порогов по R, G, B компонентам (рис. 57 пороги rs, gs, bs).
Это сигналы по строке y = 65 рисунка 16.
Рис. 57. Яркостные сигналы и пороговое задание гиперконуса принятия решений
В этом случае достаточно наглядно представляется гиперконус принятия решений. Назначая нижние и верхние границы существования
классов получим прямоугольную область существования объектов класса. Однако многие ситуации значительно сложнее, и решающие функции
приобретают вид сложных гиперповерхностей.
Сформируем прозрачную маску mask1 на распознаваемое здание (код
255 назначим прозрачным цветом, такое решение часто используется в
графических редакторах):
mask1 y , x = if R y , x ≤ rs, if G y , x ≤ gs, if B y , x ≥ bs,255,0 ,0 ,0 .
(
(
(
)))
Результат выполнения операции после наложения маски приведен на
рис. 58. Выделены металлические корпуса и пластинки, хотя в нижнем
правом углу ложно обозначена зона однородного фона.
80
Рис. 58. Выделение зон металлических корпусов
Автоматическое задание фиксированных порогов по цветовым составляющим предполагает наличие алгоритмов определения уровня освещенности объектов. Но освещенность отдельных фрагментов объекта
может значительно изменятся из-за его пространственного положения.
Выходом может стать переход к распознаванию объектов в нормированном цветовом пространстве. На рис. 59 приведены нормированные
сигналы r, g, b полученные из исходных R, G, B путем их деления на
сумму R+G+B, вычисляемой для каждого пикселя.
Рис. 59. Нормированные цветовые сигналы
Как и в первом случае сформируем прозрачную маску но с относительными соотношениями:
81
(
(
) ).
mask 2 y , x = if g y , x ≥ ry , x , if b y , x ≥ ry , x ,0,255 255
Рис. 60. Выделение зон металлических корпусов по цветовым сигналам
Результаты вычислений представлены на рис. 60. Как видно, отдельные элементы здания распознаны различными алгоритмами не однозначно.
Бесспорное преимущество второго метода в его независимости от освещенности объекта.
Первый метод косвенно использует информацию об освещенности
пикселя и данный признак способствует лучшему распознаванию объектов в данном случае.
Перечислим перечень операций часто используемый при распознавании объектов в нормированном цветовом пространстве:
y вычислим сумму цветовых сигналов в точке;
y определим нормированные цветовые составляющие;
y назначим исключаемую из рассмотрения нормированную цветовую
составляющую (обычно не учитывают цветовую составляющую в равной
мере присущую всем объектам);
y понизим размерность цветового пространства на единицу;
y назначим новые координатные оси;
y отобразим следы объектов или их гистограммы в новой системе координат;
Далее проведем решающие границы и классифицируем объекты.
82
3.5. Распознавание объектов по типу индикатрисы отражения поверхности
Способность поверхности объектов по различному рассеивать падающее излучение так же в виде набора признаков может входить в алфавит признаков. Яркость поверхности зависит от направлении, под которым она наблюдается, и от направления падающих лучей. Можно описать эти зависимости в локальной системе координат на поверхности
объекта (рис. 61).Рассмотрим нормаль n к поверхности и произвольную
линию на ней. Направления можно описать с помощью углов θ между
лучом и нормалью и ϕ между ортогональной проекцией луча на поверхность и линией на поверхности. Эти углы называются полярным и азимутальным соответственно.
Рис. 61. Лучи отражения в системе координат нормали к поверхности
Они позволяют нам определить направления
(θ i ,ϕ i) и (θ e ,ϕ e)
под
которыми свет падает на поверхность и излучается к наблюдателю (рис.
62).
Определим двух лучевую функцию отражательной способности
(ДФОС), которая показывает изменение яркости поверхности при заданных направлениях наблюдения и освещения. Количество света, падающего на поверхность по направлению (θ ,ϕ ) (освещенность элеменi
тарного участка) обозначим
i
δE (θ i ,ϕ i) . Яркость поверхности, наблю83
даемая в направлении
(θ e ,ϕ e) , обозначим δL(θ e ,ϕ e) . ДФОС опреде-
лится по формуле:
f (θ i , φi ,θ e , φe ) =
δL(θ e , φe )
.
δE (θ i , φi )
Рис. 62. Падающий луч и один из лучей отраженного потока
Для многих поверхностей их яркость не меняется при повороте поверхности вокруг нормали. В этом случае ДФОС зависит не от ϕ и ϕ
по отдельности, а от их разностиϕ -
e
ϕi
e
i
. Это, в частности, верно для
матовых и зеркально отражающих поверхностей, но не верно для поверхностей с ориентированной микроструктурой, например для некоторых минералов, (например, минерала тигровый глаз), или радужных
перьев некоторых птиц.
В реальном случае могут существовать несколько точечных или даже
протяженных источников, как например, лазерный зонд и фоновое освещение. В случае протяженного источника, чтобы получить ненулевое излучение поверхности, мы должны рассматривать ненулевой телесный
угол. Рассмотрим бесконечно малую площадку размером δθ i по полярному и δϕ i по азимутальному углам рис. 63.
Эта площадка задает телесный угол δϖ = sinθ i δ θ i δ ϕ . Если полоi
жить, что мощность излучения, приходящего по направлению
единицу телесного угла, равняется
E (θ i ,ϕ i)
(θ i ,ϕ i) на
то мощность, идущая от
рассматриваемой
площадки,
будет
равняться
выражению
E (θ ,ϕ ) sinθ i δ θ i δ ϕ , а полная освещенность поверхности — выраi
i
i
жению
84
π
E0 =
π 2
∫ ∫ E (θ i , ϕi ) ⋅ sin θ i ⋅ cosθ i ⋅ dθ i ⋅ dϕi .
−π 0
Для получения яркости поверхности объекта необходимо проинтегрировать произведение ДФОС и освещенности по полусфере возможных
направлений падения света. Таким образом:
L(θ e , ϕ e ) =
π
π 2
∫ ∫ f (θ i , ϕi ,θ e , ϕ e ) ⋅ E (θ i , ϕi ) ⋅ sin θ i ⋅ cosθ i ⋅ dθ i ⋅ dϕi .
−π 0
Рис. 63. Падающий луч и один из лучей отраженного потока
Идеальной ламбертовой поверхностью называется такая поверхность, кажущаяся яркость которой одинакова при любых направлениях наблюдения и которая отражает все падающие лучи, ничего не поглощая. Из этого определения следует, что ДФОС ( f (θ i , ϕ ;θ e ,ϕ ) )
i
e
для такой поверхности должна быть константой.
Проинтегрируем яркость поверхности объекта по всем направлениям и приравняем полученную таким образом полную яркость полной освещенности.
π
µ (E ⋅ cosθ i ) =
π 2
∫ ∫ f ⋅ E ⋅ cosθ i ⋅ sin θ e ⋅ cosθ e ⋅ dθ e ⋅ dϕ e ,
−π 0
85
или
π
2
2 ⋅ π ⋅ f ∫ sin θ e ⋅ cosθ e ⋅ dθ e = 1 .
0
Используя соотношение 2sin θ cos θ = sin2 θ , получим πf = 1 . Итак, для
идеальной ламбертовой поверхности f (θ i ,ϕ ;θ e ,ϕ ) = 1 / π . Заметим,
i
e
что, поскольку ДФОС постоянна для ламбертовой поверхности, мы можем вычислить яркость L по освещенности E0 т. е. L = E0 / π .
Модель идеальной ламбертовой и зеркальной поверхностей образуют
как бы крайние точки в анализе отражающих свойств реальных поверхностей. Они часто используются при определении качества бумажного
полотна и т. п.
ДФОС можно определить экспериментально, освещая образец интересующего нас материала и измеряя его яркость с помощью сенсора. При
этом контролируются углы падения излучения и угол наблюдения.
Рассмотрим использование выше сказанного на конкретном примере.
Пусть необходимо обнаружить следы масляной пленки на материале
близком по отражающим характеристикам к ламбертовой поверхности.
Появление пленки сглаживает неровности и итоговая поверхность приобретает свойства зеркала. Таким образом пленка приводит к изменению
формы ДФОС. Включая анализируемый участок материала в оптическую схему формирования изображения, получим оптический прибор с
изменяемыми параметрами.
Пусть в идеальном приборе с зеркальной поверхность изображение
эталона (периодическая структура) имеет вид отклика представленного
на рис. 64. Не однородность отклика обусловлена спецификой конкретной оптической схемы. На рисунке Y - сигнал с CCD – многоэлементного фотоприемника, x - номер фотоприемника по строке толщина пленки
указана в unit, 1 unit примерно равен 0,18 мкм.
Исходная поверхность без пленки рассеивает излучение и периодическая структура не прорабатывается (рис. 65). С появлением пленки появляется и изображение структуры, которое становится с ростом толщины
пленки контрастнее (рис. 66, 67). Включение признака - контрастность
позволяет решить задачу распознавания объектов подложка и подложка
с пленкой.
86
Рис. 64. Отклик от зеркальной поверхности
Рис. 65. Отклик от диффузионной рассеивающей поверхности (нет пленки)
Рис. 66. Отклик от поверхности с пленкой в 10 unit
Рис. 67. Отклик от поверхности с пленкой в 20 unit
87
Для толстых пленок очень сильно влияние неплоскостности поверхности пленки. На рис.68 приведен вид поверхности пленки. В зоне плоской пленки – a сигнал по форме схож с калибровочным. Наклонные поверхности b, c, d приводят к потере энергии сигнала и к изменению формы сигнала.
Рис.68. Участки a,b,c,d поверхности пленки(эллипс в районе точки а – смещающаяся
зона контроля)
Разность коэффициента отражения эталонного сигнала в расчетных
зонах может служить флагом неплоской поверхности.
На рис.69 приведены сигналы в расчетных зонах для пленки толщиной 80 unit. Отчетливо видно различие значительно лучшая проработка
Рис. 69. Отклик от поверхности с неоднородной пленкой толщиной 80 unit
Это пример сложной задачи формирования признаков, в которой присутствует определенная физическая модель и сложные измерительные
устройства, определяющие значения параметра косвенным путем.
88
3.6. Корреляционные алгоритмы распознавания
Корреляционный метод широко используется в различных задачах
распознавания образов. Рассмотрим конкретику и наработанные методики на реальных примерах.
Распознавание движения применяется во многих областях: наблюдение, движущихся объектов в охранных системах, автоматическое наблюдение за дорожным движением и выявление нарушений, выделение
только определенных движущихся объектов, например, автомобилей,
распознавание отдельных типов движений. Обычно распознавание движения происходит в реальном режиме времени.
В этом случае происходит сравнение двух последовательных кадров.
Кроме простого распознавания наличия движения также часто ставится
задача определения параметров движения объекта, таких как скорость,
ускорение, форма траектории.
Корреляционный метод при распознавании движения основан на нахождении смещения между двумя изображениями одного объекта. Смещение определяется по максимуму функции взаимной корреляции. В качестве опоры принимается характерные признаки объекта. Чтобы найти
характерную особенность из первого изображения во втором, первое
изображение g1(t)=g1 сравнивается со вторым g2(t)=g2 в пределах определенного диапазона поиска. Измерение схожести должно “пропускать”
изменения в освещении. Т.е. мы считаем, что два образца одинаковы, если они отличаются на константу α по яркости, которая отражает изменение освещения и частично по форме.
На языке скалярного произведения векторов это означает, что g1 и g2
параллельны. Это возможно тогда и только тогда, когда будет равенство
в неравенстве Коши-Шварца
2
∞
∫ g ( x )g ( x − s ) d x
2
1
2
∞
≤
−∞
∞
∫ g ( x ) d x ∫ g ( x − s )d x.
2
1
−∞
2
2
2
2
−∞
Иными словами, требуется максимизировать коэффициент взаимной
корреляции
∞
∫ g ( x )g ( x − s ) d x
2
r (x) =
1
2
−∞
12
∞
⎛
⎞
2
2
2
2
⎜ ∫ g1 ( x ) d x ∫ g 2 ( x − s )d x. ⎟
−∞
⎝ −∞
⎠
∞
.
Коэффициент взаимной корреляции хороший показатель схожести
двух образцов. Он принимает значение нуля для абсолютно несовпа-
89
дающих (ортогональных) изображений и достигает максимума (единицы) для одинаковых образцов.
Корреляционный метод можно свести к комбинации операции свертки и поточечной операции. На первом шаге в определение коэффициента
взаимной корреляции вводится вырезающая функция w.
Вырезающая функция выделяет “окно”, которое движется по изображению, и в пределах которого считается локальной значение искомого
коэффициента.
∞
∫ w ( x − x′) g ( x′)g ( x′ − s ) d x′
2
r ( x, s ) =
1
2
−∞
12
∞
⎛
⎞
2
2
2
2
⎜ ∫ w ( x − x′ ) g1 ( x′ ) d x′ ∫ g 2 ( x′ − s )d x′. ⎟
−∞
⎝ −∞
⎠
∞
.
Таким образом, коэффициент взаимной корреляции является функцией в 4-хмерном пространстве, зависящей от положения x и смещения s.
Для ускорения данного процесса вначале осуществляют поиск позиции максимума. Разложим коэффициент корреляции в ряд Тейлора вто(
рого порядка в точке максимума s
( 1
(
(
(
( 2 1
( 2
(
(
r ( s ) ≈ r ( s ) + rxx ( s )( s1 − s1 ) + ryy ( s )( s2 − s2 ) + rxy ( s )( s1 − s1 )( s2 − s2 ) =
2
2
( 1
( T (
(
= r ( s ) + ( s − s ) H ( s )(s − s ),
2
где H матрица Гессе.
Мы не знаем положение максимума. Поэтому мы предполагаем, что
вторые производные постоянны в достаточной близости к максимуму и
вычисляем его в позиции предыдущей итерации s(i). Если у нас нет другой информации, то мы устанавливаем значение первой итерации в ноль
s(0)=0. Пока мы не достигли максимального значения коэффициента, у
нас будет присутствовать остаточный сдвиг. Его можно вычислить, если
взять производную от
( )
( )(
)
(
∇r s ( i ) = H s ( i ) s ( i ) − s .
Учитывая, что матрица Гессе инвертируемая, получим следующую
итерацию
( ) ( )
s( i +1) = s( i ) − H −1 s( i ) ∇r s( i ) , c s( 0) = 0.
Данный итерационный метод известен как метод Ньютона - Рафсона.
Для определения смещения нам необходимо посчитать только первые и
вторые частные производные от искомого коэффициента.
Рассмотрим выше сказанное на примере контроля наличия движения
стеклянного полотна при его вытяжке из расплава. Останов полотна
90
приводит к его обрыву, т. е. аварии. При вытяжке в слое стекломассы
образуются неоднородности, изображения которых может быть принято
за базу. Линейный многоэлементный приемник расположен по ходу
движения полотна.
Формируем
кольцо
отсчетов
размерностью
близкой
к
масштабированному
выборками
времени
существования
неоднородности в поле зрения. На рис. 70 показаны пары выборок
сигналов, полученные с нескольких зон стеклянного полотна. Временной
сдвиг постоянен. В дальнейшем анализе в основном будут принимать
участие сигналы Y 1 и Y 2 . Они нагляднее и последовательность
операций на данном примере различима лучше.
Рис. 70. Пары выборок сигналов через постоянные интервалы времени
На рис. 71 приведены выбранные сигналы с большим масштабом по
оси x , чем на рис. 70. Благодаря увеличению отчетливо видны
неоднородности в зонах фотоприемников с номерами 200...300. В
финишные
сигналы
подлежащие
корреляционному
анализу
нецелесообразно включать составляющие не изменяющиеся во время
движения, к ним относится общий профиль сигнала. Введем
интегрирование в скользящей зоне размером в 40 отсчетов. Результат
обработки массива приведен на рисунке 72.
91
Рис. 71. Сдвинутые в пространстве сигналы
Рис. 72. Результат низкочастотной фильтрации одного из исходных сигналов
Рис. 73. Разностные сигналы
92
Определяем разностные сигналы в кольце отсчетов, результат
приведен на рисунке 73. Внешне форма сигналов немного изменилась,
но способность их различия сохранена.
Рис. 74. Вид одного из сечений корреляционной функции
Рис. 75. Вид корреляционной функции с достоверной зоной наличия неоднородности
Рис. 76. Вид корреляционной функции при отсутствии неоднородности
93
Рассчитываем смещение полотна как положение максимума
корреляционной функции для отобранных зон и по полученным данным
распознаем факт движения стеклянного полотна (рис. 74).
Внутри основной операции вложена задача распознавания наличия
неоднородности на контролируемом участке и выбор зоны, в которой
будет определено смещение. На рис. 75 виден локальный участок в
котором можно достоверно определить смещение полотна. На рис. 76
такой участок отсутствует (для анализа взята пара с координатами 5200,
6000 рис. 72).
Корреляционные алгоритмы в сжатии изображений также достаточно
эффективны. Рассмотрим подход к компрессии видеоматериала, разработанный для формирования слоев сцен в тренажерных комплексах.
Этот задачи имеют специфику, которая позволяет допустить большие затраты времени при подготовке кадра и требует соблюдения режима реального времени при его воспроизведении. Отношение этих времен может достигать десятков и сотен тысяч раз.
В рассматриваемой реализации база данных эталонных образов составляет 524288 вариантов 120 байтных описаний Изображение сегмента
базы размером 152 образа приведено на рис. 78. На рабочем изображении формируется движущийся сегмент вырезающей маски (на рис. 77
его текущее положение отмечено маркой с координатами 50 по x и 30 по
y ). Результаты компрессии и декомпрессии представлены на рис. 80.
Исходные изображения приведены на рис. 79.
Увеличено в
1,5 раза
Рис. 77. Маска
Рис. 78. Эталонны
Рис. 79. Исходное
94
Рис. 80. Результат
Коэффициент корреляции вычисляется после подготовки сегментов
по формуле
rj =
l
∑ sv j,i ⋅ xi ,
i =0
где sv j - описание j - го образа, x - описание рабочего сегмента.
Сегменты подготовлены для ускорения операций – они вытянуты в
одну строку, l +1 длина этой строки, i - номер пикселя в строке. Сегменты нормированы по максимальному значению автокорреляционной
функции. По положению максимума r j определяется индекс j max (r ) ,
который служит смещением в таблице эталонных образов при воспроизведении.
Вид идентификатора рабочего сегмента приведен на рис. 81. Он состоит из нескольких полей. Байты 5, 4 и три старших бита третьего байта
формируют индекс, остальные зоны для рассматриваемого вопроса не
важны они используются в различных режимах генерации изображений.
Рис. 81. Идентификатор рабочего сегмента
Индекс разбит на три независимые зоны. Это позволяет повторять
операцию определения корреляционной функции 2 4 + 29 + 2 6 = 592
раза, а не 219 = 524288 раз, что к конкретной реализации очень важно, не
смотря на то что компрессия ведется на более мощных компьютерах, чем
рабочие компьютеры тренажеров. Это ускоряет процесс почти в тысячу
раз.
Сто двадцати байтное описание рабочего сегмента заменяется пяти
байтным идентификатором. Коэффициент сжатия ~ 20 раз достаточен
для организации потока данных от винчестера в реальном времени с отслеживанием действий оператора.
Качество изображений удовлетворительное, это видно из фрагментов
пейзажа полученных в результате компрессии и декомпрессии (рис. 80).
95
В распознавании символов печатного текста по коэффициенту
корреляции образов эталонного и рабочего символов рекомендуется
следующая последовательность действий:
y назначьте распознаваемые классы (обычно число классов равно числу
распознаваемых типов символов + число типов служебных сообщений);
y сформируйте эталонные образы (каждый образ целесообразно
представить 2...4 эталонами);
y сформируйте бегущий сегмент рабочего образа;
y пронормируйте данные рабочего сегмента;
y вычислите корреляционное соотношение между признаковым
описанием рабочего и эталонных сегмента;
y задав рабочий уровень доверия dr, примите решение о
принадлежности рассматриваемого сегмента к одному из классов;
y если уровень доверия не превышен определите тип служебного
сообщения и соответствующего действия.
На рис. 82 приведен выбранный с общего изображения фрагмент текста
и выбранные классы символов рис. 83. Каждый класс представлен n × m
пикселями по размеру сегмента. При работе над эталонным образом
используют два алгоритма:
y эталонный образ формируется в полуавтоматическом режиме с
ручной корректировкой описаний символов;
y эталонный образ формируется автоматически, путем отбора описаний
пикселей в обучающей последовательности, отбор может идти по
мажоритарному алгоритму или через параметры гистограмм.
y Нормировка эталонного образа преследует своей целью устранение
влияния таких параметров, как средний уровень фона, освещенность
символа и т. п. В простейшем случае нормировка выполняется, через
вычитание среднего и масштабирование по уровню сигнала,
обеспечивающее заданное максимальное значение параметра доверия
dm.
Ниже приведены рекомендуемые формулы расчета bn нормированного массива признаков:
⎞
⎛ b y ,x
⋅ dm ⎟⎟ ;
bn y ,x = ⎜⎜
⎠
⎝ Nb
где b y ,x = B y ,x − mean (B ) - новый промежуточный массив с устранением
среднего,
а
Nb =
1
⋅ ∑∑ b y ,x ⋅ b y ,x
256 ⋅ 256 y x
96
-
значение
автокорреляционной функции, вычисленной с учетом диапазона задания
описания пикселя.
Рис. 82. Фрагмент текста
Рис. 83. Эталонные символы
Операции при нормировке рабочего сегмента рекомендуется
проводить аналогично расчетам по эталонному образу.
1
K ky, kx =
⋅ ∑∑ bn y , x ⋅ ry + ky ⋅ n, x + kx ⋅ m ;
256 ⋅ 256 y x
где r - рабочий движущийся сегмент.
Рис. 84. Метки найденных Рис. 85. Вид корреляционной функции на различных
положений символа с
участках текста
Рабочий уровень доверия dr - сложный параметр, задающий процент
ошибок первого и второго рода, возникающих при распознавании.
Обычно он выбирается в проценте от максимально заданного параметра
доверия dm. Массив указателей Kd на обнаруженные символы можно
вычислить по формуле:
97
(
)
Kd ky, kx = if K ky, kx ≥ dr ,0,255 .
На рис. 84 приведены результаты поиска символа “c” на изображении в виде изображения указателей.
Реально близкие по форме символы так же дают значительную величину корреляционного отклика (рис. 85). Много вопросов вызывает
масштабирование символов и их разворот. Все эти вопросы находятся в
своем развитии, изменяя конкретику эталонных образов.
Математическое обоснование эффективности корреляционных алгоритмов тесно связано с основополагающими положениями оптимальной обработки сигналов.
Пусть x0 - накопленные данные о величине интересующего нас
параметра случайного процесса, события или т. п. Неопределенность
этой оценки характеризуется среднеквадратичным отклонением σ 0 .
Поступили новые сведения x1, например, мнение очередного эксперта, или отсчет сигнала с оценкой неопределенности по среднеквадратичному отклонению σ 1 . Будем считать x1 и x0 не коррелированными.
Итоговую оценку найдем по формуле
x0 + k ⋅ x1
x=
,
1+ k
где k - коэффициент статистического доверия оценки x1 на фоне x0 .
Ее разброс характеризуется среднеквадратичным отклонением
σ0
σ=
⋅ 1+ k2 ⋅ d2 ,
1+ k
σ1
где d =
- отношение среднеквадратичных отклонений. Вид графика
σ0
приведен на рис. 86. Видно, что во всем реальном диапазоне изменения
d имеется в наличии оптимальное значение k минимизирующее величину σ . Например при d = 3, k ≈ 0,11 (рис. 87).
Определим оптимальную величину k минимизирующую значение σ .
Для этого продифференцируем последнее выражение по k , приравняем
его нулю и найдем значение k , соответствующее положению точки экстремума.
98
Рис. 86. Вид зависимости
σ от d и k
Рис. 87. Экстремум среднеквадратичного отклонения при d =3
Проделав выше указанные операции получим оптимальное значение коэффициента суммирования
k min (σ ) = d − 2 .
Наличие квадрата отображает метрику оси рисков, которую мы положили квадратичной, минимизируя среднеквадратичное отклонение.
Таким образом делаем вывод об оптимальной стратегии включения
новых оценок в расчеты, при которой учет их в итоговом выводе идет с
коэффициентом, обратно пропорциональным величине их среднеквадратичного отклонения возведенной в степень, отображающей метрику
шкалы рисков.
Перенесем полученный вывод на сигнал произвольной формы, у которого оценивается его амплитуда.
y = a ⋅ f (x ) + h ,
где a - искомая амплитуда, h - гауссов шум с нулевым математическим
ожиданием и среднеквадратичным отклонением σh .
99
Пусть на момент прихода текущего отсчета определена оценка a 0 с
среднеквадратичным отклонением σ 0 . Среднеквадратичное отклонение
y(x )
σh
, а уx =
.
оценки a в текущем отсчете a1 =
f (x )
f (x )
Получим оптимальную оценку
σ 02
a0 +
⋅ y(x ) ⋅ f (x )
2
σ
h
ax =
.
σ 0 2 ⋅ f ( x )2
1+
σh 2
Проведя расчеты с первого отсчета до i - го получим оптимальную
оценку амплитуды
i
1
ai =
⋅ ∑ yt ⋅ f t ,
k ( f , i ) t =1
где f t - известная форма исследуемого сигнала, которая принимается за
эталон, k ( f , i ) - коэффициент учитывающий параметры формы эталонного сигнала в пространстве отсчетов и само количество отсчетов.
Для периодического сигнала с нулевым математическим ожиданием,
при большом объеме корректной выборки (раздел 2.2)
i
k ( j , i ) = ∑ f t2
t =1
и не зависит от исследуемого сигнала.
Уходя от ограничения на форму случайной помехи – белый шум, перейдем в частотную область.
Пусть мы оцениваем сигнал по его частотным составляющим, добавляя описание сигнала включением частот его спектра.
Учитывая частотную зависимость величины среднеквадратичного отклонения шума на элементарной частоте от частоты по аналогии получим
aΩ ≈
Ω
∑ Yϖ ⋅ Fϖ ⋅ Hϖ− 2 ,
ϖ =1
где Yϖ , Fϖ , Hϖ выборки со спектра входного, эталонного сигналов и
шума соответственно.
Данные зависимости хорошо известны. Истоком их является новый
математический аппарат пришедший в свое время в среду радиофизиков,
100
электронщиков, работающих с сигналами. Тогда он получил термин
“желтая опасность” по цвету переплета отчета Винера.
Оптимальный фильтр, вобравший в себя основные моменты новой
теории, получил название фильтра Винера-Колмагорова.
Подводя итоги сформулируем основные требования к процедуре распознавания образов с использованием корреляционных соотношений:
1. В алфавит признаков включают только те признаки, которые различны у распознаваемых классов;
2. Эталоны форм классов формируют пропорционально мощности признака в данном классе;
3. Произведения признаков у исследуемого объекта и эталона суммируются с коэффициентами обратно пропорционально их параметрам достоверности;
4. Проводя вычисления и стремясь к оптимальности следует четко определять конечный искомый параметр и решать корреляционную задачу
относительно него. Не соблюдение этого условия может существенно
снизить эффективность алгоритма. Например, при оценки фазы гармонического сигнала оптимальный эталон – сдвинут на четверть периода
относительно исследуемого.
Как следует из рассмотренного материала, корректные корреляционные алгоритмы обеспечивают оптимальное или квазиоптимальное различие объектов и по своей форме близки к оптимальным фильтрам.
В систолических структурах так же, в основном, реализуются корреляционные алгоритмы распознавания с определенными упрощениями.
Оптимальная матрица весовых коэффициентов систолической структуры соответствует эталонному образу искомого сигнала с учетом описанных выше требований.
101
3.7. Распознавание близко расположенных в пространстве признаков
объектов
Существует много задач распознавания, в которых классы
видоизменяются во времени и имеют множество схожих признаков.
Классический пример – работа с изображением лица человека.
Комплекс задач анализа изображений лица (определения
характеристик человека, его состояния по изображению его лица,
трансформация изображений лица, распознавание речевых команд по
движению губ, идентификация человека по изображениям его лица,
анализ выражений лица и т. п.) широко прорабатывается в
криминалистике, кинематографии, психологии, медицине и в охранных
службах. Примером этому служат работы в областях изучения
человеческой способности распознавания «гладких» лицевых форм
(наподобие античных статуй), трансформации изображений лиц, а также
задачи, которые в перспективе могут оказаться полезными для
распознавания - оценка ракурса съемки по полученному в итоге
изображению, построение трехмерных моделей лица по двухмерным
изображениям.
Исследования в области психологии определили, что существует, как
минимум шесть человеческих эмоций, которые могут быть
идентифицированы по соответствующим выражениям лица: счастье,
грусть, удивление, страх, гнев и отвращение. Следует отметить, что
система, основанная на использовании геометрической и физической
(мускульной) моделей лица, а также оптимальных оценок оптического
потока "метод Кимура и Яшиды ", способна работать с кадрами обычных
видеофильмов и определять не только основные эмоции, но и простые
мимические изменения лица (улыбка, поднятие бровей).
В то же время основной целью исследований было не только
определение некоторых типов выражений лиц, которые можно
ассоциировать с человеческими эмоциями, но и оценка "силы" самих
эмоций.
Следует подчеркнуть, что решение данной задачи тесно связано с
автоматическим
выделением
черт
лица,
обработкой
видеопоследовательностей и другими направлениями распознавания
образов.
Однако главной целью исследователей, работающих в области
анализа выражений лица, является разработка математической модели
лица и его микродвижений, которая бы достаточно точно отражала
реальную мимику лица.
102
То, что человеческое лицо является совершенным сигнальным
устройством, и с него можно "считать" много полезной информации о
его обладателе, является общеизвестным фактом. И хотя анализ лицевых
выражений и определение таких характеристик объекта, как пол, раса,
возраст и им подобных, можно было бы объединить в одну проблему,
имеется разница в подходах. Кроме того, к задачам последнего типа
можно отнести и определение характеристик непосредственно самого
изображения лица, например степени симметрии лица, относительно
вертикальной оси.
Разработанные для определения характеристик подходы могут быть
использованы и для решения других задач. Так, например, Вискотт для
определения по изображению человека таких признаков, как пол,
наличие бороды и очков, использует метод сопоставления графов. В
нескольких сотнях экспериментов процент корректного распознавания
различных характеристик человеческого лица составил от 83 до 96%.
Алгоритмы определения пола, основанные на нейронных сетях,
демонстрируют схожие результаты распознавания - 87,5% и 91,9% .
Определение же оси симметрии лица для Эшме, Санкура и Ана-рима
является лишь одной из подзадач по предобработке исходного
изображения. В дальнейшем они используют эту информацию для
корректировки работы алгоритма поиска координат черт лица.
Рассматривается проблема выбора ограниченного набора собственных
векторов и его применения в распознавании пола и других признаков
человека.
В ряде решений перед процедурой распознавания проводят плавную
трансформацию изображений 3D объектов на примере лица человека.
Задача плавной трансформации может быть разбита на три подзадачи.
Первая - выделение и установление точек соответствия между двумя
заданными изображениями либо объектами. Это наиболее сложная часть
данного процесса. Вторая - определение или конструирование
морфологической
функции,
отображающей
множество
точек,
выделенных на предыдущем этапе из первого изображения, в такое же
множество, выделенное для второго изображения. И третья подзадача это плавное изменение значений пикселей двух изображений с целью
создания нескольких промежуточных изображений.
Разработки в данной области представляют собой частные случаи
решения более общей задачи машинной графики по плавной
трансформации изображения одного объекта в изображение другого. И
хоть имеется множество программных продуктов, позволяющих
добиваться высококачественных видеоэффектов (телевизионная реклама,
103
музыкальные клипы и т.д.), исследования в данной области
продолжаются. Их основная цель - разработка более гибких, простых и
быстрых алгоритмов, а также изучение возможности их применения в
других задачах, связанных с анализом изображений лиц. Кроме того,
одной из наиболее исследуемых проблем в данной области является
поиск эффективного алгоритма определения характерных черт
изображения, которые и обусловливают выбор точек соответствия.
Особенно актуален этот вопрос при необходимости трансформации
одной в другую двух заданных последовательностей изображений. В
настоящее время скорость работы систем, трансформирующих
изображение друг в друга, достаточно высока и осуществляется в
реальном времени.
Задача поиска лиц в толпе – обнаружение осуществляется
"вырезанием" из кадра областей, близких по признакам к изображениям
лиц.
Данная задача является, по сути первым этапом полностью
автоматизированного процесса распознавания человека в случае, когда
идентификация личности происходит по изображениям, при создании
которых данная цель не преследовалась либо возможности съемки были
ограниченными (непрофессионально сделанные изображения, съемка
скрытой камерой, видео кадры и т.п.).
После этого вырезанные области сравниваются с эталонами лица
человека. Автоматическое выделение области лица на фотографии
является одним из обязательных шагов по нормализации изображений,
общая достоверность распознавания превышает 97%, что говорит о
приемлемом качестве.
К данному классу исследований можно отнести и работу By, Чена и
Яшиды, результатом которой явилось построение системы проверки лиц;
т.е. системы, которая устанавливает, действительно ли фрагмент
изображения является человеческим лицом или же представлены просто
похожие на него объекты. Когда данная система получает
предполагаемое изображение лица, то из изображения сначала
выделяются контуры. Затем система устанавливает приблизительные
регионы поиска черт лица путем выявления зон, где средняя плотность
горизонтальных краев высока. При помощи метода интегральных
проекций уточняются координаты каждой зоны. Полученные данные
проверяются сравнением с геометрической моделью лица и в итоге
определяется, является ли данная часть изображения действительно
лицом или нет.
104
Одна из наиболее интересных и требующих эффективного решения
задач - это автоматическое определение точных координат ряда
характерных антропометрических точек (уголки глаз, кончик носа,
уголки губ и т.д.). Отличительной особенностью данной задачи является
существенное различие изображений таких элементов лица, как глаз,
нос, рот, которым эти точки принадлежат. Иными словами, проблема
состоит в том, что характеристики изображения каждого участка
человеческого лица (глаз, носа, контура лица и т.д.) настолько различны,
что для решения всей задачи в целом приходится разрабатывать
отдельный подход к выделению каждой черты лица. Точность выделения
указанных участков лица существенно влияет на достоверность
распознавания всей системы в целом.
Как правило, каждый метод включает два этапа: определение
прямоугольных окон поиска и нахождение точных координат
характерных точек внутри выделенных фрагментов. Приведем несколько
конкретных примеров.
Для получения координат окон для поиска носа и рта Брунелли и
Поджио применяют метод интегральных проекций. Из исходного
изображения лица получают две интегральные проекции горизонтальную и вертикальную. Делается это следующим образом:
пусть I(x,y) -исходное изображение, тогда вертикальная и
горизонтальные проекции изображения 1(х,у ) в квадрате с угловыми
координатами [x1,y1] и [х2,у2] определяется
V(X) =
Y2
X2
Y = Y1
X= X1
∑ I(x, y) , H(X) = ∑ I(x, y) .
Вертикальные координаты областей носа и рта находятся с помощью
антропометрических отношений частей лица человека, в то время как
горизонтальные координаты получают путем анализа гистограмм
интегральных проекций. На втором этапе по пикам вертикального
градиента на горизонтальной проекции находят местоположение носа, а
по впадинам - местоположение рта, так как линия между губами
выглядит на изображениях очень темной. Границы носа оцениваются
при помощи наибольших правых и левых пиков, а координаты
характерных точек рта определяются подобным способом на
вертикальной проекции.
Области изображений глаз Брунелли и Поджио находят
принципиально другим способом - при помощи метода сравнения с
эталоном.
105
Нахождение на изображении бровей и их толщины выполняется так
же, как для носа и рта. Поиск ограничен окном, расположенным чуть
выше глаз (расположение глаз уже должно быть определено), и
производится с помощью вертикальной интегральной проекции. В
алгоритме ищутся пики градиента интенсивности в двух
противоположных направлениях. Пары пиков над одним глазом
сравниваются с парами над другим и наиболее схожие выбираются как
соответствующие друг другу.
При нахождении нижней границы безбородого лица (скулы,
подбородок и т.д.) используют специальную эллиптическую систему
координат (эллипс в данной системе представляется прямой) и таким
образом им удается минимизировать вычислительные затраты на
определение нижнего контура лица.
Определение черт лица с использованием геометрических моделей
устраняет трудности распознавания, вызванные эмоциональным
выражением и ориентацией лица. Предварительно проводят
высокочастотную фильтрацию, которая подчеркивает контуры. После
чего производится бинаризация, далее пиксели бинарного изображения
группируются и опознаются. Ищутся глаза, которые должны находиться
на одной линии, близкой к горизонтальной и расстояние между глазами
приблизительно равно двум длинам глаза.
Учитывая эти, а также и другие признаки, проверяют все пары
регионов и выбирают одну пару, соответствующую упомянутым
условиям. После чего, основываясь на антропометрической статистике,
находят относительное местоположение рта и других частей лица.
Скорость работы данного алгоритма на рабочей станции SUN-20,
составила около 5 с, на один портрет, причем более 70% времени
тратилось на предварительную обработку.
Более быстро для определения контуров глаз и губ работает
процедура, основанная на комбинации изменяющихся эталонов с
генетическими алгоритмами. Эшме, Санкур и Анарим сначала находят
ось симметрии лица, затем производят предобработку (выравнивание и
модифицированная бинаризация), после чего вычисляют центры масс
темных областей. Исходя из априорных знаний, производят отбор
получившихся регионов, вычисляют энергетические поля оставшихся
областей, значения которых потом используются при проверке так
называемых "хромосом" на близость с соответствующей областью.
Хромосома представляет собой код нескольких величин,
описывающих форму глаза или рта. Определяют также правило
спаривания хромосом, после применения, которого исходные величины,
106
представляемые каждой хромосомой, либо увеличиваются, либо
уменьшаются,
либо
остаются
неизменными.
Первоначально
генерируются 100 случайных хромосом, являющих собой по сути 100
разных по форме и размеру видов эталона глаза или рта. После каждой
операции спаривания части хромосомы - гены - подставляются в
специальные функции подгонки, которые некоторым образом изменяют
сравниваемый эталон предварительно полученной области глаза или рта.
После каждой итерации выбираются четыре наиболее подходящие к
оригиналу хромосомы, и все остальные делятся на четыре группы,
каждая из которых затем спаривается с одной из четырех главных
хромосом. После каждой итерации 10% слабых генов убирается и
хромосомы пополняются случайными новыми. Таким образом,
добиваются постепенного и точного сжатия эталона вокруг области глаза
или рта.
И все таки лицо трехмерный объект и наиболее информативными
являются 3D изображения лиц. При этом порождается множество задач
распознавания трехмерных описаний моделей. На рис. 88 приведено
изображение лица человека освещенное матрицей элементарных
осветителей простой формы. Лучи идут под углом к прибору
наблюдения. В результате формируется более сложное описание
несущее информацию о глубине расположения элементов лица.
Например, освещение этим же осветителем менее рельефного объекта
показывает эллипсоидность его формы (рис. 89). Элементарный
осветитель может иметь более сложную форму (рис. 90 – изображение
площадки светодиода, направляемое на объект).
Рис. 88. Лицо освещенное
матрицей простых зондов
Рис. 89. Эллипсовидный
объект
Рис. 90. Сложный зонд
Тогда в форме отклика присутствует информация (рис. 91) о углах
нормали к зондируемому участку поверхности (определение деформации
107
в направлениях x , y позволяет получить числовые параметры углов
наклона участка поверхности).
Рис. 90. Сигнал от изображения сложного зонда
Но наибольшее количество успешно проведенных работ посвящено
идентификации человека по изображению его лица. Практика
использования фотографий в паспортной, пропускной системах
доказывают
принципиальную
возможность
определения
принадлежности снимка конкретному человеку (классу).
Обычно эту задачу рассматривают в соответствии с предназначением
систем идентификации: режима реального времени и поиска
изображений опознаваемого объекта в больших базах данных. Таким
образом, существующие разработки можно разделить на два класса:
1. Системы идентификации объекта по фотографии в большой (100003000000) базе изображений.
2. Системы идентификации объекта в режиме реального времени
(системы наблюдения служб безопасности, обеспечения доступа
небольшой группе 10-100 изображений и закрытия его для посторонних).
Как правило, системы, реализующие решение задач первого класса,
возвращают ранжированный набор изображений, наиболее похожих на
искомое, и выбор окончательного решения предоставляется эксперту.
Номер в группе обычно соответствует степени близости выбранного
изображения и сравниваемого.
Следует отметить, что по статистике в реальной базе данных,
содержащей 100 000 портретов, 417 человек будут иметь двойников. Так
как базы содержат сотни тысяч изображений, то существующие системы
работать в режиме реального времени не в состоянии. Цель - решение
задачи за разумное время. Обычно допустима реакция в течении
нескольких часов.
108
В системах второго класса изображение лица человека используется
как ключ, подтверждающий либо опровергающий введенные для
идентификации данные для настройки таких систем часто используется
несколько фотографий одного человека. Цель - решение задачи в течение
нескольких секунд, т.е. в реальном режиме времени.
С практической точки зрения разработка систем для решения задач
второго типа более проста и требует меньших усилий, чем для решения
задачи первого типа. Кроме того, методы первого класса, могут быть с
успехом применены и в системах, работающих в режимах реального
времени и реализующих решения задачи второго класса. В принципе
сама процедура опознавания часто схожа.
Исходные процедуры подготовки изображений.
1.Определение размера и ориентации 3D объекта на фотографии и
последующее масштабирование. Так как фотографии для распознавания
могут быть непрофессиональными, то размеры лица и его ориентация на
снимке могут достаточно сильно варьироваться от одного изображения к
другому.
Методы обработки по-разному чувствительны к малым и
существенным изменениям размеров лица и его ориентации, однако если
лицо на портрете слишком мало (10х12 пикселей, например) и (или)
сильно повернуто в сторону, то человека достаточно сложно распознать.
В этом случае выходной набор аналогов имеет внушительный размер.
Практика показывает распознавание будет успешным, если область
лица представлена зоной размерами не менее 80х120 пикселей, а
отклонение лица от горизонтальной и вертикальной осей лежит в
пределах ± 30° и ± 45° соответственно. Рекомендуемое минимальное
разрешение составляет 2 мм на пиксель.
2. Корректировка освещенности. Яркость и четкость изображения
очень сильно зависят от условий освещения в момент съемки. Плохие
характеристики портрета могут привести к сбоям в алгоритмах
бинаризации и группировки, и, следовательно, общий коэффициент
распознавания системы также значительно снизится. Необходимо
предусматривать дополнительные алгоритмы фильтрации для
уменьшения возможного отрицательного эффекта.
3. Оценка открытость лица на изображении. Участки лица закрытые
другими предметами, такими, как шляпы, очки или волосы должны быть
отмечены как не определенные, чтобы посторонние предметы не
вносили шумов распознавания. Большинство систем распознавания не
могут справиться с этой проблемой успешно. В зависимости от того, на
каком участке лица основывается непосредственно сам алгоритм
109
распознавания, а чаще всего это глаза, выдвигается условие к входящим
изображениям об обязательной доступности требуемого фрагмента для
полного анализа.
После выполнения операций подготовки изображений переходят к
поиску аналогов. На рис. 92 представлены часто упоминаемые методы
анализа схожести.
Рис. 92. Классификация часто встречающихся методов сравнения лиц
Наиболее распространена операция оценки геометрических
особенностей лиц или анализ совокупностей антропометрических точек.
В криминалистической экспертизе данный подход применяется уже
на протяжении нескольких десятков лет и по праву считается самым
надежным при идентификации объекта по фотопортрету.
Тот факт, что люди существенно различаются своей внешностью и, в
частности, чертами лица, очевиден. Так, например, расположение глаз и
их мельчайшие характеристики различаются даже у близнецов. Поэтому
не удивительно, что исторически первый поход к решению проблемы
автоматической идентификации человека по изображению его лица был
основан на выделении и сравнении некоторых антропометрических
характеристик лица.
Основная проблема - выбор совокупности характерных точек,
однозначно описывающих конкретное человеческое лицо. При этом
необходимо учитывать следующие требования: точки на лице или черты
лица, на которых основывается идентификация, не должны закрываться
прической, бородой, маской и т.п.; для обеспечения независимости
процесса распознавания от масштаба изображения целесообразно
описывать систему идентификационных точек в отношениях между
ними; выбранная система точек должна обеспечивать относительную
устойчивость процесса распознавания при незначительном изменении
ракурса съемки (легкий поворот головы, наклон, изменение выражения
110
лица и т.д.); количество характерных точек системы, удовлетворяющей
вышеизложенным требованиям, должно быть минимальным, так как
вычислительная стоимость алгоритмов обычно пропорциональна их
количеству.
К настоящему времени имеется много работ, посвященных
исследованиям распознавания с помощью различных совокупностей
характерных точек и анализу эффективности работы систем,
построенных на их основе.
Использование лишних параметров может не только затормозить
работу алгоритма, но иногда и снизить точность распознавания. Так, в
одной из первых работ по распознаванию людей при использовании
набора из 16 параметров лица, среди которых были соотношения между
расстояниями, площадями и даже определялись углы между
выбранными комбинациями точек, эффективность распознавания
колебалась от 45 до 75% в зависимости от используемого набора
параметров. Причем лучшие результаты были получены, когда
некоторые параметры не учитывались.
Наиболее
часто
упоминаемые
точки
и
геометрические
характеристики:
y толщина бровей над центрами зрачков;
y приблизительное (грубое) описание арки брови над левым глазом;
y вертикальная координата местоположения носа и его ширина;
y вертикальная координата местоположения рта, ширина и высота
верхней и нижней губ;
y одиннадцать радиусов, описывающих форму подбородка;
y ширина лица на уровне кончика носа;
y ширина лица посередине между линией уровня глаз и кончиком носа.
Применяя к описанным подобным образом лицам классификатор
Байеса добились 90% распознавания на базе данных в 47 человек.
Однако метод сравнения с эталоном при тестировании на той же самой
базе изображений дал точность распознавания 100%.
Для настоящего обзора представляет интерес приведенная в описании
система характерных точек и получаемых на их основе расстояний (рис.
93), а также ее устойчивость к незначительным изменениям условий
съемки (поворот, мимика, освещение и т.д.).
111
Рис. 93. Проекции лица человека: фронтальная и профильная
Ориентация фронтальной проекции определяется линией,
перпендикулярной воображаемой оси, проходящей через центр ушей
человека. Допустимо, чтобы фронтальная проекция голова имела
небольшой наклон вперед. Как следует из рис. 93, фронтальные
проекции идентификационных точек обозначены:
y центр зрачка (15а и15b),
y кончик носа (20), который определяется как центральная точка между
носовыми отверстиями,
y центр рта (25) - как точка пересечения линии, разделяющей верхнюю
и нижнюю губы объекта, и перпендикуляра, опущенного из точки,
определяющей кончик носа объекта,
y левый угол левого глаза, обозначенный точкой З0а,
y правый угол правого глаза – З0Ь; нижние точки окончания мочек
ушей - 35а и 35b.
При желании могут быть использованы и другие характерные точки
лица, например крайняя точка правого угла левого глаза и пр.
Указанные точки на фронтальной проекции лица позволяют
определять характерные лицевые параметры последнего. Отмечается,
что в данном контексте термины "лицевые параметры" и "длина
лицевого параметра" идентичны и означают расстояние между
соответствующими идентификационными точками на лице. На рис. 94
показаны выбранные параметры, которые означают следующее:
y REN (1) - расстояние между центром сетчатки правого глаза и
центром кончика носа;
112
y REM (2) - расстояние между центром сетчатки правого глаза и
центром ротового отверстия;
y LER (3) - расстояние между центрами сетчатки глаз;
y LEN (4) - расстояние между центром сетчатки левого глаза и центром
кончика носа;
y LEM (5) - расстояние между центром сетчатки левого глаза и центром
ротового отверстия;
y DMN (6) - расстояние между центром ротового отверстия и кончиком
носа.
Рис. 94. Идентификационные параметры на фронтальной и профильной
проекциях
Все выбранные и отмеченные выше параметры приняты в качестве
основных, поскольку на них не влияют такие факторы, как прическа,
макияж, наличие ювелирных украшений и пр.
Используя шесть отобранных параметров можно составить до 30
соотношений между ними, которые могут использоваться в качестве
признаков. При этом 15 из них будут прямыми, а 15 - обратными
соотношениями.
Основной причиной введения в качестве идентификационной
единицы отношения параметров является тот факт, что это отношение
является величиной постоянной, не зависящей от расстояния, с которого
делается фотография человека, а по фотографии невозможно определить
размеры головы и ее участков.
Для установления идентичности человека чаще других используются
следующие отношения параметров:
LEN/LER; LEM/LER; REN/LER; REM/LER; DMN/LER, кроме того, в
качестве дополнительных были выбраны усредненные отношения:
(LEN/LER+REN/LER)/2 и (LEM/LER+REM/LER)/2.
113
Проведены исследования эффективности использования признаков.
Испытуемые просто опускали свои пропуска в считывающее устройство,
находясь в стандартном положении. Типичная точность системы
распознавания составила 98%.
Следующим, наиболее проработанным после метода анализа
антропометрических характеристик лица можно назвать метод
собственных векторов (чаще его называют методом главных
(принципиальных) компонент лиц). Он является примером того, как
математические методы (метод анализа главных компонент), успешно
применявшиеся
в
других
областях,
оказались
эффективно
адаптированными к распознаванию людей по их портретам.
Любое цифровое изображение может быть представлено в виде
вектора в пространстве признаков. Если изображение описывается wXh
пикселями, размерность простейшего векторного пространства, к
которому данный вектор принадлежит, будет равна произведению w на h
и, соответственно, базис подобного векторного пространства будет
состоять из wx h векторов.
Однако в связи с тем, что все человеческие лица схожи между собой
(овальная форма с носом, ртом, глазами и т.д.), все векторы,
описывающие изображения лиц, будут размещаться в узко ограниченной
области данного векторного пространства. Поэтому при решении задачи
распознавания людей по портрету описание и хранение всего векторного
пространства не рационально.
Таким образом, встает вопрос построения пространства меньшей
размерности, в котором изображения человеческих лиц описываются
более компактно. Одним из вариантов является пространство, базисными
векторами которого служат главные компоненты всех содержащихся в
нем изображений лиц. Размерность такого пространства заранее
определить невозможно, но она намного меньше размерности векторного
пространства всех изображений.
Главной целью метода анализа главных компонент является
значительное уменьшение размерности пространства признаков таким
образом, чтобы оно как можно лучше описывало "типичные" образы,
принадлежащие множеству портретов. В случае применения данного
метода для идентификации лиц такими образами будут служить
обучающие изображения.
Иными словами, при помощи анализа главных компонент удается
выявить всевозможные изменчивости в обучающем наборе изображений
лиц и описать эту изменчивость при помощи нескольких переменных.
Эти переменные представляют собой wx h -размерные векторы, которые
114
называются собственными. Если преобразовать подобные векторы в
изображения, то получаемые файлы будут отражать главные компоненты
представленного
обучающего
множества
(также
называемые
собственные лица).
За счет снижения размерности пространства базисных векторов, в
котором находятся изображения повышается скорость и достоверность
распознавания.
Полученный на основе представительной обучающей выборки набор
собственных векторов или лиц (рис. 95) используется при кодировании
всех остальных изображений, которые представляются для хранения в
базе взвешенной комбинацией этих собственных векторов (рис. 96).
Иными словами, используя ограниченное количество собственных
векторов, можно получить улучшенную аппроксимацию к входному
изображению, которая затем хранится в базе данных в виде вектора
весов, служащим одновременно ключом поиска.
Рис. 95. Набор из пяти собственных векторов
Рис. 96. Описание исследуемого изображения
Математика обоснования полноты набора собственных векторов его
минимизации является сегодня интенсивно развивающимся научным
направлением. Эксперименты показывают достижение точности
распознавания в 99%. Такой подход особенно интересен в охранных
системах, когда набор собственных векторов можно составить
автоматически по набору допущенных лиц.
Рис. 97 иллюстрирует процесс кодировки и дешифрования описания
нового лица.
Пусть некоторый объект определен как вектор u = {u1 , u 2 , K , u n } в
n-мерном пространстве. Например, U может быть изображением, а в
115
качестве компонент ui могут выступать пиксели. В этом случае n равно
числу пикселей изображения.
Рис. 97. Уменьшение размерности исходного вектора переносом в базу собственных
векторов
Пусть есть группа объектов u = {u1 , u 2 , K , u n } , где i = 1…m. Тогда
средний объект группы u = {u1 , u 2 , K , u n } определяется следующим образом:
i
i
1
=
m
ul
i
m
∑
k =1
i
u lk ,
где l = 1...n.
Ковариационной матрицей для данной группы изображений будет
симметричная квадратная матрица m × m с элементами
ляемыми по формуле:
ci j , вычис-
n
ci j = ∑ (uli − ul )(ulj − ul ) .
l =1
Базис
собственных
e i = {e1i , e 2i , K , e ni } ,
объектов
i = 1K m1 , m1 ≤ m будем рассчитывать из соотношения
e =
i
l
1
λi
m
∑v
k =1
116
i
k
(u lk − u l ) ,
где
i
i
i
i
где λ i и v = {v1 , v 2 , K , v m } собственные значения ковариационной матрицы и соответствующие им собственные вектора.
Таким образом, по входной последовательности объектов произвольной природы определяется базис из собственных объектов, и любой другой объект из этой последовательности может быть представлен в виде
вектора весовых коэффициентов, являющимися координатами данного
объекта в полученном базисе собственных объектов.
Формула для нахождения координат разложения объекта u:
wi =
n
∑
l =1
e li ( u l − u l ) .
Объект u может быть восстановлен в любом подпространстверазмерностью m1 пространства собственных векторов по формуле:
u~ l =
m1
∑w
k =1
k
e lk + u l .
Тюрк и Г. Тентланд провели комплексное исследование данного
метода на базе данных, состоящей из портретов 16 человек, изображения
которых были получены при различных условиях освещения, при съемке
с различных расстояний, при разных поворотах головы - всего 2500
фотографий. Однако полученные изображения были одинаковы по таким
параметрам, как мимика, детали лица (борода, очки и т.д.). При
изменении освещения, ракурса съемки и масштаба точность
распознавания составила 95, 85 и 64% соответственно. Кроме того,
середина лица выделялась для уменьшения негативного эффекта от
возможных изменений в прическе и фоне. По скорости работы
реализованная на рабочей станции SUN 3/160 система приближалась к
режиму реального времени.
Подобно предыдущему методу в вероятностных моделях также
используется обучающий набор. При этом формируются два класса из
всех вариантов представления объектов: внутри объектной и внешней
изменчивости, т.е. отбираются признаки, по которым все портреты
делятся на два класса: 1) портрет данного человека, 2) все другие
портреты. Функции плотности вероятности для каждого класса
оцениваются при помощи упомянутого выше обучающего множества и
впоследствии используются для вычисления меры схожести, которая
таким образом основывается на полученных опытным путем
вероятностях. Кроме того, для получения более точных результатов
117
иногда используется вероятностная модель некоторого физического
процесса, при помощи которой и формируется окончательная мера
схожести двух изображений.
При распознавании лиц определяют два класса изменений
изображений лиц: внутри объектный Qi (различные выражения лица
одного человека) и вне объектный QE (разница во внешности двух
различных индивидуумов). Тогда мера схожести в терминах теории
вероятности может быть выражена следующим образом:
S(Ii,l2)=P(d(Ii,l2)6 Qi)=P(Oi|d(Ii,l2)),
где P(Qi|d(Ii,l2)) - вероятность, полученной по правилу Байеса на основе
опытов с использованием оценки подобия P(d(Ii,l2)l ^i) и P(d(Ii,l2)| Оi)"
вычисленных из обучающих данных с использованием эффективного
под пространственного метода оценки плотности многомерных данных.
Кроме того, используют новое представление для различий в
сравниваемых изображениях d(Ii,l2), которое сочетается как с
пространственными (X,Y), так и яркостными (I) компонентами в
унифицированной XYI структуре (не похожей на предыдущие подходы,
которые по существу обрабатывали форму и структуру независимо). В
частности, Ii моделируется трехмерной деформируемой физической
поверхностью (или множеством) в XYI-пространстве деформируемом в
соответствии с привлекаемыми "физическими силами", прилагаемыми
поверхностью I..
Динамика подобных систем эффективно решается при использовании
"аналитических методов вибрации", получая трехмерное поле
соответствия для искривления Ii в 1г. Дополнительную используют
параметрическое представление d(Ii,Iz)= U, где U - это спектр модальных
амплитуд окончательной деформации. Это множество методов подгонки
для соответствия изображений может рассматриваться в более общей
формулировке, которая, в отличие от оптического потока, не требует
постоянной оценки яркости.
В методе сопоставления с эталоном процесс распознавания
разбивается на части, соответствующие отдельным чертам лица.
Каждая фотография, поступающая на вход распознающей системы,
должна представлять собой фронтальное изображение лица человека с
определенным для конкретной базы данных количеством масок,
представляющих основные для идентификации регионы лица (например,
глаза, нос, рот и нижняя часть лица). Кроме того, расположения данных
масок должны быть одинаково нормализованы (например, относительно
положения глаз) для всех изображений в базе данных.
118
Во время процесса распознавания, когда части входного изображения
по очереди сравниваются с частями изображения, хранящегося в базе,
используется вектор, отражающий результат сравнения в баллах (один
балл за каждую совпавшую черту лица) и вычисляемый путем
нормализованной взаимной корреляции (впрочем, методы сравнения
могут
быть
разными).
После
чего
входное
изображение
классифицируется в соответствии с максимально набранными баллами.
Имеются также некоторые разновидности данного подхода, например с
изменяющимися в процессе сравнения эталонами.
В небольших по объему исследованиях база 27 человек выделили
четыре региона лица для сравнения: глаза, нос, рот и нижняя часть лица.
Однако, несмотря на успехи в точности, признаю наличие большой
вычислительной стоимости работы алгоритма. Для сравнения двух
изображений с расстояниями между зрачками в 27 пикселей и
использованием эталонов лишь глаз, носа и рта требуется 25 мс времени
работы SPARC Station IPX.
Рис. 98. Эталоны некоторых областей лица.
Другой вариант использует изолинии, т.е. кривые одного уровня
яркости, которые хоть и не принадлежат к трехмерным структурам, но
передают изображение рельефа лица. Сначала, применив к изображению
лица на черном фоне оператор Собела и некоторые другие шаги по
предобработке, получают границы области лица, а затем при помощи 8битовой гистограммы яркости разделяют контуры головы на изолинии.
После этого уже используется процедура сопоставления с эталоном.
Принципы функционирования систем, построенных на нейронных
сетях (иногда их также называют авто ассоциативной памятью),
заключаются в том, чтобы в ответ на некоторую входящую совокупность
данных, называемую "ключом", выдать на выход хранящуюся в сети и
наиболее близкую к входной по значениям совокупность такой же
размерности или ее код. В случае распознавания лиц ключом служит
изображение лица человека.
Линейная авто ассоциативная память представляет собой один слой
нейронной сети. Каждый нейрон этого слоя ассоциируется с одним
компонентом, получившимся из разложения изображения лица вектора
119
(аналогично методу собственных лиц). Таким образом, при размере
изображения w Х h пикселей каждый слой данной сети будет содержать
w X h нейронов. Кроме того, каждый нейрон связан со всеми остальными
и линейная авто ассоциативная память строится при вычислении (w х h)
весов связей этой нейронной сети. Данные веса определяются на этапе
обучения, при котором несколько обучающих изображений,
представленных авто ассоциативной памяти линейно, запоминаются в
ней.
Нейронная сеть как правило входит в состав системы
осуществляющей внешнюю подготовку векторов к распознаванию.
y изображение оцифровывается и кодируется в виде вектора;
y каждая координата вектора располагается в отдельной ячейке,
связанной со всеми остальными ячейками (обучение или настройка
системы происходит путем изменения весов связей между ячейками);
y изображения лиц фильтруются через нейросеть, при этом входное
изображение трансформируется в ближайшее запомненное, которое или
указание на нее и подается на выход.
На данный момент этот подход является одним из самых популярных.
Однако оценить вычислительную сложность алгоритмов вне
вычислительных машин с параллельной архитектурой затруднительно.
Тем не менее, сообщается о достаточно эффективном использовании
нейронных сетей в области анализа изображений лиц по трем
направлениям: классификация людей по полу, непосредственно
распознавание и определение эмоциональных выражений лиц.
Используются алгоритмы, основанные на самоорганизующихся
картах (SOM), сворачиваемых сетях (Convolutional Networks) и
многослойных персептронах, изменяются числа классов, по которым
проводилось распознавание, размерности самоорганизующихся карт,
уровни квантизации SOM.
Эксперименты проводились на изображениях из ORL-базы с
использованием 5 изображений одного человека для обучающего набора
и столько же для тестового - всего по 200 изображений в обоих
множествах. Наилучшая достоверность распознавания составила 94,25%.
Метод анализа оптических потоков в целях идентификации лиц
признано довольно эффективным, но дорогим с вычислительной точки
зрения.
Сравниваемые изображения А и В превращаются в многослойные
усеченные пирамиды путем многократного сворачивания четырех
соседних пикселей в один со средним арифметическим значением
яркости.
120
На соответствующих слоях двух разных пирамид производят поиск
подходящих между собой наилучшим образом групп пикселей.
Для каждого блока изображения А определяется вектор смещения.
Этот вектор уточняет смещение между центрами блока из А и наиболее
близким к нему блоком из В. Аналогично строятся векторы и для
изображения В .
Анализируя получившиеся системы векторов, можно сделать вывод о
степени схожести сравниваемых изображений.
Среди современных подходов к разрешению проблемы распознавания
лиц выделяется также метод сопоставления графов. Объекты
(изображения лиц) представляются в виде графов с вершинами,
помеченными в соответствии со значениями локального энергетического
спектра, и гранями с весовыми значениями, соответствующими
некоторым геометрическим расстояниям. Хотя в основе данного подхода
лежит сравнение одного изображения, представленного графом с другим,
на практике прибегают и к механизму нейронных сетей для
осуществления подобного процесса сравнения.
Системы, основываются на архитектуре динамических связей
(Dynamic Link Architecture - DLA). С ее помощью предпринимают
попытку решить несколько проблем искусственных нейронных сетей,
где самой острой проблемой является выражение синтаксических связей
в нейронных сетях. DLA использует синоптическую пластичность и
может сразу же формировать наборы нейронов, сгруппированных в
структурированные графы, и сохранять преимущества нейронных
систем.
DLA позволяет определять изображения с помощью объектнонезависимого стандартного набора определителей черт, автоматического
обобщения на больших группах симметричных операций и получения
знаний о новом объекте путем однократного обучения, уменьшая время,
затрачиваемое на обучающие шаги.
Распознавание инвариантных объектов достигается с учетом фона,
разложения, искажения и размера при выборе набора элементарных
характеристик, которые будут максимально надежными при подобных
изменениях. В работе используются преобразования Габоровских
вейвлетов. Вейвлеты служат детекторами черт, характеризуя их своими
частотой, местоположением и направлением. Кроме того, применяются
два нелинейных преобразования как вспомогательные в процессе
сравнения.
Для работы DLA требуются как минимум два уровня - пространство
изображений и пространство моделей. Пространство изображений
121
соответствует основным областям коры головного мозга, отвечающим за
зрение, а модельное пространство, с биологической точки зрения,
соответствует меж височной части коры.
Пространство изображения состоит из двухмерного массива узлов (Аа), где а = 1..F. Каждый узел с позицией х состоит из F нейронов (х,а ),
определяющих различные черты. Метка, а используется для обозначения
различных типов черт. Общее количество типов черт определяется для
данного узла при сплетении изображения с подмножеством волновых
функций.
Соседние узлы соединяются связями, кодирующими информацию о
локальной топологии. Изображения представляются графом атрибутов.
Атрибуты, привязанные к узлам графа, являются векторами энергии
локальных определителей черт. Каждый объект изображения
представлен подграфом в пространстве изображений.
Пространство моделей представляет собой собрание всех графов
атрибутов, которые являются идеализированными копиями подграфов
пространства изображений. Между двумя пространствами имеются
возбуждающие соединения, которые хранят черты а. Эти соединения
между пространствами возникают тогда и только тогда, когда черты
относятся к соответствующему типу.
Системы с DLA основываются на формате данных, позволяющем
закодировать информацию в атрибутах, установить связи в пространстве
изображений и передать информацию в пространство моделей без
прямого указания ее позиции в пространстве изображений.
Структура сигнала определяется тремя факторами: входным
изображением, случайным спонтанным возбуждением нейронов и их
взаимодействием с ячейками того же или соседнего узлов в пространстве
изображений.
Связь между нейронами кодируется в форме временной корреляции и
вызывается возбуждающими взаимодействиями между изображениями.
Всего имеется четыре типа связей, использующихся при распознавании и
представлении объектов:
y связи всех узлов и ячеек, которые принадлежат одному объекту;
y связи, выражающие отношения соседства с изображением объекта;
y связывающие
индивидуальные
ячейки
черт
с
чертами,
представленными в различных позициях;
y связывающие точки в графе изображения и графе модели друг с
другом.
Основной механизм DLA, в дополнение к параметрам соединения
между двумя нейронами, является динамической переменной (J) между
122
двумя ячейками (i,j). J-переменная играет роль синоптических весов для
передачи сигнала. Параметры соединения только участвуют в сжатии Jпеременных и могут быть плавно изменены путем длительной
синоптической пластики. Веса связей J1j являются предметами процесса
стремительной
модификации
и
контролируются
сигналами
взаимодействия нейронов х и j.
Отрицательные сигнальные взаимодействия приводят к уменьшению,
а положительные - к увеличению J"j, при отсутствии всяких отношений
JX, плавно переходит к состоянию покоя. Быстрая самоорганизация
является критической для DLA.
Каждое запоминаемое изображение формируется путем подбора точек
прямоугольной решетки как узлов графа. Решетка позиционируется на
сохраняемое изображение и его комбинации пикселей (jets)
запоминаются в соответствии с позицией каждого узла решетки и
классом изображения.
Распознавание нового изображения имеет место при его
трансформации в решетку, и все запомненные графы сравниваются с
ним. Настройка DLA происходит при установлении и динамическом
изменении связей между вершинами в пространстве моделей.
В течение процесса распознавания объект выбирается также из
пространства моделей. Копия модели графа размещается в центре
пространства изображений. Каждая вершина в модели графа соединяется
с соответствующей вершиной графа изображения. Качество сравнения
оценивается при помощи ценовой функции.
Размер графа изображения зависит от некоторого фактора, в то время
как центр графа зафиксирован, и если общая цена снижается, то новое
значение размера графа принимается.
Этот процесс повторяется до тех пор, пока не будет найдена
оптимальная цена. Распространение и оценка размера повторяются для
улучшения уровней разрешения и учета большинства из представленных
изображений.
Распознавание производится после определения полной цены для
каждого объекта. В случае если сравнение одной модели лица будет
значительно лучше всех остальных моделей, лицо считается
опознанным.
Таким образом, система идентифицирует человеческое лицо путем
сопоставления выделенного из него графа с набором хранящихся графов.
Есть результаты сравнения 300 изображений лиц с другими 300
изображениями тех же людей, полученными из базы данных.
Точность распознавания в экспериментах составила 97,3%.
123
Организация баз данных. Все рассмотренные методы, применяемые
для решения задачи поиска лиц в базах данных, можно разбить на три
отдельных класса, в зависимости от способов организации базы и
проведения в ней поиска, а также процедуры сравнения хранящихся в
ней данных.
Первый тип - изображения хранятся в базе, обычно в развернутом
виде, и одновременно служат ключами при поиске.
В процессе распознавания изображения поочередно извлекаются из
базы и сравниваются с искомым.
Данная организация запоминающих и сравнивающих структур имеет
один очень существенный недостаток - огромное время поиска.
Она реально допустима при небольшом объеме лиц в охранных
системах.
К методам распознавания, ориентированные на данный тип базы,
можно причислить прежде всего метод анализа оптических потоков, хотя
могут работать и другие методы не требующие больших затрат времени
на предварительную подготовку изображений.
Второй тип базы данных хранят как само изображение, так и
некоторое его описание, служащее ключом поиска. Данное описание, как
правило согласовано с методом распознавания, используемым в системе.
Для данных описаний установилось не сколько определений – сигнатура,
ключ и т. д.
Процесс поиска в таких системах происходит в два этапа: сначала
проверяются сигнатуры и затем для близких к искомому, извлекаются и
сравниваются непосредственно сами изображения. Недостатки данных
систем необходимость вычисления данного ключа для каждого
изображения при пополнении базы, а затем хранение его в базе.
Однако при этом достигается существенный выигрыш во времени
поиска.
Процедуры поиска построенные на методах геометрических
характеристик и сравнения с эталоном хорошо согласованные с данным
типом баз данных.
Третий тип предполагает отсутствие близко расположенных (по
времени доступа) файлов описаний изображений.
Предполагается достаточный объем сигнатур для проведения
сравнительного анализа без привлечения по пиксельного описания
изображений.
Базовыми методами сравнения являются такие методы, как анализ
главных компонент, нейронные сети, вероятностные методы и некоторые
другие.
124
Изображения кодируются некоторым вектором, который служит
одновременно и ключом поиска. При необходимости оценка
изображения может быть восстановлена по своему вектору и некоторым
данным, вычисленным в процессе обучения системы.
Основной недостаток подобных систем - непредсказуемость работы и
уменьшение точности распознавания при поиске в очень больших базах
данных (от 10 000 объектов и выше), кроме того, при постоянном
пополнении базы система нуждается в своевременном дополнительном
обучении на расширенной выборке.
Рассмотренные методы не исчерпывают всего разнообразия
применяемых операций при распознавании близко расположенных в
пространстве признаков объектов, однако они дают довольно богатый
материал для формирования углубленного понимания путей решения
проблем распознавания образов.
3.8. Распознавание объектов по косвенным признакам
В медицине постановка диагноза базируется на совокупности
наблюдений, анализов и измерений не редко только косвенно говорящих
о наличии болезни. Это налагает определенную специфику на
проведение процесса распознавания и принятие решения.
Рассмотрим
данный
процесс
на
примерах
систем
иридодиагностики и аускультации сердца. Хотя изображения глаза
перспективны и в охранных системах.
Самой надежной и точной методикой создания биометрического
портрета человека является сканирование сетчатки человеческого глаза.
Сетчатка пронизана кровеносными сосудами, переходящими в малые вены и артерии. Их рисунок — уникальный в своем роде и с возрастом меняется незначительно. Впрочем, при тяжелых заболеваниях и травмах,
могут происходить его изменения, препятствующие распознаванию. Инфракрасный лазер отражается сосудами глазного дна. Человек должен
находиться не дальше чем на расстоянии 1,5 см. от камеры и не двигаться. При этом воспринимается более 400 характерных точек. Для сравнения: при съемке отпечатков пальцев их количество колеблется между 30
и 40.
В противовес сканированию сетчатки, распознавание зрачка не
требует лазерной техники. Избыточное освещение может вызвать
сужение зрачка и затруднить обследование. Поэтому часто работают с
искусственным источником освещения. Распознавание базируется на
значительных признаках на зрачке, типа кругов, канавок, пятен
125
сосудиков или завитушек. И только некоторые насчитывают ровно 200
атрибутов.
Одним из разделов медицинской диагностики является наука иридология. В основе ее лежит изучение радужной оболочки глаза.
Помимо специальных инструментов каждая наука имеет также свой
особый язык, свою терминологию. Ключевым понятием в иридологии
является целостность тканей. Цель иридологии – это оценка степени
целостности тканей, включая врожденные сильные и слабые места
организма, собирательно называемые ‘конституцией’.
Стремясь добиться наилучшей визуализации радужной оболочки глаза (радужки), специалисты на первом этапе работали с инструментами
офтальмологии (раздела науки о глазных болезнях и аномалиях): офтальмоскопом, щелевой лампой и другими приспособлениями для освещения и увеличения.
Сегодня существует ряд приборов: интрапупиллографы, биокалиброметры, регистраторы пульсации хориоидального участка сетчатки: считыватели формы зрачка, регистраторы микродвижений глаз, которые
создают довольно объемные описания характеристик состояния глаза.
Исследуются зрачковые реакции при интегральной и локальной стимуляции сетчатки глаза, зрачка с разрешением 15-20 угловых минут разных участков сетчатки и временным до 1 мс. Источники света обеспечивают локальное возбуждение с определенной частотой мигания. Подсветка может осуществляться и в инфракрасном свете без симуляции реакции глаза.
Приборы позволяющий проводить измерения линейных величин и
микрофотометрический анализ локальных участков изображений радужки, глазного яблока. Считывается 3D форма зрачка. Геометрические параметры регистрируются с точностью и локальностью в 100 мкм и выше.
Это позволяет судить о той или иной степени деформации формы
зрачка в каждом отдельном секторе радужки и на основе этого признака
в комплексе с другими иридодиагностическими признаками проводить
предварительную постановку диагноза.
А поскольку пульсация хориоидального участка сетчатки отражает
пульсацию кровотока заднего сосудистого слоя глаза, то по ее величине
можно судить о характере кровотока в сосудах радужной оболочки.
Богатую почву для диагностики создает геометрия линий в различных участках сетчатки.
Особый раздел иридодиагностики – цветовой состав радужной оболочки. Собственная пигментация радужной оболочки – определяется
126
концентрацией меланина в переднем пограничном слое и строме. Кривые пропускания 5% раствора этого пигмента рис. 99.
Из спектральных свойств меланина ясно, почему сильно пигментированные коричневые радужки в красном свете кажутся более светлыми ,
чем серые или голубые. Очевидно также, что в синем свете все пигментные образования становятся черными, а в красном почти полностью
обесцвечиваются. Поэтому локальная пигментация на более светлом фоне окружающей ткани радужки, также как участки депигментации на
темном фоне, контрастнее всего выглядит на синем свете.
Рис. 99. Кривые пропускания меланина и гемоглобина на различных участках
спектра
Выбор вида освещения определяется спектральными свойствами исследуемой детали и окружающего ее фона. При исследованиях состояния
127
гемоглобина обращают на себя внимание два участка спектра с минимальным пропусканием:
– участок с длиной волны менее 440 нм (фиолетовый свет);
– 540...580 нм (желто-зеленый).
Из-за поглощения света в этих участках новообразованные сосуды радужной оболочки могут выглядеть, как черные линии.
Из спектральных свойств меланина ясно, почему сильно пигментированные коричневые радужки в красном свете кажутся более светлыми ,
чем серые или голубые. Очевидно также, что в синем свете все пигментные образования становятся черными, а в красном почти полностью
обесцвечиваются. Поэтому локальная пигментация на более светлом фоне окружающей ткани радужки, также как участки депигментации на
темном фоне, контрастнее выглядит на синем свете.
На рис. 100 приведена классификация систем иридохромографии по
используемой аппаратуре. Спектральный состав коэффициентов пропускания и отражения может исследоваться на различной по стоимости аппаратуре.
Детальная картина получается в ветви с монохроматической фотоприемной матрицей благодаря применению узкополосных источников света.
В полихроматической ветви работают наборы светофильтров. В обеих
случаях может осуществить нечто подобное иридохромоскопическому
анализу.
Упрощенные системы оснащаются цветными приборами наблюдения.
Рис. 100. Классификация систем иридохромографии
128
При выборе вида освещения для иридохромоскопии следует исходить из предполагаемых спектральных свойств объекта наблюдения и
окружающего его фона. Необходимо стремиться к созданию максимального контраста и фона. Глубинный анализ тканей радужки проводится с
учетом особенностей ее структуры и степени пигментации. В терминах
ТРО необходимо не допускать увеличения зон перекрытия классов в
цветном признаковом пространстве.
Сегодня широко используются системы, способные распознать личность по фотографии сетчатки (банковские системы пропусков, военные
и т.д.), многие медицинские центры сегодня могут предложить полную
диагностику организма именно по изображению все того же глаза, ну а
лазерная коррекция зрения стала рабочим инструментом офтальмологии.
Процесс автоматической диагностики с постановкой диагноза в данном применении находится в начальной стадии. Основной задачей является предварительная обработка исходных изображений с соблюдением
принципов ТРО. Это особенно важно для систем работающих в недоступной человеку области спектра.
На рис. 101 представлена последовательность операций при распознавании в устоявшаяся в иридодиагностике. Описано три подхода к решению задачи.
При распознавании по контуру неизвестный объект (1)
считывается, его изображение (2) на квантуется и дискретизируется (3).
Понижение размерности описания достигается минимизирующим
преобразованием (4).
В результате выполнения описанных этапов плоское изображение
объекта представляется в виде многосвязного контура. Т.к. при идентификации используется только внешний контур изображения, то его выделение происходит в узле (5).
Параллельно проводится анализ изображения с целью выявления на
нем отдельных опорных элементов (6), необходимых для проведения нелинейных преобразований внешнего контура изображения объекта (7).
Выполнение этого этапа позволяет уменьшить перспективные искажения на изображении, а также провести желательную переориентацию
в пространстве и приведении его к плоскостям проектирования, в которых интегральные признаки идентификации проявляются наиболее ярко.
Далее объект идентифицируется (8).
При этом либо происходит классификация неизвестного объекта , либо, если риск диагноза велик, делается запрос новой реализации объекта,
снятой, например, под другим ракурсом.
129
130
Рис. 101. Основные операции обработки изображений в иридодиагностике
При распознавание по одиночным признакам получают одиночное
изображение (2) и далее проводятся этапы предварительной обработки
изображения: кодирование (9) и минимизация (10).
Затем многосвязной контур подвергается препарированию (11) на
систему односвязных контуров.
Каждый такой контур нормализуется (12) и распознается (13).
Т.к. целевые признаки ,как правило, представляют собой связную систему из односвязных контуров, то для их формирования приходится проводить синтез односвязных контуров для получения изображений целевых признаков (14), по найденному набору который на изображении неизвестного объекта и проводится его целевое распознавание (15).
Исходом этого этапа может быть либо отнесение неизвестного объекта к одному из классов, либо запрос новой информации об объекте.
Распознавание по стерео парным снимкам проводится с помощью двух
приборов наблюдения.
Стерео изображения (16) дискретизируются, кодируются (17).
Минимизация их описания (18), и препарация на систему односвязных контуров (19) подготавливает несвязанное описание объектов.
Для 3D анализа проводится идентификация схожих точек стереопары
(20).
Далее составляется пространственное описание видимой части неизвестного объекта (21) и формируются целевые признаки (22).
По ним проводится распознавание (23), определяется номер класса либо
дается запрос новых снимков неизвестного объекта .
Многие из приведенных операций подходят под термин фильтрация
изображения.
Изображение глаза будет зашумлено, поэтому понятие фильтрации в
данном случае весьма обширно, и включает в себя любое преобразование
графической информации. Фильтрация может быть задана не только в
виде формулы, но и в виде алгоритма, а не редко и таблицы его реализующая. Человек запоминает графическую информацию, в основном, в
виде трех ее составляющих:
1.Низкочастотные составляющие изображения. Они несут информацию о локализации объектов, составляющих изображения. Эта составляющая наиболее важна, так как связка глаз - мозг уделяет ей первостепенное внимание.
2.Высокочастотные составляющие изображения. Они отвечают за
цветовые перепады - контуры изображения. Увеличивая их, мы повышаем резкость изображения.
131
3.Текстуры изображения. Чтобы понятно объяснить, что это такое
проведем небольшой эксперимент. Расслабьтесь, вспомните интерьер
вашего дома, например, письменный стол. Вы знаете его очертания, местоположение, цвет - это низкочастотные характеристики, вспомнили его
заостренные углы, небольшую царапину где-нибудь ближе к его кромке это высокочастотные составляющие. Также Вы знаете, что стол деревянный, но не можете в точности рассказать обо всех мельчайших деталях
его поверхности, хотя общие характеристики (коричневый с темными
впадинами, две области расхождения концентрических эллипсов от сучков) - наверняка. В данном случае в скобках - описание текстуры. Можно
трактовать текстуру как характеристику участков в контурах изображения.
Будем рассматривать фильтры в виде квадратной матрицы A. Пусть
исходное изображение X, а получаемое как результат фильтрации - Y.
Для простоты будем использовать матрицы 3x3:
⎡ xi −1, j −1 xi −1, j xi −1, j +1 ⎤
⎡ yi −1, j −1 yi −1, j yi −1, j +1 ⎤
⎢
⎥
⎢
⎥
X = ⎢ xi, j −1
xi, j
xi, j +1 ⎥, Y = ⎢ yi, j −1
yi , j
yi, j +1 ⎥.
⎢ xi +1, j −1 xi +1, j xi +1, j +1 ⎥
⎢ yi +1, j −1 yi +1, j yi +1, j +1 ⎥
⎣
⎦
⎣
⎦
Рекурсивными фильтрами первого рода будут такие фильтры, выход
Y которых формируется перемножением весовых множителей A с элементами изображения X. Для примера рассмотрим фильтры низких частот:
⎡1 2 1⎤
⎡1 1 1⎤
⎡1 1 1 ⎤
⎢16 16 16 ⎥
⎢10 10 10 ⎥
⎢9 9 9 ⎥
⎢2 4 2⎥
⎢1 2 1⎥
⎢1 1 1 ⎥
A1 = ⎢
⎥.
⎥, A3 = ⎢
⎥, A2 = ⎢
9
9
9
10
10
10
16
16
16
⎥
⎥
⎢
⎥
⎢
⎢
⎢1 2 1⎥
⎢1 1 1⎥
⎢1 1 1 ⎥
⎢⎣16 16 16 ⎥⎦
⎢⎣10 10 10 ⎥⎦
⎢⎣ 9 9 9 ⎥⎦
Фильтром низких частот пользуются часто для того, чтобы подавить
шум в изображении, сделать его менее резким. Используя фильтр A3 ,
будем получать изображение Y следующим образом:
⎞
1 ⎛ xi −1, j −1 + 2 xi −1, j + xi −1, j +1 + 2 xi, j −1 +
⎟.
yi , j = ⎜
16 ⎜⎝ 4 xi, j + 2 xi, j +1 + xi +1, j −1 + 2 xi +1, j + xi +1, j +1 ⎟⎠
Выход фильтра второго рода формируется аналогично первому, плюс
фильтра B:
132
⎡ xi −1, j −1 xi −1, j xi −1, j +1 ⎤
B = ⎢ xi, j −1
0
0 ⎥.
⎢
⎥
⎢⎣ 0
0
0 ⎥⎦
Для простоты рассмотрим одномерный фильтр вида:
1
(1,2,1) :
4
1
y1 = ( x0 + 2 x1 + x2 );
4
1
1 ⎡1
⎤
y 2 = ( y1 + 2 x2 + x3 ) = ⎢ ( x0 + 2 x1 + x2 ) + 2 x2 + x3 ⎥
4
4 ⎣4
⎦
1
1
= ( x0 + 2 x1 + 5 x2 + 4 x3 ) = (1,2,5,4 );
16
16
1
1⎛ 1
⎞
y3 = ( y 2 + 2 x3 + x4 ) = ⎜ ( x0 + 2 x1 + 5 x2 + 4 x3 ) + 2 x3 + x4 ⎟
4
4 ⎝ 16
⎠
1
= (1,2,5,20,16 ).
64
Рассмотрим и другие фильтры:
Высокочастотные (для подчеркивания резкости изображения):
⎡ 0 − 1 0 ⎤ ⎡ 1 − 2 1 ⎤ ⎡ − 1 − 2 − 1⎤
⎢− 1 5 − 1⎥, ⎢− 2 5 − 2⎥, ⎢− 2 13 − 2⎥
⎢
⎥ ⎢
⎥ ⎢
⎥
⎢⎣ 0 − 1 0 ⎥⎦ ⎢⎣ 1 − 2 1 ⎥⎦ ⎢⎣ − 1 − 2 − 1 ⎥⎦
Для подчеркивания ориентации север N, и северо-восток N-S:
1
1⎤
1 1⎤
⎡1
⎡1
⎢
⎥
⎢
N = 1 − 2 1 , „N − S = − 1 − 2 1⎥ .
⎢
⎥
⎢
⎥
⎢⎣− 1 − 1 − 1⎥⎦
⎢⎣− 1 − 1 1⎥⎦
Подчеркивание без учета ориентации (фильтры Лапласа):
⎡ 0 − 1 0 ⎤ ⎡− 1 − 1 − 1⎤ ⎡ 1 − 2 1 ⎤
⎢− 1 4 − 1⎥, ⎢− 1 8 − 1⎥, ⎢− 2 4 − 2⎥ .
⎢
⎥ ⎢
⎥ ⎢
⎥
⎢⎣ 0 − 1 0 ⎥⎦ ⎢⎣− 1 − 1 − 1⎥⎦ ⎢⎣ 1 − 2 1 ⎥⎦
Корреляционный:
133
( )
)( )
( )
(
) + (x
)
⎡ ρ ρ
ρr ρc ⎤
− ρ c 1 + ρ r2
r c
⎢
⎥
2
1 + ρ c2 1 + ρ r2 − ρ r 1 + ρ c2 ⎥ ,
⎢− ρ r 1 + ρ c
⎢ ρ ρ
ρ r ρ c ⎥⎥
− ρ c 1 + ρ r2
r c
⎢⎣
⎦
где ρc , ρr - коэффициенты корреляции между соседними элементами по
строке (столбцу). Если они равны нулю то отфильтрованное изображение будет совпадать с исходным, если они равны единице, то фильтр будет эквивалентен лапласиану. При обработке изображений очень часто
используют последовательность фильтров: низкочастотный и Лапласа.
Часто используют и нелинейную фильтрацию. Для контрастирования
перепадов изображения используют градиентный фильтр:
(
)(
(
yi , j = ⎛⎜⎝ xi , j − xi +1, j +1
2
)
S
2
⎞⎟ ,
−
x
i , j +1
i +1, j
⎠
или его упрощенный вид:
yi , j = xi , j − xi +1, j +1 + xi , j +1 − xi +1, j .
Еще один нелинейный фильтр - Собела:
A0 ... A7 - входы, yi,j - результат фильтрации.
S
⎡ A0 A1 A2 ⎤
yi , j = ( g 2 + f 2 ) ,
⎢A
yi, j A3 ⎥ ,
g = ( A2 + 2 A3 + A4 ) − ( A0 + 2 A7 + A6 )
⎢ 7
⎥
f = ( A0 + 2 A1 + A2 ) − ( A6 + 2 A5 + A4 ).
⎢⎣ A6 A5 A4 ⎥⎦
Рекурсивная версия :
⎡ B0 B1 B1 ⎤
⎢B
yi, j A3 ⎥,
⎢ 7
⎥
⎢⎣ A6 A5 A4 ⎥⎦
где B0 ... B7 - выход отфильтрованного изображения.
Нелинейная фильтрация - достаточно загадочная область цифровой
обработки сигналов, многое еще в ней пока не изучено. Важность же ее
не вызывает сомнений, потому, что окружающий нас мир по своей сути
не так линеен, как порою хочется его нам интерпретировать.
Примеры работы некоторых фильтров приведены на рис. 102 – фильтр
Лапласа и на рис. 103 – фильтр Собела.
Левое окно интерфейса программы показывает – исходное изображение, правое – полученный результат.
134
Рис. 102. Выделение контуров методом Лапласа
Рис. 103. Обработка изображения фильтром Собела
Наряду с оптическими изображениями в медицине широко применяются и акустические сигналы.
Известно, что выслушивание является одним из наиболее эффективных методов клинических исследований сердца.
И в наше время, несмотря, на внедрение в клиническую практику
рентгеновского, ЭКГ и других методов, наиболее полное представление
о механике сердечной деятельности и ее нарушениях по-прежнему дает
исследование звуков сердца.
В данном случае это пример хорошо теоретически проработанной
причинно-следственной картины, содержащей сложные механические
модели и уравнения динамики жидкостей.
Базовой привязкой является обычно сигнал с электрокардиографа, На
рис. 104 приведен график поясняющий синхронизацию. Теоретическим
обоснованием является высокая степень корреляции между длительно135
стью акустической и электрической систолы.
Рис. 104. Синхронизация циклов прослушивания сердца по электрокардиограмме.
U k - сигнал с электрокардиографа, U a - сигнал с стетотелефона
Упрощенно считая, что систола - это только сокращение миокарда, а
диастола - только пассивное расслабление, можно ввести два базовых
сигнала синхронизации R- зубец и T- зубцы.
На самом деле картина существенно сложнее. Теория фазовой структуры сердечного цикла была создана 1945 г. Сердечный цикл состоит из
4-ех периодов и 11-ти или 8 фаз. Опишем некоторые из них.
Система желудочков начинается с фазы трансформации, или асинхронного сокращения (20 мс), в конце которой атриовентрикулярные
клапаны закрываются внутри желудочковым давлением. В следующей
фазе изометрического сокращения (32 мс) в основном поддерживается
постоянство объезда, не отмечается выраженной динамики геометрии
внутренних н внешних поверхностей сердца.
Далее следует протосфегмический интервал (5 мс), когда закончилось
изометрическое сокращение. Очередные фазы - максимального и редуцированного изгнания -дифференцируются друг от друга лишь по внутри
желудочковым барограммам.
Теперь о периодах и фазах диастолы. Первая из них именуемая протодиастолическим интервалом, соответствует закрытию полулунных
клапанов, и во время нее кровотока через клапаны уже нет (последнее
трудно представить, если при открытых клапанах сохраняется хотя бы
минимальный перепад давления).
136
Следующая фаза - изометрического расслабления (85мс) - характерно,
как известно, снижением внутри желудочкового давления, причем средняя его скорость примерно равна средней скорости подъема давления, в
начале механической систолы. На том этапе, так же как и в фазу трансформации, имеет место явление активного изменении геометрии желудочков, т.е. часть явлений не сводится к пассивному расслаблению миокарда. Следует подчеркнуть, что фаза быстрого пополнения желудочка
постоянством длительности (в норме 9.5 мс).
Нормальная хронокардиограмма левого желудочка человека (средние
данные в секундах) приведены в таблице 8.
Таблица 8
Период напряжения
асинхронное сокращение
Изометрическое сокращениеi
Период изгнания
0,086 ±0,001
0.053 ±0.001
0.032 ± 0,001
0.58 ±0,002
Систола:
Механическая
Общая
Период расслабления
Продолжительное изгнание
Изометрическое расслабление
Период наполнения:
Быстрое расслабление
диастаз
систола предсердий
Интерсистолический интервал
0.290 ±0,002
0.144 ±0,002
0,124 ±0,005
0.04 1( 0.034)
0.083 ±0.004
0,453 ±0,021
0,09. ±0,004
0,259 ±0,019
0.096 ±0,004
0.07
Схема расположения стандартных точек записи фонокардиограммы
на грудной клетке показана на рис. 105:
y Первая точка — верхушка сердца;
y вторая точка — четвертое межреберье слева:
y третья — четвертое межреберье справа;
y четвертая — второе межреберье слева;
y пятая — второе межреберье справа.
Таким образом задача формализуется, как задача распознавания сигналов от набора источников звуков расположенных определенным образом в пространстве и локализованных во времени.
Основная сложность состоит в устранении влияния наложения звуковых сигналов на друг друга во времени.
137
Рис. 105. Точки прослушивания сердца
Не мало сложностей вызывает и крепление микрофонов. Плохое прилегание приводит к изменению частотного спектра снимаемых сигналов.
Во всем множестве возникающих вопросов рассмотрим один – дискретизацию сигналов. Этот вопрос возникает почти во всех системах
распознавания образов и имеет важное значение.
Эта процедура известна давно; ее применяют к различным сигналам
как биологического, та к и небиологического происхождения, и уже накоплено много знаний о ее теоретических и практических аспектах.
Применение этих знаний основано на некоторых фундаментальных соотношениях теории информации и теории фильтров.
Процесс аналого-цифрового преобразования удобно подразделить на
три этапа.
Первый этап - взятие отсчетов (или квантование по времени); на этом
этапе сигнал, являющийся непрерывной функцией времени, преобразуется в сигнал, имеющий определенные значения только в отдельные,
обычно следующие через равные интервалы моменты времени (временные точки).
Второй этап часто называют квантованием (или квантованием по
уровню); на этом этапе значение исходного непрерывного сигнала в каждой дискретной временной точке представляется в виде дискретного
числа.
Третий этап - интерполяция, которая используется для восстановления исходного сигнала по его цифровому представлению.
Теорема отсчетов, являющаяся краеугольным камнем теории аналогоцифрового преобразования, утверждает следующее:
если в моменты времени t = ..., —2Т, —Т, 0, Т, 2Т, ... взять отсчеты
функции f(t), которая может быть синтезирована как линейная комбинация элементарных сигналов, то по этим отсчетам невозможно отделить
138
частотные составляющие функции, лежащие выше частоты I/ (2T) Гц, от
частотных составляющих, лежащих ниже этой частоты.
Этот эффект можно уподобить «свертке» шкалы частот, в результате
которого составляющие сигнала, лежащие между частотами Кπ /Т и
(K+1)π /T, «совмещаются», с составляющими, лежащими между частотами (К— 1)π /Т и Кπ /Т.
Сигнал можно построить из совокупности синусоид, каждая из которых имеет определенную амплитуду, частоту и фазу. В математической
форме этот ряд Фурье для периодического сигнала с периодом Т записывается в виде
f(t)=ΣFn*exp(in2tπ/T),
Fn=1/T *ΣF(t)exp(-in2πt/T)dt.
Для непериодического сигнала ряд Фурье выражается в виде
F(t)=1/2π*ΣF(ω)exp(iωt)dω.
где F() - преобразование Фурье, которое определяется как
F(ω)=Σf(t)exp(-iωt)dt.
В терминах анализа Фурье теорему отсчетов можно сформулировать
следующим образом:
Если функция f(a) задана для всех частот ω,меньших π /Т рад/с (или
1/(2Т) Гц), и равна нулю для всех частот выше этого значения, то исходный сигнал f(t) можно полностью восстановить по данным его отсчетов
при условии, что частота отсчетов превышает 1/Т.
Наиболее важное значение имеет обратный аспект теоремы отсчетов,
т. е., указание на то, чего не следует делать ни в коем случае. Говоря
конкретнее, если частота отсчетов ниже, чем удвоенное значение частоты самой высокой составляющей сигнала, то неизбежны ошибки.
Взятие отсчетов энергии в области частот не следует рассматривать,
как фильтрацию. Нельзя выбирать частоту отсчетов, учитывая только те
частотные составляющие данного сигнала, которые представляют интерес.
Например, предположим, что отсчеты некоторого электрокардиографического сигнала берутся через период 5 мс (с частотой 200 Гц), поскольку составляющие сигнала, лежащие в частотном диапазоне выше
100 Гц, не представляют интереса.
Если эта электрокардиограмма была сначала записана при помощи
аппаратуры с широкой полосой пропускания, регистрирующей частотные составляющие из диапазона частот выше 100 Гц (независимо от того, являются ли они полезным сигналом или шумом), то в соответствии с
139
теоремой отсчетов эти частотные составляющие дадут ошибки в значениях отсчетов (их называют «ошибками совмещения»).
Правильное взятия отсчетов в данном случае заключается либо в том,
чтобы вначале фильтруется сигнал электрокардиографа для устранения
всех составляющих, соответствующих частотам выше и близким к 100
Гц, а затем брать отсчеты с частотой 200 Гц, либо в том, чтобы определить самую высокочастотную составляющую исходной электрокардиограммы, а затем брать отсчеты с частотой, по крайней мере вдвое превышающей частоту этой составляющей.
Если в сигнале присутствуют шумы, то дискретизация искажает форму и полезного сигнала.
На рис. 106 представлен вариант дискретизации гармонического сигнала с частотой отсчетов близкой к π /Т рад/с без соблюдения рекомендации по предварительной фильтрации. Входной сигнал y с приходом
импульса строба T оцифровывается.
Выходной сигнал для двух значений сдвига фазы представлен на рис.
108 и рис. 109, на рис. 107 в том же масштабе приведен входной сигнал.
Фаза его соответствует случаю оцифровки рис. 108.
Рис. 106. Входной сигнал y и импульсы стробов T
В данном случае выходной сигнал имеет ступенчатую форму, аппроксимация не проводится. По форме сигнала очевидно то, что говорить об ошибке представления не приходится, налицо грубое искажение
и расширение спектра частот.
140
Рис. 107. Входной сигнал y со сдвигом по x на 5 единиц
Рис. 108. Выходной сигнал yd со сдвигом по x на 5 единиц
Рис. 109. Выходной сигнал yd со сдвигом по x на 48 единиц
Когда экспериментатор получает сигнал в цифровой форме, его может
заинтересовать, какой вид имеют эти данные в промежутках между точками отсчета. Восстановление сигнала в непрерывном виде называются
интерполяцией. Хотя разные методы дают различные по качеству результаты, ни один из них не может обеспечить полное восстановление
исходного сигнала. Вопрос идет о понижении ошибки распознавания
объектов, вызываемой размытием описания классов из за дискретизации
и не совершенством интерполяции. Работы в области аппаратной аускультации сердца рекомендуют частота отсчетов выбирать в 100 раз и
более раз большую, чем граничная частота звуковых сигналов от сердечных мышц.
141
3.9. Распознавание объектов при сверхразрешении
Традиционно считается, что предел возможного в оптикоэлектронных приборах наблюдения ставит фундаментальный рэлеевский
критерий разрешения. Улучшить его не много можно за счет высокого
качества сигнала с фотоприемной матрицы и экстраполяции спектра частот в более высокочастотную область. Но эта величина дает выигрыш на
20...30 % не более. Данная величина реально размещает границу разрешения на уровень 0,15...0,3 мкм. Микроэлектронные технологии с проектными нормами ниже 0,13 мкм ставят задачу смещения этой границы в
область 0,05...0,09 мкм, в противном случае оптические методы контроля
качества изделий становятся неприемлемыми. Данные значения явно
уходят в область сверхразрешения.
Под сверхразрешением классически понимается получение изображения участка поверхности объекта с различием объектов, меньших половины длины волны зондирующего излучения. Такой подход сегодня не
совсем приемлем, если учесть возможности ближнепольной оптики
(БПО). Ее действие основано на присутствии в дальней зоне излучения
вполне идентифицируемых следов взаимодействия света с микрообъектом, находящимся в ближнем световом поле, локализованным на расстояниях, ощутимо меньших длины волны излучения. БПО сочетает
элементы обычной оптики и сканирующей зондовой. С 1993 г. ведется
промышленный выпуск приборов БПО, их предельное ожидаемое разрешение достигает величины в 13 нм, что соответствует лучшим экспериментальным результатам. Возможности БПО велики, но существенным недостатком является малое расстояние между зондом и исследуемой поверхностью.
Есть резерв разрешения и в информационном наполнении сигналов
сканирующей микроскопии, в какой то степени они реализуются в динамической микроскопии малых смещений (ДММС). В ДММС расширен
информационный базис построения изображений за счет учета предыстории изменения сигналов.
Перечень основных операций в ДММС:
y предельно сфокусированный зонд смещается с контролем положения
по исследуемой поверхности на величину, меньшую планируемого разрешения;
y фиксируется распределение яркости дифракционного поля в дальней
зоне;
142
y расшифровываются последовательности кадров с распознаванием малых объектов;
y реконструируются изображения объектов с учетом динамических изменений в дифракционных картинах.
Перечисленные операции позволяют улучшить разрешение исходной
системы.
Совместное использование преимуществ БПО и ДММС дает надежду на достижение требуемого предела разрешения с приемлемой величиной «зазора» между сканируемой полупроводниковой пластиной и
микрообъективом со встроенным зондом БПО. Плоскостность пластины
в пределах чипа сегодня составляет величину в несколько десятых долей
микрометра.
В предлагаемом решении используется фильтрующее свойство оптической системы при передаче изображения структуры с пространственной частотой более высокой, чем предельная разрешаемая данной оптической системой. Исследуемый образец сканируется зондом, перемещаемым вдоль объекта с малым шагом.
Для более наглядного представления рассмотрим одномерный случай.
В качестве зонда взят луч с распределением освещенности по нормальному закону
−
( x − x0 )2
2σ
gauss(x ) = a ⋅ e
Изображение в плоскости анализа регистрируется многоэлементным
фотоприемником в каждом из q положений. Регистрируется как амплитуда, так и фаза излучения, попавшего на фотоприемник. Объект представляет собой миру с коэффициентом пропускания t(x), изменяющимся
по синусоидальному закону.
⎧1+sinщx , при a < x < b;
t ( x) = ⎨
при x < a, x > b.
⎩1 ,
Параметры a и b – границы синусоидального изменения коэффициента пропускания, ω – пространственная частота периодической структуры. После взаимодействия излучения зонда и исследуемой структуры
сигнал имеет вид
pr(x) = gauss(x)·t(x).
Далее на каждом шаге с помощью прямого Фурье-преобразования
вычисляется спектр сигнала.
143
Рассмотрим оптическую систему, пропускающую все частоты без изменений. Ниже на графиках представлена амплитуда E результирующего
спектра на значимых шагах сканирования:
а
б
Рис. 110. Зонд вне объекта, объект (а) и результирующий спектр (б)
а
б
Рис. 111. Зонд наезжает на объект, объект (а) и результирующий спектр (б)
а
б
Рис. 112. Зонд на объекте, объект (а) и результирующий спектр (б)
144
Пусть реальная оптическая система, ЧКХ которой равна
2⎤
⎧2 ⎡
ω
ω
ω
⎛
⎞
1 − ⎜ ⎟ ⎥ , при ω ≤ α,
⎪⎪ ⎢arccos −
α α
H (ω)= ⎨ p ⎢
⎝ α ⎠ ⎥⎦
⎣
⎪
⎪⎩0, при ω > α,
«не видит» частоты второго максимума результирующего спектра, т. е. α
меньше 25 (рис. 112).
Рис. 113. Распознанная форма сигнала с фазовым смещением
Однако изменение спектра при «наезде» на структуру позволяет распознать ее форму (рис. 113).
Таким образом, ДММС позволяет по изменениям низкочастотных составляющих во время наезда сканирующего зонда на не разрешимую
традиционными методами структуру восстановить ее вид.
Можно также говорить об построении изображений по срезам дифракционного поля, полученным в разнесенных сечениях. В этом случае
весь процесс идет через операции распознавания образов.
Подытожим тему распознавания образов описанием возможностей
человека.
В принципе, возможности человека выделять объекты в том числе и
визуальные сообщения существенно индивидуальны.
Однако при обучении операторов сложной техники, при проектировании пультов управления, интерфейсов пользователей программ необходимо достаточно строго учитывать наработанные рекомендации по кодировке сообщений (по З. Лоуи) обеспечивающие уверенное распознавание их в отведенные сроки.
Согласно статистике сообщения могут передаваться посредством изменений цвета, формы расположения и т. п. при числе вариантов не более указанных в таблице 9. Эти цифры гарантируют надежное распозна145
вание среднестатистическим оператором изменений ситуации и ее правильную оценку.
Таблица 9
Изменяемый параметр
Максимальное число
вариантов
3...10.
3
8...16
50
200...1000
3...5
4...9
8...12
4...8
2...3
2...4
2...4
2...4
3...4
2...3
2
2...10
Число цветовых градаций
Вариация размера
Вариация формы абстрактного знака
Вариация формы буквы/цифры
Вариация формы ассоциативного знака
Расположение линейное
Расположение двухмерное
Расположение трехмерное
Ориентация
Ширина линии
Частота мигания
Яркость
Длина линии
Тип линии (точки, тире и т. п.)
Объемность
Расфокусировка
Движение через параметры
При этом минимальные размеры знаков ограничены. Некоторые ограничения приведены ниже. Они могут быть распространены с определенной корректировкой и на другие типы сообщений.
y Диаметр точки или кружочка
>
0,5 мм.
y Короткая сторона трех и четырех угольника
>
0,5 мм.
y Ширина темной линии на светлом фоне
>
0,25 мм.
y Ширина светлой линии на темном фоне
>
0,125 мм.
Считается что человек в сложной ситуации по приведенным придельным параметрам проводит правильное распознавание объекта с ошибкой
не хуже 10 − 2 . Эти цифры оценены для оператора после его обучения.
Комбинации сообщений требуют времени для их осмысления. Скорость выполнения человеком логических операций в распознавании образов различна. Для простейших выводов она должна планироваться не
меньшей чем ниже указанные ограничения:
y операция «И»
– 0,6 с.,
y операция «ИЛИ»
– 0,2 с.
146
Более комплексный параметр – пропускная способность системы
анализа элементарных зрительных образов. Его размерность выражается в двоичных единицах в секунду усвояемых сообщений.
Оценка этого параметра зависит от организации процесса распознавания и у различных авторов она различна. Есть устоявшиеся
оценки, которые используют разработчики приборов и программ.
Некоторые оценки придельных скоростей усвоения приведены ниже. Человек способен усваивать сообщения при скорости входных потоков:
y по Стерлингу
– 12 бит/с;
y по Миллеру
– 24 бит/с;
y по Шаклану
– 50 бит/с;
y по Глезеру и Цуккерману
– 70 бит/с.
Запоминает человек порядка 10 бит/с.
Минимальное время опознавания одинокого объекта считается равным 0,5 секунды Это что то вроде начальной задержки системы, затрачиваемой на переключение типа работы.
Результаты достаточно скромные. Хотя они сильно меняются от индивида к индивиду. Например, по оценке коллег Айвазовский с одного
взгляда запоминал до 700 деталей.
Из приведенных данных легко видеть роль обучения в процессах правильного принятия решений. Обучение человека начинается с его рождения и длится многие годы. Ответственные работы поручаются лицам
достигшим возраста 18 лет, да и то со значительными оговорками.
В результате распознавание ассоциативных знаков во много раз более
результативнее, чем букв и уж тем более – абстрактных символов.
Ведутся и «электрические» исследования реакций человека. Например,
исследуется электрическая реакция мозга при распознавании цвета.
Используются три методики построения цветового пространства (ЦП)
для выявления чувствительности на смену цвета.
y Смешение цветов и составление цветовых уравнений базиса ЦП.
y Измерение отдельных цветовых функций, как отдельных осей координат.
y Изменение больших цветовых различий и построение ЦП методами
многомерного шкалирования.
Цветовые всплески и смена цветов (стимулы) ответ - электрическая
активность мозга. Реакция быстрая. Фронт смены < 1 мс. Электрическая
активность коры мозга дает прямое различие между стимулами. Но осмысление информации идет много медленнее.
147
В примерах приведенных выше в основном рассмотрены процедуры
распознавания изображений. Их практическое применение началось с
исследование следов элементарных частиц, далее аэрофотоснимков, распознавании объектов при анализе аэрокосмической информации. Сегодня это повсеместный промышленный контроль и бытовая сфера, автоматическое распознавание геометрических примитивов и знаков при
вводе изображений книжных страниц и т. п.
Однако специалисты видят существенный разрыв между теорией и
практикой машинного узнавания объектов.
Понятие образ значительно шире, чем понятие изображение. ТРО все
более абстрагируется, в основном рассматривая множественные операции. Три конечных множества прежде всего подлежат теоретическому
анализу :
y T - множество наименований признаков;
y S - множество значений признаков;
y K - множество наименований классов распознаваемых объектов.
Объект считается заданным, если указаны значения его признаков.
Для каждого t ∈ T указано его значение υ (t ) ∈ S .
Таким образом, объект это функция υ : T → S , имеющая
y область определений T ,
y область значений S .
Решающее правило указывает на наименование k (υ ) ∈ K , которому
принадлежит или наиболее близок этот объект. Наименование находится
через функцию k : S T → K . Эта функция задана на множестве всех всевозможных объектов S T .
Таким образом решающее правило разбивает множество объектов на
подмножества (классы разбиения или просто - классы) Va ⊂ S T , представляющие собой прообразы решений
{
a ∈ K : Va = υ : υ ∈ S T , k (υ ) = a} .
Вводится и понятие обучающей выборки W - обучающего множества.
Функция обучения kW : W → K составляет вместе с W материал обучения U = {W , kW }.
Класс Ai из {A1, A2,... Ai,... , Am } задан чаще всего, как вероятности
появления объектов данного класса признаками определяющими данную
точку.
148
В более общем виде это функционал определенный в пространстве
n признаков x1, x2 ,...xi ,..., xn ,
Ai = Fi ( x1, x2 ,...xi ,..., xn ).
Сумма всех функционалов в каждой точке обычно постоянна по всему
полю существования описания классов. Например, при вероятностном
описании классов постоянная равна единице.
Каждый объект порождает вектор своего описания
X j = x1 , x2 ,...xi ,...xnj ,
{
}j
в общем случае nj ≠ n , часть информации может быть не получена или
присутствуют данные, не учтенные в описании классов.
Данный вектор случаен, погрешности технических средств считывания значений признаков порождают приблизительность, нечеткость признакового описания объекта. Часто в этом случае говорят о математическом ожидании и эллипсоиде рассеяния или доверительной области
оценки признаков объекта.
В теории принятия решений за базу берется, как правило, наихудшая
граница доверительной области положения объекта.
Если учесть нечеткость описания классов то нечеткость описания объектов это случайность над случайностью.
В радиофизических задачах признаки приобретают свойства понятные
специалистам:
y поляризационные;
y узкополосные ;
y интегральные заданные в полосе частот.
Они могут иметь прямое физическое содержание, а могут переносить
и смысловое. Примером последнего служит признак - положение центра
тяжести импульса.
Наибольшую неопределенность в трактовку вносят поведенческие
признаки.
Исследование устойчивости и правила их выбора признаков рассмотрены выше.
149
4.Теория принятия решений
Издавна, в теории управления принятие решений (ПР) было важным
разделом. Но по мере становления теория принятия решений ТПР постепенно приобрела самостоятельное значение.
В ТПР применительно к техническим системам исследуются принципы функционирования различных объединений, принимающих решения (живые системы, коллективы людей, автоматы), рассматриваются
подходы к построению кибернетических моделей таких систем.
Как в практически каждой науке, в ТПР формируется свой подход к
формализации проблем, свой язык, аппарат выводов и методы исследования. На сегодня эти процессы развиваются и имеется еще ряд вопросов, которые можно выделить как ведущие.
y Строгое определение области явлений, о которых можно говорить,
как о принятии решений.
y Познание механизмов ТПР в деятельности человека и в биологических системах.
y Изучение поведения биологических систем и целенаправленной
деятельности.
y Формализация процесса ТПР.
y Взаимодействие человека и технических средств процессе ПР.
y Принятие решений в условиях неопределенности
Элементарная теория принятия решений рассматривается в условиях
неопределенности и риска.
Не утратила ТПР своего значения и в теории автоматического управления. В теории робототехнических систем как базовые анализируются
три вида условных предложений:
P1: если x есть A то y есть B.
P2:
если x есть A
то y есть B
иначе C.
P3:
если x1 есть A1 и x2 есть A2 и ... xn есть An то y есть B
Не четкость определений множеств и их связей существенно ус-
ложняет принятие решений даже в простых одноступенчатых схемах.
Например, для условного предложения P1 ряд авторов рекомендуют
решения по схемам.
150
Пусть A , A' , не четкие концепции в универсуме U; B , B ' , не четкие
концепции в универсуме V.
1. Предпосылка 1: если x есть A,
то y есть B.
Предпосылка 2: x ' есть A' .
Вывод:
y ' есть B ' .
2. Предпосылка 1: если x есть A то y есть B.
Предпосылка 2: x ' есть очень A' .
Вывод:
y ' есть очень B ' .
3. Предпосылка 1: если x есть A то y есть B.
Предпосылка 2: x ' есть более или менее A' .
Вывод:
y ' есть более или менее B ' .
4. Предпосылка 1: если x есть A то y есть B.
Предпосылка 2: x ' не есть A' .
Вывод:
y ' не есть B ' .
По сути это ситуации частично рассмотренные в разделе 2.1. Предложение №1 – детерминированный случай. Зоны, в которой действительны
утверждения №2 и №4, четко определены (рис. 2). Зона действия утверждения №3 – нечеткая область.
Пусть E - универсальное множество, х - элемент Е, а G -некоторое
свойство. Обычное (четкое) подмножество А универсального множества
Е, элементы которого удовлетворяют свойству G, определяется как множество упорядоченных пар:
B = {µ B ( x ) / x},
где µ B ( x ) - характеристическая функция, принимающая значение 1, если
х удовлетворяет свойству G, и 0 - в противном случае.
При задании нечеткого подмножества для элементов х из Е нет однозначного ответа «да или нет» относительно свойства G. И хотя нечеткое
подмножество А универсального множества Е определяется также, как
множество упорядоченных пар:
151
A = {µ A ( x ) / x},
где µ A ( x ) - характеристическая функция принадлежности (или просто
функция принадлежности), принимающая значения уже в некотором
упорядоченном множестве М (например, М = [0,...,1]). Функция принадлежности указывает степень (или уровень) принадлежности элемента х
подмножеству А. Множество М называют множеством принадлежностей.
Если М = {0, 1}, то нечеткое подмножество А может рассматриваться
как обычное или четкое множество.
Ниже приведен пример результирующей матрицы для операции сложения в условиях, когда функция принадлежности µ A ( x ) представлена
L нечеткими величинами вида:
µ (x1,i ) / x1,i , µ (x2,i ) / x2,i , ..., µ (xn,i ) / xn,i ,
где i = 1... L .
Исходные функции принадлежности располагаются в левом столбце и
верхней строке матрицы. Элементами этой матрицы являются дискретные нечеткие величины
µ D (x j ,i )/ x j ,i ,
где i = 1... n , j = 1... n и
[
]
µ D (x j ,i ) = min µ (x1,i ), µ (x2, j ) ,
и x j ,i = x1,i + x2, j .
4.1. Общие положения теории принятия решений
Аналитически формально задача принятия решения описывается как
упорядочная четверка. Кортеж Z определяет класс схем принятия решений
Z = {F , A, E , Q},
где F - множество возможных значений не наблюдаемого параметра;
A - множество всех возможных решений (альтернатив);
E - функция потерь, заданная на F , A ;
Q - статистическая закономерность на F .
Практически все величины, входящие в кортеж определены не четко.
152
Пусть имеется совокупность действий, операций, решений
а1, а2, ..., аm, m ≥ 2,
которые может совершить система для достижения поставленной цели,
причем одну и только одну операцию аi, i∈{1, 2, ..., m}, выбирает алгоритм, принимающий решение.
Кроме того, представлен перечень объективных условий (ситуаций),
F1, F2, ..., Fn,
одно из которых Fj, j∈{1, 2, ..., n}, будет иметь место в действительности.
Для каждой операции аi, i = 1, 2, ..., m, при каждом условии Fj, задан риск в некоторых единицах ei, j .
Величины ei, j , играющие роль платежей в теории игр, получаются
расчетным или оценочным путем. Они могут быть объективны или субъективны. Возникают определенные трудности при их числовой оценке,
обусловленные многими факторами. Величины ei, j можно задавать относительно, поэтому нередко их называют показателями предпочтительности.
На рис. 114 представлены виды двух типов функций рисков. Многоэкстремальной (а) и гладкой (б). Каждое значение функции рисков может быть нечетко заданным и многокомпонентным. Так как ei, j представляет собой основное наполнение матрицы решений, то рис. 114
можно определить как графическое представление матрицы решений.
а
б
153
Рис. 114. Вид различных типов функций риска
Табличное представление матрицы решений в различных областях
применения ТПР имеет свою специфику. Рассмотрим ее вид наиболее
часто встречающийся в технических приложениях. В таблице 10 представлены по строкам:
y Вторая строка – символьное определение типа ситуации. В отдельных
источниках можно встретить название явление природы или состояние
природы. Все это говорит о желании авторов представить некоторый, не
управляемый системой параметр внешней среды, от которого зависит
эффективность возможных действий системы. Практическое решение в
расчетах имеет только индекс ситуации j .
y Первая строка – характеристическая функция принадлежности q j .
Как правило определяется в виде вероятности возникновения ситуации
F j . Но это не ограничивает жестко ее суть. Данная величина чаще всего
используется в расчетах в виде сомножителя e j , поэтому имеет вид весовой функции F j ситуации, ее дополнительного влияния на исход решения.
y Второй столбец – символьные обозначения возможных решений.
Практическое значение имеет только индекс решения. Именно поиск
данного индекса является базовой целью анализа. Его значение определяет оптимальное решение, дающее наибольший выигрыш или наименьшие потери при заданном уровне возможного проигрыша, который
может случится, если возникнет одна из не запланированных ситуаций.
y Первый столбец – характеристическая функция принадлежности pi .
Определяет обычно вероятность осуществления решения Ai . В ряде случаев по объективным или субъективным причинам запланированное решение не реализуется полностью и реально осуществляется другое учтенное или неучтенное решение (параметры реализованного решения не
позволяют говорить о том, что выполнено запланированное решение).
Поле таблицы заполняется оценками риска или выигрыша ei, j от
принятия решения Ai , при его реализации в условии F j .
Таблица 10
q1
F1
...
...
154
qj
Fj
...
...
qn
Fn
p1
A1
e1,1
...
e1, j
...
e1, n
...
pi
...
Ai
...
ei,1
...
...
...
ei, j
...
...
...
ei, j
...
pm
...
Am
...
em,1 ...
...
...
em, j ...
...
em, n
При последующем анализе таблица видоизменяется. В нее вводятся
новые строки и столбцы. Они уменьшают объем вычислительных операций, так как из рассмотрения удаляются отдельные, слабые по мнению
авторов зависимости.
Добавляемый столбец получил название оценочной функции eri , которая отражает установленный по выбранной схеме принятия решений
(критерию) выигрыш или потери от решения с номером i .
Добавляемая строка e p обычно используется, как уменьшаемое в пересчетах таблицы принятия решений. В ряде преобразований она представляет максимально возможный выигрыш в ситуации F j . Тогда таблица превращается в таблицу потерь от не оптимальных для данной ситуации решений. После добавления строк и столбцов таблица принимает
новый вид (таблица 11).
Таблица 11
q1
F1
...
qj
...
Fj
...
...
qn
Fn
er
p1
A1
e1,1
...
e1, j
...
e1, n
er1
...
pi
...
Ai
...
ei,1
...
...
...
ei, j
...
...
...
ei, j
...
eri
...
pm
...
Am
...
em,1 ...
ep
e p1
...
...
...
em, j ...
ep j
...
...
...
em, n erm
e pn
Число добавляемых столбцов может составлять и десяток. Тогда r
становится индексом критерия принятия решения. И таблица как бы
155
представляет решения многих экспертов, пользующихся для анализа
различными критериями.
Последующая обработка проводится только с со столбцами er .
Процедуры превращения матрицы принятия решений в вектор или
вектора слабо связанные друг с другом, естественно снижают вычислительную нагрузку. Но стремится к этому, как к основной цели необходимо осторожно. Прежде всего надо понимать то, что расчет достаточно
больших матриц по интегральным критериям высокой сложности, в конце концов, занимает несколько секунд, в крайнем случае минут рабочего
времени современных компьютеров в том числе и встраиваемых в интеллектуальные приборы.
В процессе преобразований не только дополняют но и вычеркиваются
те строки, которые описывают заведомо худшие последствия, чем те, что
предполагают остающиеся решения.
Если в процессе преобразований m становится равным единице,
матрица превращается в вектор, отображающий последствия единственного из возможных решений – фатальная ситуация в принятии решений
(Таблица 12). Будущее не корректируется, остается только ждать.
Таблица 12
...
q1
p1
A1
...
qj
qn
F1
...
Fj
...
Fn
e1,1
...
e1, j
...
e1, n
Графическая интерпретация действий с матрицей последствий решений не ограничивается только построением 3D моделей. В практике
последовательного анализа используется построение несколько не обычной графической модели.
Проще всего дальнейшие графические формы представить для случая
с двумя учитываемыми ситуациями.
Таблица 13
0,5
0,5
F1
1
1
1
1
A0
A1
A2
A3
F2
27
61
41
37
42
27
39
35
156
1
1
1
1
1
1
A4
A5
A6
A7
A8
A9
36
55
35
73
38
78
44
64
48
39
20
16
В таблице 13 приведен пример выигрыша от принятия одного из десяти вариантов решений, которые могут быть реализованы в двух ситуациях.
Для упрощения характеристические функции принадлежности опущены
Для начала построим график, у которого введены оси:
F - представлена числами 0, 1, являющихся индексами ситуаций F1 и
F2 ;
A - искомая величина представлена номерами принимаемых решений;
e - ось последствий принятых решений осуществленных в одной из
ситуаций.
Точки на графике (рис. 115) лежат в плоскости AF1e и плоскости
ей параллельной, но проходящей через точку F2 . Проекции на плоскость F2 F1e и далее на ось F1e дают оценки выигрышей.
157
Рис. 115. Последствия решений в двух ситуациях
Таким образом, график образуется параллельными плоскостями отображающими столбцы таблицы и проходящими через индексы ситуаций.
А пересечение их с плоскостью F2 F1e дает линии последствий различных решений в данной ситуации. Превратим их в координатные оси.
Новые оси – числовые оценки последствий решений в каждой ситуации. Число осей и следовательно размерность пространства анализа равно числу рассматриваемых ситуаций плюс одна. Последняя ось – ось номеров решений отображает искомую величину – индекс оптимального
решения.
Ae1 ,...e j ,...en = i + 2 .
График на рис. 116 показывает полученную фигуру. Ось e1 отображает последствия решений при ситуации F1 , ось e2 - последствия решений
при ситуации F2 .
158
Рис. 116. Решения над полем принятия решений
Плоскость e1 0e2 образует поле принятия решений, из которого «вырастают» возможные решения. Такое преобразование позволяет понизить размерность пространства анализа.
На рис. 117 показано поле принятия решений (прямоугольник ABCD).
Оно образовано отрезками линий параллельных оси e1 и проходящими
через точки максимального и минимального выигрыша, который можно
получить при ситуации F2 , а также отрезками линий параллельных оси
e 2 и проходящими через точки максимального и минимального выигрыша, который можно получить при ситуации F1 .
В зависимости от принятого критерия мы проходим различные точки
в данном поле. Часть точек не попадает в рассмотрение.
159
Рис. 117. Поле принятия решений
Пусть мы попали в рабочую точку РТ. Проведем через нее линии параллельные осям. Данные линии разделили поле принятия решений на
четыре квадранта, которые получили название специальные названия.
y Первый квадрант – конус предпочтения. Все точки в этом квадранте
отображают последствия более удачных во всех ситуациях решений.
Термин конус хорошо отображает анализ решений в многомерном пространстве ситуаций.
y Третий квадрант – антиконус. Все точки в нем во всех ситуациях дают
худшие результаты, чем выигрыш, который предполагает рабочая точка.
y Второй и четвертый квадранты называют областями неопределенности. При одной ситуации выигрыш в них больший, при другой – меньший чем в рабочей точке.
Движение в поле принятия решений начинается от начала координат.
Формируется линия предпочтения (в многомерном пространстве ситуаций – гиперповерхность), форма которой отображает выбранный тип
критерия. Данная поверхность движется вдоль направляющей, уравнение
которой также определяет выбранный критерий.
На рис. 118 приведен пример таких построений для одного из критериев принятия решений.
160
а
б
Рис. 118. Движение линии предпочтения K вдоль направляющей u
В первом случае рис. 118 а выше уровня предпочтения лежит пять точек и движение продолжается. В конце последняя точка на линии рис.
118 б выбирается решение (выше и правее линии предпочтения точек
нет). Это решение с индексом 6 - A6 предполагающее выигрыш - 38
или - 78 в зависимости от ситуации. Подробно построение линий предпочтения будет рассмотрено ниже.
Сложившаяся на сегодня методика поддержки принятия решений в
большинстве случаев рекомендует последовательное прохождение следующих этапов:
• анализ ситуации с формированием матрицы решений;
• выработку одного или нескольких критериев принятия решений
(задание оценочных функций);
• определение номеров решений по выбранным критериям;
• анализ полезности выбранных вариантов решений.
Данные этапы, как правило, повторяются несколько раз с постепен-
ным уменьшением числа возможных решений и перечня анализируемых
ситуаций их применения. В системах искусственного интеллекта эти
161
процедуры также программируются с различной степенью адаптации алгоритмов и их параметров к изменению ситуаций в процессе существования системы.
Все компоненты матрицы решений, целевые функции неизбежно
имеют статистический характер, поэтому в процессе принятия решений
многократно применяются методы анализа случайных процессов и событий.
4.2. Классические критерии принятия решений
Ряд критериев принятия решений прошли достаточную проверку
практикой и стали базой для формирования других критериев. Это позволило их выделить в отдельную группу.
4.2.1. Минимаксный критерий принятия решения
Минимаксный критерий (ММ-критерий) занимает ключевое место в
технических решениях. Он полностью исключает риск и, при этом ограничении, дает наилучшее решение. Это позиция крайней осторожности.
Критерий предполагает формирование столбца оценочной функции с
выигрышами, которые можно получить в наихудших условиях реализации выбранного решения.
eri = min ei, j .
j
( )
( )
⎡
⎤
Z MM = max eri = max ⎢min ei, j ⎥ .
i
i ⎣ j
⎦
А схема выбора решения
⎧
⎡
⎤⎫
Ao = ⎨ Aio Aio ∈ A ∩ eio = max ⎢min ei, j ⎥ ⎬ .
i ⎣ j
⎦⎭
⎩
Формула минимаксного критерия звучит следующим образом:
Выбирается множество оптимальных вариантов Ao , которое содержит
варианты Aio , принадлежащие множеству A и оценка eio максимальна
среди всех минимальных результатов возможных решений.
Рассмотрим пример. Пусть матрица решений содержит выигрыши от
четырех решений A , которые можно реализовать в четырех условиях F .
Его критерий
( )
( )
162
Таблица 13 содержит оценки условных выигрышей и упрощена исключением оценок функции принадлежности.
Таблица 13
F1
A0
A1
A2
A3
F2
F3
F4
60
55
62,5
62,5
35
57,5
77,5
67,5
20
62,5
92,5
65
10
67,5
82,5
100
Дополним ее столбцом er . Результат приведен в таблице 14.
Таблица 14
F1
A0
A1
A2
A3
F2
F3
F4
er
60
55
62,5
62,5
55
35
57,5
77,5
67,5
35
20
62,5
92,5
65
20
10
67,5
82,5
100
10
Максимальное значение выигрыша можно получить при отсутствии
риска в случае решения A0 и его величина составит 55 единиц.
Какие бы условия реализации выбранного решения не встретились
оно даст не меньший выигрыш, чем тот что запланирован по оптимальному решению.
Какие бы решения не принимались, любое из них даст в худших для
себя условиях меньший выигрыш чем оптимальное.
Применение ММ-критерия оправдано если:
y О характеристических функциях принадлежности ситуаций F ничего
не известно;
y Решение реализуется один или небольшое число раз;
y Риск полностью исключается.
Сократим таблицу 13 до двух первых столбцов F1 и F2 .
Графическая интерпретация ММ-критерия для двух первых столбцов
матрицы решений таб. 13 приведена на рис. 119.
Точки в поле принятия решений дискретны. Вне них возможных решений нет. Оси e1 и e2 непрерывны и можно задать функцию предпоч-
163
тения. Функция предпочтения задается на основе оценочной функции
рассматриваемого критерия. В данном случае для двух ситуаций
min (e1, e2 ) = k ,
где k - текущий уровень рабочей точки.
Рис. 119. Функция предпочтения минимаксного критерия
Так как мы максимализируем результат, то, если есть хоть одна точка
выше данной линии необходимо увеличивать k . Уравнение задает конус,
грани которого параллельны осям ординат (К на рис. 119). На рис. 119
k =28, выше есть две точки поэтому необходимо увеличивать k . Вершина конуса движется по направляющей являющейся биссектрисой угла
оси ординат – функция u на рис. 119.
4.2.2. Критерий Байеса - Лапласа
Критерий Байеса – Лапласа (BL-критерий) максимализирует средний
выигрыш и допускает определенный риск. В реальной реализации выигрыш может быть существенно ниже, чем запланированный. Для его применения необходимо знать оценки вероятностей появления ситуаций.
Это случай массового применения решения при полном отсутствии ограничения на риск.
Критерий предполагает формирование столбца оценочной функции с
выигрышами, которые дают средний результат многократного применения выбранного решения при всех ситуациях.
164
eri = ∑ ei, j ⋅ q j .
j
⎛
⎞
Z BL = max eri = max⎜ ∑ ei, j ⋅ q j ⎟ .
⎟
i
i ⎜ j
⎝
⎠
А схема выбора решения
⎧
⎫
⎛
⎞
⎪
⎪
⎜
⎟
Ao = ⎨ Aio Aio ∈ A ∩ eio = max ∑ ei, j ⋅ q j ∩ ∑ q j = 1⎬ .
⎟
i ⎜ j
⎪⎩
⎪⎭
j
⎠
⎝
Формула критерия Байеса – Лапласа звучит следующим образом:
Выбирается множество оптимальных вариантов Ao , которое содержит
варианты Aio , принадлежащие множеству A и оценка eio максимальна
среди всех оценок математических ожиданий результатов возможных
решений.
Рассмотрим пример. Дополним матрицу решений таб. 13 строкой содержащей оценки характеристических функций принадлежности выбранных ситуаций F общему пространству возможных внешних событий. Детально процесс получения оценок изложен в первом разделе. Упростим их до оценок математических ожиданий вероятности появления
ситуаций F1 , F1 , F3 , F4 . Результаты приведены в таблице 15.
( )
Его критерий
0,1
F1
A0
A1
A2
A3
Таблица 15
0,08 0,75
F2
0,07
F3
F4
60
55
62,5
62,5
35
57,5
77,5
67,5
20
62,5
92,5
65
10
67,5
82,5
100
Умножим столбцы матрицы на оценки математических ожиданий вероятности появления ситуаций и дополним ее столбцом er , вычислив
его компоненты, как оценки математических ожиданий последствий каждого из решений. Результат приведен в таблице 16.
Согласно схеме критерия Байеса – Лапласа найдем максимум er и по
его положению определим оптимальное решение – это A2 . Оно оценивает прогнозируемых выигрыш в 80,92 единицы. Он выше чем прогнози165
рует минимаксный – 55, но может составить и 20, если окажется сильно
заниженной оценка математического ожидания вероятности возникновения ситуации F1 . Т. о. присутствует риск не получения планируемого
выигрыша.
A0
A1
A2
A3
0,1
Таблица 16
0,08 0,75 0,07
F1
F2
F3
F4
er
6
4,4
46,88 4,375 61,65
3,5
4,6
58,13 4,725 70,95
2
5
69,38
4,55
80,92
1
5,4
61,88
7
75,28
Применение BL-критерия оправдано если:
y характеристических функциях принадлежности ситуаций F хорошо
изучены и достоверность оценок их параметров достаточно высока;
y Решение реализуется многократно;
y Риск при небольшом числе реализаций допустим.
Реально риск отсутствует только при большом числе реализаций.
Это критерий длинных реализаций с резервными ресурсами и стабильным во времени видом и параметрами характеристических функций
принадлежности.
Для графической интерпретации сократим таблицу 15 до двух столбцов F1 и F3 изменив и q j . Столбцы F2 F4 убраны, как менее вероятные.
A0
A1
A2
A3
Таблица 17
0,15 0,85
er
F1
F3
60
62,5 62,13
35
77,5
71,13
20
92,5
81,63
10
82,5
71,63
Результаты представлены в таблице 17. Оценки выигрышей изменились
но несущественно, оптимальное решение прежнее.
Графическая интерпретация BL-критерия для выбранных столбцов
матрицы решений таб. 13 приведена на рис. 120.
166
Функция предпочтения задается на основе оценочной функции рассматриваемого критерия. В данном случае для двух ситуаций
e1 ⋅ q1 + e3 ⋅ q3 = k ,
где k - текущий уровень выигрыша. Это прямая линия
q
k
e1 = − 3 ⋅ e3 + .
q1
q1
⎛ q ⎞
k
Угол ее наклона arctq⎜⎜ − 3 ⎟⎟ и смещение по оси e1 зависят от веq
q
⎝ 1⎠
1
роятностей ожидания возникновения ситуаций. Так как группа ситуаций
полная, то - от вероятности возникновения одного из них.
Так как мы максимализируем результат, то, если есть хоть одна точка
выше данной линии необходимо увеличивать k . Уравнение задает полуплоскость. Луч определяющий ее начало зависит от планируемого выигрыша k . Точки попавшие на нее более предпочтительны, чем рабочая.
Направляющая должна совпадать по направлению с движением точек
функции предпочтения при увеличении k и проходить через вершину
конуса предпочтения. Т. к. в нашем случае конус выродился в полуплоскость, то можно выбрать удобную точку. Пусть u проходит через начало
координат. Нормаль к u совпадает с направлением функции предпочтения.
Рис. 120. Функция предпочтения для критерия Байеса – Лапласа
167
На рис. 120 приведены полученные графики. Функция предпочтения
прорисована дважды при k = 80 - K1 и при k = 70 - K 2 . В первом случае
оптимальное решение определено однозначно (в полуплоскости одна
точка), во втором изменение k необходимо продолжать. Линия u на рис.
120 выглядит как не перпендикулярная к линиям K1 , K 2 . Это искажение обусловлено разным масштабом осей e1 и e3 . На рис. 118 также
представлены функции предпочтения построенные по критерию BL при
q = 0,5 . BL – критерий для случая q j =const получил название нейтрального критерия.
4.2.3. Критерий азартного игрока или предельного оптимизма
Критерий азартного игрока (H-критерий) редко используется в технических решениях. Он ориентирован на получение наибольшего выигрыша без учета, каких либо ограничений налагаемых возможными ситуациями. Это позиция предельного риска. Но с другой стороны это позиция и предельного оптимизма.
Практически критерий ищет наибольший выигрыш в матрице решений и выбирает решение дающего его в одной из ситуаций.
Для сохранения структуры исследований рассмотрим порядок действий по стандартной схеме.
Критерий предполагает формирование столбца оценочной функции с
наибольшими выигрышами, которые можно получить при реализации
выбранного решения.
eri = max ei, j
j
( )
( )
.
⎡
⎤
Z H = max eri = max ⎢max ei, j ⎥ .
i
i ⎣ j
⎦
А схема выбора решения
⎧
⎡
⎤⎫
Ao = ⎨ Aio Aio ∈ A ∩ eio = max ⎢max ei, j ⎥ ⎬ .
i ⎣ j
⎦⎭
⎩
Формула критерия предельного оптимизма звучит следующим образом:
Его критерий
( )
( )
168
Выбирается множество оптимальных вариантов Ao , которое содержит
варианты Aio , принадлежащие множеству A и оценка eio максимальна
среди всех максимальных результатов возможных решений.
Рассмотрим применение данного критерия на примере матрицы решений приведенной в таблице 13.
Дополним ее столбцом er . Результат приведен в таблице 18.
Максимальное значение выигрыша можно получить при отсутствии
риска в случае решения A3 и его величина составит 100 единиц.
Какие бы условия реализации выбранного решения не встретились
оно не даст большего выигрыша, чем тот что запланирован по оптимальному решению.
Какие бы решения не принимались, любое из них не даст большего
выигрыша чем оптимальное.
Таблица 18
F1
A0
A1
A2
A3
F2
F3
F4
er
60
55
62,5
62,5
62,5
35
57,5
77,5
67,5
77,5
20
62,5
92,5
65
92,5
10
67,5
82,5
100
100
Применение Н-критерия оправдано если:
y О характеристических функциях принадлежности ситуаций F ничего
не известно;
y Решение реализуется один или небольшое число раз;
y Риск оправдан необходимостью получения предельного и менее выигрыша.
Сократим таблицу 13 до двух первых столбцов F3 и F4 .
Выбор их обусловлен наличием в одном из них выбранного выигрыша и высокой вероятностью появления ситуации для второго.
Графическая интерпретация H-критерия приведена на рис. 121
( k =88).
Функция предпочтения задается на основе оценочной функции рассматриваемого критерия. В данном случае для двух ситуаций
max(e3 , e4 ) = k .
169
Рис. 121. Функция предпочтения критерия придельного оптимизма
Уравнение задает конус, грани которого параллельны осям ординат.
Но по сравнению с ММ – критерием конус предпочтения как бы вывернулся. Если есть хоть одна точка выше или правее него, то необходимо
увеличивать k . На рис. 121 k =88, выше есть две точки, поэтому необходимо увеличивать k . Вершина конуса движется по направляющей являющейся биссектрисой угла оси ординат – функция u.
4.2.4. Критерий Сэвиджа
Критерий Сэвиджа (S-критерий) предполагает все ситуации равно вероятными и стремится снизить потери, которые могут возникнуть при
выборе решения не оптимального для данной ситуации.
Такое целевое устремление требует преобразования матрицы, появляется связь между данными внутри столбца.
Новые компоненты s новой матрицы решений имеют отличный от
начального смысл.
si, j = max ei, j − ei, j .
i
( )
Рассмотрим это преобразование на примере матрицы решений таб.
13.
Выходной результат представлен в таблице 19.
Новые элементы таблицы приобрели вид по сути потерь, от принятых
решений, если выпала ситуация, в которой априори можно было принять
170
лучшее решение. Оптимальным решением для данной ситуации является
решение с нулевым значением si .
Таблица 19
A0
A1
A2
A3
F1
F2
F3
F4
0
12,5
30
37,5
25
10
15
32,5
40
5
0
35
50
0
10
0
Далее схема действий аналогична схеме минимаксного критерия.
Ищем наихудший результат в строках. Компоненты изменились по
смыслу, это не выигрыши а потери, поэтому min меняется на max и наоборот.
Критерий предполагает формирование столбца оценочной функции с
наибольшими потерями, которые предполагает выбранное решение относительно наилучшего при его реализации в конкретной ситуации.
sri = max si, j .
j
( )
Далее минимизируются потери от возможных решений.
⎡
⎤
Его критерий Z S = min sri = min ⎢max si, j ⎥ .
i
i ⎣ j
⎦
А схема выбора решения
⎧
⎧
⎡
⎤ ⎫⎫
Ao = ⎨ Aio Aio ∈ A ∩ eio = min ⎨max ⎢max ei, j − ei, j ⎥ ⎬⎬ .
i ⎩ j ⎣ i
⎦ ⎭⎭
⎩
Результаты действий приведены в таблице 20.
( )
( )
( )
Таблица 20
A0
A1
A2
A3
F1
F2
F3
F4
sr
0
12,5
30
37,5
37,5
25
10
15
32,5
32,5
40
5
0
35
40
50
0
10
0
50
171
Решение дающее гарантию минимальных потерь относительно оптимальных решений, которые могли бы быть приняты, если бы априори
была известна ситуация их реализации, - A1 .
Формула критерия Сэвиджа звучит следующим образом:
Выбирается множество оптимальных вариантов Ao , которое содержит
варианты Aio , принадлежащие множеству A и оценка eio минимальна
среди всех оценок потерь от выбора не наилучших решений при конкретной ситуации.
Применение S - критерия оправдано при сложных условиях анализа
близких по выигрышу решений. Критерий допускает риск в исходной
матрице решений e , но в матрице потерь s риск исключается. Можно
сказать так, мы не знали что случится, но мы проиграли меньше, чем
могли бы от действий наилучшего в данной ситуации агента.
Графическая интерпретация S - критерия для матрице потерь s аналогична минимаксной, т. к. данный критерий использует в матрице потерь
схему минимаксного критерия.
В исходной матрице e построение усложняется тем что оси переворачиваются и смещаются. Это разрывает конус предпочтения минимаксного критерия и переворачивает его. Появляются две зоны, в которых
ищутся решения.
4.2.5. Критерий произведений
Критерий произведений (P-критерий) не часто применяется в технических задачах, но его своеобразность, слабая связь с выше описанными
позволяет его так же отнести к классическим.
Оценочная функция по строкам формируется как произведение выигрышей. Мы, что бы не потерять размерность и наглядность, извлечем из
полученного результата еще и корень размерности типов ситуаций. Положение максимума при этом не меняется.
eri = n ∏ ei, j .
j
Рассмотрим формирование нового столбца на примере матрицы решений таб. 13. Выходной результат представлен в таблице 21.
Критерий предполагает формирование столбца оценочной функции с
выровненными выигрышами, которые дает выбранное решение.
172
Оценочная функция в приведенной форме дает лучшие результаты при
примерном равенстве выигрышей в строке. Это свойство среднего геометрического хорошо известно.
Таблица 21
A0
A1
A2
A3
F1
F2
F3
F4
er
60
55
62,5
62,5
59,92
35
57,5
77,5
67,5
56,96
20
62,5
92,5
65
52,36
10
67,5
82,5
100
48,58
Используют и логарифмическую форму представления оценочной
функции критерия произведений.
( )
erln = ∑ ln ei, j .
i
j
Ее максимум так же совпадает с максимумом er . Поэтому финишный
результат не меняется. Выбор за исследователем.
Далее ищется лучший вариант в столбце er и определяется номер
решения.
⎛
⎞
⎜
Критерий Z P = max eri = max ∏ ei, j ⎟ .
⎟
i
i ⎜ j
⎝
⎠
А схема выбора решения
⎧
⎛
⎞⎫⎪
⎪
⎜
Ao = ⎨ Aio Aio ∈ A ∩ eio = max ∏ ei, j ⎟⎬ .
⎟
i ⎜ j
⎪⎩
⎝
⎠⎪⎭
В приведенном примере критерий произведений рекомендует решение A0 (таблица 21). В данном случае оно совпало с минимаксным.
Формула критерия произведений звучит следующим образом:
Выбирается множество оптимальных вариантов Ao , которое содержит
варианты Aio , принадлежащие множеству A и оценка eio максимальна
среди всех оценок произведений полезности от любого из решений.
Применение P - критерия рекомендуется в следующих условиях:
y Все последствия решений положительны;
y Все ситуации примерно равновероятны и с каждым из них необходимо считаться в равной мере;
( )
173
y Критерий применим в основном при малом числе реализаций;
y Риск допускается.
Ограничение на положительность, вернее на однородность знака компонентов матрицы решений можно ослабить. Для этого вводится постоянная составляющая, т. е. ко всем компонентам прибавляется смещение.
Однако следует учитывать то, что уровень постоянной составляющей
может нивелировать сглаживающее действие критерия и номер решения
измениться.
Графическое представление операции выбора решения выполним на
тех же данных, которые использовались при анализе BL-критерия.
Функция предпочтения задается на основе оценочной функции рассматриваемого критерия. В данном случае для двух ситуаций
e1 ⋅ e3 = k ,
где k - текущий уровень выигрыша. Это семейство гипербол
k
e1 = .
e3
Эти гиперболы прилегают к лучам конуса предпочтения ММ – критерия.
Рис. 122. Функция предпочтения для критерия произведений
174
Так как мы максимализируем результат, то, если есть хоть одна точка
выше или правее данной линии необходимо увеличивать k .
Направляющая должна совпадать по направлению с движением точек
функции предпочтения при увеличении k и проходить через вершину
конуса предпочтения. Это биссектриса осей ординат.
На рис. 122 приведены полученные графики. Функция предпочтения
прорисована дважды при k = 300000 - K1 и при k = 100000 - K 2 . В первом случае оптимальное решение определено однозначно (в полуплоскости одна точка), во втором изменение k необходимо продолжать.
4.2.6. Расширенный минимаксный критерий
Данный критерий более сложен и содержит в себе действия более
характерные, например, BL-критерию. По сути по ММ-критерию он
создает только расчетную ситуацию. Данная схема принятия решения
допускает определенный риск.
Пусть информация о виде характеристических функций принадлежности выбранных ситуаций F общему пространству возможных внешних событий не полная. Можно говорить о семействе векторов описаний
ситуаций или о множестве n - мерных векторов W (n ) .
Пусть по каждому вектору принимаются решения Ei , i = var . Появляется вероятность pi , отображающая частоту принятия решения Ei .
Среднее значение выигрыша
e( p, q ) = ∑∑ ei, j ⋅ pi ⋅ q j получено в множестве W (n ) .
i
j
Целью применения критерия является выбор оптимального вектора
генерации решений p = ( p1,..., pi ,... pm ) .
Схема расширенного минимаксного критерия выглядит как
⎧
⎛
⎞⎫⎪
⎪
⎜
A( po ) = ⎨ A( po ) A( po ) ∈ A ∩ e( po , qo ) = max min ∑∑ ei, j ⋅ pi ⋅ q j ⎟⎬ .
⎟
q ⎜ i j
p
⎪⎩
⎝
⎠⎪⎭
Она ориентируется на наихудшее распределение q из W (n ) и при этом
ищет лучший вариант.
Рассмотренные классические критерии можно сравнить между собой
прежде всего по виду целевой функции, который зависит от точки зрения
175
эксперта или заложенного в систему принципа сохранения функционирования.
Практически все примеры выбрали различные решения:
y A0 - ММ-критерий;
y A2 - BL-критерий;
y A3 - H-критерий;
y A1 - S-критерий.
Это естественно, так как все возможные решения имеют смысл и целесообразны в том или ином случае.
4.3. Производные критерии принятия решений
Формирование производных критериев идет в основном по двум схемам:
y Формирование оценочной функции как взвешенной суммы оценочных функций классических критериев;
y Установление по базовому критерию нижнего уровня риска и введение допуска на его превышение. Далее по более обнадеживающему
критерию поиск нового решения в пределах установленного допуска.
4.3.1. Критерий Гурвица
Критерий HW предполагает формирование оценочной функции как
комбинации минимаксной и предельно оптимистической функций.
eri = c ⋅ min ei, j + (1 − c ) ⋅ max ei, j ,
j
( )
j
( )
где c - весовой множитель.
Критерий HW
Z HW = max eri .
i
( )
А схема принятия решения
⎧
⎡⎡
⎤ ⎤⎫
(
)
⋅
min
+
1
−
⋅
max
c
e
c
e
⎪
⎢
i, j
i , j ⎥ ∩⎥ ⎪
Ao = ⎨ Aio Aio ∈ A ∩ eio = max ⎢ ⎢⎣
j
j
⎦ ⎥⎬ .
i
⎪
⎢∩ 0 ≤ c ≤ 1
⎥⎪
⎣
⎦⎭
⎩
( )
176
( )
Правило выбора по HW-критерию:
Матрица решений дополняется столбцом, содержащим линейную
комбинацию наибольшего и наименьшего для каждой строки. Выбираются те варианты E , в строках которых находятся наибольшие элементы этого столбца.
Весовой множитель c (0...1) определяет степень доверия к ММкритерию относительно критерия азартного игрока.
Обычно рекомендуют применять данный критерий, если
y о вероятности появления событий F ничего не известно, поэтому в
равной мере надо считаться со всеми,
y реализуется небольшое количество решений,
y риск допускается.
4.3.2. Критерий Ходжа – Лемана
Критерий Ходжа – Лемана (HL-критерий) формирует оценочную
функцию, как линейную комбинацию функций MM- и BL-критериев.
eri = v ⋅ ∑ ei, j ⋅ q j + (1 − v ) ⋅ min ei, j ,
j
j
( )
где v - (0...1) весовой множитель характеризующий степень доверия
к BL-критерию относительно MM-критерия.
Критерий HW
Z HL = max eri .
i
( )
А схема принятия решения
⎧
⎡⎡
⎪⎪
⎢ ⎢v ⋅ ∑ ei, j ⋅ q j + (1 − v ) ⋅ min ei, j
Ao = ⎨ Aio Aio ∈ A ∩ eio = max ⎢ ⎢
j
j
⎣
i
⎢
⎪
⎪⎩
⎢⎣∩ 0 ≤ v ≤ 1
⎤ ⎤⎫
⎥ ∩⎥ ⎪⎪
⎥⎦ ⎥ ⎬ .
⎥⎪
⎦⎥ ⎪⎭
( )
Правило выбора по HL-критерию:
Матрица решений дополняется столбцом, содержащим линейную
комбинацию среднего и наименьшего для каждой строки. Выбираются те
варианты E , в строках которых находятся наибольшие элементы этого
столбца.
177
y Критерий полагает многократное применение решения, стремится
поднять средний выигрыш, но с ограничением на риск, выраженным
через степень доверия к BL – критерию.
4.3.3. Критерий Геймейера
Критерий Геймейера (G-критерий) ориентирован на выбор среди
близких по эффективности решений и матрицу решений представленной потерями.
eri = min ei, j ⋅ q j .
j
(
Критерий G
)
( )
Z G = max eri .
i
А схема принятия решения
⎧
⎡
⎤⎫
Ao = ⎨ Aio Aio ∈ A ∩ eio = max ⎢min ei, j ⋅ q j ∩ ei, j ≤ 0⎥ ⎬ .
i ⎣ j
⎦⎭
⎩
Наиболее определен он в расходных экономических задачах. При
q j = const он превращается в ММ-критерий.
(
)
При наличии в исходной матрице решений ei, j ≥ 0, все компоненты
матрицы могут быть уменьшены на определенную величину. Не надо
стремиться выбрать ее большой, т. к. введение смещения может изменить результат итогового выбора.
В отличии от ММ-критерия данный учитывает вероятность появления ситуаций и устраняет риск пропуска наиболее неблагоприятной ситуации с учетом вероятности ее появления. Устраняется риск в многократно повторяющемся решении. Таким образом расширяется действие
ММ-критерия.
4.3.4. BL(MM) критерий
Данный критерий относится ко второй группе производных критериев. Критерии этого типа получили название составных.
Его база – ММ-критерий.
Опорное значение eio , jo получается, как оценочная функция
( )
eio , jo = Z MM = max min ei, j ,
i
178
j
где io , jo - индексы оптимального решения, принятого по ММ-критерию
и ситуации, которая определила это решение.
Далее вводится некоторый допуск на риск ε >0, который позволяет
отсортировать решения, последующее использование которых не должно
дать больших потерь, относительно опорного, чем допускаемые.
На практике один из вариантов пересортировки заключается в выборе
индексов удовлетворяющих оговоренному условию (подмножество I1
множества индексов {1, ..., i, ..., m}) и вычеркивании строк с прочими
индексами.
⎧⎪
⎫⎪
⎡
⎤
I1 = ⎨i i ∈ {1,..., m} ∩ ⎢eio , jo − min ei, j ⎥ ≤ ε ⎬ .
j
⎪⎩
⎪⎭
⎣
⎦
Не редко, что бы оправдать риск, из оставшихся берут в расчет только явно прибыльные решения. Например, требуют что бы в выбранной
строке (решение, претендующее на включение в новую матрицу) имелся
выигрыш превышающий максимальный выигрыш, который есть в опорной строке и это превышение было большим чем максимальный проигрыш относительно опорного, который также есть в этой строке.
⎧⎪
⎫⎪
⎡
⎤
I 2 = ⎨i i ∈ {1,..., m} ∩ ⎢max ei, j − max eio , j ⎥ ≥ ε i ⎬
j
⎪⎩
⎪⎭
⎣ j
⎦
где ε i = eio , jo − min ei, j - наибольшие возможные потери при принятии
( )
( )
j
(
)
( )
Ai в сравнении с задаваемыми ММ-критерием.
Схема принятия решения
⎧⎪
⎫⎪
Ao = ⎨ Aio Aio ∈ A ∩ eio = max ∑ ei, j ⋅ q j ⎬ .
i∈I1 ∩ I 2 j
⎪⎩
⎪⎭
Правило выбора трактуется следующим образом.
По ММ – критерию определяется планируемый выигрыш – опорное
значение и опорное решение.
Матрица решений дополняется тремя столбцами.
y В первом записываются математические ожидания строк.
y Во втором разности между опорным значением и наименьшим значением выигрыша в строке (проигрыш от опорного).
y В третьем столбце формируются разности между наибольшим выигрышем в рассматриваемой строке и наибольшим значением выигрыша в опорной строке.
179
y Выбираются те строки у которых значения во втором столбце
меньше допуска.
y Из выбранных строк выбираются только те у которых значения в
третьем столбце выше значений во втором столбце.
y В новой матрице ищут решения по BL – критерию.
Если новая матрица не содержит строк оптимальным решением
становится опорное.
Критерий рекомендуется применять если
y Вероятности появления ситуаций определены с большими доверительными интервалами;
y Необходимо считаться со всеми ситуациями;
y Допускается риск и допуск задан;
y Решение планируется применить неоднократно.
Критериев построенных по данной схеме несколько. Каждый из них
имеет разновидности, особенно в плане формулировки определения эффективности включаемого в новую матрицу решения по сравнению с
опорным.
Эти критерии как правило при определенном значении параметров,
допусков и т. п. переходят в классические.
Существует общий подход к построению гибких критерием, обобщающий известные.
4.4. Гибкий критерий принятия решения
Рассмотренный ниже критерий детально с примерами применения в
технических задачах приведен в работе Мушака-Мюллера [18]. Представим его в несколько упрощенном виде.
Схема принятия решения
Ao = {Aio Aio ∈ A ∩ (G1 ∪ G 2 ) ∩ G3},
где G1, G 2 - условные ограничения, а G3 - Z r -гибкий критерий принятия решения.
Рассмотрим их по отдельности. Первое условие задает ограничение на
достоверность априорных данных об оценках характеристических функций принадлежности выбранных ситуаций F общему пространству
возможных внешних ситуаций. Это ограничение выглядит в одном из
вариантов, как
V (α )i ≤ Vd ,
180
где V (α )i - доверительный фактор, например, эмпирический определяемый на основании упорядоченной выборки {x1,..xn } по формуле
~
V (α )i =
µ (α ) − x1i
µ − x1i
,
где x1i - минимальное (наиболее не благоприятное) значение параметра,
отобранное для i - решения, µ - оценка математического ожидания дан~
ного параметра, µ (α ) - наиболее неблагоприятная для последствий решения граница оценки математического ожидания µ при заданной веро~
ятности ошибки α принятия решения о значении µ (α ). Доверительный
фактор V (α ) изменяется от 0 до 1. Верхнее значение соответствует достоверной информации о величине µ . Доверительный фактор вычисляется для каждой строки, таким образом он индивидуален для каждого
решения. Индивидуально и определение x 1 . Для каждого решения, как
i
правило, есть свой наиболее не благоприятный фактор – ситуация ( x1i ).
Выше сказанное говорит о том, что при анализе эмпирических данных
стремятся прижаться к нижней, наиболее неблагоприятной границе
оценки параметров, что бы обеспечить достоверность ММ-критерия.
Vd - максимально допустимый доверительный фактор. При его достижении вес BL-критерия не повышается.
Второе ограничение
G 2 = Z MM − min ei, j ≤ ε ,
j
( )
по сути является допуском на превышение опорного значения риска определяемого согласно ММ-критерия.
Оба ограничения учитываются в схеме решения по или. Их использование зависит от объема экспериментальных, а при применении отличной от написанной формулировки доверительного интервала вообще априорных данных о функциях принадлежности ситуаций.
Возможна и проверка обеих ограничений. Строки не удовлетворяющие ограничениям из расчетов исключаются.
Гибкий критерий принятия решения находит максимум от оценочной
функции, близкой к функции BL (MM)-критерия.
181
⎧⎪
⎛
⎞⎫⎪
Z r = max ⎨V (α )i ⋅ ∑ ei, j ⋅ q j + [1 − V (α )i ] ⋅ ⎜⎜ min ei, j + ε i ⎟⎟⎬ .
i ⎪
⎝ j
⎠⎪⎭
j
⎩
Вновь доверительный фактор, теперь он играет роль коэффициента
доверия BL-критерия. Рассмотрим более детально его специфику. Доверительный фактор опирается на наиболее не благоприятную ситуацию
или ее параметр при принятии конкретного решения.
В целом ei, j - матрица случайных чисел для каждого i и j . Как правило факторы влияющие на полезность решения разбивают на зоны,
формируя в множестве J ( j ∈ J ) подмножества J d , где d - порядковый
номер подмножества. Однако, редко это дробление настолько мелко, что
бы обеспечить ei, j = const .
Даже в однокритериальных задачах в каждой ячейке матрицы решений находится случайная функция какого то параметра.
При превышении приращения параметра определенной границы меняется номер - d и как следствие номер ситуации j . Таким образом в
общем поле матрицы имеются зоны влияния одного параметра, его изменение меняет и номер ситуации и в более малом масштабе последствия решения Ai при ситуации F j .
Влияние этого параметра на последствие решения оценивается его релевантностью или одной из ее форм - коэффициентом влияния. Детально
это свойство рассматривается в теории чувствительности, достаточно детально проработанной в технических приложениях, например, в схемотехнике электронных устройств.
Если рассмотреть гладкую, без смена знака однопараметрическую релевантность и вернуть ei, j ее зависимость от параметра x1i, j в зоне ре-
(
)
шения Ai при возникновении ситуации F j - ei, j x1i, j можно получить
упрощенную числовую оценку абсолютной релевантности в данной точке.
Ria, j ( x1) =
[ ( )]
[ ( )]
max ei, j x1li, j − min ei, j x1li, j
l
ei, j
l
,
где l - смещение параметра x1i, j в рассматриваемой зоне.
182
В качестве точки исследования выбирается обычно точка, выносимая
при формировании минимаксного решения в столбец оценочной функции.
Значимость выбранного параметра вычисляют с учетом энтропии параметра x1i, j , зависящей от вероятности появления смещения l .
( )
B x1i , j = Ri, j ( x1) ⋅ H x1li, j
,
где значение энтропии вычисляется по формуле
( )
H x1li, j = −∑ ql ⋅ ln(ql ) .
l
Исследовав влияние различных параметров выбирают x1i, j или комбинацию параметров, наиболее влияющих на ei, j .
Надо заметить то, что математические модели используемые в ТПР
достаточно громоздки, можно сказать здесь идет «разгул» статистики,
так как нечеткость постановки самой задачи переплетается с нечеткостью определения элементов матрицы решений, описаний ситуаций, да и
самих решений.
Трактовка метрики пространств параметров в понятиях предметной
области, для которой ведется анализ возможных решений и их последствий, еще более усложняет понимание правильности выводов теоретических концепций.
Упрощение моделей позволяет нам выдержать понятийный уровень
методик решения задач.
Введение автоматического определения коэффициента доверия BLкритерия делает гибкие алгоритмы не зависимыми от человека, способными функционировать в автономном режиме.
Конкурирующий с BL-критерием, ММ-критерий также видоизменен.
В его формулировку введено смещение ε i .
ε i = min (ε , ε d ,i ),
где ε d ,i - индивидуальный допуск на превышение минимального значения выигрыша в i - решении.
Здесь проведена не сортировка решений, а повышен уровень возможного выигрыша индивидуальный для каждого решения.
В принципе в полном объеме гибкий критерий Мушака-Мюллера
включает и вычеркивание строк не допустимых решений.
183
Рассмотренный критерий позволяет рассматривать задачи с конкретными условиями и ориентироваться практически только на те эксперименты, измерения которые проведены для решения данной задачи.
Он более пригоден для автоматизации, практически все его параметры
вычисляются по результатам наблюдений за исследуемым процессом. Он
обладает и признаками самоорганизации.
4.5. Адаптивный критерий Кофлера-Менга
Данный критерий по своей сути близок к минимаксному, но несколько усложнен. Анализ данного критерия говорит о «бирнуллизации»
ММ-критерия. По Бернулли при поиске оптимального решения стремятся максимализировать математическое ожидание результата.
По критерию Кофлера-Менга в распоряжении системы принимающей
решение имеется и постоянно дополняется информация о виде и параметрах вероятностных распределений Q внешних ситуаций.
Предлагается разбить пространство множеств вероятностных распределений на непересекающиеся подмножества B j .
B = U B j , Bv I B j = ø для v ≠ j ( v , j - 1, 2, ...).
j
Вводятся оценки p j , адаптивно изменяющиеся, вероятностей появления B j .
∫ dQ = p j , ∑ p j = 1 .
j
Bj
При появлении ситуации F j ∈ B j и принятии решения Ai его результат e F j , Ai желательно максимализировать выбором i .
(
)
Критерий Кофлера-Менга (КМ-критерий) записывается в виде
⎤
⎡
⎢
Z KM = max inf ∫ e F j , Ai ⋅ dQ ⎥ ,
⎥
Ai ∈ A⎢Q∈Q *
B
j
⎦⎥
⎣⎢
(
)
где Q* - полное информационное множество, достаточное для принятия
решения с максимальной достоверностью его оптимальности, inf Q∈Q *
184
нижняя в смысле выигрыша (наихудшего результата) граница пространства Q .
Множество априорных вероятностных распределений образует конечномерный симплекс.
Частичная информация Q состоит в знании собственного подсимплекса (не вырождающегося до одного распределения) P .
При реализации решения может учитываться релевантности выделенной ситуации к изменению объема информации.
4.6. Принятие решений по нескольким критериям
Значительные ресурсы вычислительных мощностей предоставляемые
современными интеллектуальными системами, позволяют определить
номера оптимальных решений, промоделировав и неопределенность в
описаний ситуаций. В этом случае, наряду с исходным описанием задачи
(таблица 22), появляются и множественные результаты ее возможного
решения. Представим эти данные так же в виде таблицы 23.
Таблица 22
q1
F1
qj
...
Fj
...
...
qn
Fn
p1
A1
e1,1
...
e1, j
...
e1, n
...
pi
...
Ai
...
ei,1
...
...
...
ei, j
...
...
...
ei, j
...
pm
...
Am
...
em,1 ...
β MM
ММ
A1
p MM 1
...
Ai
...
...
Am
...
p MM i
...
p MM m
...
...
em, j ...
Таблица 23
...
...
...
β BL
...
...
...
...
...
BL
p BL1
p BLi
...
p BLm
185
...
em, n
...
...
...
β KM
...
...
...
...
...
KM
p KM 1
p KM i
...
p KM m
Новая таблица – таблица мнений экспертов заполнена результатами
анализа исходной матрицы решений по имеющимся критериям. В ячейки
таблицы помещены вероятности появления рекомендаций применения
данного решения по конкретному критерию. Таблица открыта для расширения. Новые критерии добавляют столбцы.
∑ p XX i = 1 для всех XX ,
i
где XX - символьный индекс критерия (ММ – минимаксный критерий,
BL – критерий Байеса-Лапласа , KM – критерий Кофлера-Менга и т. д.).
Коэффициенты доверия критериям β XX в каждой предметной области (распознавание образов в радиолокации, медицинская диагностика,
торговые операции с комплектующими для офисных компьютеров, рабочих станций разработчиков важных проектов и т. п.) формируются на
базе опыта и имеющихся в данной области знаний. Коррекция текущих
значений коэффициентов также возможна. В принципе при назначении
коэффициентов учитываются корреляционные связи между критериями.
∑ β XX = 1.
XX
В ячейках таблицы могут встречаться и нулевые значения. По аналогии с методикой принятия решений, рассмотренной в работе с большинством критериев добавим столбец.
pri = ∑ p XX i ⋅ β XX .
XX
Пример заполнения таблицы мнений экспертов и расчета оценочной
функции рекомендаций экспертов приведен в таблице 24.
A1
A2
A3
A4
A5
0,1
Крит. 1
0
Таблица 24
0,7
0,05
0,05
Крит. 2 Крит. 3 Крит. 4
1
0,2
0,1
0,1
Крит. 5
0,9
0,805
pri
0,8
0
0,2
0,2
0,05
0,105
0,1
0
0,2
0,5
0,05
0,05
0,05
0
0,2
0,05
0
0,0175
0,05
0
0,2
0,15
0
0,0225
Наряду с оценочной функцией рекомендаций экспертов целесообразно составить и оценочную функцию выигрышей от применения страте186
гии рекомендаций экспертов. Она формируется по описанной выше методике.
Мнение экспертов может быть использовано в итоговом принятии
решений в различных стратегиях.
Две крайние стратегии рассмотрим подробнее.
Первая стратегия предполагает многократную реализацию многих
решений. Такой вариант возможен в гибких производствах, когда реально в выпуске изделий изменять их параметры. Он возможен и при масштабном внедрении решений осуществляемых в различных системах.
Назовем эту стратегию рыночной.
Вторая подразумевает принятие одного решения и его реализацию в
одном или во многих изделиях. Назовем эту стратегию ограниченной.
Целесообразность такой стратегии обычно обусловлена высокими затратами, которые необходимо осуществить на реализацию каждого типа
решений. Такая обстановка возникает при разработке приборов автоматизации научных исследований, крупномасштабных проектов, в медицинской диагностике и т. п.
В ограниченной стратегии критерий
⎞
⎛
Z LS = max⎜ ∑ p XX i ⋅ β XX ⎟ ,
⎟
i ⎜⎝ XX
⎠
а схема принятия решения
⎧⎪
⎛
⎞⎫⎪
Ao = ⎨ Aio Aio ∈ A ∩ p XX io = max⎜ ∑ p XX i ⋅ β XX ⎟⎬ .
⎟⎪
i ⎜⎝ XX
⎪⎩
⎠⎭
Ограниченная стратегия рекомендуется к применению при следующих условиях:
y Отсутствует возможности реализации нескольких решений, из-за
их высокой стоимости или малого объема реализаций;
y Имеется опыт использования различных критериев в данной предметной области или теоретические наработки по степени доверия различным критериям;
y Практически отсутствует конкуренция и противодействие в данной
предметной области.
В рыночной стратегии целью анализа матрицы мнений экспертов
(таблица 23) является
y упорядочение множества решений по значению pri ,
187
y ограничение размера множества решений снизу по допуску на минимальное значение pri с ее нормировкой,
y формирование последовательности (очереди) реализации решений.
4.7. Принятие решений с распознаванием образов
В теории управления широко используется модель черного ящика.
Входное воздействие через функцию выходов, зависящую от заполнения
этого «ящика» вырабатывает управляющее воздействие. Это самая простая и самая сложная модель.
Простота ее в малом числе переменных.
Сложность в предельной непознанности структуры этих переменных
и их взаимосвязи.
Рис. 123. Принятие решения с распознаванием образов
На рис. 123 представлена упрощенная схема принятия решений с анализом внешней ситуации.
188
Исходный цикл - распознавание образов.
Входные переменные X представлены N мерным вектором. Реально
измеряется или очувстволяется n компонент, n < N . На базе вектора
{x1,..., xi ,..., xn } ранжированного по степени влияния (релевантности),
формируется набор признаков – алфавит признаков П характеризующих
текущую ситуацию.
Ситуация в априорном словаре ситуаций представлена набором классов ϖ 2. В результате анализа признаков вырабатываются версии ϖ 1 о
принадлежности текущего описания объекта одному из классов.
При этом проверяется достоверность, например как в раннее рассмотренном случае двух классов определялась ошибка первого рода и ошибка
второго рода.
По матрице рисков e1 принимается решение об идентификации объекта, как реализации одного из классов ϖ 2, или увеличения объема информации – запрос Y 1. При этом могут проводится дополнительные
съемы данных в выбранном множестве компонент, или увеличиваться
число n .
Данный процесс получил название итерационного, его цель увеличение объема данных для достижения требуемого уровня достоверности
оценки принадлежности объекта к определенному классу.
После достижения требуемого уровня достоверности, информация о
индексах классов и оценок вероятностей их реализации Q поступает в
следующую ступень – принятия решений.
При принятии решений на базе поступившей информации формируется описание текущей ситуации по крайней мере в виде двух векторов
F, q .
Принятие решений через критерии и с учетом матрицы последствий
решений e 2 принимается одно или несколько решений, претендующих
на оптимальность. В виде вектора управления Y 2 эти решения передаются на объект.
В случае решения экономических задач в состав вектора X входят и
финансовые поступления. Часть их остается внутри системы, стимулируя ее работу. Объем этих поступлений служит индикатором правильности принимаемых решений.
Объемы рисков закладываемые при поиске более оптимальных решений, могут быть достаточно велики (при анализе производных критериев
мы закладывали величину риска ε , подчеркивая ее незначительность).
189
Например, один из принципов ведения бизнеса в процветающей компании ACER (Тайвань) звучит примерно так:
y Не следует рисковать, если не можешь позволить себе проиграть
то ради чего сражаешься.
Как видно, объем риска в системах не связанных с жизнью и здоровьем людей может быть весьма значителен.
В экономических приложениях ТПР много внимания уделяется распределению полученных прибылей внутри системы. В технических задачах этот вопрос мало исследован, хотя для интеллектуальных систем он
актуален, как стратегия правильного стимулирования развития системы.
Массив отображающий распределение части прибыли ei, j в пользу
агента W j согласно решения Ai представлен в таблице 25.
Таблица 25
W1
...
Wj
...
Wm
A1
e1,1
...
e1, j
...
e1, n
...
Ai
...
ei,1
...
...
...
ei, j
...
...
...
ei, j
...
Am
...
em,1 ...
...
...
em, j ...
...
em, n
Не смотря на специфику задачи рекомендуемые критерии схожи с
рассмотренными.
Например, эгалитарный критерий по Роллсу увеличивает доходы
наиболее неудачного агента
⎡
⎤
max ⎢min ei, j ⎥ .
i ⎣ j
⎦
Критерий Харшаньи дает максимум интегрального результата
⎡
⎤
max ⎢∑ ei, j ⎥ .
i ⎢ j
⎥⎦
⎣
Синергетический критерий Бекмана ориентируется на комбинацию
классического утилитарного и относительного эгалитарного подхода.
( )
190
⎡
⎤
max ⎢∑ ei, j + a ⋅ f (ei,1 ,..., ei, n )⎥ ,
i ⎢ j
⎥⎦
⎣
где a - весовой коэффициент при f ( ) - учитывающая минимальные доходы агентов.
Принятие решений в среде интеллектуальных объектов имеет свою
специфику. В среде противодействующих систем в состав вектора X
входят данные маскируемые, целенаправленно изменяемые данные, призванные изменить решения в сторону меньших выигрышей.
ПРИЛОЖЕНИЕ
Примерное распределение материала по лекциям
№
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Тема лекции
Предмет курса. Литература. Введение.
Случайные события, процессы, потоки, смеси
Элементарные свойства оценок
Распознавание в математической статистике
Риск и его описание. Модели полезности.
Системы распознавания. Алфавит признаков.
Распознавание объектов по цвету
Распознавание по типу индикатрисы отражения
Корреляционные алгоритмы распознавания
Корреляционные алгоритмы распознавания
Распознавание схожих объектов ч. 1
Распознавание схожих объектов ч.2
Распознавание объектов по косвенным признакам
Распознавание объектов по косвенным признакам
Формальная структура ПР
Классические критерии ПР
Производные критерии ПР ч.1
Производные критерии ПР ч.2
Гибкий критерий принятия решения
Принятие решений с распознаванием образов
191
Стр.
4...8
9...19
20...29
30...39
40...48
49...60
60...69
70...82
82...93
93...101
101...110
110...120
120...129
129...138
150...158
158...167
167...173
173...177
177...183
183...190
Литература
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
Кузин Л. Т. Основы кибернетики. Т.1. Математические основы кибернетики.
Учеб. пособие для вузов. М. Энергия, 1973, 504 с.
Гихман И.И., Скороход А.В. Введение в теорию случайных процессов. - 2-е изд,
М. Наука, 1977, 568 с.
Ширяев А. Н. Вероятность. Учеб. пособие для вузов. М. - 2-е изд, М. Наука,
1989. – 640 с.
Нильсон Н. Принципы искусственного интеллекта. М. Мир. 1985. 376 с.
Александров А.Г. Оптимальные и адаптивные системы: Учеб. Пособие для вузов
по спец. “Автоматика и управление в технических системах”. М Высш. шк. 1989.
263 с.
Современные методы идентификации систем. Под. ред. Эйкхофа. Пер. с англ. М.
Мир. 1983. 400 с.
Гинзбург В. М. Формирование и обработка изображений в реальном времени:
Методы быстрого сканирования. – М.: Радио и связь, 1986. – 232 с.
Цифровая обработка телевизионных и компьютерных изображений / Под ред.
Ю.Б. Зубарева, В. П. Дворковича. – М.: 1997. 212 с.
Быков Р.Е., Гуревич С.Б. Анализ и обработка цветных и объемных изображений.
– М.: Радио и связь, 1984. 296 с.
Себестиан Г.С. Процессы принятия решений при распознавании образов. Пер. с
англ. Под ред. В.И. Иваненко. К Техника. 1965. 152 с.
Вапник В.Н.. Червоненко А.Я. Теория распознавания образов (Статистические
проблемы обучения) М. Наука. 1974. 416 с.
Дуда Р., Харт П. Распознавание образов и анализ сцен. Пер. с англ. М.
Мир.1976. 512 с.
Гренандер У. Лекции по теории образов: Синтез образов. Пер. с англ. М. Мир
1979. 384 с.
Гренандер У. Лекции по теории образов: Анализ образов. Пер. с англ. М. Мир
1981. 448 с.
Гренандер У. Лекции по теории образов: Регулярные структуры. Пер. с англ. М.
Мир 1983. 432 с.
Патрик Э. Основы теории распознавания образов: Пер. с англ. Под ред. Б.Р. Левина М. Сов.радио, 1980. 408 с..
Горелик А.А., Скрипкин В.А. Методы распознавания: Учеб. пособие для вузов. 3е изд., перераб. И доп. М. Высш. шк., 1989. 232 с.
Мушик Э., Мюллер П. Методы принятия технических решений. Пер. с нем. М.
Мир, 1990. 208 с.
Заде Л. Понятие лингвистической переменной и ее применение к принятию приближенных решений. М.: Мир, 1976. 165 с.
Обработка нечеткой информации в системах принятия решений./ А. Н. Борисов
и др. – М.: Радио и связь, 1989. – 304 с.
Борисов А. Н., Крумберг О. А., Федоров И. П. Принятие решений на основе нечетких моделей: Примеры использования. – Рига.: Зинатне, 1990. – 184 с.
Иваненко В. И., Лабковский В.А. Проблема неопределенности в задачах принятия
решений.; Отв. Ред. Скороход А. В. АН УССР. – Киев: Наук. Думка, 1990. – 136
с.
192
23. Носибов Э.Н. Методы обработки нечеткой информации в задачах принятия решений. – Баку: Элм, 2000.
24. Закриевский А.Д. Логика распознавания. Мн. Наука и Техника, 1988. 118 с
25. Максимов С.И. Теория полезности и принятия решений: Обзор. – Мн.: РИВШ
БГУ, 1997. – 32 с.
26. Курбацкий А. Н., Чеушев В. А. Информационный метод анализа и оптимизации в
системах поддержки принятия решений. – Мн.: ИТК НАН, 1999. _200 с.
27. Смородинский С.С., Батин Н.В. Методы и системы принятия решений. В двух
частях. Часть 1. – Мн. БГУИР. 2000 – 96 с. Часть 2. – Мн. БГУИР. 2001. – 80 с.
28. Смородинский С.С., Батин Н.В. Методы анализа и принятия решений в слабоструктурированных задачах. – Мн. БГУИР. 2002 – 116 с.
29. Селекция и распознавание на основе локационной информации. /А.Л. Горелик,
Ю.Л. Барабаш, О.В. Кривошеев, С.С. Эпштейн/ - М. : Радио и связь, 1990. – 239
с.
30. Ларичев О.И., Мошкович Е.М. Качественные методы принятия решений. Вербальный анализ решений. – М.: Наука, 1996.
31. Саати Т. Принятие решений. Метод анализа иерархий. Пер. с англ. – М Радио и
связьЮ 1993. – 320 с.
32. Осипов Г.С. Приобретение знаний интеллектуальными системами. Основы теории и технологии. – М.: Наука, 1997.
33. Вагин В.Н., Еременко А.П. Некоторые базовые принципы построения интеллектуальных систем поддержки принятия решений в реальном времени. Изв. АН.
Теория и системы управления. 2001,№6, с. 114-123.
34. Вилкас Э. И. Оптимальность в играх и решениях. – М.: 1990. – 256 с.
35. Теория выбора и принятия решений. – Учебное пособие. – М.: Наука. 1982. – 328
с.
36. В. А. Горелик В. А., Горелов М. А., Кононенко А. Ф. Анализ конфликтных ситуаций в системах управления. – М.: Радио и связь, 1991. – 288 с.
37. Мулен Э. Кооперативное принятие решений: Аксиомы и модели. М. Мир, 1991.
464 с.
38. Ларичев О.И. Мошкович Е. М. Качественные методы принятия решений. – М.:
Наука Физматлит, 1996. – 208 с.
39. Ларичев О. И. Теория и методы принятия решений, а так же Хроника событий в
Волшебных Странах: Учебник. – М.: Логос, 2000. – 296 с.
40. Подиновский В.В., Ногин В.Д. Парето-оптимальные решения многокритериальных задач. М. Наука. 1982. 256 с.
41. Питмен Э. Основы теории статистических выводов: Пер. с англ. – М.: Мир,
1986. – 104 с.
42. Шестаков К.М., Бобко Ю.К. Лабораторный практикум по курсу “Промышленная электроника” / – Мн.: БГУ, 1999. – 57 с.
43. Шестаков К.М. Лабораторный практикум по специальному курсу “Теория
принятия решений и распознавание образов” / – Мн.: БГУ, 2002. – 61 с.
44. Абламейко С.В., Лагуновский Д.М. Обработка изображений: технология, методы,
применение. Учебное пособие. –Мн.: Амалфея, 2000. – 304 с.
193
СОДЕРЖАНИЕ
1.
1.1.
1.2.
2.
2.1.
2.2.
2.3.
2.4.
2.5.
3
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
3.9.
4.
4.1.
4.2.
4.2.1.
4.2.2.
4.2.3.
4.2.4.
4.2.5.
4.2.6.
4.3.
4.3.1.
Введение ...............................................................................
Истоки курса теории принятия решений и распознавания
образов ...................................................................................
Введение в проблематику курса ..........................................
Краткий анализ рекомендуемых литературных источников
Случайные события и процессы ..........................................
Статистические модели в описании объектов, признаков,
образов, классов, ситуаций и процедур ..............................
Оценка параметров и функций в анализе ситуаций ..........
Статистические исследования при формировании описания образов и ситуаций .......................................................
Распознавание в математической статистике ...................
Риск и его описание .............................................................
Распознавание образов ........................................................
Классификация систем распознавания образов ..............
Алфавит признаков, его компоновка и минимизация .....
Распознавание объектов по геометрическим параметрам
Распознавание объектов по цвету ......................................
Распознавание объектов по типу индикатрисы отражения
поверхности ............................................................................
Корреляционные алгоритмы распознавания ......................
Распознавание близко расположенных в пространстве признаков объектов .......................................................................
Распознавание объектов по косвенным признакам ............
Распознавание объектов при сверхразрешении ..................
Теория принятия решений ....................................................
Общие положения теории принятия решений ....................
Классические критерии принятия решений ........................
Минимаксный критерий принятия решения ........................
Критерий Байеса – Лапласа ...................................................
Критерий азартного игрока или предельного оптимизма
Критерий Сэвиджа ..................................................................
Критерий произведений .........................................................
Расширенный минимаксный критерий ................................
Производные критерии принятия решений .........................
Критерий Гурвица ..................................................................
194
3
4
4
8
10
10
23
26
45
51
55
56
60
63
71
83
89
102
125
142
150
152
161
161
163
167
169
171
174
175
175
4.3.2.
4.3.3.
4.3.4.
4.4.
4.5.
4.6.
4.7.
Критерий Ходжа – Лемана ....................................................
Критерий Геймейера ..............................................................
BL(MM) критерий ..................................................................
Гибкий критерий принятия решения ...................................
Адаптивный критерий Кофлера-Менга ...............................
Принятие решений по нескольким критериям ...................
Принятие решений с распознаванием образов .................
Приложение
Примерное распределение материала по лекциям
Литература
195
176
177
177
179
183
184
187
190
191
Учебное издание
Шестаков Константин Михайлович
КУРС ЛЕКЦИЙ
по специальному курсу
«Теория принятия решений и распознавание образов»
Учебное пособие для студентов
факультета радиофизики и электроники
Ответственный за выпуск К. М. Шестаков
Редактор _________________
Корректор ___________________
Подписано в печать11.05.2005. Формат _60×84/16. Бумага офсетная.
Печать офсетная. Усл. печ. л.10,70. Уч. – изд. л. 10,58. Тираж 100 экз. Зак. 486.
Белорусский государственный университет.
Лицензия ЛВ № 315 от 14.07.98.
220050, Минск, пр.Независимости, 4.
Отпечатано в Издательском центре БГУ.
220030, Минск, ул. Красноармейская, 6.
196
Download