Ввод информации с печатного и рукописного текста

advertisement
1
Ввод информации с печатного и рукописного текста.
Читающие автоматы.
Наиболее трудоемким и ответственным этапом процесса получения исходных данных для машины в любой вычислительной системе является этап
переноса информации с первичных документов на машинные носители информации. Реализация этого этапа, как правило, требует применения ручного
труда квалифицированных операторов. Для автоматизации этого этапа применяют читающие автоматы. Только в США находятся в эксплуатации более
300 типов подобных устройств. Из отечественных наибольшего внимания заслуживают читающие устройства “РУТА – 701” и “РУТА – 711”, “ВИНИТИ
– 2”, “ЧАРС” и “СЕВЕР – 3”. Скорость считывания современных читающих
автоматов превышает 2000 символ./сек. При достоверности не более одной
ошибки на 300000 считанных символов, тогда как опытный оператор в среднем делает одну ошибку на 1000 знаков при значительно меньшей скорости
работы (около 5 10 страниц/час).
Принцип действия читающего автомата.
Под читающим автоматом понимается устройство, способное с большой скоростью опознавать предъявляемые ему буквы, цифры и другие знаки
текста и преобразовывать их в форму, пригодную для использования в
ЭЦВМ.
В общем случае читающий автомат должен выполнять три основные
функции, присущие человеку:
а) прочитать текст, т. е. воспринять сигналы изображения;
б) составить описание изображения;
в) распознать текст, т. е. классифицировать его в принятой системе
классификации и дать наименование каждой единице информации.
Эти три функции в читающем устройстве тесно связаны и определяют
одна другую. Когда перед читающим устройством помещают документ, то
прежде всего это устройство должно отличить информативную часть доку-
2
мента от общего фона бумаги или другой несущей поверхности (прочитать
документ). Однако прочитать еще не значит узнать, что именно в нем написано. Так, ребенок тоже может прочитать книгу, т. е. увидеть и отличить некоторое изображение от общего фона. Но если он не знает азбуки, то не может определить смысловое содержание написанного и может только опознать изображение тех предметов и животных, которые когда-либо видел.
Выделение информативной части документа из общего фона и есть автоматическое чтение. Сущность его заключается в том, что предъявленное
изображение воздействует на некоторый (обычно фотоэлектрический или
магнитный) датчик, который вырабатывает соответствующий изображению
электрический сигнал. Эту функцию выполняет воспринимающее устройство
ВУ, которое является обязательной частью структурной схемы любого читающего автомата .
Изображения знаков
ВУ
УС
РУ
Решение
БП
Кроме того, воспринимающее устройство производит описание изображения
наиболее подходящим для целей опознавания образом. При необходимости
ВУ может осуществлять фильтрацию, нормализацию и другие преобразования, способствующие экономичности описания. В некоторых случаях функциями воспринимающего устройства могут явиться очистка изображений от
явных дефектов, ориентирование их и пр.
В сущности воспринимающее устройство осуществляет функцию изменения значений признаков опознаваемого изображения. Следовательно,
требования, предъявляемые к этому устройству, ограничиваются необходимой точностью, разрешающей способностью и быстродействием.
3
Опознавание изображения производится устройством сравнения УС
путем сличения описания изображения с эталонами. Основными показателями работы устройств сравнения являются точность и быстродействие. Все
описания эталонов опознаваемых изображений хранятся в блоке памяти БП,
который может быть выполнен в виде оптических масок-трафаретов, наборов
сопротивлений, емкостей, линий задержек и пр. Устройство сравнения работает совместно с решающим устройством РУ, которое в соответствии с принятым в конкретной схеме правилом решения (критерием опознавания)
отождествляет предъявленное описание с одним из эталонов. В результате
работы решающего устройства на выходе появляется либо сигнал, соответствующий правильно опознанному знаку, либо сигнал отказа. Конструкция
устройства и требования к нему определяются принятым правилом решения.
Основные методы автоматического чтения и распознавания
текста.
Существуют два основных способа автоматического чтения текста:
а) оптическое чтение при помощи источников света и фотоэлементов;
б) чтение при помощи магнитных чернил и токопроводящих красок.
Оптический способ чтения обладает тем существенным преимуществом перед магнитными чернилами, что позволяет читать типографские,
машинописные или рукописные материалы без предварительной подготовки,
непосредственно с текста. Кроме того, при помощи системы оптических линз
можно менять масштабы изображения.
В настоящее время способы автоматического чтения текста уже
настолько разработаны, что реализация того или иного считывающего
устройства представляют собой чисто инженерную проблему.
Иначе обстоит дело со второй основной функцией – распознаванием
текста.
Существующие методы распознавания можно разделить на следующие
группы:
а) методы распознавания по элементам формы знаков;
4
б) интегральные методы распознавания;
в) методы распознавания при помощи фрагментов;
г) методы распознавания с использованием специальных отметок или
стилизованной формы знаков;
д) корреляционные методы распознавания;
е) методы распознавания с использованием обучаемых систем.
В большинстве указанных методов процесс распознавания сводится к
извлечению существенных признаков из изображения и сопоставлению этих
признаков с заложенной в машине информацией. Различие в методах распознавания заключается в том, какие признаки распознавания считаются существенными, каким образом они извлекаются из исходной информации документа и каким образом сопоставляются с запомненной в машине информацией.
Все указанные методы распознавания можно разделить на эвристические и бионические.
Эвристические методы основаны на использовании различных способов анализа распределения черно-белых участков поля изображения или взаимных связей между отдельными элементами контурной линии знака. Полученное описание сравнивается с эталоном методами перекрытия или по признакам.
К эвристическим относятся первые четыре группы методов опознавания. Эти методы позволяют конструировать читающие автоматы с жесткими,
заранее установленными алгоритмами опознавания, которые базируются в
основном на искусственных аналитических построениях.
Бионические методы опознавания в отличие от эвристических методов
используют принцип действия биологических механизмов восприятия, преобразования зрительной информации.
Типичным устройством такого вида являются обучающиеся системы
типа персептронов.
5
Рассмотрим более подробно все названные методы опознавания текстовой информации.
Распознавание знаков по элементам их формы.
Методы распознавания по элементам формы знаков в качестве существенных признаков принимают признаки геометрической формы элементов
знака (количество прямых и кривых отрезков или сегментов, наклон или кривизну фигуры, взаимное расположение отрезков и т. д.).
На рисунке представлен вид элементов фигур, используемых для различия знаков по этому методу. Знак разбивается на ряд сегментов (примитивов) и описывается каждый сегмент (длина, наклон), а также, их взаимосвязь
(соединение сверху, слева, справа), проверяется правильность соединения
примитивов по “грамматическим” правилам класса. Описания элементов и
связей между ними, а также последовательность их расположения образуют
код каждого знака. Этот код зависит только от топологии данного знака и не
зависит от пространственного расположения последнего. Поэтому рассматриваемый метод называют квазитопологическим методом.
Иногда на контуре знака выбирается один, характерный только для
данного знака, элемент, например,
начало или конец линии знака, ее
расчленение,
изломы,
изменение
направления и т. п.
В ИК АН УССР разработано устройство для распознавания знаков по
этому методу, использующее в качестве существенных признаков положение
и направление контура знака в определенных областях поля изображения.
Для развертки знака используется система слежения за контуром. В качестве
признаков выбраны направления границ контура символа, т. е. границ черного и белого, причем учитывается по какую сторону относительно границы
6
находится черное поле. В процессе движения по границе линии фиксируются
направления движения в той последовательности, в которой они появляются.
Для упрощения анализа распознаваемых знаков фиксируются не все направления, а лишь наиболее характерные их сочетания. Таким образом, из признаков – направлений составляются описания читаемых символов.
Обход принято совершать так,
чтобы при движении черное поле
всегда оставалось слева. Например,
одним из признаков цифры “5” является последовательность движений,
осуществляемых
верхнем
углу
в
правом
четырехугольника:
вправо, вверх, влево. Движение луча электроннолучевой трубки ЭЛТ
осуществляется так, что изображение светящегося пятна, проектируемого на
документ Д объективом О, двигалось вдоль границы линий, оставляя черное
поле слева. Фотоэлектрическая следящая система, состоящая из фотоэлектронного умножителя ФЭУ и следящей системы СС управляет движением
луча и вырабатывает сигналы, характеризующие координаты движущегося
Д
О
ЭЛТ
СС
<
АП
БФП
ФЭУ
РгП
ДШ
Выход
7
пятна в каждый момент времени (см. блок-схему устройства). Эти сигналы
поступают в анализатор положения АП. При первом обходе светового пятна
по контуру в анализаторе положений фиксируются наибольшие и наименьшие значения каждой из координат. Разность наибольшего и наименьшего
значений делится на три равные части. При помощи такой процедуры строится прямоугольник, описывающий распознаваемый знак. Точки, полученные при делении наибольших координат на три равные отрезка разбивают
описанный прямоугольник на равные части .
При последующих обходах текущие координаты светового пятна сравниваются с координатами точек деления. Такое деление позволяет определить, в какой части прямоугольника находится пятно. Соответствующие сигналы в дискретной форме появляются на выходе анализатора положений и
поступают в блок формирования признаков БФП. БФП вырабатывает признаки, которыми являются определенные переходы из одной клетки в другую. Признаки выбираются так, чтобы они достаточно полно характеризовали распознаваемые знаки. Сигналы, полученные на выходе блока формирования признаков, фиксируются в регистре признаков РгП. Каждому распознаваемому знаку соответствует один или несколько (с учетом различных вариантов написаний) набор признаков. После окончания обхода контура дешифратор превращает содержимое регистра признаков в нужный код прочитанного знака, т. е. посылает на выход сигнал, соответствующий этому знаку.
Методы распознавания по элементам формы знака обладают тем существенным достоинством, что позволяют различать знаки в сравнительно широких пределах вариаций размеров, ориентации и начертаний. Характерно то,
что некоторые попытки отказаться от использования геометрических характеристик не привели к успеху при различении большого комплекса знаков.
В “чистом виде” этот метод не нашел широкого применения из-за
сложности технической реализации, а также из-за того, что он принципиально не обеспечивает полного разделения букв некоторых алфавитов (в т. ч. и
русского), т. к. некоторые изображения букв гомеоморфны одному и тому же
8
эталонному признаку (например буквы П, С и Г). Кроме того, при использовании данного метода достоверность результатов существенно снижается
при плохом качестве пропечатки знаков и загрязнении документов, что неизбежно в условиях промышленного производства.
Интегральные методы распознавания.
Интегральные методы распознавания в качестве существенных признаков принимают интегральные характеристики геометрической формы знаков
(форму волны тока или напряжения, аналоговую функцию контура, распределение плотности изображения по исследуемому полю и т. д.).
Vs
ФЭУ
I
H
I
t
Например, на рисунке представлены распознаваемые знаки и закон изменения проекции площади фигуры при проектировании ее на горизонтальную ось.
Ожидаемая форма волны для каждого знака запоминается на отдельной
корреляционной цепи, представляющей собой матрицу на сопротивлениях.
При прохождении исследуемого знака под считывающей головкой получающаяся последовательность электрических сигналов сравнивается одновременно со всеми корреляционными цепями и на одной из этих цепей должен
появиться максимальный сигнал, указывающий высокую степень совпадения
исследуемой и запомненной фигуры.
9
В лаборатории электромоделирования ВИНИТИ разработана схема читающего устройства, использующего для распознавания проекции знаков как
на горизонтальную, так и на вертикальную оси.
Полученные проекции разделяются на группы и для каждой группы
выбирается уровень квантования, выше которого координата проекции кодируется “1”, а ниже – “0”.
Рассмотрим принцип работы такого читающего автомата более подробно.
Различие букв.
Будем рассматривать буквы как некоторые фигуры вполне определенной (идеальной) формы, заданные на плоскости. Пусть число букв, которые
предстоит опознать, есть N, а сами буквы суть L1, L2,…,Li,…,LN. Наибольшие
линейные размеры, в которых умещается любая из букв по осям X и Y есть L
и H соответственно.
Введем некоторую функцию i(M). Функция i принимает значения, заключенные между нулем и единицей, если точка М(x, y) находится на i-той
букве и равна нулю, если M находится вне буквы.
0 < i(М) 1,
 (M ), M Li
 i  i
.
0, M Li
Пусть мы умеем определить значе-
Н
y
2
L
ния i для каждой точки внутри прямоугольника LH.
Предположим, что на рассмотрение
представлена (задана на плоскости) некоторая буква Lx, относительно которой треx
буется определить:
а) принадлежит Lx нашему множеству из N букв или нет;
10
б) если принадлежит, то с какой из букв ее следует отождествить.
С этой целью произведем сравнение “точка за точкой” неизвестной буквы со
всеми неизвестными. Это значит, что мы из значения (x, y) в каждой точке
буквы Lx будем вычитать значение (x, y) в той же точке, но для буквы Li. Так
как  есть функция точки, то для того, чтобы сравнить две такие функции,
необходимо сравнить их значения в каждой точке. Поскольку мы интересуемся лишь самим фактом различия, а не знаками отдельных разностей, будем
возводить каждую разность в квадрат, а затем суммировать. Эту процедуру
можно отразить аналитически, составив выражения:
Dx1 

 x(x, y)1(x, y)2 dxdy 

Dx    x(x, y) 2(x, y) dxdy
2
 (*),
............................................... 

2
Dx    x(x, y) i(x, y) dxdy 
i

(L, H)
2
(L, H)
(L, H)
где: х(x, y) и i(x, y) – значения функций х и i в одной и той же точке
M(x, y), а интегрирование производится по всей области (LH).
Можно сказать, что буква принадлежит нашему множеству и ее следует отождествить с буквой Lj если Dxj = 0.
В самом деле, значения функций х и j для двух одинаковых букв в
каждой точке равны, и весь интеграл обращается в нуль.
Итак, мы получили критерий опознавания для случая идеальных букв.
Мы видим, таким образом, что задача опознавания решается в три основных
этапа:
а) определения значения функции (x, y) в каждой точке буквы;
б) сравнение неизвестной буквы со всеми известными посредством вычисления разностей значений  для двух букв (вычисление девиаций функций
согласно выражениям (*));
11
в) нахождение среди вычисленных значений нулевого. Функцию 
имеет смысл трактовать как степень зачерненности (коэффициент отражения) бесконечно малой площадки (точки).
Иногда оказывается возможным учитывать только две степени зачерненности: белое и черное. Тогда  будет иметь два возможных значения 0 и
1, следовательно, она будет двоичной функцией. В этом случае i(M) фактически будет указывать лишь, принадлежит данная точка i – той букве или нет
и может быть названа поэтому “характеристической” функцией. Посмотрим,
что будет означать тогда выражение (*). Так как интеграл не равен нулю
только там, где имеются элементы первой и отсутствуют элементы второй
буквы и наоборот, то Dxi будет равно сумме площади буквы Lx, которая является необщей с Li и площади буквы Li, необщей с Lx. Ясно, что если две буквы одинаковы, то они имеют одинаковые очертания и, следовательно,
Dxi = 0, (x = i).
Величина площади, необщей для двух данных букв, является, как мы
видим, важнейшим фактором различия данных букв.
Составим выражения, подобные (*), для всевозможных парных сочетаний из наших N букв:
Dij 

(L,H)
 i(x, y) j(x, y)2dxdy ;
i = 1, 2, … , N; j = 1, 2, … , N;
i  j.
Число таких сочетаний будет, очевидно
С N2 
N ( N 1)
.
2
Dij характеризует величину различия существующего между буквами Li и Lj.
Чем больше различаются буквы по своей конфигурации, тем больше у них
необщая площадь, тем больше Dij. Это означает, что вычислив значения Dij
для нашего алфавита, можно, взяв наименьшие значения Dij min, выделить сочетания наиболее похожих букв, самые “опасные” места.
12
В реальном устройстве следует обратить особое внимание на эти сочетания. Если взять одну букву в отдельности, а  рассматривать как двоичную
функцию:
Di 

(L, H)
 i(x, y)02dxdy  Si .
Отличие i-той буквы от буквы (0), значения  которой в каждой точке
есть нуль, определяется величиной площади i-той буквы.
Аналогично, черная буква на белом фоне:
Di 

(L,H)
 i(x, y)12dxdy  L  H  Si .
До сих пор мы считали, что рассматриваемые буквы имеют идеальную форму. На практике, конечно, различные оттиски одной и той же буквы отличаются друг от друга, иногда довольно значительно. У реальной буквы могут
отсутствовать некоторые элементы идеальной (непропечатки) и могут иметься некоторые “лишние” участки – грязь.
Сравним i-тую реальную букву с идеальной:
Dii 

(L, H)
 (x, y) (x, y) dxdy
2
0
i
i
где  i0(x, y ) функция i для идеальной буквы.
Величина, определяемая последним равенством, будет определенным образом характеризовать “помехи” или “шумы”, возникающие при чтении.
Если величина Dij (для идеальных букв) характеризовала различие расстояний между различными буквами, то Dii характеризует отклонение реальной буквы от идеальной за счет случайных шумов.
Рассмотрим девиацию как функцию двух переменных:
Di(x,y) 

(L,H)
 i2(x, y)dxdy .
Назовем интеграл, зависящий от параметра y проекцией буквы на ось Y:
Fi(y)    i2(x, y)dx .
L
Соответственно, проекцией буквы на ось Х будет интеграл, зависящий от параметра х:
13
Fi(x)    i2(x, y)dy .
H
Очевидно, что
 Fi(x)dx   Fi(y)dy  Di .
L
Так как
H
dFi(x)  2
 i ( x, y)

dy ,
  i (x, y)dy   2 i

x

x
dx
H
то при
H
 i ( x, y)
dFi ( x)
 0;
0,
x
dx
т. е. Fi(x) = C.
Таким образом, там где на самой букве не происходит изменений вдоль
оси x, их нет и в проекции. Наоборот, изменения в конфигурации проекций
соответствуют изменениям в букве. Следовательно, проекции букв могут
быть использованы для опознания.
Практическая схема.
y
В случае, когда (х, у) является дво-
y
ичной функцией, F(x) выражает закон изменения
x
F(x)
F(y)
площади
буквы
вдоль
оси
X.Аналогично F(y) есть закон изменения
площади вдоль оси Y.Другими словами,
F(x) получается в результате суммирования всех значений (х, у) при фиксирова-
x
нии х0, затем при некотором новом х1, рав-
ном х0 + dx и т. д. Функция, полученная таким образом, является однозначной, т. е. может быть выражена в виде: S = F(x). При использовании проекций, взаимно однозначным образом связанных с буквами, получается выигрыш в количестве двоичных элементов, необходимых для представления
буквы.
14
Просмотр всего поля, на которое нанесен символ, производится дискретно, т. е. по строкам и столбцам. Проекция задается совокупностью своих
столбцов (строк):

Fi(x)  f1i , f 2i , ... , f ni
,
где n – число столбцов (строк).
Затем производится квантование по правилу
1, f ji  f j
,
f ji  
i
0, f j  f j
где f j – пороговое значение для данного столбца проекции. Квантование
производится квантователем K, на который подаются соответствующие
уровни от блока эталонных напряжений БЭН. “Идеальные” знаки, с которыми производится сравнение, записываются в блок памяти БП. Сравнение кодов проекций опознаваемого знака f joi с “идеальными” f jэi производится последовательно, разряд за разрядом и при этом считается число несовпадений
а с каждым из знаков.
БЭН
f1 f 2 . . . f n
Fi(x)
K
БП
...
 mod 2
f jэi
Cч а
аmin
CC
Z
f joi
Ввиду того, что  может принимать только значения 1 и 0, операция
вычитания и возведения в квадрат разности двух  осуществляется путем
сложения по модулю 2 ( mod 2). Подсчет числа несовпадений ведется счетчиком Сч а. Далее специальная схема определяет минимальное а и выдает
его на схему сравнения СС. С выхода схемы сравнения получается сигнал,
который может принимать два значения:
15
1, amin  qDij min
Z 
0, amin  qDij min
,
где q – коэффициент пропорциональности. Если Z = 1, то решение выносится
в пользу того знака, с которым получено аmin, и этот знак выдается как результат опознавания. Если же Z = 0, то выдается сигнал отказа.
Рассмотренный метод называют иногда матричным методом распознавания. Действительно, здесь знаки и символы представляются в виде матриц,
являющихся совокупностью белых и черных точек, и распознавание осуществляется путем непосредственного сопоставления матрицы, полученной
при считывании подлежащего распознаванию знака, с каждой из эталонных
матриц всего алфавита.
Методы распознавания при помощи фрагментов.
Методы распознавания с помощью фрагментов или масок (зондов) в
качестве существенных признаков используют наличие или отсутствие черного поля изображения в данном фиксированном месте поля. В поле изображения выбирается ряд областей (фрагментов) и в каждой из этих областей
определяется степень зачерненности изображения. Форма области для каждого места поля может быть различной и определяется заранее рассчитанными характеристиками для всего комплекса рассматриваемых знаков. Каждая
такая область называется фрагментом поля, маской или зондом. По наличию
или отсутствию черного изображения в масках составляется некоторое кодовое описание для рассматриваемой фигуры, которое затем сравнивается с заложенными в машине кодовыми описаниями. Для определения степени зачерненности данного фрагмента обычно ипользуется некоторый предельный
уровень, выше которого зачерненность считается “1”, и ниже которого – “0”.
Таким образом, кодовое описание обычно имеет двоичную форму.
16
Наиболее просто реализован этот метод распознавания в автомате
Даймонда, который дает возможность считывать рукописные знаки, написанные с некоторыми ограничениями в размерах и стиле написания. Кроме
того, знаки должны быть написаны специальными проводящими чернилами.
Бумага разграфлена на клеточки, внутри каждой из которых имеются по две
точки. Знак должен располагаться определенным образом относительно точек и не выходить за пределы клеточки.
а
б
в
г
На рис. б показано правильное, а на рис. в – неправильное расположение цифры. На цифру накладывается система электродов – зондов (рис. г), и
по чернилам пропускают ток. Сигналы от электродов, касающихся линий
цифры, подаются на дешифратор. В зависимости от того, какие из электродов
пересечены линией знака, автомат выдает код той или иной цифры.
В ВЦ АН УССР были проведены исследования возможности применения этого метода для распознавания стандартных цифр, напечатанных на
пишущей машинке. С этой целью был изготовлен экспериментальный образец устройства, блок-схема которого представлена на рисунке.
На экране трубки с бегущим лучом ТБЛ луч прочерчивает растр, подобный телевизионному. Уменьшенное изображение экрана трубки проектируется объективом на бумагу, на которой напечатана цифра. Когда луч движется по экрану трубки ТБЛ, изображение светящейся точки движется на
бумаге. Отраженный от бумаги свет попадает на фотоумножитель. Когда
изображение светящейся точки попадает на темную линию, напряжение на
выходе фотоумножителя изменяется. Это изменение напряжения изменяет
состояние триггера Шмидта, с которого подается напряжение на модулятор
17
трубки с изображением ТИ, луч которой движется по экрану так же, как и
луч трубки ТБЛ. Луч трубки ТИ отпирается только в те моменты, когда движущаяся по бумаге светлая точка встречает темную линию. В результате на
экране трубки ТИ получается светлое (негативное) изображение цифры.
Перед экраном трубки ТИ расположена маска со щелями – зондами.
Назначение маски – определить светится или нет экран в определенных местах, расположенных против щелей. Позади каждой щели помещен фотоумножитель. Щели расположены так, что каждая цифра засвечивает определенную их комбинацию.
Кроме основных, в маске имеются два вспомогательных зонда, которые служат для центровки изображения цифры относительно маски. Эти
18
зонды имеют вид двух вертикальных щелей, расположенных одна рядом с
другой у левого края маски.
Лента с цифрами движется непрерывно. Одновременно движется справа налево изображение на экране трубки ТИ. Когда светлое изображение
цифры засвечивает правую вспомогательную щель, но еще не достигает левой щели, вырабатывается сигнал правильного расположения цифры, и
включается блок дешифратора.
Этот блок представляет собой электронную логическую схему, которая преобразует сигналы основных зондов в выходной сигнал, соответствующий распознаваемой цифре.
Источником работ по распознаванию знаков методом фрагментов (зондов) явились первые работы по распознаванию знаков на полное совпадение
по шаблонам. Действительно, в пределе фрагмент может стать контуром знака или даже целиком знаком. Алгоритм распознавания в случае сопоставления фрагментов аналогичен простейшему алгоритму распознавания на полное совпадение и требует ответа на вопрос “да-нет”, т. е. предельно простой
логики устройства распознавания. Использование фрагментов сокращает
объем информации, которая должна быть занесена в память машины для сопоставления (по сравнению с методом шаблонов). Этот метод может быть с
успехом использован для распознавания стандартных шрифтов типа типографского текста, не имеющего больших дефектов в ориентации знаков, поскольку этот метод требует точной ориентации знаков в поле изображения.
Методы распознавания с использованием специальных отметок или стилизованной формы знаков.
Методы распознавания знаков при помощи специальных отметок или
стилизованной формы знаков разрабатывались многими изобретателями.
Имеется много предложений по кодированию знаков при помощи различного
рода маркеров (точек, расположенных в определенных местах изображения;
точек, отличающихся размерами; горизонтальных полосок; вертикальных
19
полосок, прямоугольников, квадратов и т. д.). Основным недостатком всех
этих методов кодирования является то, что они не могут быть использованы
для чтения реального типографского текста, так как требуют реформы системы печати. В некоторых, весьма ограниченных случаях, однако, эти методы
могут быть с успехом использованы. Это относится в основном к тем случаям, когда требуется распознавание только ограниченного комплекса знаков.
Рассмотрим упрощенный пример. Допустим, что при напечатании
цифр возле каждой из них ставится серия точек с различными для каждой
цифры интервалами между точками. Тогда распознающая система может
анализировать не сами изображения, а сопровождающие их серии точек. Появление каждой точки фиксируется, например, единичным фоторецептором,
а вся серия превращается в последовательность импульсов. Эту последовательность подают на дешифратор, который выдает сигнал, характеризующий
данную цифру. На формирование сигнала не влияют ни качество напечатания цифры, ни вариации ее положения в строке, ни вариации стиля написания. Задача распознавания изображений сводится к распознаванию кодов,
подобных азбуке Морзе. При этом распознающая система не получает никакой информации от изображений. Чаще точки заменяют линиями, например,
каждое распознаваемое изображение составляется из семи вертикальных линий, между которыми имеется шесть промежутков: два широких и четыре
узких .
20
При помощи строчной развертки изображения можно получить соответствующий ему код, состоящий из отдельных импульсов, интервалы между которыми изменяются в зависимости от распознаваемого изображения. Таким
образом, изображения могут классифицироваться распознающей системой,
декодирующей по существу кодовые комбинации из широких и узких интервалов между импульсами.
Корреляционные методы распознавания.
Корреляционный критерий распознавания.
Предположим, что всякое изображение можно представить функцией,
характеризующей состояние чувствительных элементов рецепторного поля,
аргументами которой являются переменные, определяющие положение чувствительных элементов на плоскости X, Y. Такая функция может быть представлена в виде:
S(x, y) = Sv(x, y, 1, 2, … , k) + r(x, y),
где 1, 2, … , k – параметры, характеризующие искажения;
r(x, y) – случайная функция, описывающая шум.
Для определения принадлежности входного изображения к одному из образов вычисляются вероятности гипотез о том, что данное изображение возникло в результате искажений того или иного эталона, и выбирается максимальная из них.
Распознавание изображений при помощи сравнения вероятностей гипотез можно интерпретировать геометрически.
Представим эталонное изображение вектором в n – мерном пространстве, координатами которого служат реакции отдельных чувствительных
элементов рецепторного поля (n – число рецепторов). В этом пространстве
каждому изображению соответствует одна точка. При изменении параметров
преобразований и неизменном шуме конец вектора преобразованного эталона перемещается в пространстве, описывая область в некотором K-мерном
подпространстве. Поскольку параметры изменяются в ограниченных преде-
21
лах, то и описываемая область также будет ограничена. Назовем ее областью
эталона. Области различных эталонов не пересекаются, если искажения таковы, что из двух различных эталонов нельзя получить одно и то же изображение. При наличии шума точка может выходить за пределы области эталона. Поэтому, если при отсутствии шума плотность вероятности появления
изображения в определенной ситуации была бы отлична от нуля только в области эталона, то при наличии шума эта плотность распределяется вокруг
области эталона в виде облака, причем будем считать, что она монотонно
убывает .Для каждой пары эталонов можно указать геометрическое место точек ,в которых эти вероятности будут равны (точка А).
Р
Область образа V1
Р(x)
L1
Область
эталона V1
Р(x)
L2
A
V1
l1
l2
V2
Это геометрическое место точек является (n – 1) мерной гиперповерхностью, разделяющей все пространство на две области, в одной из которых
преобладает одна гипотеза, в другой – другая. Если рассматривается m образов, то образуется несколько таких поверхностей, разделяющих все пространство на m областей, каждая из которых соответствует определенному
образу и называется областью образа. Обычно расстояния от областей какихлибо двух эталонов до границы раздела между ними неодинаковы. Эти расстояния зависят от допустимых преобразований эталона, а также от априорных вероятностей эталонов.
Однако, при малом отношении дисперсии шума к квадрату расстояния
до поверхности раздела произвольные небольшие смещения поверхности
раздела обычно незначительно сказываются на вероятность правильного рас-
22
познавания, т. к. в этом случае вероятность появления изображения близкого
к поверхности раздела очень мала. Поэтому в качестве разделяющей поверхности можно взять геометрическое место точек, равноудаленных от областей
эталонов.
Тогда для распознавания изображения  достаточно вычислить кратчайшие расстояния от этого изображения до каждой из областей эталонов и
выбрать наименьшее, т. е.
i  iV (α j )2 ;
n

j , V i 1
 V *, если min dV2*  min
V = V1, V2, … ,Vm;
j = 1, 2, … ,k.
где: j – параметр искажения,
i и iV – компоненты изображения и эталона.
Несмотря на то, что операция вычисления минимальных расстояний по
своему объему меньше, чем вычисление условных вероятностей, все же в
общем случае это очень сложная вычислительная проблема.
Поэтому особый практический интерес представляют частные случаи,
одним из которых является задача распознавания оптических изображений, в
том числе и типографских текстов.
При распознавании оптических изображений можно считать допустимыми преобразованиями равномерное изменение средней яркости изображения и равномерное изменение его контрастности. Будем называть эти преобразования оптическими. Доказано, что такие оптические преобразования
описываются простейшей линейной зависимостью вида:
Vi() = aVi + b; i = 1, 2, … ,n,
где Vi и Vi() – компоненты исходного и преобразованного эталонов;
а и b – параметры преобразования.
Предположим, что кроме оптических преобразований допускается еще
и другая группа преобразований . Тогда последнее равенство примет вид:
23
Vi() = aV() + b; i = 1, 2, … ,n.
(* )
Например, набор  может включать параметры сдвигов изображения, изменения масштабов, и т. д. Полный набор параметров i, фигурирующий в выражении для (x, y) в этом случае состоит из набора  и еще двух параметров
а и b.
Для распознавания изображения достаточно вычислить кратчайшие
расстояния до каждой из областей эталонов и выбрать наименьшее.
Но для того чтобы отыскать минимум расстояния | – V()| по всем параметрам , можно всегда сначала отыскать минимум по а и b, а затем по остальным параметрам . Для отыскания минимума по параметрам а и b формулу (*) удобно записать в векторной форме:
V (α)  aV (β)  b  I ,
где I – вектор, у которого все компоненты равны единице Ii = 1; (i = 1, 2, … ,n).
При фиксированном векторе V (β ) и изменяющихся параметрах а и b конец
вектора V ( ) движется в двухмерной плоскости, которая задана двумя лежащими в ней векторами – V (β ) и I .
Кратчайшее расстояние d от точки  до плоскости можно вычислить по
формуле:
2
d  |  |2   пр
,
где || – модуль вектора, соответствующего точке  ;
пр – проекция вектора ρ на плоскость.
Проекция пр в свою очередь выражается через проекции на два единичных и ортогональных вектора, лежащих в плоскости. Выберем в качестве этих
векторов нормированный вектор I :
I0 
1
I
n
и нормированную составляющую вектора V (β ) , ортогональную I :
V0(β ) 
V (  ) V (  ), I 0 I 0
V (  ) V (  ), I 0 I 0
24
.
Круглыми скобками обозначено скалярное произведение. Назовем последний
вектор нормированным эталоном.
Вычислим указанные выше проекции, получим:
d  |  |2  , I 0  ,V0 ( )
2
2
.
(**)
Последнее выражение дает
I

I0
расстояние, минимальное по

оптическим параметрам а и
ρ
b.
Необходимо
ρпр
теперь
найти минимум величины d
по остальным параметрам,
V ( β)
составляющим набор .
V0 ( β )
Как видно из формулы
(**) от  зависит только тре-
тий ее член, причем минимуму d соответствует максимум этого члена. Первые
два члена одинаковы для всех  и для любых эталонов, поэтому для отыскания
минимального расстояния достаточно отыскать максимум по  абсолютной
величины скалярного произведения ρ , V0 (  ) . Обозначим его через K() и запишем в координатах:


K (  )  max  , V0 (  )  max


n
  iVoi (  ) .
i 1
Здесь Voi() – компоненты нормированного эталона, определяемые (согласно
вышеприведенной формуле) так:
25
1 n
 Vi (  )
i 1
n
Voi (  ) 
2
n
1 n
2

 Vi (  )    Vi (  ) 
i 1

n  i 1
Vi ( ) 
.
Подставляя это выражение в формулу для K(), получим:
n
1n n
  iVi (  )    i  Vi (  )
n i 1 i 1
K (  )  i 1
.
2
n 2
1 n
 Vi (  )  
  Vi (  ) 
i 1

n  i 1
(***)
Полученное выражение представляет собой не что иное, как выборочный коэффициент корреляции наборов величины i и Vi(), с тем только отличием,
что в знаменателе отсутствует множитель, равный корню квадратному из выборочной дисперсии i. Поэтому K() естественно называть ненормированным
по  коэффициентом корреляции изображения ρ и эталона V (β ) .
Таким образом, для распознавания знака в соответствии с корреляционным методом в читающем автомате должны быть выполнены следующие операции:
а) изображение знака на бумаге должно быть разложено на n элементов;
б) для каждого элемента измеряются его коэффициент отражения i, где
i = 1, 2, … , n;
в) вычисляются коэффициенты корреляции, характеризующие сходство
распознаваемого изображения с каждым из эталонных изображений;
г) находится наибольший коэффициент корреляции.
Затем производится сдвиг распознаваемого изображения относительно
эталонов и снова повторяются все перечисленные операции.
Проделав такое число сдвигов изображения, чтобы можно было быть
уверенным, что на одном из них изображение совместилось с соответствующим эталоном, находится номер того эталона, который дал самый большой
коэффициент корреляции. Этот номер и будет результатом распознавания.
26
Принцип технической реализации.
Функциональная схема читающего автомата, реализующего приведенный выше алгоритм, приведена на рисунке. Лист бумаги с машинописным
текстом закрепляется на вращающемся барабане строчками вдоль окружности
барабана. Разложение распознаваемого знака на элементы и измерение коэффициентов отражения i для каждого элемента производится системой “бегущий луч”, т. е. с помощью электроннолучевой трубки ЭЛТ и фотоэлектронного умножителя ФЭУ.
27
28
Значения i поступают на кодирующее устройство, где кодируются
двухразрядным кодом, позволяющим различать четыре уровня почернения, и
затем заносятся в сдвиговый регистр. Регистр состоит из двух самостоятельных субрегистров - один для старших разрядов i, а другой – для младших.
Таким образом, значения i оказываются представленными в виде напряжений
uci и umi на выходах триггеров обоих регистров:
i  uci + 0,5umi.
Применение сдвигового регистра позволяет получить сигналы, характеризующие все элементы изображения, в параллельной форме, что очень важно для
быстрого вычисления коэффициентов корреляции. Кроме того, сдвиговый регистр позволяет избежать повторного сканирования изображения при каждом
сдвиге. Более того, сдвиги изображения совмещаются по времени со “считыванием”, т. е. с измерением i отдельных элементов.
Благодаря использованию двухразрядных кодов для i удается сохранить более полную информацию об изображении, чем при любых методах
“контрастирования”, классифицирующих элементы изображения только как
белые и черные. В последнем случае неизбежна потеря бледных линий или
отождествление загрязнений с линиями знаков.
Нормированные эталоны представлены в автомате в виде наборов про1
2
k
 q k пропорциональных компонентам эталонов Vik (iводимостей g cik и g mi
ci
тая компонента k-того нормированного эталона). Эти проводимости подключаются к выводам сдвигового регистра так, что суммарный ток набора проводимостей получается пропорциональным первому слагаемому числителя в
формуле (***), т.е.
n
n
i 1
i 1
k
J звk   uci g cik   umi g mi

n
  iVi (  )
i 1
Еще один набор одинаковых проводимостей используется для получения
напряжения u , пропорционального среднему коэффициенту отражения
29
u 
1 n
1
1n
 (uci  umi )   i .
n i 1
2
n i 1
С помощью этого напряжения и так называемых нейтрализующих проводимостей G, пропорциональных
n
Gk  Vi k
i 1
образуются токи, моделирующие второе слагаемое в числителе формулы (***)
J нk 
1 n n
 i Vi (  )
n i 1 i 1
Поскольку все эталоны являются нормированными, то должно выполняться
следующее условие:
n 
1n

 Vi (  )   Vi (  ) 
n i 1
i 1

2
const .
Следовательно, можно считать, что знаменатель в формуле (***) будет постоянным и подсчитывать только значения числителя.
Таким образом, коэффициенты корреляции моделируются пропорциональными им токами. Специальное компенсационное устройство – указатель
экстремума – вырабатывает код эталона, в канале которого появился ток,
наибольший за время прохождения данного знака через регистр. Этот код
фиксируется в выходном регистре и затем выдается в качестве результата
распознавания.
Корреляционный читающий автомат со сдвиговым регистром (ЧАРС)
впервые был построен в ИК АН УССР. Преимуществом корреляционного
метода, применяемого в автомате ЧАРС, является то, что отпадает необходимость в строгой центровке распознаваемого изображения относительно
эталона. Вместо центровки изображение сдвигается всевозможными способами в некоторых ограниченных пределах. Такой метод гарантирует пра-
30
вильное распознавание даже в случае значительных искажений изображения,
когда любые методы центровки приводят к ошибочным результатам.
Методы распознавания при помощи обучаемых систем.
Рассмотренные ранее методы построения читающих автоматов прежде
всего недостаточно универсальны. Каждый такой автомат может оперировать
только с вполне определенным набором подлежащих распознаванию знаков
и с вполне определенным шрифтом или группой сходных шрифтов. Поэтому
при переходе к другому шрифту или при необходимости различать вместо
цифр буквы может потребоваться полная замена содержимого памяти автомата или изменение структуры самого автомата, то есть рассмотренные автоматы не являются самообучающимися.
В последние годы особый интерес представляет прежде всего моделирование процесса обучения распознаванию образов. При этом в термин “моделирование процесса обучения” вкладывается следующее содержание: обучению не предшествует сообщение автомату каких-либо сведений о тех образах, распознаванию которых он должен научиться; само обучение заключается в предъявлении автомату некоторого конечного числа объектов каждого образа. В результате обучения автомат должен оказаться способным
узнавать сколь угодно большое число новых объектов, относящихся к тем же
образам.
Таким образом, имеется в виду следующая схема экспериментов:
а) никакие сведения о подлежащих классификации образах в автомат
заранее не вводятся;
б) в ходе обучения автомату предъявляется некоторое количество объектов каждого из подлежащих классификации образов и (при моделировании
процесса обучения “с учителем”) сообщается, к какому образу относится
каждый объект;
в) автомат автоматически обрабатывает полученную информацию, после чего
31
г) с достаточной надежностью различает сколь угодно большое число
новых, ранее ему не предъявлявшихся объектов каждого образа.
Автоматы, работающие по такой схеме, являются уже более универсальными в том смысле, что без каких-либо изменений в структуре или программе они могут быть обучены классификации любых однотипных по
сложности образов. Такой автомат, например, обучив читать русские буквы
можно “переучить” и заставить различать латинские знаки.
Устройство и алгоритмы персептрона.
Методы распознавания знаков путем создания обучаемых или самообучающихся систем базируются на работах по изучению нейронных сетей и
процессов высшей нервной деятельности человека.
Примером этого направления в теории и практике распознавания образов является класс устройств, называемых персептронами (от лат. perceptio –
понимание, познавание).
Автором персептрона является американский ученый Ф. РОЗЕНБЛАТТ, который разработал узнающую машину МАРК-1.
Рассмотрим устройство и действие персептрона.
Воспринимающим устройством персептрона служит фотоэлектрическая модель сетчатки – поле рецепторов, состоящее из нескольких сотен фотосопротивлений. Каждый элемент поля рецепторов может находиться в
двух состояниях – возбужденном или невозбужденном, в зависимости от того, падает или нет на соответствующее фотосопротивление контур проектируемой на поле фигуры. На выходе каждого элемента появляется сигнал Xi (i
= 1, 2, … , n, где n – число элементов), равный единице, если элемент возбужден, и нулю в противном случае. Элементы поля рецепторов называются
сенсорными или S-элементами.
Следующей ступенью персептрона служат так называемые “ассоциативные элементы” или А-элементы. Все они одинаковы; их число близко к
32
числу S-элементов. Каждый А-элемент имеет несколько входов и один выход.
А-элементы производят алгебраическое суммирование сигналов, поступивших на их входы, и полученную сумму сравнивают с одинаковой для
всех А-элементов величиной . Если сумма больше , то А-элемент возбуждается и выдает на выходе сигнал, равный единице. Если сумма меньше , Аэлемент остается невозбужденным и выходной его сигнал равен нулю. Таким
образом выходной сигнал j-того А-элемента:
1, если  n r x  0
 ij i 

 i 1
 ,
yj 
n
0, если   rij xi  0
 i 1


где величина rij принимает значение +1, если i-тый рецептор подключен ко
входу
j-того А-элемента со знаком +, значение –1, если рецептор подключен со
знаком
A1
A2
Aj
Aj+1
Am-2
Am-1
Am
y1
1
1
y2
2
yj
j
3
yj+1
j+1
4
ym-2
2

5
m-2
ym-1
m-1
ym
m
6
7
m
 j yj
j 1
R
1
0
33
“-“, и значение 0, если i-тый рецептор к j-тому А-элементу не подключается
(j = 1, 2, … , m, где m – число А-элементов).
1) y1*1 2) y2*2 3) yj*j 4) yj+1*j+1
5) ym-2*m-2 6) ym-1*m-1 7) ym*m
Выходные сигналы А-элементов с помощью специальных устройств
(усилителей) умножаются на переменные коэффициенты j.
Каждый из этих коэффициентов может быть положительным, отрицательным или равным нулю и меняется независимо от других коэффициентов.
Выходные сигналы усилителей суммируются, и суммарный сигнал

m
 j yj
j 1
поступает на вход так называемого реагирующего элемента или R-элемента.
Если  положительна или равна нулю, R-элемент выдает на выходе единицу,
если  отрицательна – нуль. Таким образом, выходной сигнал R-элемента
(являющийся также выходным сигналом персептрона).
1, если m  y 0
j j

j 1
R
.
m
0, если   j y j 0
j 1

При обучении персептрону “показывают” по очереди символы разных
классов. При показе каждого символа некоторые А-элементы возбуждаются,
а некоторые нет. Процесс обучения заключается в том, что после каждого
показа символа изменяются коэффициенты усиления j тех усилителей, которые связаны с возбудившимися А-элементами. При этом, если показали
символ I класса, то соответствующие j увеличиваются, а если II класса –
уменьшаются. В результате обучения формируются коэффициенты j, которые будут использованы при экзамене.
Во время экзамена персептрону показывают неизвестный символ. Возбудившиеся А-элементы посылают в сумматор сигналы, равные соответ-
34
ствующим j. Если сумма всех этих сигналов положительна, принимается
решение, что показанный символ принадлежит к первому классу, если отрицательна – ко второму. Таким образом, поведение персептрона во время экзамена определится тем набором коэффициентов j, который выработался во
время обучения.
Описанная структура персептрона позволяет разделять предъявляемые
символы только на два множества, класса. Для распознавания большего числа символов выходной сигнал каждого А-элемента поступает не на один, а на
несколько (по числу различаемых образов) усилителей. После умножения на
 выходные сигналы поступают на сумматоры, количество которых также
равно числу различаемых образов.
Предъявленный объект относится к тому образу, чей сумматор имеет
наибольший выходной сигнал. Например, для распознавания трех образов А,
В и С может быть применен персептрон, построенный по схеме.
1a
А1
.
.
.
.
.
Аj
.
.
.
.
.
Аm
1b
1c
a
ja
jb
b
jc
ma
mb
mc
c
CC
A
B
C
35
Выходной сигнал каждого А-элемента поступает не на один, а на три
усилителя. Количество сумматоров также равно трем. Вместо R-элемента
установлена схема сравнения СС, которая сравнивает между собой выходные
сигналы сумматоров. Решение выносится в пользу того образа, чей сумматор
имеет наибольший выходной сигнал.
Возможны два типа алгоритмов обучения персептрона.
Алгоритм первого типа осуществляется следующим образом. Заранее
устанавливается, что после обучения персептрон должен выдавать на выходе
“1” при предъявлении ему, например, объектов образа А и “0” при предъявлении объектов образа В. Затем предъявляют персептрону объекты каждого
из образов. В каждом такте персептрон отвечает на предъявленный ему объект возбуждением некоторых А-элементов. Обучение состоит в том, что коэффициенты j возбужденных в данном такте А-элементов увеличиваются на
некоторую величину, если в этом такте был предъявлен объект образа А, и
уменьшаются на эту же величину, если был предъявлен объект образа В.
Алгоритм второго типа учитывает правильность ответов персептрона в
ходе обучения. При использовании этого алгоритма коэффициенты j остаются неизменными, если персептрон правильно распознал предъявленную
ему в данном такте фигуру. Изменение коэффициентов j производится только в тех тактах, в которых персептрон “ошибся”. Изменение коэффициентов
как и в первом алгоритме, производится таким образом, чтобы повысить правильность ответов персептрона. Если, например, персептрон “ошибся” и,
при предъявлении объекта образа А, выдал на выходе нуль вместо единицы,
коэффициенты возбужденных А-элементов увеличиваются. Если был предъявлен объект образа В, а персептрон ответил единицей на выходе Rэлемента, коэффициенты возбужденных А-элементов уменьшаются.
36
Второй алгоритм дает по сравнению с первым значительно лучшие результаты. На рисунке даны результаты распознавания восьми латинских букв
% правильных ответов
по обоим алгоритмам.
100%
II
70%
I
50%
25%
0
10
20
30
40
50
число предъявлений каждой буквы во время обучения
После 20-25 предъявлений различных начертаний каждой буквы по I-му алгоритму достигается примерно 70 % правильных ответов. Дальнейшее увеличение объема обучения не приводит к улучшению надежности распознавания. По второму алгоритму после предъявления 35-40 начертаний каждой
буквы надежность распознавания достигает почти 100 %.
При более длинных алфавитах процент ошибки распознавания резко
возрастает и достигает 30-45 % даже при обучении по второму алгоритму.
Анализ такой плохой работы выявил, что причина не в том, что персептрон “плохой ученик” и не умеет находить нужные коэффициенты j, а в
том, что при малом количестве А-элементов таких “хороших” коэффициентов j вообще не существует. Если же число А-элементов приблизить к
“большому числу” 2n (n – число рецепторов), то положение изменится и
можно добиться более надежного распознавания и данных алфавитов. Однако, что такое “большое число” А-элементов. Пусть персептрон имеет сравнительно скромный растр 3030 рецепторов. Тогда “большое число” – 2900. Это
много раз превосходит число электронов во всей Солнечной системе! Одна-
37
ко, несмотря на это персептрон является пока наиболее перспективным
устройством распознавания.
Функции А-элементов.
Как уже говорилось, выходной сигнал каждого А-элемента персептрона зависит от знака выражения
n
 rij xi 
i 1
и равен
1, если m r x  0
ij j

j 1
yj 
.
m
0, если  rij x j  0
j 1

Таким образом, каждый А-элемент разбивает все фигуры, которые могут быть спроектированы на поле рецепторов, на два класса. Для фигур одного класса выход А-элемента положителен или равен нулю, для фигур второго
класса – отрицателен. Этому факту можно дать геометрическую интерпретацию. Действительно, каждую комбинацию xi можно рассматривать как код
предъявленной персептрону фигуры или координаты некоторой точки в пространстве рецепторов.
Выражение
n
 rij xi 
i 1
можно рассматривать как левую часть уравнения некоторой плоскости
n
 rij xi 
i 1
0.
Знак сигнала на выходе А-элемента говорит о том, по какую сторону от этой
плоскости лежит точка, соответствующая предъявленной персептрону фигуре.
Итак, каждый А-элемент, после того как для него установлены коэффициенты rij (т. е. произведено подключение рецепторов на его входы), опре-
38
деляет некую плоскость в пространстве рецепторов. Все А-элементы персептрона осуществляют разбиение пространства рецепторов с помощью m плоскостей на некоторое количество многогранников.
Разбиение осуществляется вполне случайно, так как коэффициенты rij
выбираются по жребию.
Выходные сигналы А-элементов образуют m-разрядный двоичный код,
характеризующий состояние А-элементов в данном эксперименте. Этот код
характеризует также положение многогранника, в который попала точка, соответствующая данному изображению. Единица в j-том разряде кода означает, что многогранник лежит по одну сторону j-той плоскости; нуль соответственно указывает, что многогранник лежит по другую сторону этой плоскости.
На вход R-элемента попадает сумма произведений разрядов этого кода
на коэффициенты j
m
 j yj .
j 1
В данном такте работы персептрона, т. е. при данной комбинации коэффициентов j, некоторым кодам будет соответствовать единица, а остальным – нуль на выходе R-элемента. А это означает, что часть многогранников
персептрон относит к первому классу, а другую часть – ко второму. Иными
словами, персептрон формирует из кусков случайно проведенных секущих
плоскостей границу между двумя частями пространства рецепторов. Результирующее положение граничной поверхности определяется комбинацией коэффициентов j в данном такте.
Таким образом, цель обучения заключается в наилучшем приближении
этой поверхности к действительной границе между образами.
Рассмотрим это на следующем примере. Имеется два образа А и В, которым в пространстве рецепторов соответствуют области А и В. Допустим,
что наш персептрон имеет восемь А-элементов, которые мы соединили с ре-
39
цепторами таким образом, что в пространстве рецепторов проведено восемь
случайно распо-
ложенных плоскостей (I, II, … , VIII). Эти плоскости образуют 21 многогранник (обозначены номерами, заключенными в кружки).
Выберем по жребию “положительные” и “отрицательные” стороны
каждой из плоскостей (“положительные” стороны отмечены штрихами).
Это будет означать, что А-элемент выдает на выходе единицу, если
точка лежит с положительной стороны соответствующей плоскости, и нуль в
противном случае. Установим начальные значения j для всех усилителей
равными единице и потребуем от персептрона, чтобы единица на выходе Rэлемента соответствовала образу В, а нуль – образу А.
Рассмотрим состояние персептрона в первом такте обучения, после
предъявления ему первого объекта образа А (точка 1, попавшая во второй
многогранник). Ответ персептрона неправилен, на входе R-элемента появился больший, чем нужно, сигнал: +4. Поэтому в соответствии со вторым алгоритмом должны быть уменьшены на единицу j тех А-элементов, которые
40
возбуждены в первом такте. Новые значения приведены в первом столбце
второго такта.
Появляется второй объект (точка 2). Персептрон правильно относит его
к образу В, и коэффициенты остаются неизменными. В третьем такте персептрон снова ошибается, что приводит к новому изменению коэффициентов.
В четвертом такте персептрон правильно узнает фигуру образа В, а в
пятом вновь ошибается, что влечет за собой новое изменение (на этот раз
увеличение) коэффициентов.
2
3
9
10
11
№ А-элемента,
плоскости
j
yj
jyj
j
yj
jyj
j
yj
jyj
j
yj
jyj
j
yj
jyj
j
yj
jyj
j
yj
jyj
j
yj
jyj
j
yj
jyj
j
yj
jyj
j
yj
jyj
1
Номера тактов
4
5
6
7
8
Состояния персептрона
I
II
III
IV
V
VI
VII
VIII
1
1
1
1
1
1
1
1
1
0
1
0
1
0
0
1
1
0
1
0
1
0
0
1
0
1
0
1
0
1
1
0
1
1
0
0
0
1
1
1
0
1
0
0
0
1
1
0
0
1
0
1
0
1
1
0
1
1
1
0
0
0
0
1
0 -1
1 0
0 -1
0 1
0 0
0 1
0 1
-1 0
1
1
0
0
0
1
1
0
-1 -1 1 -1 0
0 0 1 0 1
0 -1 0 0 -1
0 1 0 0 1
0 0 0 0 0
1 1 1 1 2
1 1 0 0 1
-1 1 -1 0 1
1
1
0
1
0
1
1
0
0
1
0
1
0
2
1
0
0 1 0 -1
1 1 1 0
-1 -1 -1 -2
1 0 0 1
0 1 0 -1
2 0 0 2
1 0 0 1
1 0 -1 0
1
1
0
1
0
1
1
0
-1 -1 -1 -1 -1 -1 -1 -1 -1 -1
0 0 0 0 0 1 0 0 1 0
0 -2 1 -2 -2 0 0 -2 1 -2
1 1 0 0 1 1 1 1 0 0
0 -1 0 0 -1 0 0 -1 0 0
2 2 0 0 2 1 2 2 1 2
1 1 0 0 1 0 0 1 1 1
-1 1 -1 -1 -1 -1 -1 -1 -1 -1
m
σ   y
j j
+4
+3
+1
+1
-1
+5
0
+3
-4
+1
-1
Выход
R-элемента
1
1
1
1
0
1
1
1
0
1
0
Непр.
Прав.
Непр.
Прав.
Непр.
Прав.
Непр.
Прав.
Прав.
Прав.
Прав.
j 1
В шестом такте персептрон дает правильный ответ, в седьмом снова
ошибается, но, начиная с восьмого такта, дает правильные ответы.
Если образовать суммы jyj для всех многогранников, можно убедиться в том, что после седьмого такта персептрон выделил разделяющую поверхность, отмеченную на рисунке жирной линией. Многогранники 11, 14,
15, 16, 19, 20 и 21 отнесены к образу В, остальные – к образу А.
Таким образом, общая схема персептрона такова. Вектор (изображение)
41
Х {x1, х2 , ... , хn }
где x1, x2, … , xn – реакции сенсоров преобразуются в вектор
Y { y1, y2 , ..., ym}
где y1, y2, … , ym – выходные сигналы А-элементов с помощью преобразования Y  f (X ) или в координатной форме:
y1 = 1(Х), y2 = 2(Х), … , ym = m(Х).
Вектор X будет отнесен к образу В, если выполняется неравенство
m
  j j ( Х )  0 ,
j 1
т. е. если вектор X находится с положительной стороны этой гиперповерхности
m
  j j ( Х )  0 ,
j 1
если же вектор X будет находится с “отрицательной” стороны этой гиперповерхности, то он будет отнесен к образу А (согласно рассмотренному выше
примеру).
Для распознавания K образов необходимо построить соответствующие
им разделяющие гиперповерхности. Каждой гиперповерхности пространства
Х в пространстве Y с координатами
y1 = 1(Х), y2 = 2(Х), … , ym = m(Х),
соответствует гиперплоскость
m
  jk y j
j 1
 0.
Введение пространства Y позволяет заменять рассмотрение разделяющих гиперповерхностей разделяющими гиперплоскостями. Поэтому пространство
векторов Y получило название спрямляющего. В спрямляющем пространстве
каждому объекту становится в соответствие вектор Y = f(X). Этот вектор относится к образу K, если он лежит с положительной стороны разделяющей
42
m
гиперплоскости   y  0 и не принадлежит к образу K, если находится по
jk j
j 1
другую сторону от нее.
Пусть мы имеем два множества объектов Yia и Yib, которые разделены
плоскостью I-I ( объекты образа А обозначены кружками, а объекты образа В
– крестиками).
II
I

А
В
I
II
Назовем выпуклой оболочкой множества минимальное выпуклое
множество, содержащее все объекты данного множества. Обозначим буквой
 минимальное расстояние между двумя выпуклыми оболочками.
Введем также понятие диаметра множества. Диаметр множества есть
наибольшее расстояние между объектами множества и обозначается через D.
В 1960 году американский ученый А. Новиков доказал, что если расстояние между двумя выпуклыми оболочками множеств отлично от нуля  =
0 > 0, а диаметр множеств ограничен D < , то после многократного предъявления обучающей последовательности, составленной из всех объектов этих
множеств, будет построена разделяющая гиперплоскость, причем во время ее
43
D 
2
построения будет произведено не более чем Е  2  исправлений коэффици ρ0 
ентов (Е(х) – антье х, целая часть х).
Оптимальной разделяющей гиперплоскостью будет плоскость, ортогональная отрезку 0 и проходящая через его середину (плоскость II-II).
Согласно доказательствам Новикова в результате обучения персептрона будет проведена разделяющая гиперплоскость, но она не обязательно будет оптимальной.
Персептрон, как модель мозга.
При разработке персептрона Ф. Розенблатт пытался моделировать некоторые свойства живого мозга. Остановимся более подробно на том, какие
именно существенные свойства мозга моделируются персептроном.
1) Алгоритм персептрона в ходе обучения не требует запоминания
предъявленных объектов, а при распознавании – перебора всех “известных” ему фигур. В этом смысле работа персептрона имеет
определенное сходство с работой мозга, который формирует представление об образе, не запоминая отдельных его объектов, и узнает
новые объекты без сравнения их с каждым из ранее встречавшихся.
2) Структура персептрона имеет некоторые общие черты со структурой высшей нервной системы. В частности, рецепторы персептрона
являются достаточно близкой аналогией рецепторов зрительного
аппарата, а А-элементы имеют определенное сходство с нейронами.
Известно, что нейроны обладают свойством возбуждаться, если интенсивность сигнала, получаемого от связанных с ним рецепторов
или других нейронов, превосходит некоторую пороговую величину.
Свойство персептрона допускать случайный характер связей “рецептор - А-элемент”, по-видимому, аналогично некоторым свойствам структуры мозга. Весьма вероятно, что связи между нейронами мозга в большинстве случаев также имеют случайный характер,
44
т. е. случайно варьируются у разных животных одного биологического вида.
Если предположить обратное, т. е. допустить, что все связи
между нейронами мозга точно фиксированы и одинаковы у всех
животных одного вида, и, что изменение этих связей может привести к резкому нарушению работы мозга, то придется допустить
также, что сведения о всех этих связях должны передаваться по
наследству. А так как количество нейронов мозга исчисляется миллиардами, то такое предположение приводит к фантастически
большому объему генетической информации.
3) Известно, что мозг способен сохранять или восстанавливать многие
свои функции при серьезных повреждениях, вызванных травмами
или заболеваниями. Персептрон также оказывается стойким к
нарушениям его структуры не только до обучения, но и после него.
Если нарушать связи “рецептор - А-элемент” или выключать Аэлементы в уже “обученном” персептроне, то надежность распознавания уменьшается незначительно даже при весьма серьезных
нарушениях его структуры. Например, на рисунке показано влияние
числа исключенных А-элементов на качество работы персептрона,
обученного распознаванию букв Е и Х.
% правильных ответов
45
100%
75%
50%
25%
0
1/2
3/4
7/8
Количество исключенных А-элементов
Даже при выключении 7/8 всех А-элементов надежность
распознавания составляет более 80 %. Такое поведение персептрона
оказывается возможным потому, что исключение секущих плоскостей уменьшает число многогранников и увеличивает их размеры,
снижает “качество” разделяющей поверхности, но не приводит к
полному нарушению работы персептрона.
Устойчивость персептрона к нарушениям его структуры
имеет определенное сходство с аналогичным свойством мозга.
Из всех этих соображений нельзя, разумеется, сделать вывод, что алгоритмы персептрона и мозга совпадают. Однако в настоящее время персептрон является, по-видимому, наиболее правдоподобной моделью мозга.
Алгоритмы, основанные на методе потенциалов.
В 60-х годах для решения задач обучения распознаванию образов был
предложен метод потенциальных функций. Суть этого метода заключается в
следующем.
Известно, что точечный электрический заряд, расположенный обособленно в однородной среде, образует электрическое поле, потенциал которого
в каждой точке равен
46
pa
q
,
2
r
где а – некоторый постоянный коэффициент;
q – величина заряда;
r – расстояние от данной точки до заряда.
Отсюда видно, что, зная величину заряда и потенциал в точке, можно
определить расстояние от этой точки до заряда. Потенциал, таким образом,
может служить мерой удаления точки от заряда.
Свяжем с каждой точкой, появившейся в процессе обучения, некоторую функцию, аналогичную по форме электрическому потенциалу. Такой
функцией может быть, например, функция
 ( R) 
1
,
2
1R
где  - коэффициент, от которого зависит скорость убывания ;
R – расстояние между точкой-источником и точкой, в которой определяется потенциал.
За R может быть принято, например, евклидово расстояние между точками (корень квадратный из суммы квадратов разностей координат) или так
называемое расстояние по Хэммингу, равное числу несовпадающих разрядов
в коде обоих точек. Величину

в каждой точке пространства рецепторов
можно считать мерой близости этой точки к точке-источнику.
Если источником служит группа точек, например, полученное в процессе обучения множество NA, соответствующее образу А, то создаваемый в
данной точке пространства всеми источниками этого образа средний потенциал
1 NA
Ф( х, А) 
  ia ,
i
N A 1
47
где ia – потенциал, создаваемый i-той точкой образа А в распознаваемой
точке, будет характеризовать близость данной точки ко всему образу в целом.
Деление суммы на число источников необходимо для того, чтобы результат не зависел от числа источников.
Пусть в процессе обучения автомат зафиксировал два множества точек,
соответствующие образам А и В, после чего появилась точка, подлежащая
распознаванию. Новую точку автомат отнесет к тому образу, чей средний потенциал в этой точке больше.
Для геометрического описания метода потенциалов можно использовать пространство с размерностью n+1, в котором n координат соответствуют n элементам поля рецепторов, а по (n+1)-й координате откладываются
значения потенциалов. Тогда потенциалы предстанут в виде многомерного
рельефа, причем каждому образу будет соответствовать что-то вроде горного
хребта, имеющего вершины в области внутренних точек данного образа и
склоны, понижающиеся по направлениям к его границам. Поверхность, по
которой пересекаются склоны разных образов, будет для этих образов разделяющей поверхностью.
Описанную картину можно условно представить в трехмерном пространстве. Пересечение поверхностей, изображающих потенциалы образов А
и В, показано на этом рисунке жирной линией. Проекция этой линии на
плоскость образует линию СС, разделяющую оба образа. Простейший алгоритм распознавания, построенный на методе потенциалов, можно осуществить следующим образом.
1. Обучение. В процессе обучения запоминаются коды всех появившихся
точек и указания, к какому из образов относится каждая точка.
48
2. Распознавание.
а) Для точки х, подлежащей распознаванию, вычисляются потенциалы
каждого образа, т.е. суммы
1 NA
  ia
N A i 1
1 NB
Ф( х, B) 
  ib
,
i
N B 1
.............................
1 NM
Ф( х, M ) 
  im
N M i 1
Ф( х, А) 
где А, В, … , М – обозначения распознаваемых образов;
NA, NB, … , NM – количество точек каждого образа, воспринятых автоматом в процессе обучения.
 ij 
1
- потенциал, образованный в распознаваемой точке i-той
1  αRij2
точкой образа j.
б) Производится сравнение
Ф(х, А), Ф(х, В), … , Ф(х, М)
49
и распознаваемая точка относится к тому образу, который создает в этой
точке наибольший потенциал. В простейшем случае, когда распознаванию
подлежат два образа А и В, их различие производится по знаку функции
Ф(х) = Ф(х, А) – Ф(х, В),
которая принимает значения
0, если хА
Ф( х)  
.

0
,
если
х

B

В качестве технической реализации метода потенциалов на поле рецепторов может быть использована схема.
Если к выводам, обозначенным белыми кружками подключить выходы
рецепторов, то потенциалы узлов схемы (черные кружки) при предъявлении
образа объекта будут образовывать соответствующий ему потенциальный
рельеф. Эти потенциалы узлов схемы вводятся в автомат в качестве кода
объекта. Далее производятся операции согласно уже описанному алгоритму.
Существует весьма глубокая аналогия между алгоритмом потенциалов в пространстве рецепторов и работой персептрона. Действительно, в каждом такте
50
m
работы персептрона функция σ    j y j положительна (или равна нулю) в
j 1
той части пространства, которую персептрон относит к одному образу, отрицательна в области, относимой к другому образу, и меняет знак при переходе
через разделяющую поверхность. То есть, функция  ведет себя таким же образом, как функция
Ф(х) = Ф(х, А) – Ф(х, В)
в алгоритме потенциалов при классификации двух образов. Функция  зависит от коэффициентов j и, следовательно, меняется после каждой “ошибки”
персептрона.
Образуем функцию
 =  – ,
m
σ

  j y j – перед некоторым тактом работы персептрона;
где
j 1
m
σ     j y j – после этого такта, в котором произошла ошибка, и коэффиj 1
циенты j изменились на j.
Рассмотрим структуру функции:
      
m
  j y j
j 1

m
 j yj
j 1

m
 ( j  j ) y j
j 1

m
  j y j .
j 1
Здесь комбинация y1, y2, … , yj, … , ym есть код данного многоугольника, а
j = j – j – изменения j, произошедшие после ошибки персептрона при
попадании в этот многогранник. В соответствии со вторым алгоритмом изменяются j только возбужденных А-элементов, т. е. j отличны от нуля и
равны +1 или –1 только там, где yj равны единице. Поэтому  для данного
многогранника по модулю равна числу А-элементов, возбужденных при попадании точки в этот многогранник. Легко проследить, что при переходе от
исходного многогранника (многогранник, в который попала точка) к другому, соседнему многограннику,  остается неизменной, либо уменьшается на
единицу. Причем поведение || зависит от того “плюсом” или “минусом” к
51
исходному многограннику расположена пересекаемая плоскость. Если,
например, осуществляется переход через плоскость с “минуса” на “плюс”, то
|| не изменяется. При переходе с “плюса” на “минус” || уменьшается на
единицу.
Величина || максимальна в исходном многоугольнике и убывает по
мере удаления от него. Кроме того, функция  не зависит от состояния персептрона в процессе обучения. Действительно, значения yj для каждого многогранника устанавливаются при подключении рецепторов к А-элементам и
затем в ходе обучения остаются неизменными, а j определяется лишь значениями yj в исходном многограннике.
Таким образом, после того как произведено подключение рецепторов к
А-элементам, с каждым l-м многогранником оказывается связанной некоторая функция |l|, вообще говоря, различная для разных многогранников. Все
функции |l|
максимальны в “своих” l-х многогранниках и убывают по всем направлениям
от них. Следовательно, эти функции аналогичны по характеру функциям ,
используемым в алгоритме потенциалов, с той разницей, что  определяется
только расстоянием от точки-источника, а l зависит также от положения
многогранников в пространстве рецепторов.
В ходе обучения персептрона происходит формирование функции 
путем последовательного алгебраического суммирования (со знаком плюс
при ошибках на точках одного и со знаком минус при ошибках на точках
второго образа) функций l, точно также как происходит образование
функции Ф(х) из функции  в алгоритме потенциалов.
Таким образом, все возможные разделяющие поверхности, которые
могут быть получены с помощью метода потенциальных функций, могут
быть получены и с помощью персептрона. С другой стороны, для каждого
персептрона легко находится соответствующая потенциальная функция.
Download