Васин Ю., Лебедев Л.

advertisement
22
РАСПОЗНАВАНИЕ НА БАЗЕ ОЦЕНОК СХОДСТВА, ИНВАРИАНТНЫХ
ОТНОСИТЕЛЬНО АФФИННЫХ ПРЕОБРАЗОВАНИЙ1
Ю.Г. Васин2, Л.И. Лебедев2
2Научно-исследовательский
институт прикладной математики и кибернетики
Нижегородского государственного университета им. Н.И. Лобачевского
603005, Россия, Нижний Новгород, ул. Ульянова, 10, НИИ ПМК.
E-mail: vasin@focus.ac.su, lebedev@pmk.unn.ru
В работе предлагается решение задачи распознавания дискретных объектов на базе вычисления оценок сходства, инвариантных относительно аффинных преобразований. Обсуждаются вопросы быстродействия вычисления этих оценок. Предлагается и обосновывается новый эффективный метод представления аффинных
преобразований последовательностью операций, включающих пространственное
вращение, проективное преобразование, ортогональное преобразование на плоскости и масштабирование. Дается оценка вычислительной сложности предлагаемого метода распознавания.
Введение
Особенность применения контурного корреляционно-экстремального метода при автоматизации ввода рукописных стилизованных документов заключается в том, что
для распознавания всего получаемого разнообразия объектов одного и того же класса необходимо, как правило, задание нескольких эталонов. Неприятность состоит в
том, что вывод о достаточности количества
и состава эталонов для распознавания объектов любого класса можно сделать только
после анализа результатов работы самой
процедуры распознавания. Отклонение от
стандарта при написании символов приводит также к ошибкам в определении параметров распознанных объектов, таких как
габариты, точка привязки и ориентация
символов на документе. Это в свою очередь
приводит к трудностям в автоматической
идентификации надписей. Наглядно такого
рода типичная ситуация проиллюстрирована на рисунке, на котором надпись выполнены символами нестандартного наклона.
Для стилизованного рукописного письма
многих из этих проблем можно избежать,
если воспользоваться при распознавании
оценками сходства, инвариантными относительно аффинных преобразований.
Y
N
X
а) эталонное исполнение надписи
Y
N
X
б) нестандартный наклон символов
Рис. Ориентация символов и надписей
Постановка задачи
Группа аффинных преобразований на
плоскости является одной из примитивных
групп Ли и может быть задана следующим
уравнением
w  A  w  w ,
____________________________________________________________
1
Работа выполнена при поддержке РФФИ, проект № 05-01-00590
(1)
23
a b
 x
 , w    – произгде матрица A  
c d
 y
вольная точка плоскости, а w – образ этой
точки, w – вектор параллельного переноса.
Если оценку сходства эталона с произвольным объектом формировать на основе невязки их метрических описаний, то она будет инвариантной относительно аффинных
преобразований при вычислении ошибки
по формуле
N

A, w
 A  min
A  wi  w  wio
2
вательностью точек с координатами, значения которых вычисляются на основании
исходных координат объекта O в соответствие с формулой
 x pr  x  cos   y  sin   sin 
.

 y pr  y  cos 
(3)
(2)
На плоскости XOY произведем вращение
фигуры O pr на угол  (операция  ) и
В формуле (2) вычисления невязки через
осуществим масштабирование с коэффициентом k (операция k ). В результате по-
Э
i 1
o
 {w o1 , w o2 ,..., w N
}
.
странстве. Спроектируем полученную фигуру на плоскость XOY (операция  pr ).
Получим фигуру O pr , заданную последо-
и O  {w 1, w 2 ,..., wN }
обозначены согласованные описания эталона и распознаваемого объекта соответственно, полученные при равномерной интерполяции контуров заданным количеством точек N .
Задача нахождения глобального минимума
для получения значения  A представляет
большую сложность из-за трудности локализации области возможных изменения
элементов матрицы A , являющихся действительными параметрами. Поэтому, для
гарантированного получения оценки сходства, инвариантной относительно аффинных преобразований при приемлемой
сложности вычислений в этой работе предлагается представить группу аффинных
преобразований последовательностью операций, состоящей из ортогональных преобразований, проектирования и масштабирования.
Методы решения
Предположим, что распознаваемый объект
лежит в плоскости XOY трехмерного пространства. Осуществим вначале поворот
системы координат вокруг оси OX на угол
 по часовой стрелке (операция  ). Получим новую систему координат OX Y Z  , в
которой произведем вращение вокруг оси
OY  на угол  (операция  ). Вращение
вместе с системой координат распознаваемого объекта повлечет изменение его местоположения в исходном трехмерном про-
лучим фигуру Ô , заданную на плоскости
XOY точками {wˆ i \ i  1, 2,..., N } , вычисленными согласно формуле
 xˆ  k  cos   cos   x  k  (cos   sin  

 cos   sin   sin  )  y

.(4)

ˆ
y


k

sin


cos


x

k

(cos


cos




 sin   sin   sin  )  y
Очевидно, что  , , , k формула (4) задает
аффинное преобразование координат исходной фигуры. Ответ же на вопрос, всякое
ли аффинное преобразование можно представить последовательностью описанных
операций, дает следующая теорема.
Полученные результаты
Теорема 1. С точностью до параллельного
переноса любое аффинное преобразование
можно задать последовательностью операций k ( ( pr ( ( )))) , то есть
 a, b, c, d имеет решение следующая нелинейная система уравнений относительно
неизвестных , , , k
k  cos   cos   a
k  (cos   sin   sin   sin   cos )  b

(5)

 k  cos   sin   c
k  (cos   cos   sin   sin   sin )  d
24
Доказательство. Из первого и третьего
уравнений системы (5) легко определяется
основное значение угла 
cos  
a
c
, sin  
. (6)
a2  c2
a2  c2
(Случай a  0 , c  0 дает особое решение
cos   0 , tg(  )  b d , k 2  b 2  d 2 .
При этом, если и значения b  0 , d  0 , то
очевидным решением системы будет
k  0 при произвольных значениях других
неизвестных величин). Из этих же первого
и третьего равенств находим, что
cos 2  
a c
2
где Q  a 2  b 2  c 2  d 2 .
Для того чтобы убедиться, что для любых
значений a, b, c, d система (5) имеет решение, осталось показать, что правые части в
формулах (7) и (8) не превышают по модулю единицы. Для того чтобы доказать, что
всегда выполняется неравенство | cos  | 1 ,
надо показать, что k 2  a 2  c 2 .
Если это действительно так, то должно выполнятся неравенство
Q  Q 2  4  (A) 2  2  a 2  2  c 2
или, что тоже самое
2
(7)
Q 2  4  (A) 2  a 2  c 2  b 2  d 2 . (10)
Алгебраическая сумма второго и четвертого уравнений системы (5), предварительно
умноженных соответственно на sin  и
cos  дает следующий результат
Левая часть неравенства является неотрицательной величиной при любых параметрах аффинного преобразования, поэтому
его истинность будет определяться неравенством, полученном из предыдущего
возведением выражения в квадрат. Имеем
cos  
k2
.
ad bc
k a c
2
2
.
(8)
Значение коэффициента масштабирования
найдем из уравнения
k 4  (a 2  b 2  c 2  d 2 )  k 2 
 (ad  bc) 2  0
,
которое можно получить, если во второе
уравнение подставить найденные параметры (6)-(8) и освободиться от радикалов возведением обеих частей равенства в квадрат.
Из четырех корней биквадратного уравнения два отрицательных корня отбрасываем
по смыслу коэффициента масштабирования, а из двух положительных корней
необходимо взять с наибольшим значением. Корень с наименьшим положительным
значением не удовлетворяет нас потому,
что при A  a  d  b  c  0 значение коэффициента масштабирования окажется равным нулю, чего в общем случае не должно
быть. Следовательно,
k  0.5   Q  Q 2  4  (A) 2  , (9)


a 2  c 2  b 2  d 2 2  4  (a  d  b  c) 2 
a 2  c 2  b 2  d 2 2 .
Перенесем все члены неравенства в левую
часть и преобразуем полученную в ней разность квадратов
a 2  c 2  b 2  d 2  (a  d  b  c) 2  0 .
Раскрытие скобок приводит к неравенству,
истинность которого очевидна
(a  b  c  d ) 2  0 .
Следовательно, решение по углу  существует. Для доказательства существования
решения по углу  необходимо показать,
что правая часть в выражении (8) по модулю не превышает единицу при любых значениях a, b, c, d . Если обозначить через
cos   d b 2  d 2 и sin   b b 2  d 2 ,
то выражение (8) можно представить в виде
cos  
b2  d 2
 cos(  ) .
k
(11)
25
Таким образом, необходимо показать, что
k  b  d . Подстановка в данное неравенство значения k приводит к неравенству (10), истинность которого мы доказали
выше. Следовательно, формулы (6)-(9)
определяют одно из решений нелинейной
системы (5). Теорема доказана.
будет определяться первым членом суммы
вышеприведенной формулы. Вторая группа
операций k ( ) осуществляет масштабирование и ортогональные преобразования в плоскости XOY каждой из N 1 N 2
полученных при использовании оператора
 pr ( ( )) форм. При этом параметры
Теорема 2. Сложность предлагаемого метода вычисления коэффициента сходства,
инвариантного относительно аффинных
преобразований для согласованных описаний эталона и объекта, определяется величиной
C  N1  N 2    min( n, m)  (n  m  1)   .
В приведенной формуле приняты следующие обозначения:
N 1, N 2 – число узлов в методе сеток
при дискретизации параметров  и  соответственно;
 – число операций, связанных с вращением одной точки в пространстве;
 – число операций, приходящихся на
одну точку описания при вычислении коэффициента сходства эталона с объектом;
m, n - количество точек в исходных
описаниях эталона и объекта соответственно.
Доказательство. Применим принцип декомпозиции к группе операций, реализующих аффинное преобразование при вычислении коэффициентов сходства. Первая
группа операций  pr ( ( )) обеспечи-
масштабирования и ортогонального преобразования на плоскости, обеспечивающие
наибольший коэффициент сходства для
каждой из N 1 N 2 форм может быть получен аналитически на базе корреляционноэкстремального контурного метода. Известно, что вычислительная сложность
корреляционно-экстремального контурного
метода нахождения коэффициента сходства, инвариантного относительно ортогональных преобразований и масштабирования между объектом и эталоном пропорциональна количеству точек во вспомогательных описаниях контуров и для согласованных описаний определяется выражением
  (m  n  1) . Доказательство завершено.
Необходимо отметить, что при использовании l  1 эталонов для решения задачи распознавания менее затратной может оказаться схема вычислений, когда на основе исходного описания объекта формируется и
запоминается в памяти весь набор N 1, N 2
форм. Тогда вычислительная сложность
распознавания объекта при согласованных
описаниях форм будет определяться формулой
2
2
2
вает формирование различных описаний
эталона или объекта на плоскости XOY .
При использовании метода сеток изменение параметров  и  даст N 1 N 2 различных вариантов форм одной и той же фигуры. Отсюда следует, что в зависимости от
количества точек в векторных описаниях
эталона и объекта для обеспечения
наименьших вычислительных затрат по
этой группе операций необходимо вести
преобразование фигуры с минимальным
числом узлов на контуре. Так как операция
проектирования не привносит дополнительных вычислительных затрат, то вычислительная сложность получения различных
форм одной и той же фигуры для нахождения коэффициента сходства, инвариантного
относительно аффинного преобразования
l
C  N1  N 2  [  n   (n  mi  1)  ] .
i 1
Заключение
Предложенный метод декомпозиции операций, реализующих аффинное преобразование, был применен для решения задачи
уточнения направления распознаваемых
надписей на основании учета наклона входящих в нее символов. С точностью до
масштабирования и ортогонального преобразования на плоскости XOY аффинное
преобразование с параметрами a  d  1 ,
c  0 позволяет определить наклон распознаваемого символа относительно эталона.
При этом на основании формул (6)-(8) име-
26
ем cos   cos  и, следовательно, для получения различных описаний в соответствии
с (3) варьировать необходимо только один
параметр в пределах от 0 до 90 градусов.
Отсюда, угол наклона  определяется по
формуле | tg | cosec  cos  , а истинное
направление надписи значением угла ортогонального преобразования.
Список литературы
1. Васин Ю.Г., Лебедев Л.И., Инвариантные методы определения сходства плоских форм. // Информационные технологии в анализе изображений и распознавании образов: I-ая Междунар.
конф.: Тез. докл. /Львов, Физ.-мат. ин-т АН
УССР, 1990. С.225-228.
2. Васин Ю.Г., Лебедев Л.И., Плесков А.В., Пучкова О.В., Морозов В.А. Двухуровневый алгоритм
распознавания последовательностей графических изображений. // Распознавание образов и
анализ изображений: новые информационные
технологии (РОАИ-2-95): 2-ая Всероссийская с
участием стран СНГ конференция: Тез. докл.
/Ульяновск, УГТУ, 1995, ч.2. С.67-68.
3. Файн Б.М. Опознавание изображений. - М.,
«Наука», 1970. 299 с.
Download