Наш курс посвящен цифровым методам обработки изображений

advertisement
Цифровая обработка изображений
(Учебное пособие)
В.П. Косых
Содержание
1. Математический аппарат описания непрерывных изображений .........................................3
Представление непрерывных изображений ............................................................................3
Системы преобразования непрерывных изображений ..........................................................4
Двумерное преобразование Фурье...........................................................................................6
Детерминированное и вероятностное описание непрерывных изображений .....................7
Вопросы ......................................................................................................................................9
2. Представление изображений в цифровой форме .................................................................10
Идеальная дискретизация изображений................................................................................10
Дискретизация изображений в реальных системах .............................................................13
Квантование изображений ......................................................................................................14
Вопросы ....................................................................................................................................15
3. Математический аппарат описания дискретных изображений ..........................................17
Векторное представление дискретных изображений ..........................................................17
Дискретное двумерное преобразование Фурье ....................................................................17
Линейные преобразования дискретных изображений .........................................................18
Вероятностное описание дискретных изображений ............................................................20
Вопросы ....................................................................................................................................22
4. Улучшение изображений ........................................................................................................23
Поэлементные преобразования ..............................................................................................23
Простые пространственные преобразования ........................................................................28
Вопросы ....................................................................................................................................29
5. Линейная фильтрация изображений ......................................................................................31
Восстановление изображений. Оптимальный линейный фильтр .......................................31
Обнаружение объектов. Согласованный фильтр .................................................................40
Совмещение изображений. Линейный прогноз....................................................................45
Вопросы ....................................................................................................................................51
6. Компьютерная томография ....................................................................................................52
Преобразование Радона. Задача томографии .......................................................................52
Теорема о центральном сечении ............................................................................................54
Фурье-алгоритм восстановления томограммы .....................................................................56
Восстановление томограммы методом свертки и обратного проецирования ...................57
Восстановление томограммы методом обратного проецирования и двумерной
фильтрации ...............................................................................................................................60
Восстановление томограммы по проекциям, полученным в веерном пучке ....................61
Влияние шума в проекционных данных на результаты восстановления ..........................61
Вопросы ....................................................................................................................................65
7. Восстановление трехмерных поверхностей по стереопаре .................................................66
Модель регистрирующей камеры ..........................................................................................66
Связь между различными системами координат .................................................................68
Стереоскопическая система....................................................................................................69
Калибровка камеры .................................................................................................................72
Взаимное ориентирование ......................................................................................................77
Поиск сопряженных точек ......................................................................................................79
Вопросы ....................................................................................................................................84
8. Математическая морфология и обработка изображений ....................................................86
Операции математической морфологии ...............................................................................87
Эрозия .......................................................................................................................................88
Морфологические операции в дискретном пространстве ...................................................96
Вопросы ..................................................................................................................................101
2
Этот курс посвящен цифровым методам обработки изображений. Поэтому в
основном мы будем иметь дело с изображениями, представленными в виде двумерных
массивов чисел с дискретно изменяющимися значениями. Исходным материалом для
получения этих массивов, как правило, служат непрерывные двумерные поля (скалярные
или векторные) различной физической природы. Конечной целью обработки обычно
является либо получение каких-либо зрительных эффектов, обеспечивающих комфортное
зрительное восприятие этих полей человеком, либо извлечение некоторых
количественных характеристик, используемых для их интерпретации. Следовательно, для
получения результатов обработки, корректно отражающих свойства исходного поля,
необходимо знать, как происходит формирование изображения регистрирующей
системой. С другой стороны, технология обработки зарегистрированного изображения
зависит как от цели обработки, так и от способа его формального описания. Поэтому в
первую очередь в этом курсе, следуя [1], кратко будут рассмотрены способы описания
непрерывных и дискретных изображений и особенности преобразования непрерывных
изображений в дискретную форму.
1. Математический аппарат описания непрерывных изображений
Представление непрерывных изображений
Обычно под изображением подразумевается некоторая функция от интенсивности
исследуемого поля в плоскости, называемой плоскостью изображения. Интенсивность
можно представить как функцию c( x, y, t ,  ) , которая зависит от двух пространственных
координат x и y , времени t и длины волны  . Как в зрительной системе человека, так и
в искусственных регистрирующих приборах реакция на воздействие поля зависит от
спектральной чувствительности регистрирующей среды, поэтому мгновенное
изображение, формируемое регистрирующей средой, можно представить в виде

f ( x, y, t )   c( x, y, t ,  ) s( )d ,
(1.1)
0
где s( ) - спектральная чувствительность среды.
По аналогии с естественным зрительным восприятием, где цветовые ощущения
формируются за счет наличия в зрительной системе регистрирующих сред с различной
спектральной чувствительностью, искусственные спектрозональные системы формируют
набор изображений

fi ( x, y, t )   c( x, y, t ,  ) si ( )d ,
(1.2)
0
где si ( ) - спектральная чувствительность i -й регистрирующей среды.
В этом курсе в большинстве случаев будут рассматриваться изображения, от
времени не зависящие, либо зависящие дискретным образом. Поэтому при дальнейшем
описании непрерывных изображений аргумент t будет опущен.
3
Системы преобразования непрерывных изображений
В системе преобразования непрерывных изображений набор исходных функций
f1 ( x, y) ,…, f N ( x, y ) преобразуется в набор функций g1 ( x, y) ,…, gM ( x, y) посредством
воздействия на исходные функции операторов QM {} :
g1 ( x, y)  Q1{ f1 ( x, y),, f N ( x, y)} ,
…………………………………….
(1.3)
g M ( x, y)  QM { f1 ( x, y),, f N ( x, y)} .
Особый интерес в дальнейшем будут представлять линейные системы, удовлетворяющие
принципу суперпозиции, для которых справедливы соотношения:
g1 ( x, y)  Q1{a11 f1 ( x, y)    a1N f N ( x, y)}  a11Q1{ f1 ( x, y)}    a1N Q1{ f N ( x, y)} ,
…………………………………………………………………………………………. (1.4)
g M ( x, y)  QM {aM 1 f1 ( x, y)    aMN f N ( x, y)}  aM 1QM { f1 ( x, y)}    aMN QM { f N ( x, y)} .
Удобным вспомогательным инструментом при анализе двумерных линейных систем
является оператор вида
 
Q{ f ( x, y )} 
  f ( , ) ( x   , y   )dd ,
 
где  ( x, y ) – дельта-функция Дирака, обладающая следующими свойствами:
x  , y 
 ,
,
0 в остальных случаях
 (x   , y )  
(1.5а)
 
   ( x, y)dxdy  1 при сколь угодно малом положительном значении  ,
(1.5б)
 
 
  f ( , ) ( x   , y   )dd  f ( x, y) .
(1.5в)
 
В декартовых координатах двумерную дельта-функцию можно представить как
произведение двух одномерных:
 ( x, y )   ( x) ( y ) ,
(1.6)
определяемых аналогичным (1.5) образом.
В дальнейшем полезным будет иметь в виду следующее тождество [2]:
 
 ( x   , y   )  (2 )  2   exp{i[u ( x  )  v( y   )]}dudv , i   1 .
(1.7)
 
Дельта-функция часто используется в качестве модели точечного источника света.
4
Рассмотрим простую двумерную линейную систему, преобразующую входное
изображение f ( x, y ) в выходное f ( x, y ) посредством воздействия на входное
изображение оператора Q{} :
g ( x, y )  Q{ f ( x, y )} .
Представим входное изображение в виде (1.5в). В силу линейности оператора Q получим
 
  
g ( x, y )  Q    f ( , ) ( x   , y   )dd     Q{ f ( , ) ( x   , y   )}dd .
   
  
Но поскольку оператор Q действует только на функцию, зависящую от переменных x и
y , то
 
g ( x, y ) 
  f ( , )Q{ ( x   , y   )}dd .
 
Введем обозначение
h( x, y; , )  Q{ ( x   , y   )} .
(1.8)
Рассматривая  ( x   , y   ) как изображение точечного объекта, помещенного в точку с
координатами  , , функцию h( x, y; , ) можно интерпретировать как преобразование
этого изображения линейной системой, описываемой оператором Q . Эта функция
называется импульсным откликом системы, а в применении к оптическим системам –
функцией рассеяния точки (ФРТ). Таким образом, воздействие линейной двумерной
системы на изображение можно представить в виде интеграла суперпозиции
 
g ( x, y ) 
  f ( , )h( x, y; , )dd .
(1.9)
 
Как следует из (1.8), в общем случае линейная система по-разному воздействует на
различные участки входного изображения, в частности, одинаковые точечные объекты,
помещенные в разных участках входного изображения, могут иметь различную форму в
выходном изображении. Форма выходного изображения точечного объекта сохраняется,
если импульсный отклик системы зависит только от разности координат x   , y   . В
этом случае воздействие линейной системы представляется в виде интеграла свертки
 
g ( x, y ) 
  f ( , )h( x   , y   )dd ,
(1.10)
 
который в символической форме записывается как
g ( x, y )  f ( x, y ) * h ( x, y ) .
(1.10а)
Линейные двумерные системы, описываемые соотношением
пространственно-инвариантными (в оптике – изопланатическими).
5
(1.10),
называются
Двумерное преобразование Фурье
Одним из полезных инструментов, используемых при анализе линейных систем,
является преобразование Фурье. В результате двумерного преобразования Фурье
получается двумерный спектр F (u, v) исходного изображения f ( x, y ) :
 
F (u , v) 
  f ( x, y) exp[ i(ux  vy)]dxdy , i 
1 .
(1.11)
 
Для существования Фурье-спектра функции f ( x, y ) достаточно выполнения условия
 
  f ( x, y) dxdy   .
(1.11а)
 
В общем случае спектр F (u, v) - комплексная функция, которая может быть представлена
либо в виде действительной и мнимой составляющих:
F (u, v)  R(u , v)  iI (u , v) ,
либо в виде модуля и фазы:
F (u, v)  M (u, v) exp[ i (u, v)] ,
где
M (u, v)  [ R 2 (u, v)  I 2 (u, v)]1 / 2 ,
 (u, v)  arctg[ I (u, v) / R(u, v)] .
Преобразование Фурье обратимо:
f ( x, y )  (2 )
2
 
  F (u, v) exp[ i(ux  vy)]dudv .
(1.12)
 
Напомним ряд свойств двумерного преобразования Фурье [3].
Если f ( x, y)  a1 f1 ( x, y)  a2 f 2 ( x, y) , то F (u, v)  a1F1 (u, v)  a2 F2 (u, v) , где F (u, v) , F1 (u, v) и
F2 (u, v) – Фурье-спектры функций f ( x, y ) , f1 ( x, y) и f 2 ( x, y) , т.е. преобразование Фурье
линейно.
Если f ( x, y)  f1 ( x) f 2 ( y) , то F (u, v)  F1 (u) F2 (v) , где F1 (u ) и F2 (v) – одномерные Фурьеспектры функций f1 ( x) и f 2 ( y) .
Если f ( x, y)  f * ( x, y) и f ( x, y )  f ( x, y ) , то F (u, v)  F * (u, v) и F (u, v)  F (u,v) , т.е.
Фурье-спектр действительной четной функции – действительная четная функция (здесь и
далее надстрочный индекс * обозначает комплексную сопряженность).
Если g ( x, y )  f (ax, by ) и F (u, v) – Фурье-спектр функции f ( x, y ) , то Фурье-спектр
функции g ( x, y ) есть
1
G (u , v)  ab F (u / a, v / b) .
(1.13)
Если g ( x, y )  f ( x  a, y  b) , то
G (u, v)  F (u, v) exp[ i (ua  vb)] .
(1.14)
6
 
Если g ( x, y ) 
  f ( , )h( x   , y   )dd , то
 
G (u, v)  F (u, v) H (u, v)
(теорема о спектре свертки).
Наоборот, если g ( x, y )  f ( x, y )h( x, y ) , то
G (u , v)  (2 )  2
(1.15)
 
  F ( , ) H (u   , v   )dd .
(1.15а)
 
Квадраты модулей исходного изображения и его Фурье-спектра связаны соотношением
 
  f ( x, y )
2
dxdy  (2 )
2
 
 
  F (u, v)
2
dudv
(1.16)
 
(теорема Парсеваля).
Соотношения (1.15) и (1.15а) широко используются при анализе линейных
пространственно-инвариантных систем. Если в пространственных координатах
воздействие системы с импульсным откликом h( x, y ) на изображение f ( x, y )
описывается интегралом свертки (1.10), то в частотных координатах оно сводится к
простому умножению спектра изображения на спектр импульсного отклика, называемый
частотной характеристикой системы.
Детерминированное и вероятностное описание непрерывных
изображений
С точки зрения определенности конкретных значений изображения в данных
координатах и в данный момент времени существует два основных подхода к его
описанию. Первый подход, называемый детерминированным, предполагает, что в каждой
точке функция f ( x, y ) определяется единственным образом. Иногда более плодотворным
для анализа изображений представляется их вероятностное описание, когда данное
изображение рассматривается как реализация случайного процесса. Случайный процесс
f ( x, y ) в J точках отсчета x j , y j , j  1, J
полностью описывается совместной
плотностью вероятности
p( f1 , f 2 ,, f J ; x1 , y1 , x2 , y2 ,, xJ , yJ ) ,
(1.17)
определяющей вероятность того, что  j – значения процесса в точках с координатами
x j y j удовлетворяют условиям
f j   j  f j  f j , f j  0 , j  1, J .
(1.18)
Получение совместных плотностей вероятности высокого порядка для
изображений является практически непреодолимой проблемой (исключая случаи
построения модельных функций плотности). В ряде случаев для описания изображения
как реализации случайного процесса достаточно знать плотности вероятности первого и
второго порядка, которые могут быть построены на основе физических моделей или
оценены экспериментально. Используя эти плотности вероятности, случайный процесс
можно описать его статистическими моментами первого и второго порядков.
7
Первый момент (математическое ожидание, среднее значение) функции f ( x, y )
определяется как
m f ( x, y)  E{ f ( x, y)}   f ( x, y) p( f ; x, y)df .
(1.19)

Здесь  – область допустимых значений функции f .
Символом E{} здесь и далее будет обозначаться операция усреднения по ансамблю.
Второй момент, или автокорреляционная функция, по определению равен
R f ( x1 , y1; x2 , y2 )  E{ f1 ( x1 , y1 ) f 2* ( x2 , y2 )} 
 f ( x , y ) f
1
1
1
*
2
( x2 , y2 ) p ( f1 , f 2 ;x1 , y1 , x2 , y2 )df1df 2 .
(1.20)

Здесь подстрочные индексы 1 и 2 при f соответствуют не двум разным процессам, а
значениям одного процесса, соответствующим двум разным точкам пространства. Второй
центральный момент, автоковариационная функция, определяется как
K f ( x1, y1; x2 , y2 )  E{[ f1 ( x1, y1 )  m f ( x1, y1 )][ f 2* ( x2 , y2 )  m*f ( x2 , y2 )]} .
(1.21)
Нетрудно показать, что
K f ( x1, y1; x2 , y2 )  R f ( x1, y1; x2 , y2 )  m f ( x1, y1 )m*f ( x2 , y2 ) .
(1.22)
Аналогичным образом для двух разных процессов f ( x, y ) и g ( x, y ) определяются кросскорреляционная и кросс-ковариационная функции:
R fg ( x1 , y1; x2 , y2 )  E{ f ( x1 , y1 ) g * ( x2 , y2 )} 
 f ( x , y ) g ( x , y ) p( f , g ;x , y , x , y )dfdg
(1.20а)
K fg ( x1, y1; x2 , y2 )  E{[ f ( x1, y1 )  m f ( x1, y1 )][ g * ( x2 , y2 )  m*g ( x2 , y2 )]} .
(1.21а)
*
1
1
2
2
1
1
2
2

и
Еще один момент второго порядка, дисперсия, есть
2
 2f ( x, y)  E{[ f ( x, y)  m f ( x, y)] }  K f ( x, y; x, y) .
(1.23)
Случайный процесс, порождающий изображения, называется стационарным в
широком смысле, если его среднее значение и дисперсия постоянны, а
автокорреляционная (автоковариационная) функция зависит только от разностей
 x  x2  x1 ,  y  y2  y1 . Для стационарного процесса
m f ( x, y )  m f ,
(1.19а)
 2f ( x, y)   2f ,
(1.23а)
K f ( x1 , y1; x2 , y2 )  K f ( x , y ) .
(1.22а)
функция
Несложно убедиться, что автокорреляционная (автоковариационная)
действительного стационарного процесса есть функция четная, т.е.
8
R f ( x , y )  R f ( x , y ) .
Выполнение условия (1.11а) для случайного процесса не гарантировано, поэтому
нельзя говорить о его преобразовании Фурье. Однако к ковариационной функции
стационарного процесса, которая есть функция детерминированная, преобразование
Фурье может быть применено. Функция
W f ( x ,  y ) 
 
 K
f
( x , y ) exp[ i ( x x   y y )]d x d y
(1.23)
 
называется спектром мощности стационарного случайного процесса f ( x, y ) . Результат
преобразования Фурье кросс-ковариационной функции, иногда называемый кроссспектром мощности, по определению есть
W fg ( x ,  y ) 
 
 K
fg
( x , y ) exp[ i ( x x   y y )]d x d y .
(1.23а)
 
Рассмотрим линейную пространственно-инвариантную систему, действие которой
на входное изображение, являющееся реализацией стационарного случайного
процесса f ( x, y ) представляется выражением (1.10). Вычислим среднее значение
выходного изображения g ( x, y ) :
 
mg ( x, y )  E{g ( x, y )} 
  E{ f ( , )}h( x   , y   )dd 
 
(1.24)
 
 mf
  h( x, y)dxdy 
m f H (0,0).
 
Аналогично вычисляется корреляционная функция выходного изображения
K g ( x , y )  E{g ( x, y) g * ( x   x , y   y )}  K f ( x , y ) * h( x , y ) * h* ( x , y )
(1.25)
и спектр мощности
2
Wg (x ,  y )  W f (x ,  y ) H (x ,  y ) .
(1.26)
Вопросы
1. Докажите справедливость 1.14.
2. Докажите справедливость 1.15.
3. Докажите справедливость 1.21.
4. Докажите, что автокорреляционная функция действительного стационарного
процесса –функция четная.
Литература
1. Прэтт У. Цифровая обработка изображений, т.1. М., “Мир”, 1982
2. Папулис А. Теория систем и преобразований в оптике. М., “Мир”, 1971
3. Гудмен Дж. Введение в фурье-оптику. М., “Мир”, 1970
9
2. Представление изображений в цифровой форме
Получение изображения в цифровой форме, представляющего собой двумерный
массив чисел с дискретно изменяющимися значениями, из изображения, представляющего
собой непрерывное пространственное распределение некоторой физической величины,
способной принимать непрерывный набор значений (аналоговой величины), состоит из
двух основных операций. Первая операция (дискретизация) заключается в замене
пространственно непрерывного изображения набором его отсчетов в отдельных точках,
вторая (квантование) – в преобразовании аналоговых отсчетов в отсчеты, представляемые
числами с конечным числом знаков. При этом возникает вопрос о величине
погрешностей, возникающих при последующем восстановления непрерывного
изображения по его дискретному аналогу. Здесь мы попытаемся оценить искажения,
которые возникают при переводе непрерывного изображения в цифровую форму.
Идеальная дискретизация изображений
При идеальной дискретизации предполагается, что исходное непрерывное изображение
f I ( x, y) имеет бесконечные размеры, а дискретизованное получается посредством взятия
значений исходного в узлах некоторой бесконечной решетки. Для простоты изложения
рассмотрим прямоугольную решетку, ориентированную вдоль координатных осей и
имеющую шаг x вдоль оси x и  y вдоль оси y .
Дискретизованное изображение в непрерывных координатах можно представить
как набор дельта-функций в узлах решетки, умноженных на значения соответствующих
отсчетов непрерывного изображения:
f D ( x, y) 


  f ( jx, iy) ( x  jx, y  iy) .
i   j  
I
( jx, iy )
Поскольку вне точек
переписать в виде
f D ( x, y) 
где d ( x, y) 


(2.1)
 ( x  jx, y  iy )  0 , это представление можно

  f ( x, y) ( x  jx, y  iy)  f ( x, y)d ( x, y) ,
i   j  
I
I
(2.2)

  ( x  jx, y  iy) - пространственная дискретизирующая функция.
i   j  
Рассмотрим Фурье-спектр дискретизованного изображения. В силу (1.15а)
FD (u, v)  (2 )2 FI (u, v) * D(u, v) ,
(2.3)
где FI (u, v) – Фурье-спектр непрерывного изображения, а D(u, v) – Фурье-спектр
дискретизирующей функции. Используя (1.7), можно показать, что
4 2  
D(u, v) 
  (u  ju, v  iv) ,
xy i   j  
причем u  2 / x , v  2 / y .
Подставляя (2.4) в (2.3) и вычисляя свертку согласно (1.10) , получим
10
(2.4)
FD (u, v) 
1  
  FI (u  ju, v  iv) .
xy i   j  
(2.5)
v
F u, v 

v

v

u
F u, v 
v
v
u
u

u
u
F u  u, v  v
а
б
Рис. 2.1. Спектры непрерывного (а) и дискретизованного (б) изображений
Из (2.5) следует, что спектр дискретизованного изображения является результатом
суперпозиции спектров непрерывного изображения, прямоугольно периодически
повторяющихся с периодами u , v (рис. 2.1). При этом, если спектр непрерывного
 
изображения ограничен частотами u и v , т.е.


FI (u, v)  0 при ( u  u )  ( v  v ) ,
(2.6)
и периоды повторения удовлетворяют условию


u  2u , v  2v ,
(2.7)
то повторяющиеся спектры не перекрываются, и возможно выделение любого из них. В
частности, выделив из FD (u, v) составляющую FI (u  iu, v  iv) при i  0 , j  0 и
применив к ней обратное преобразование Фурье, можно восстановить исходное
непрерывное изображение. Такое выделение можно выполнить, например, с помощью
пространственно-инвариантного фильтра с частотной характеристикой
xy, u  uR , v  vR
.
H R (u, v)  
0
,
если
иначе

(2.8)
Действие фильтра описывается соотношением
FR (u, v)  H R (u, v) FD (u, v) 


1
H R (u, v)   FI (u  ju, v  iv) .
xy
i   j  
(2.9)


Если при этом u  uR  u / 2 и v  vR  v / 2 , то FR (u, v)  FI (u, v) , т.е. выделенный
спектр совпадает со спектром исходного непрерывного изображения, поэтому данный
фильтр является восстанавливающим фильтром.
Используя свойство (1.15) преобразования Фурье и применив обратное
преобразование Фурье к FR (u, v) , получим изображение
11
f R ( x, y)  f D ( x, y) * hR ( x, y) ,
(2.10)
где
 
hR ( x, y )  (2 )  2
 H
R
(u, v) exp[ i (ux  vy)]dudv 
 
xyu R vR sin( u R x) sin( vR y )
(2.11)
2
uR x
vR y
– импульсный отклик восстанавливающего фильтра.
Подстановка в (2.10) представления дискретизованного изображения в форме (2.1) дает
 
f R ( x, y ) 




    f ( jx, iy) (  jx,  iy)h ( x   , y   )dd 
I
    i   j  
R
(2.12)

  f ( jx, iy)h ( x  jx, y  iy).
i   j  
I
R
Из (2.12) следует, что импульсный отклик восстанавливающего фильтра является
функцией, интерполирующей непрерывное изображение в промежутках между
дискретными отсчетами.
Тем самым показано, что дискретизация непрерывного изображения с
ограниченным спектром допускает его последующее точное восстановление, если
соблюдается условие (2.7). Теорема о восстановлении непрерывного сигнала по его
дискретным отсчетам известна в теории сигналов как теорема Шеннона-Котельникова, а
условие (2.7) – как критерий Найквиста.
Использование в приведенных рассуждениях преобразования Фурье позволяет
применить полученный результат только к детерминированным изображениям. Пусть
теперь f I ( x, y) – непрерывное случайное изображение, порожденное стационарным
случайным процессом с автокорреляционной функцией RI ( x , y ) . Аналогично (2.2)
дискретизованное изображение можно представить в виде


f D ( x, y)  f I ( x, y)d ( x, y)  f I ( x, y)   ( x  jx, y  iy) .
i   j  
Его автокорреляционная функция есть
RD ( x1 , x2 ; y1 , y2 )  E{ f D ( x1 , y1 ) f D* ( x2 , y2 )} 
 E{ f i ( x1 , y1 ) f I* ( x2 , y2 )}d ( x1 , y1 )d ( x2 , y2 )  RI ( x , y )d ( x1 , y1 )d ( x2 , y2 ).
Нетрудно убедиться в том, что
d ( x1 , y1 )d ( x2 , y2 )  d ( x2  x1 , y2  y1 )  d ( x , y ) .
Следовательно,
дискретизованный
автокорреляционную функцию
процесс
RD ( x , y )  RI ( x , y )d ( x , y ) ,
а его спектр мощности имеет вид
12
также
стационарен
и
имеет
WD (u, v)  (2 ) 2WI (u, v) * D(u, v) 
1  
 WI (u  ju, v  iv) .
xy i   j  
(2.13)
Полученное соотношение аналогично (2.5) из чего следует, что если спектр мощности
непрерывного случайного стационарного процесса ограничен, а дискретизация выполнена
в согласии с критерием Найквиста, то по дискретным отсчетам случайного изображения
путем интерполяции, определяемой выражением (2.12), можно построить непрерывное
изображение f R ( x, y) , порожденное тем же случайным процессом. В отличие от
детерминированных изображений в этом случае равенство исходного и восстановленного
изображений выполняется в среднеквадратическом смысле [1]:

E f I ( x, y )  f R ( x, y )
2
 0 .
Для эргодических процессов, усреднение по реализациям эквивалентно усреднению по
пространству, из этого следует, что
f I ( x, y)  f R ( x, y)  0 .
Предположим теперь, что изображение f I ( x, y) является суммой полезного сигнала
f ( x, y ) и случайного стационарного шума n( x, y ) с ограниченными спектрами, причем
спектр мощности шума шире, чем спектр мощности полезного сигнала. При условии
некоррелированности сигнала и шума спектр мощности дискретизованного изображения
имеет вид
FD (u, v) 


1  
  W f (u  ju, v  iv)  Wn (u  ju, v  iv) .
xy i   j  
(2.14)
Из этого следует, что при недостаточной частоте дискретизации, меньшей, чем двойная
верхняя граничная частота шума, происходит подмешивание боковых спектров шума к
центральному спектру полезного сигнала, что приводит к дополнительным искажениям в
восстановленном изображении.
Дискретизация изображений в реальных системах
Реальная система дискретизации имеет два важных отличия от идеальной. Вопервых, изображения в реальных системах всегда имеют ограниченные размеры. Поэтому
дискретизирующую функцию представим в виде
d S ( x, y)  d ( x, y)s( x, y) ,
 1, x  Jx, y  Iy,
где s( x, y)  
.
если иначе
0,
(В этом случае размер изображения равен (2 J  1)x  (2 I  1)y .)
Во-вторых, отсчет непрерывного изображения берется не в точке с координатами jx ,
iy , а получается интегрированием изображения по окрестности E этой точки с
некоторой весовой функцией p( x, y ) :
13
f S ( jx, iy)   f I ( x, y) p( x  jx, y  iy)dxdy .
(2.15)
E
Вид окрестности и весовой функции определяется свойствами регистрирующего прибора.
Если форма весовой функции не зависит от координат jx , iy , то (2.15) можно
представить в виде свертки, положив, что p( x, y )  0 вне окрестности E :
 
f S ( jx, iy ) 
  f ( x, y) p( x  jx, y  iy)dxdy  f ( x, y) * p( x, y) .
I
I
(2.16)
 
Т.о., в реальной системе дискретизованное изображение представляется как
f D ( x, y)   f I ( x, y) * p( x, y)d ( x, y)s( x, y) ,
а его спектр имеет вид
FD (u, v)  (2 )4 FI (u, v) P(u,v)* S (u, v)* D(u, v) .
(2.17)
Спектр Фурье P (u , v) функции p( x, y ) обычно является функцией с монотонно
убывающей огибающей, что приводит к сужению спектра дискретизуемого изображения.
В то же время ограниченность размеров изображения вызывает появление в спектре
бесконечных, хотя и убывающих, “хвостов” (первая свертка в (2.17)). Действие
дискретизации по-прежнему выражается в наложении бесконечного числа сдвинутых
спектров (вторая свертка), которые из-за наличия в “хвостов” обязательно будут
перекрываться. При восстановлении непрерывного изображения первое обстоятельство
приводит к “размытию” изображения, а второе – к появлению паразитных колебаний, в
основном проявляющихся на краях изображений.
Квантование изображений
Операция квантования сводится к разбиению диапазона возможных значений
сигнала на конечное число интервалов, внутри каждого из которых сигналу присваивается
одно и то же значение. Здесь мы рассмотрим влияние квантования на точность
представления сигнала. Пусть f – сигнал, значения которого могут изменяться в
непрерывном интервале (aL , aH ) . Разобьем этот интервал с помощью J
непересекающихся интервалов, полностью его покрывающих. Обозначим через d j ,
j  0, J , пороговые уровни, соответствующие границам интервалов и положим d 0  aL ,
d J  aH . Сравнивая исходный сигнал f с набором пороговых уровней, квантованный
сигнал fˆ определим как
fˆ  rj , j  0, J  1 , если d j  f  d j 1 ,
где r j – уровни квантования (естественно считать, что d j  rj  d j 1 ).
Чтобы сказать что-либо определенное об ошибке квантования, необходимы
дополнительные сведения о поведении f . Будем считать, что f непрерывная случайная
величина, распределенная с плотностью вероятности p( f ) . В качестве меры ошибки
используем среднеквадратичную ошибку  , определенную как
14
d
J 1 j 1
 2 aH
 2
  E{( f  f ) }   p( f )( f  f ) df    p( f )( f  rj ) 2 df .
j 0 d j
aL
Если количество интервалов квантования велико, а p( f ) – достаточно гладкая функция,
то внутри j -го интервала квантования можно считать, что p ( f )  p (rj ) . Тогда
J 1
d j 1
j 0
dj
   p(rj )  ( f  rj )2 df 


1 J 1
 p(rj ) (d j 1  rj )3  (d j  rj )3 .
3 j 0
(2.18)
Когда пороги квантования заданы, из (2.18) нетрудно получить уровни квантования,
минимизирующие ошибку. Для этого необходимо решить систему уравнений

 0,
rk
0  k  J 1 .
(2.19)
Решение этой системы имеет вид
rk  (d k 1  d k ) / 2 ,
(2.20)
т.е. оптимальные уровни квантования лежат посередине между порогами. В этом случае

1 J 1
 p(rj )(d j 1  d j )3 .
12 j  0
(2.21)
Обычно (из-за простоты реализации квантователя) пороги квантования выбираются
равноотстоящими, т.е.
d  d j 1  d j 
Учитывая, что
aH  aL
.
J
aH
J 1
 p(r )d   p( f )df
j 0
j
 1,
aL
из (2.12) в этом случае получим

(d ) 2
.
12
(2.22)
Вопросы
1. Какова структура двумерного частотного спектра дискретного изображения?
2. Учитывая, что спектры реальных изображений не являются финитными
функциями, предложите метод расчета ошибок восстановления, обусловленных
нарушением условий (2.7)
3. Непрерывное
изображение
представляет
собой
аддитивную
смесь
f ( x, y )  s( x, y )  n( x, y ) , где s ( x, y ) – полезная, а n( x, y ) – шумовая составляющие,
   
причем их верхние граничные частоты связаны неравенствами us  un , vs  vn , т.е.
шумовая составляющая изображения имеет более широкий спектр, чем его
15
полезная составляющая (детерминированная или случайная). С какой частотой
f ( x, y ) , чтобы при восстановлении обеспечить
следует дискретизовать
минимально искаженное шумом изображение?
4. Предложите метод квантования, приводящий к ошибке квантования меньшей, чем
(2.22).
Литература
1. Папулис А. Теория систем и преобразований в оптике. М., “Мир”, 1971
16
3. Математический аппарат описания дискретных изображений
Векторное представление дискретных изображений
Естественным способом представления дискретного изображения является его
представление в виде двумерного массива отсчетов в прямоугольной области
f i , j , i  1, I , j  1, J ,
(3.1)
 
который иногда интерпретируется как матрица F  f i , j .
При анализе дискретных изображений их иногда удобно представлять в векторном виде,
“вытягивая” столбцы или строки массива (3.1) в один длинный вектор [1, гл.5]. Переход
от матричного представления изображения к векторному можно осуществить с помощью
матрично-векторного преобразования
J
f   N j Fv j ,
(3.2)
j 1
0 

 
0 
 
где v j  1 
0 
 

0 
 
1

j 1
j ,
j 1

J
0 

 
0 
 
N j  I 
0 
 

0 
 
1

j 1
j ,
j 1

J
0 - матрица размера I  I с нулевыми
элементами, а I - единичная матрица того же размера.
Этим преобразованием вектор Fv j , являющийся j -м столбцом матрицы F , помещается в
позиции с I ( j  1)  1 по Ij вектора f .
С помощью аналогичной процедуры вектор f преобразуется в матрицу F :
J
F   N Tj j fv Tj j .
(3.3)
j 1
Дискретное двумерное преобразование Фурье
Дискретное двумерное преобразование Фурье двумерного массива f j , k , j  0, J  1 ,
k  0, K  1 определяется в виде ряда
J 1 K 1

 ju kv 
Fu , v   f j , k exp  2i   ,
K 
 J
j 0 k 0

(3.4)
где i   1 .
Fu , v называется дискретным спектром Фурье массива f j , k .
Обратное преобразование имеет вид
f j,k 
  ju kv 
1 J 1 K 1
Fu , v exp 2i   .

JK u  0 v  0
K 
  J
17
(3.5)
Дискретный спектр Фурье периодичен, т.е.
Fu  mJ , v  nK  Fu , v
для любых целых значений m и n .
Во-вторых, он обладает комплексно-сопряженной симметрией:
Fu ,v  F*u mJ , vnK .
Подставляя в (3.5) вместо ( j , k ) ( j  mJ , k  nK ) и учитывая, что для любых целых m и
n exp( 2imu )  exp( 2inv )  1 ,
получим
~
  ( j  mJ )u (k  nK )v 
1 J 1 K 1
f j  mJ , k  nK 
Fu , v exp 2i

 

JK u  0 v  0
J
K

 
  ju kv 
1 J 1 K 1

Fu , v exp 2i    f j , k

JK u  0 v  0
K 
  J
,
т.е. дискретным спектром Фурье в действительности представляется периодически
~
продолженное изображение f j , k ,    j   ,    k   , подчиняющееся соотношению
~
~
f j  mJ , k  nK  f j , k .
(3.6)
Линейные преобразования дискретных изображений
Определим результат воздействия линейной системы на изображение f j , k как
изображение g s ,t , s  0, J  1 , t  0, K  1 :
K 1 J 1
g s ,t   f j , k hs ,t , j , k ,
(3.7)
k 0 j 0
где hs , t , j , k - дискретный импульсный отклик системы. Если система является
пространственно-инвариантной, ее воздействие на изображение выражается дискретной
сверткой
K 1 J 1
g s ,t   f j , k hs  j ,t  k
(3.8)
k 0 j 0
Следует заметить, что дискретное преобразование (3.8) не может быть строго
пространственно инвариантным, поскольку при вычислении близких к границам значений
g в сумму (3.8) включаются не все возможные значения h . Рис. 3.1 иллюстрирует
возникновение граничных эффектов при вычислении дискретной свертки. Заштрихованы
области, по которым выполняется суммирование при вычислении различных значений
g ( s, t ) .
18
k
hs1 j ,t1 k
hs 2  j , t 2  k
f j ,k
j
Рис. 3.1. Граничные эффекты при вычислении дискретной свертки
~
Построим продолженные периодически с периодами J и K исходное изображение f j , k и
~
h j , k . Тогда изображение
K 1 J 1
~ ~
g~s ,t   f j , k hs  j ,t  k
(3.9)
k 0 j 0
тоже будет периодическим, хотя и не будет точным периодическим продолжением g s ,t .
Выражением (3.9) представляется циклическая свертка. На рис. 2 схематично изображено
отличие обычной и циклической свертки в одномерном случае.
hs  j , t  k
f j ,k
h j ,k
а
~
f j ,k
б
Рис. 3.2. Обычная (а) и циклическая свертки. Заштрихованы области, внутри которых
выполняется суммирование
19
Воспользовавшись периодичностью дискретного спектра Фурье нетрудно показать,
что спектры периодически продолженных исходного изображения, импульсного отклика
и результата их циклической свертки связаны соотношением
~
~ ~
Gu , v  Fu , v H u , v .
(3.10)
Вероятностное описание дискретных изображений
Рассматривая дискретное изображение f как реализацию некоторого множества
случайных величин, его можно полностью определить N -мерной ( N  J  K ) функцией
распределения вероятностей
p( f1 ,, f N ; j1 , k1 ,, jN , k N ) .
Как и в случае непрерывных изображений, получение многомерных функций
распределения для дискретных изображений является практически неразрешимой задачей,
поэтому при статистическом анализе обычно используются одномерные либо двумерные
функции распределения.
Если отсчеты дискретного изображения представляются конечным набором
значений (квантованное изображение), соответствующие ему функции распределения
вероятностей дискретны. На практике наиболее широко используется оценка одномерной
функции распределения вероятностей (одномерная гистограмма), которая имеет вид
pˆ f (m) 
nm
, m  1, M
N
(3.11)
где M - количество возможных значений, которые могут принимать отсчеты
изображения, nm - количество отсчетов изображения, принимающих значение m .
Поскольку N - полное количество отсчетов изображения, то
M
n
m 1
m
N и
M
 pˆ
m 1
f
(m)  1 .
Так же как и для непрерывных изображений, для описания случайных дискретных
изображений определяются статистические моменты.
Среднее значение дискретного изображения, представленного в виде матрицы F ,
представляет собой матрицу средних значений элементов матрицы F .


mF (i, j )  EF  Ef i , j  .
(3.12)
Корреляция двух элементов изображения с координатами i1, j1 и i2 , j2 определяется как


RF (i1 , j1; i2 , j2 )  E f i1 , j1 f i2 , j 2 ,
(3.13)
ковариация – как



K F (i1 , j1; i2 , j2 )  E f i1 , j1  mF (i1 , j1 ) f i2 , j 2  mF (i2 , j2 ) ,
(3.14)
а дисперсия элемента изображения по определению есть


 F2 (i, j )  E  fi , j  mF (i, j )2  KF (i, j; i, j ) .
20
(3.15)
Аналогичным образом определяется кросс-корреляция и кросс-ковариация
элементов, принадлежащих двум разным изображениям F и G :

RFG (i1 , j1; i2 , j2 )  E f i1 , j1 gi2 , j 2
и

двух
(3.16)



K FG (i1 , j1; i2 , j2 )  E f i1 , j1  mF (i1 , j1 ) gi2 , j 2  mG (i2 , j2 ) .
(3.17)
В математической статистике случайным векторам сопоставляются векторы
средних значений, корреляционные и ковариационные матрицы. Поэтому для
изображения, представленного в векторном виде посредством преобразования (3.2),
можно ввести вектор средних значений
J
mf  Ef    N j EFv j
(3.18)
j 1
и корреляционную матрицу
J
J
J
J
 J J
R f  E ff T  E  N j Fv j  vTk FT NTk    N j E Fv j vTk FT NTk   N j R jk NTk .
k 1
j 1 k 1
 j 1
 j 1 k 1
 


Размер корреляционной матрицы равен IJ  IJ .
Матрица R jk  E Fv j vTj FT представляет собой корреляционную матрицу j -го и
k -го столбцов изображения F и имеет размер I  I . Следовательно, корреляционную
матрицу изображения можно представить в виде J  J блоков


 R11  R1J 
R f       .
R J 1  R JJ 
(3.19)
Ковариационная матрица изображения, представленного в виде вектора, связана с
корреляционной матрицей и вектором средних значений как
K f  R f  mf mTf .
(3.20)
Вектор дисперсий σ F2 , состоящий из дисперсий элементов вектора f , построен из
диагональных элементов матрицы K f :
σF2  diag (K11,, diag (K JJ ) .
T
(3.21)
Для нас особый интерес будут представлять изображения, стационарные в
широком смысле. Для них среднее значение и дисперсия не зависят от координат, т.е.
mF (i, j )  mF ,
 F2 (i, j )   F2 ,
(3.22)
(3.23)
а корреляционная и ковариационная функции зависят только от разностей i2  i1 , j2  j1 :
21
RF (i1, j1; i2 , j2 )  RF (i2  i1, j2  j1 )  RF (i, j) ,
KF (i1, j1; i2 , j2 )  KF (i2  i1, j2  j1 )  KF (i, j) .
(3.24)
(3.25)
Соответственно, для изображения, представленного в векторном виде,
1 

m f  mF   IJ ,
1 
(3.26)
1 

σ f2   f2   IJ ,
1 
(3.27)
 K1
K
 2
Kf  K3

 
K J
K2
K3
K1
K2
K2
K1


K J 1 K J  2
 KJ 
 K J 1 
 K J 2  ,


 
 K1 
(3.28)
где K k  K ij , k  i  j  1 .
Заметим, что такое представление моментов стационарного изображения очень
избыточно, однако эта избыточность окупается возможностью использования привычного
аппарата линейной алгебры.
Вопросы
1. Каким образом можно преобразовать изображение-матрицу в изображение-вектор?
2. Докажите периодичность дискретного преобразования Фурье.
3. В чем проявляются краевые эффекты при вычислении дискретной свертки?
4. Что такое циклическая свертка?
5. Чем отличается результат циклической свертки от результата простой свертки?
6. Что такое гистограмма изображения, и какова ее связь с одномерной функцией
распределения вероятностей?
7. Почему ковариационная матрица стационарного вектора-изображения разбивается
на ряд одинаковых блоков?
Литература
1. Прэтт У. Цифровая обработка изображений, т.1. М., “Мир”, 1982
22
4. Улучшение изображений
Целью улучшения изображений является улучшение интерпретируемости
изображения наблюдателем-человеком или создание “лучшего” входного изображения
для последующего аппаратного анализа. К сожалению, нет строгого определения, каким
должно быть изображение для “лучшего” восприятия человеком. Если преобразованное
изображение “выглядит лучше”, значит, преобразование его улучшает. С другой стороны,
для предобработки изображения, предшествующей аппаратному анализу, часто можно
сформулировать количественную меру улучшения.
Процедуры улучшения изображений можно разбить на две категории. К первой категории
относятся поэлементные преобразования, когда каждый отсчет преобразованного
изображения получается преобразованием только соответствующего элемента исходного.
Вторая категория – пространственные преобразования, когда отсчет выходного
изображения является функцией нескольких отсчетов исходного. Эта категория
преобразований еще называется фильтрацией.
Поэлементные преобразования
Пусть исходное изображение задано двумерным массивом xij , где i - номер строки,
j - номер столбца. В общем виде поэлементное преобразование определяется как
yij  f ij ( xij ) .
(4.1)
Здесь f ij () - некоторая однозначная функциональная зависимость выходного изображения
от входного. Подстрочные индексы у f указывают на то, что вид преобразования может
изменяться
при
изменении
координат.
Такое
преобразование
называется
пространственно-неоднородным, в отличие от пространственно-однородного, где ко всем
элементам массива применяется одна и та же функция
y  f (x) .
(4.1а)
Заметим, что если входное и выходное изображения квантованы, функция f включает в
себя округление до ближайшего уровня квантования. Простейшим видом поэлементного
однородного преобразования является линейное контрастирование, которое имеет вид
y  ax  b .
(4.2)
Обычно такое преобразование применяется при отображении изображения на экране
дисплея или твердой копии, когда динамический диапазон сигнала не совпадает с
динамическим диапазоном устройства отображения. Для согласования динамического
диапазона входного изображения, заданного значениями xmin , xmax , с динамическим
диапазоном выходного, ymin , ymax , применяется преобразование
y
ymax  ymin
( x  xmin )  ymin .
xmax  xmin
(4.3)
На рис. 4.1. приведен пример линейного контрастирования.
23
а
Б
Рис. 4.1. Линейное контрастирование изображений: а – исходное изображение, б –
изображение, подвергнутое преобразованию (4.2)
Одним из примеров нелинейных преобразований служит так называемая
соляризация, используемая для улучшения “выразительности” изображений. Соляризация
описывается соотношением
y  k ( x  xmin )( xmax  x) .
(4.4)
При соляризации яркие участки изображения становятся темными, а наиболее яркими
становятся участки, имевшие значения в середине диапазона. Пример соляризации
приведен на рис. 4.2.
а
б
Рис. 4.2. Соляризация изображений: : а – исходное изображение, б – изображение,
подвергнутое преобразованию (4.4)
Другое нелинейное преобразование, эквализация гистограммы, приводит
изображение с произвольным распределением яркости в изображение с распределением,
f ,
близким к равномерному. Каким образом можно построить функцию
осуществляющую подобное преобразование? Рассмотрим сначала преобразование
24
неквантованных изображений. Будем рассматривать изображения x и y  f (x) как
совокупности случайных величин, которые подчиняются распределениям с плотностью
вероятности px (x) и p y ( y ) соответственно. Из определения функции распределения
вероятностей следует, что
x
f ( x )


 px ( x)dx  Pr{x  x}  Pr{ y  f ( x)} 
 p ( y)dy .
y
Дифференцируя левый и правый интегралы по параметру x , получим
px ( x)  p y ( y  f ( x))
df ( x)
.
dx
(4.5)
Определим теперь f как
x
y  f ( x) 
 p (t )dt
x
.
(4.6)

Из (6), во-первых, следует что 0  y  1 , а во-вторых, что
df ( x)
 p x ( x) . Следовательно,
dx
1, 0  y  1
,
p y ( y)  
0, если иначе
т.е. преобразованное изображение равномерно распределено в диапазоне [0,1].
Пусть теперь значения изображения x представляются K квантами со значениями xk ,
0  k  K  1 . Гистограмма этого изображения есть по определению
H x (k ) 
nk
,
N
где nk - количество отсчетов изображения, имеющих значение xk , а N - полное
количество отсчетов изображения.
Определим преобразование эквализации как
 k

ym  f ( xk )  m , m  0, M  1 , если m   M  H k (i)  m  1 ,
 i 0

(4.7)
где M  K - количество квантов в выходном изображении, а символом 
 обозначена
операция получения целой части числа. На рис. 4.3 показаны исходное и преобразованное
посредством (4.7) изображения. Для согласования с динамическим диапазоном принтера
выходное изображение подвергнуто 4-кратному линейному усилению. Хорошо видно, что
выравнивание гистограммы позволяет сделать различимыми темные детали исходного
изображения.
25
Рис. 4.3. В левой колонке вверху – исходное изображение, внизу – эквализованное. В
правой колонке – гистограммы. Количество уровней квантования K  256 , M  64 .
Довольно часто употребляемым
бинаризация, описываемая функцией
нелинейным
 y , x  x0
,
y  f ( x)   max
 ymin , x  x0
преобразованием
является
(4.8)
где x0 - пороговое значение, определяемое контекстом исходного изображения.
Это преобразование используется, например, для препарирования изображений,
содержащих объекты, яркость которых резко отличается от яркости фона, если интерес
представляют только размеры или форма объектов.
На рис. 4.4 показано действие преобразования, представляющего собой
комбинацию линейного и порогового
 ymax , x  x0

.
y  f ( x)   ymax
x, x  x0

 x0
(4.9)
Такое преобразование делает постоянной яркость фоновой части изображения, линейно
контрастируя объекты.
26
а
б
Рис. 4.4. Комбинация линейного и порогового преобразований: а – исходное изображение
хромосом в поле зрения микроскопа, б – изображение, подвергнутое преобразованию (6)
Приведенное на рис. 4а изображение получено в микроскопе с сильным виньетированием,
которое проявляется в падении освещенности по мере удаления от центра поля. Поэтому
при фиксированном пороге x0 в препарированном изображении 4б сохраняется часть
фона, а объекты в центре поля начинают “разрушаться”. Устранить этот недостаток
можно, если известен характер виньетирования. В данном случае формирование
изображения в микроскопе достаточно хорошо описывается преобразованием
yij  tij kij ,
где t ij - коэффициент пропускания препарата хромосом, а k ij - функция, описывающая
виньетирование. Убрав из микроскопа препарат, можно получить изображение k ij .
После этого с помощью пространственно-неоднородного преобразования
tˆij  yij / kij
(4.10)
получается “чистое” изображение препарата хромосом, которое далее можно подвергнуть
преобразованию вида (4.9). Действие преобразования (4.10) иллюстрируется рисунком
4.5.
Рис. 4.5. Пространственно-неоднородная коррекция виньетирования
27
Простые пространственные преобразования
Пространственные преобразования являются наиболее распространенными
преобразованиями изображений и используются для достижения самых различных целей.
Более подробный анализ пространственных преобразований, основанный на
использовании строгих критериев, будет дан в последующих лекциях, здесь же мы
рассмотрим лишь достаточно простые преобразования, приводящие к интуитивно
понятному результату.
Довольно часто в изображениях присутствует шум, значения которого могут резко
изменяться в соседних элементах изображения. В то же время соседние значения
полезной составляющей реального изображения обычно изменяются значительно
медленнее. Это позволяет использовать пространственное усреднение соседних элементов
изображения для ослабления влияния шума. Такое усреднение может быть выполнено
посредством вычисления скользящего среднего значения
yij 
1 1 1
  xi  k , j  l .
9 l  1k  1
(4.11)
Если значения шума в соседних элементах изображения не коррелированы,
преобразование (4.11) позволяет уменьшить дисперсию шума в 9 раз. Увеличение
размеров окрестности (параметров k и l ) приводит к еще большему снижению уровня
шума, но при этом начинают существенно искажаться (сглаживаться) мелкие детали
изображения. Модификацией преобразования (4.11) является вычисление взвешенного
среднего значения
yij 
L
K
1 L K
h
(
k
,
l
)
x
A

,

  h(k , l ) ,
i  k , j l
A l   Lk   K
l   Lk   K
(4.12)
где весовые коэффициенты h(k , l ) уменьшаются с удалением от центра окрестности.
Такое преобразование оказывает меньшее сглаживающее влияние на полезную
компоненту изображения.
Импульсные помехи в изображении с гладкой полезной составляющей можно
ослабить с помощью преобразования

1
 xi  k , j l  
 xij , xij 
N-1 k .l  0
,
yij  
1

xi  k , j  l , если иначе
 N-1 k
.l  0
(4.13)
где N  (2 L  1)( 2 K  1) - количество элементов окрестности, а пороговое значение 
выбирается в зависимости от уровня шума. Это преобразование сохраняет значения
отсчетов изображения, если они не сильно отличаются от значений окрестности, и
заменяет их на среднее значение по окрестности в случае появления резких отличий.
Другое применение пространственных преобразований заключается в
подчеркивании резких перепадов яркости, которые обычно соответствуют границам
отдельных объектов. Например, преобразования с весовыми коэффициентами
 1  1  1
 1 0 1


h(k , l )   1 0 1 и h(k , l )   0 0 0  ,
 1 1 1 
 1 0 1
28
(4.14)
являясь аналогами непрерывных операторов дифференцирования в горизонтальном и
вертикальном направлениях, выделяют горизонтальные и вертикальные перепады
яркости, причем в зависимости от знака перепада зависит знак преобразованного
изображения. Независимое от знака перепада преобразование можно выполнить с
помощью весовых коэффициентов
 0 1 0 
h(k , l )   1 5  1 .
 0  1 0 
(4.15)
Сохраняя среднюю яркость, преобразование делает перепады зрительно более четкими.
Рис. 4.6 демонстрирует действие преобразования (4.15) на дефокусированное
изображение.
а
б
Рис. 4.6. Подчеркивание перепадов яркости: а – исходное изображение, б – изображение,
подвергнутое преобразованию (4.15)
В приведенном примере хорошо видно, что выходное изображение зашумлено
значительно сильнее, чем исходное. Это связано с тем, что дифференциальные
преобразования, приводят к усилению высокочастотных шумов, уровень которых в
исходном изображении, как правило, значительно выше уровня высокочастотной
полезной составляющей.
Преобразования, оптимальным образом учитывающие
статистические свойства изображений, будут рассмотрены далее.
Вопросы
1. Что такое пространственно-однородное поэлементное преобразование?
2. Как можно использовать эквализацию гистограммы при сравнении двух
изображений,
подвергнутых
различным
пространственно-однородным
поэлементным преобразованиям?
3. Почему при эквализации количество уровней в выходном изображении не может
превышать количество уровней входного изображения?
4. Предложите способ быстрого вычисления скользящего среднего.
29
5. Чем отличается фильтрация, реализуемая согласно (4.13), от скользящего
среднего?
6. Как, используя преобразования (4.14), построить преобразование, изотропно
подчеркивающее перепады яркости?
7. Почему дифференциальные преобразования обычно увеличивают шумовую
составляющую в изображениях?
30
5. Линейная фильтрация изображений
Одной из задач обработки изображений является задача устранения искажений,
возникающих в процессе их формирования. Изображения, формируемые различными
информационными системами, обычно отличаются от оригинала. Эти отличия могут
возникать по ряду причин. В оптических системах с большими полями зрения, как
правило, масштаб фрагмента изображения зависит от расстояния до оптической оси
системы. Изменение ракурса регистрации приводит к неправильной передаче углов между
прямыми линиями. Это приводит к появлению в выходном изображении геометрических
искажений. Дефокусировка оптической системы, конечность размеров элементов
фотоприемых устройств, регистрирующих изображения, ограниченная полоса
пропускания электронного тракта, движение наблюдаемых сцен относительно системы
регистрации вызывают потерю четкости изображений. Наконец, работа любой реальной
системы сопровождается разного рода помехами, приводящими к появлению в выходном
изображении случайных шумов. Уменьшение действия искажающих факторов может
быть достигнуто посредством фильтрации. Другая область применения фильтрации –
изменение изображений с целью выделения в них некоторых характерных особенностей,
например, обнаружения объектов определенного класса.
Под фильтрацией изображений понимается преобразование, результатом которого
является выходное изображение, где каждая точка зависит от значений многих точек
входного. Обычно (но не обязательно) эти точки располагаются в непосредственной
близости от точки, для которой вычисляется результат фильтрации. Вид преобразования
зависит от конкретной задачи, характера исходного изображения, вида искажающих
факторов, критерия оценки качества результата. Наиболее разработанными, хотя и не
всегда оптимальными, являются линейные фильтры, которые рассматриваются в этом
разделе. Линейная фильтрация непрерывных изображений представляется интегралом
суперпозиции (1.9) или интегралом свертки (1.10) для пространственно-инвариантных
систем. Их аналогом в дискретных системах являются дискретный оператор суперпозиции
(3.8) и дискретная свертка (3.9).
Восстановление изображений. Оптимальный линейный фильтр
В результате несовершенства формирующей изображение системы возникают
искажения, которые проявляются в потере четкости и появлении случайных шумов. Зная
характеристики системы, посредством фильтрации можно ослабить эти искажения.
Рассмотрим линейную пространственно-инвариантную систему с импульсным откликом
h( x, y ) , воздействующую на входное изображение f ( x, y ) . Выходное изображение
g ( x, y ) представляет собой свертку входного изображения с импульсным откликом
системы, искаженную аддитивным шумом n( x, y ) с нулевым средним значением (рис.
5.1). Дискретный аналог этой системы представляется соотношением
K 1 J 1
g s ,t   f j ,k hs  j ,t k  ns ,t ,
(5.1)
k 0 j 0
где K и J - размеры исходного изображения по горизонтали и вертикали соответственно.
Рассмотрим сначала идеальный случай непрерывных изображений бесконечного
размера.
31
n(x,y)
f(x,y)*h(x,y)
f(x,y)
h(x,y)
g(x,y)
+
Рис. 5.1. Схема формирования изображения линейной пространственно-инвариантной
системой с аддитивным шумом
Попытаемся построить линейную пространственно-инвариантную систему с
импульсным откликом r ( x, y ) , воздействуя которой на изображение g ( x, y ) можно
получить изображение fˆ ( x, y ) , “максимально похожее” на исходное изображение f ( x, y ) .
Термин “максимально похожее” является весьма неопределенным. Одним из широко
распространенных критериев оптимальности качества обработки сигналов является
критерий минимума среднего квадрата ошибок. Будем рассматривать исходное
изображение f ( x, y ) и результаты его преобразований как действительные стационарные
случайные сигналы, подразумевая, что для описания изображений можно использовать
статистические характеристики, в частности, первые и вторые моменты. Для простоты
будем считать, что изображения имеют нулевые средние значения (если это не так,
вычтем сначала из изображений их средние значения).
В этом случае средний квадрат ошибок можно представить в виде


2
J  E fˆ ( x, y )  f ( x, y ) ,
(5.2)
где символом E
 обозначена операция вычисления среднего значения. Подставив в (5.2)
ˆf ( x, y ) , выраженное через g ( x, y ) и r ( x, y ) , получим


J  E  f ( x, y )  g ( x, y ) * r ( x, y )  .
2
(5.3)
Задача построения восстанавливающей системы состоит в поиске импульсного отклика
r ( x, y ) , минимизирующего средний квадрат ошибки J .
Учитывая приведенные в гл. 1 определения, вычислим отдельно компоненты ошибки:


E f 2 ( x, y)   2f ,


2 E f ( x, y )g ( x, y ) * r ( x, y )  2 E f ( x, y )  g ( x  s, y  t )r ( s, t )dsdt 
 2  E f ( x, y ) g ( x  s, y  t )r ( s, t )dsdt 
 2  K gf ( s, t )r ( s, t )dsdt
32
,


E g ( x, y ) * r ( x, y ) 
E
2
 g ( x  s , y  t )r (s , t )ds dt   g ( x  s , y  t )r (s , t )ds dt 
1
1
1
1
1
1
2
2
2
2
2
   Eg ( x  s1 , y  t1 ) g ( x  s 2 , y  t 2 )r ( s1 , t1 )r ( s 2 , t 2 )ds1 dt1 ds 2 dt 2
2
.
   K g ( s 2  s1 , t 2  t1 )r ( s1 , t1 )r ( s 2 , t 2 )ds1 dt1 ds 2 dt 2
Здесь все интегралы берутся в бесконечных пределах, K gf - кросс-ковариационная
функция изображений g и f , K g - автоковариационная функция изображения g .
Теперь можно записать средний квадрат ошибки в виде
J   2f  2 K gf ( s, t )r ( s, t )dsdt 
  K
g
( s2  s1 , t 2  t1 )r ( s1 , t1 )r ( s2 , t 2 )ds1dt1ds2 dt 2 .
(5.4)
Поиск импульсного отклика r ( x, y ) , минимизирующего J , можно осуществить,
руководствуясь следующими соображениями. Допустим, что r ( x, y ) обеспечивает
минимальное значение J , и r ( x, y ) - произвольная функция. Тогда независимо от выбора
r ( x, y ) использование в (5.4) вместо r ( x, y ) импульсного отклика r ( x, y )  r ( x, y ) , где
 - некоторая скалярная величина, приведет к увеличению J , скажем, до значения
J  J . Если при r ( x, y ) действительно достигается минимум ошибки, то
lim
 0

( J  J )  0 .

Подставляя в (5.4) r ( x, y )  r ( x, y ) вместо r ( x, y ) и дифференцируя получившееся
выражение по  , находим

( J  J )  2 K gf ( s, t )r ( s, t )dsdt 

  K
g
( s 2  s1 , t 2  t1 )r ( s1 , t1 )r ( s 2 , t 2 )  r ( s1 , t1 )r ( s 2 , t 2 )  2r ( s1 , t1 )r ( s 2 , t 2 )ds1dt1 ds 2 dt 2
.
Вычисляя предел по  и приравнивая его нулю, получим уравнение
  K
gf

( s, t )   K g ( s  s1 , t 2  t1 )r ( s1 , t1 )ds1 dt1 r ( s, t )dsdt ,
которое должно удовлетворяться при любой функции r ( x, y ) . Это условие выполняется,
если
 K
g
( s  s1 , t 2  t1 )r ( s1 , t1 )ds1 dt1  K gf ( s, t ) .
(5.5)
Полученное интегральное уравнение позволяет найти импульсный отклик системы,
восстанавливающей исходное изображение с минимальной среднеквадратичной ошибкой
при условии, что известны ковариационная функция искаженного изображения и кроссковариационная функция исходного и искаженного изображения. Это уравнение проще
всего решить, используя энергетические спектры. Пусть Wg (u, v) - спектр мощности
случайного процесса, порождающего изображение
мощности процессов g и f .
33
g , а W gf (u, v) - кросс-спектр
Учитывая, что левая часть уравнения (5.5) представляет собой свертку, и выполнив
преобразование Фурье обеих частей уравнения, получим простое соотношение
W g (u , v) R(u , v)  W gf (u , v) ,
где R (u , v) - частотная характеристика восстанавливающей системы. Следовательно, при
известных авто- и кросс-ковариационной функциях, однозначно определяющих
соответствующие спектры мощности, можно вычислить частотную характеристику
R (u , v) 
W gf (u , v)
W g (u , v)
,
(5.6)
а следовательно, и импульсный отклик восстанавливающей системы. Система с частотной
характеристикой (5.6) известна как фильтр Винера.
Заметим, что до сих пор свойства шума и связь изображений f и g через
импульсный отклик искажающей системы нигде не использовались. Нетрудно показать,
что при аддитивном шуме, некоррелированном с исходным изображением f ,
ковариационная функция K g связана с ковариационными функциями исходного
изображения K f и шума K n соотношением
K g ( s, t )  K f ( s, t ) * h( s, t ) * h( s,t )  K n ( s, t ) ,
а кросс-ковариационная функция K gf - соотношением
K gf (u, v)  K f ( s, t ) * h( s,t ) .
(Здесь K n - ковариационная функция шума).
Соответствующие спектры мощности связаны как
W g (u, v)  W f (u, w) H (u, v)  Wn
2
и
W fg (u, v)  W f (u, v) H * (u, v) .
В этом случае оптимальная частотная характеристика восстанавливающей системы,
минимизирующей средний квадрат ошибки восстановления, может быть представлена в
виде
R(u, v) 
W f (u, v) H * (u, v)
(5.7)
W f (u, v) H (u, v)  Wn (u, v)
2
или
R(u, v) 
H * (u, v)
.
Wn (u, v)
2
H (u, v) 
W f (u, v)
(5.7а)
Часто под фильтром Винера подразумевают систему, обладающую именно частотной
характеристикой (5.7).
34
Обратим внимание на следующее обстоятельство. Если шум в регистрирующей
системе отсутствует, то Wn (u, v)  0 и (5.7) приводится к очень простому виду
R(u, v) 
1
.
H (u, v)
(5.8)
Фильтр такого типа называется инверсным. Для применения инверсного фильтра не
требуется знания спектров мощности исходного изображения и шума. Существенный его
недостаток состоит в бесконечном усилении гармоник, где H (u, v)  0 . На практике это
означает, что любое возмущение во входном изображении, отличающее его от
f ( x, y ) * h( x, y ) , приводит к неустойчивости изображения, восстановленного инверсным
фильтром, тогда как наличие в знаменателе фильтра Винера члена Wn (u, v) / W f (u, v)
стабилизирует восстановленное изображение. Если спектры мощности исходного
изображения и шума неизвестны, отношение Wn (u, v) / W f (u, v) можно заменить
отношением дисперсий  n2 /  2f , которое на практике определить значительно проще.
Рассмотрим теперь дискретную систему восстановления изображений. Для этого
сначала периодически продолжим с периодами J и K исходное изображение f и
импульсный отклик h . Тогда изображение, формируемое системой, показанной на рис.
5.1, будет также периодическим с периодами J и K результатом циклической свертки,
искаженным периодически продолженным аддитивным шумом
K 1 J 1
~ ~
g~s ,t   f j ,k hs  j ,t k  n~s ,t .
k 0 j 0
Вывод,
аналогичный
приведенному
выше,
показывает,
что
оптимальный
восстанавливающий фильтр, минимизирующий средний квадрат ошибки, должен
обладать частотной характеристикой
Ru ,v 
H u*,vW f u ,v
2
H u , v W f u , v  Wn u , v
.
(5.9)
Восстановленное изображение проще всего получить, вычислив сначала спектр
искаженного изображения Gu ,v . Обратное дискретное преобразование Фурье
произведения
Fˆu ,v  Ru ,v Gu ,v
(5.10)
даст искомое изображение.
Рассмотрим два типичных случая линейных искажающих систем и
соответствующих им восстанавливающих фильтров. При съемке космических объектов
через атмосферу Земли происходит “размытие” изображения, обусловленное
турбулентностью атмосферы. Этот эффект приближенно можно представить действием
линейной системы с импульсным откликом вида
 x2  y2 
,
h( x, y )  exp  
2  2 

которому соответствует частотная характеристика
35
(5.11)


H (u, v)  exp  2  2 (u 2  v 2 ) .
а
б
в
г
д
Рис. 5.2. Коррекция влияния атмосферной турбулентности
36
Рис. 5.2 демонстрирует действие искажающей системы с импульсным откликом
(5.11) и восстановление изображения соответствующими инверсным и оптимальным
фильтрами. На рис. 5.2а показано исходное изображение, на рис. 5.2б – импульсный
отклик искажающей системы (   3 ), а на рис. 5.2в – изображение, искаженное фильтром
(5.11) с некоррелированным аддитивным шумом (отношение сигнал/шум  2f /  n2  10 4 ).
На рис. 5.2г показано изображение, восстановленное из 5.2в фильтром Винера. Для
сравнения на рис. 5.2г показано изображение, восстановленное инверсным фильтром из
искаженного фильтром (5.11) исходного изображения с аддитивным некоррелированным
шумом при отношении сигнал/шум  2f /  n2  10 24 . Оказывается, что инверсный фильтр
дает плохое качество восстановления даже при ничтожном уровне шума. Пояснением
этого эффекта служит рис. 5.3, где показаны: а – частотная характеристика фильтра (5.11),
б – частотная характеристика инверсного фильтра и в – частотная характеристика фильтра
Винера (частотные характеристики показаны в сечении по горизонтальной оси). По
горизонтали отложены номера гармоник. Первая гармоника соответствует периоду,
равному горизонтальному размеру изображения.
а
б
в
Рис. 5.3. Частотные характеристики, соответствующие влиянию и коррекции атмосферной
турбулентности
Другим примером линейных искажений является дефокусировка, которую в
первом приближении можно описать импульсным откликом вида
1, x 2  y 2  
h( x, y)  
 0, если иначе
(5.12)
37
или частотной характеристикой
H (u, v) 

J1  u 2  v 2
 u v
2
2
 , где J
1
- функция Бесселя первого порядка.
а
б
в
г
д
Рис. 5.4. Восстановление дефокусированного изображения
38
Действие этой системы и результаты коррекции приведены на рис. 5.4. Исходное
изображение показано на рис. 5.4а, импульсный отклик (5.12) при   3.5 - на рис. 5.4б,
изображение, прошедшее через систему с этим импульсным откликом и искаженное
некоррелированным шумом при отношении сигнал/шум  2f /  n2  10 4 - на рис. 5.4в.
Рис. 5.4г демонстрирует восстановление посредством фильтра Винера. Здесь
обнаруживается уже упоминавшееся ранее отличие простой и циклической дискретных
сверток. Циклическая свертка не учитывает краевых эффектов, которые возникают при
периодическом повторении изображений. При дискретном преобразовании Фурье
разрывы на краях изображения приводят к появлению высокочастотных гармоник,
отсутствующих в реальном, неограниченном изображении. Действуя на эти паразитные
гармоники, фильтр, построенный на основе циклического продолжения, приводит к
появлению на краях восстановленного изображения колебаний, хорошо видных на рис.
5.4г. Одним из способов устранения разрывов на краях является предварительное
умножение изображения, подвергаемого фильтрации, на так называемую функцию окна,
спадающую на краях до нуля. Это позволяет в значительной степени ослабить влияние
краевых эффектов, хотя и вносит в восстановленное изображение дополнительные
яркостные искажения. Некоторые функции окна рассмотрены в [1]. На рис. 5.4д показан
результат восстановления изображения, приведенного на рис. 5.4в, после умножения его
на функцию окна вида



wi , j  4(i  I / 2) 2 / I 2  1 4( j  J / 2) 2 / J 2  1 .
а
(5.13)
б
б
Рис. 5.5. Частотные характеристики, соответствующие влиянию и коррекции
дефокусировки
39
На рис. 5.5 приведены аналогичные рис. 5.3 частотные характеристики фильтров
для случая искажений типа дефокусировки. На рис. 5.5в очень хорошо видно, как в
фильтре Винера устраняется неустойчивость, обусловленная наличием нулей в частотной
характеристике дефокусирующей системы.
Обнаружение объектов. Согласованный фильтр
Задача обнаружения объектов заключается в установлении наличия на
изображении фрагмента, обладающего определенными, заранее известными,
характеристиками. Один из подходов к решению этой задачи базируется на
статистической теории принятия решений (например, [2]). Рассмотрим сначала простую
задачу, которая состоит в следующем: необходимо решить, присутствует ли в точке
изображения с координатами ( i, j ) объект, если известно, что изображение в этой точке
может быть представлено в виде
o  ni , j , объект присутствует
.
f i, j  
n
,
объекта
нет
i
,
j

(5.14)
Если o и ni , j - известные детерминированные величины, то способ решения этой задачи
очевиден – необходимо выбрать некоторое пороговое значение ni , j  l  o  ni , j , и
принимать решение о наличии объекта, если f i , j  l , и об его отсутствии в противном
случае. Такой подход всегда будет приводить к правильному решению задачи.
Пусть теперь o - по-прежнему известная детерминированная величина, а ni , j случайная величина с распределением, характеризуемым плотностью вероятности p n (x) .
При этом известно, что объект может появляться в рассматриваемой точке с вероятностью
P . Теперь изображение в точке с координатами ( i, j ) тоже является случайной
величиной, которая характеризуется распределением p0 ( f )  (1  P) pn ( f ) , если объект
отсутствует, и распределением p1 ( f )  Ppno ( f )  Ppn ( f  o) при наличии объекта. Если
наличие и отсутствие объекта равновероятны, то P  1  P  0.5 . Соответствующие этому
случаю распределения показаны на рис. 5.6 (  n2 - дисперсия ni , j ).
p1 ( f )  0.5 pn ( f  o)
o
p0 ( f )  0.5 p n ( f )
2 n
l
Рис. 5.6. Распределение случайной величины f в точке с координатами (i, j )
40
В такой, вероятностной, постановке задаче выбор порога не является столь же очевидным,
как в предыдущем случае. Теперь может существовать четыре различных исхода
принятия решения, которые приведены в таблице 5.1. Исходы, отмеченные знаком “+”,
соответствуют правильно принятому решению, а исходы со знаком “–“ – неверному
решению.
Таблица 5.1
Объект\Решение
отсутствует (0)
присутствует (1)
отсутствует (0)
+
присутствует (1)
+
Зная распределения p0 ( x) и p1 ( x) , можно вычислить вероятности всех исходов.
Обозначим исходы парой чисел, в которой первое число указывает на наличие (1) или
отсутствие (0) объекта, а второе – на принятое решение (0 – объект отсутствует, 1 – объект
есть в изображении) Тогда при заданном пороговом значении порога l вероятности
исходов представляются в виде:
l
P (0,0) 
 p0 ( x)dx , P(1,0) 

l
 p1 ( x)dx ,


P(0,1)   p0 ( x)dx ,
l

P(1,1)   p1 ( x)dx .
l
Различные критерии выбора порогового значения при статистическом подходе
базируются на соотношении вероятностей принятия правильных и ошибочных решений.
Заметим, однако, что независимо от выбора критерия, соотношение вероятностей
принятия правильных и ошибочных решений будет тем лучше, чем больше отношение
расстояния между распределениями p0 ( x) и p1 ( x) к характерной ширине этих
распределений, т.е. отношение сигнал/шум
С/Ш=
o2
 n2
.
В рассмотренном случае решение принимается относительно единственной точки
изображения при заданном отношении С/Ш, которое мы не можем изменить. Совместный
анализ многих точек изображения позволяет этим отношением управлять.
Рассмотрим теперь задачу обнаружения объекта на дискретном изображении
размером I  J в следующей постановке. Пусть в качестве известных характеристик
объекта задано его детерминированное изображение O , а анализируемое изображение
может быть представлено в виде
O  N, объект присутствует в изображении
F
,
в изображении объекта нет
 N,
где N - случайный стационарный фон.
Пусть изображение объекта имеет размеры I o  J o , I o  I , J o  J , и задача состоит в том,
чтобы установить наличие или отсутствие объекта в заданном фрагменте изображения
размером I o  J o .
Представим изображение объекта и текущий фрагмент анализируемого
изображения в виде векторов размером I o J o  1 путем упорядоченного выстраивания их,
например, по столбцам (см. гл.3). Текущий фрагмент изображения при этом будет
представлен как
41
o  n, объект присутствует в данном фрагменте
.
f 
в данном фрагменте объекта нет
 n,
(5.15)
Вычислим взвешенную сумму элементов фрагмента f , которую можно представить как
скалярное произведение
s  mT f ,
(5.16)
где m - вектор размером I o J o  1 ,
причем элементы вектора m выберем так, чтобы отношение С/Ш в
максимальным. Это отношение имеет вид
С/Ш=
(m T o) 2
,
E (m T n) 2


s
было
(5.17)
где в числителе стоит квадрат амплитуды полезного сигнала, а в знаменателе – дисперсия
случайной компоненты, которую можно представить как

 

 
 
E (mT n) 2  E (mT n)(n T m)  mT E nn T m  mT E nn T m  mT K n m ,
где K n - ковариационная матрица шума n .
Вектор m , максимизирующий отношение С/Ш, получим, приравнивая нулю
производную (5.17) по m :
2(m T o)o(m T K n m)  2(m T o) 2 K n m
d (m T o) 2
d (m T o) 2



dm E (m T n) 2
dm m T K n m
(m T K n m) 2


2m T o
(m T K n m) 2

(m
T

K n m)o  (m T o)K n m  0,
откуда следует, что
m
m T K n m 1
Kn o.
mT o
Поскольку умножение вектора m на скалярный множитель не влияет на отношение
(5.17), окончательный его вид определим как
m  K n1o .
(5.18)
При таком выборе вектора m взвешенная сумма s принимает вид
s  o T K n1f ,
(5.19)
а отношение сигнал/шум –
С/Ш=
(o T K n1o) 2
 o T K n1o .
T
1
1
o K n K nK n o
(5.20)
42
Решение о наличии или отсутствии объекта в заданном фрагменте изображения
принимается на основе анализа распределения величины s .
Если положение анализируемого фрагмента изображения заранее не фиксировано,
то взвешенную сумму (5.16) необходимо вычислить для всех возможных положений
объекта и сравнить полученные значения с порогом, устанавливаемым в соответствии с
критерием, построенным на основе анализа распределения s . Вычисление взвешенной
суммы s фактически сводится к фильтрации изображения фильтром, имеющим
импульсный отклик m . Такой фильтр называется согласованным фильтром, а описанная
процедура обнаружения объекта – согласованной фильтрацией.
Наиболее простой вид имеет импульсный отклик согласованного фильтра для
обнаружения объекта в некоррелированном шуме. В этом случае ковариационная матрица
шума имеет вид
K n   n2 I ,
где I - единичная матрица.
Нетрудно увидеть, что импульсный отклик согласованного фильтра для такого случая
oT o
имеет форму искомого объекта m  o , а отношение сигнал/шум равно 2 . Этот случай
n
иллюстрируется рисунком 5.7.
а
б
в
Рис. 5.7. Согласованная фильтрация с некоррелированным шумом
43
На рис. 5.7а показано идеальное изображение размером 256*256 пикселей,
содержащее объект, представляющий собой квадрат со стороной 20 пикселей постоянной
яркости, равной 16, на фоне с постоянной яркостью 128 (весь диапазон составляет 256
градаций яркости). На рис. 5.7б показано это же изображение, поврежденное аддитивным
некоррелированным шумом с  n = 32, т.е исходное отношение сигнал/шум (5.17) здесь
равно 1/4. Здесь объект практически не выделяется из шума. На рис. 5.7б показан
результат согласованной фильтрации. Темная кайма по краям изображения обусловлена
краевым эффектом дискретной свертки и поэтому при обнаружении края изображения
шириной в половину ширины фильтра не анализируются. Здесь отношение сигнал/шум
равно 100.
Эффект согласованной фильтрации лучше заметен при сравнении продольного
сечения изображений вдоль строки, проходящей через центр объекта. На рис. 5.8а
показано сечение идеального изображения, приведенного на рис. 5.7а, на рис. 5.8б –
сечение изображения 5.7б, а на рис. 5.8в – сечение изображения 5.7в, полученного в
результате согласованной фильтрации.
Следует подчеркнуть, что в отличие от оптимального фильтра, в выходном
изображении которого восстанавливается исходная форма объекта, на выходе
согласованного фильтра получается изображение, в котором форма объекта существенно
отличается от исходной. Это хорошо видно при сравнении рис. 5.8а и 5.8в.
а
б
в
Рис. 5.8. Согласованная фильтрация. Продольные сечения изображений
Ковариационная матрица шума по определению является симметричной
неотрицательно определенной матрицей, которая допускает представление
K n  E n L n ETn  E n L1n/ 2 L1n/ 2 ETn ,
44
где En - матрица, построенная из собственных векторов ковариационной матрицы K n , а
L n - диагональная матрица соответствующих собственных значений (неотрицательных).
Если ковариационная матрица шума не вырождена, т.е. L n не содержит нулевых
диагональных элементов, то, в силу ортонормированности матрицы
En
( E n ETn  ETn E n  I ), матрица K n1 может быть представлена как
K n1  E n Ln1 / 2 Ln1 / 2 ETn  B n B Tn ,
B n  E n Ln1 / 2 ,
где Ln1 / 2 - диагональная матрица, содержащая величины, обратные корням квадратным из
собственных значений. Соответственно, взвешенная сумма (5.19) принимает вид
s  (o T B n )(B Tn f ) .
(5.21)
Рассмотрим действие оператора B Tn на шумовую составляющую изображения f .
Преобразованный шум есть
~  B T n  L1 / 2 ET n ,
n
n
n
n
а его ковариационная матрица –
  

 
~n
~ T  E L1 / 2 ET nn T E L1 / 2  L1 / 2 ET E nn T E L1 / 2 
K n~  E n
n
n
n n
n
n
n n
 Ln1 / 2 ETn K n E n Ln1 / 2  Ln1 / 2 ETn E n L1n/ 2 L1n/ 2 ETn E n Ln1 / 2  I.
Т.о., оператор B Tn преобразует шум с ковариационной матрицей K n в
некоррелированный (“белый”) шум с единичной дисперсией. Следовательно, действие
согласованного фильтра можно разбить на два этапа. На первом этапе производится
“отбеливание” шума (и соответствующее преобразование входного изображения), а на
втором – согласованная фильтрация полученного изображения фильтром, настроенным на
преобразованное изображение объекта ~
o  B Tn o и белый шум.
Совмещение изображений. Линейный прогноз
Необходимость совмещения изображений возникает при решении таких задач как
выявление отличий в серии изображений, анализ движения, объединение информации от
различных сенсоров. В общем случае отличия в изображениях могут заключаться в
некоторых преобразованиях координат и яркости (возможно, нелинейных), и задача
совмещения заключается не только в корректном выполнении этих преобразований, но и,
как правило, в предварительном оценивании параметров преобразований. Далее будет
рассмотрен сравнительно простой случай совмещения изображений, когда изображения
отличаются только сдвигом по координатам и линейным преобразованием яркости.
Формально такую ситуацию можно представить следующим образом. Даны два
непрерывных изображения (рис. 5.9), f ( x, y ) и g ( x, y ) , которые связаны друг с другом
соотношением
g ( x, y )  cf ( x  a, y  b)  d ,
(5.22)
где a и b - сдвиги вдоль координат, а c и d - параметры линейного преобразования
яркости.
45
x
x
y
y
f
g
Рис. 5.9. Сдвинутые линейно преобразованные по яркости изображения
В результате дискретизации получим соответствующие дискретные изображения

f j ,i  f (ix, jy ) ,
i  0, I  1 ,
j  0, J  1 ,

g j ,i  g (ix, jy )  f (ix  a, jy  b)  f (i  k )x   , ( j  l )y    ,
(5.22)
(5.23)
a 
где x ,  y интервалы дискретизации соответственно вдоль осей x и y , k    ,
 x 
b 
l    ,   a  kx ,   b  ly ,  - целая часть от  .
 y 
Если смещения a и b кратны соответствующим интервалам дискретизации, то
 ,  = 0, и, следовательно,


g j ,i  f j  l , i  k .
(5.23а)
В этом случае неизвестные параметры сдвига можно найти, вычислив взаимную


ковариационную функцию изображений f и g при различных их взаимных сдвигах s и
t:

K ( s, t ) 
( f
j  t ,i  s

 f )( g j ,i  g )
W

 ( f j  t ,i  s  f ) 2
W
2

 ( g j ,i  g )
,
(5.24)
W


где W - область перекрытия изображения f и сдвинутого на t , s изображения g (рис.
5.9),


1
1


f   f j ,i , g   g j ,i - средние значения изображений f и g , вычисленные по
N W
N W
области W ,
N - количество точек в области W .
46
i
t
s
j
W

f

g
Рис. 5.10. Вычисление взаимной ковариационной функции K ( s, t ) . Заштрихована область
перекрытия W
В соответствии с известным неравенством Коши-Шварца максимального значения
взаимная ковариационная функция достигает при s  k , t  l . Поэтому, находя
координаты максимума взаимной ковариационной функции, можно определить сдвиг
одного изображения относительно другого, после чего изображения можно совместить
посредством целочисленного сдвига. Пример целочисленного совмещения показан на рис.
5.11. Изображения на рис. 5.11а и 5.11б получены одним и тем же датчиком при
неизменных условиях освещения. Тем не менее, они значительно отличаются друг от
друга, причем отличия нельзя объяснить только шумом регистрации, поскольку их
разность (рис. 5.11в) имеет явно не случайную пространственную структуру. Оценка
сдвига, выполненная на основании поиска максимума взаимной ковариационной
функции, показывает, что второе изображение сдвинуто влево относительно первого на
два шага. Их разность, вычисленная после компенсации сдвига и вчетверо усиленная,
показана на рис. 5.11г. Здесь неслучайная структура заметно ослаблена, однако еще
достаточно заметна. Связано это с наличием дробной компоненты сдвига (т.е  или  не
равны нулю). Компенсация дробного сдвига в дискретных изображениях является более
сложной, чем рассмотренная выше, задачей. Один из вариантов ее решения заключается в
интерполяции изображений на более подробную решетку, оценивании сдвига,
компенсации его на подробной решетке и возвращении к исходной решетке. Существует,
однако, другой подход, использующий знание корреляционных связей между элементами


изображений. Будем снова рассматривать изображения f и g как реализацию

стационарного случайного процесса и предположим, что значение изображения g в точке
( j, i ) можно представить в виде


g j , i   a k ,l f j  k , i  l   j , i ,
k, l   ,

где  некоторая окрестность точки ( j, i ), a k ,l - неизвестные интерполяционные
коэффициенты, а  j ,i - случайный шум. Упорядочив каким-либо образом элементы

изображения f в окрестности  , это выражение можно представить в векторном виде

g j ,i  a T f j ,i   j ,i .
(5.25)
47
а
б
в
г
Рис. 5.11
Значения интерполяционных коэффициентов выберем таким образом, чтобы
минимизировать среднеквадратичную ошибку интерполяции



J (a)  E g j ,i  aT f ji
 .
2
(5.26)
Раскрывая в (5.26) скобки и вычисляя математическое ожидание, получим







 
 



 
J (a)  E g 2j ,i  2 g j ,i a T f ji  a T f ji f jiT a  Eg 2j ,i  2a T E g j ,i f ji  a T E f ji f jiT a 

Eg 2j ,i  2a T v gf  a T R f a,
где v gf - вектор, содержащий коэффициенты корреляции между элементом изображения


g и элементами соответствующей ему окрестности  в изображении f (кросскорреляционный вектор), а R f - корреляционная матрица вектора, построенного из


элементов окрестности  . Поскольку ранее предполагалось, что f и g являются
реализацией стационарного процесса, вектор v gf и матрица R f от координат не зависят,
поэтому индексы
j ,i
у них опущены.
48
В точке минимума J (a) производная обращается в нуль. Поэтому искомые
интерполяционные коэффициенты получаются из системы линейных уравнений
 2 v gf  2R f a  0 ,
откуда следует, что вектор интерполяционных коэффициентов, минимизирующих ошибку


предсказания элемента изображения g по соответствующему фрагменту изображения f ,
имеет вид
a  R f 1 v gf .
(5.27)

Соответственно, интерполированный элемент изображения g вычисляется как

g~ ji  vTgf R f 1f ji
(5.28)

Как и в задаче обнаружения объектов, интерполяция сдвинутого изображения g по

изображению f состоит в последовательном переборе всех элементов изображения,
следовательно, задача предсказания сдвинутого изображения по исходному снова
сводится к линейной фильтрации.
Рис. 5.12 иллюстрирует применение изложенного подхода для компенсации малых
сдвигов изображений. В качестве исходных изображений снова взяты изображения,
приведенные на рис. 5.11 а и б, предварительно совмещенные с точностью до
целочисленного сдвига посредством корреляционной привязки. В результате



корреляционной привязки изображение g j ,i преобразуется в изображение g j ,i  g j t ,i  s ,
где s и t - оцененные параметры целочисленного сдвига. Полученное изображение

отличается от f только дробным сдвигом. После этого согласно (5.28) строится

изображение g~ j ,i , являющееся предсказанием g j ,i . Здесь вектор кросс-корреляции



вычисляется между элементами g  и f . Разность между g  и g~  показана на рис. 5.12.
Сравнивая рис. 5.12 с рис. 5.11г, можно заметить, что регулярная составляющая в
разности после применения линейного прогноза стала существенно меньше.
Рис. 5.12. Результат компенсации дробного сдвига с применением линейного прогноза
Для выполнения линейного предсказания, как следует из предыдущего,

необходимо знать корреляционную матрицу вектора f и вектор взаимной корреляции
49


элемента изображения g и вектора f , причем матрица R f остается неизменной при
различных сдвигах и может быть оценена заранее, тогда как вектор v gf зависит от

сдвигов и должен вычисляться для данного g . Предполагая стационарность изображений
по крайней мере на достаточно больших участках, в качестве вектора кросс-корреляции и
корреляционной матрицы можно использовать их оценки
vˆ 
1
N
g
j ,i
f j ,i
O
и
(5.29)
ˆ  1
K
f
N
f
j ,i
f Tj ,i ,
j, i  O ,
O
где O - область, в которой изображения можно считать стационарными, а N - количество
точек в этой области.
Рис. 5.13 иллюстрирует эффективность применения линейного прогноза в задаче
обнаружения малоразмерных объектов на медленно движущемся фоне. На рис. 5.13а и б
показаны два изображения, отличающиеся небольшим сдвигом фона и тем, что на рис.
5.13б присутствует четыре одинаковых по форме, но разных по амплитуде объекта. Оба
изображения
сопровождаются
некоррелированным
случайным
шумом,
среднеквадратичное отклонение (СКО) которого существенно меньше СКО фона, но
сравнимо с амплитудой объектов. Амплитуда верхнего правого объекта составляет 1.5
СКО шума, верхнего правого – 3.0, нижнего левого – 4.5, и нижнего правого – 6.0. Для
обнаружения применяется изложенная в предыдущем разделе согласованная фильтрация,
причем пороговое значение для принятия решения о наличии объекта выбирается так,
чтобы ложных тревог не возникало. Предварительно перед фильтрацией осуществляется
подавление фона путем вычитания первого изображения из второго.
а
б
б
б
д
Рис. 5.13. Применение компенсации сдвига в задаче обнаружения малоразмерных
объектов
50
На рис. 5.13 в, г и д показаны объекты, обнаруженные соответственно на простой
разности, на разности, вычисленной после компенсации целочисленного сдвига, и на
разности, полученной посредством линейного прогноза. Последний способ, как и
следовало ожидать, дает наилучший результат.
Вопросы
1. Как можно представить искажения, вносимые в изображения линейной системой?
2. В чем состоит задача восстановления изображения, искаженного линейной
системой?
3. Чем отличается фильтр Винера от инверсного фильтра?
4. В чем проявляется при восстановлении конечность размеров изображения?
5. Как можно ослабить влияние конечности размеров на результат восстановления?
6. В чем заключается задача обнаружения объектов на изображении?
7. На чем основан выбор порогового значения при обнаружении?
8. Чем обусловлено повышение качества обнаружения при использовании
согласованного фильтра?
9. Для чего необходимо совмещать изображения?
10. Что дает устранение дробного сдвига между дискретными изображениями?
11. Какая модель сигнала лежит в основе метода линейного предсказания?
Литература
1. Грузман И.С., Киричук В.С. и др. Цифровая обработка изображений в
информационных системах. Учебное пособие. Новосибирск, НГТУ, 2002
2. Ван Трис Г. Теория обнаружения, оценок и модуляции, т.1., М., “Советское радио”,
1972
51
6. Компьютерная томография
Открытие в 1895 проникающего излучения, впоследствии названного по имени
человека, его обнаружившего, рентгеновским, впервые позволило заглянуть внутрь
непрозрачных в видимом свете объектов. Самое широкое практическое применение
рентгеновское излучение нашло в медицине для получения изображений костных тканей
и внутренних органов человека. В дальнейшем рентгеновская технология исследования
внутренней структуры непрозрачных в видимом свете объектов распространилась в
область материаловедения, диагностики промышленных изделий, строительных
конструкций и т.д. Как и любое другое, рентгеновское излучение ослабляется средой,
через которую оно проходит, и степень ослабления зависит от физических свойств среды
и от длины пройденного в среде пути, что и является основой получения рентгеновских
изображений. Важной его особенностью является способность распространяться в среде
практически без рассеяния и преломления, обеспечивающая при использовании точечного
источника излучения получение “теневых” изображений. При прохождении излучения
через однородную поглощающую среду без рассеяния и преломления интенсивность его
изменяется в соответствии с законом Бугера-Ламберта [6.1]
I  I 0 e  d ,
(6.1)
где I 0 и I - интенсивность излучения на входе и выходе из слоя среды шириной d ,  показатель поглощения, зависящий от свойств среды и длины волны излучения. В случае
неоднородной среды интенсивности на входе и выходе связаны более сложным
соотношением
 b

I  I 0 exp    (l )dl  ,
 a

где l - координата вдоль направления распространения излучения, a и b - координаты
входа в среду и выхода из нее. Полагая  (l )  0 при l  a , l  b , это соотношение можно
переписать в виде
 

I  I 0 exp    (l )dl  .
 

(6.2)
Зарегистрированная на выходе из среды интенсивность в поперечном сечении
просвечивающего пучка и формирует изображение.
Соотношения (6.1) и (6.2), в частности, показывают, что четкие теневые
изображения, отражающие структуру объекта, получаются лишь в том случае, когда
поглощение среды неизменно вдоль направления распространения излучения, а ширина ее
слоя постоянна. В противном случае изменения поглощения в изображении
“смазываются”.
Преобразование Радона. Задача томографии
Рассмотрим теперь следующую ситуацию. Трехмерный объект, характеризуемый
показателем поглощения  ( x, y, z ) , просвечивается плоским пучком параллельных лучей,
лежащих в плоскости z  z 0 . В этой плоскости прямая l , вдоль которой направлен луч,
проходящий на расстоянии s от оси OZ, задается уравнением
x cos   y sin   s  0 ,
(6.3)
52
где  - угол между направлением оси OX и нормалью к лучу (рис. 6.1).
y
s

x
O
R
 ( x, y, z0 )
Рис. 6.1. Схема построения проекции в плоском параллельном пучке
Тогда интенсивность излучения на выходе из объекта, в соответствии с (6.2) может быть
представлена в виде
 

I ( s;  , z 0 )  I 0 exp     ( x, y, z 0 ) ( x cos   y sin   s )dxdy ,
 

(6.4)
где  () - дельта-функция.
Интеграл
p ( s ,  ; z0 ) 
 
   ( x, y, z ) ( x cos  y sin   s)dxdy ,
0
(6.5)
 
стоящий в показателе экспоненты выражения (6.4), называется проекцией объекта в
направлении  . Делая замену      , s  s в выражении (6.5), нетрудно убедиться,
что p( s,  )  p( s,    ) . Кроме того, очевидно, что p( s, ) периодична по  с периодом
2 .
Отметим, что z 0 здесь просто фиксирует плоскость, в которой происходит
построение проекции, и фактически является параметром, определяющим вид
распределения показателя поглощения  в выбранной плоскости. Т.о., формально
выражение (6.5) определяет преобразование исходной двумерной функции  ( x, y ) в
двумерную функцию p( s,  ) путем интегрирования  ( x, y ) вдоль секущих, задаваемых
уравнением (6.3). Это преобразование в литературе известно как прямое преобразование
Радона, а функция p( s,  ) называется радоновским образом функции  ( x, y ) .
Нетрудно вычислить радоновский образ от точечного объекта, заданного функцией
 ( x, y)   ( x  x0 , y  y0 ) :
53
p ( s,  ) 
 
   ( x  x , y  y ) ( x cos  y sin   s)dxdy   ( x
0
0
0
cos   y0 sin   s) .
 
Следовательно, точечный объект в плоскости ( x, y ) превращается в плоскости ( s,  ) в
синусоиду с фазой, определяемой координатами x0 , y 0 .
В качестве второго примера вычислим аналитически преобразование Радона от
функции
 ( x  x1 ) 2  ( y  y1 ) 2 
 ( x  x2 ) 2  ( y  y 2 ) 2 

exp


.
2r12
2r22




 ( x, y)  exp 
Изображение этой функции приведено на рис. 6.2а. Здесь  128  x  128 ,  128  y  128 ,
x1  108 , y1  108 , r1  10 , x2  88 , y2  88 , r2  20 . Ее радоновский образ,
представленный на рис. 6.2б, имеет вид

 ( x1 cos   y1 sin   s ) 2 
 ( x 2 cos   y 2 sin   s ) 2  
p ( s,  )  2 r1 exp 
  r2 exp 
 .
2r12
2r22




 
На рис. 6.2б горизонтальная ось соответствует координате s (  128 2  s  128 2 ), а
вертикальная – координате  ( 0     ).
а
б
Рис. 6.2. Функция (а) и ее радоновский образ (б)
Этим примером подтверждается, что одна проекция не дает достаточных сведений о
внутренней структуре исследуемой области. Например, на проекции, полученной при
   / 4 , оба объекта сливаются, образуя один максимум. Поэтому возникает
естественный вопрос о возможности реконструкции распределения  ( x, y ) по множеству
проекций, полученных при различных направлениях просвечивающего пучка. В
получении ответа на этот вопрос и построении алгоритма обращения преобразования
Радона и заключается задача томографии.
Теорема о центральном сечении
Вычислим одномерный спектр Фурье от проекции p( s, ) по координате s :
54
P( , ) 



p ( s, ) exp( is )ds 




 

 

 

ds exp( is ) 
 dxdy ( x, y) ( x cos  y sin   s) 
 
  dxdy ( x, y)  ds exp( is) ( x cos  y sin   s) 
(6.6)
 

  dxdy ( x, y) exp  i ( x cos  y sin  ) 
 
 M ( cos  ,  sin  ).
Как можно заметить, M ( cos  ,  sin  ) представляет собой двумерный спектр Фурье от
функции  ( x, y ) , вычисленный вдоль прямой x   cos  ,  y   sin  , проходящей через
начало координат в частотной плоскости (  x ,  y ). Тем самым доказана теорема, известная
как теорема о центральном сечении [6.2]:
Одномерный Фурье-образ проекции p( s, ) по переменной s равен сечению
двумерного Фурье-образа функции  ( x, y ) вдоль прямой, проходящей в частотной
области через начало координат под углом  к оси  x .
С другой стороны, функция  ( x, y ) выражается через свой двумерный спектр как
 ( x, y )  (2 )
2
 
  M ( ,
x
y


) exp i ( x x   y y ) d x d y .
 
Вводя в частотной области полярную систему координат (  ,  ), связанную с системой
координат (  x ,  y ) соотношениями
x   cos  ,  y   sin  ,
и делая замену переменных в предыдущем выражении, его можно представить в виде
 ( x, y)  (2 )
2
2

0
0
2

0
0
 d  M ( cos , sin  ) expi ( x cos  y sin  )d ,
или, учитывая (6.6),
 ( x, y)  (2 ) 2  d  P(, ) exp i ( x cos  y sin  )d .
(6.7а)
Из того, что p( s,  )  p( s,    ) , следует, что P( , )  P( ,   ) . Учитывая это,
получим окончательно


0

 ( x, y)  (2 ) 2  d  P(, )  exp i ( x cos   y sin  )d .
(6.7б)
Выражение (6.7б) дает ответ на вопрос о возможности обращения преобразования
Радона по полному набору проекций. Под полным набором подразумеваются проекции
55
для всех 0    0   . Условием обратимости преобразования Радона является
существование внутреннего интеграла в (6.7б). Это условие выполняется, в частности,
если спектр проекций ограничен, т.е. если P( , )  0 при   0 .
Фурье-алгоритм восстановления томограммы
Томограммой называется восстановленное по проекциям изображение
пространственной структуры исследуемого объекта. Теорема о центральном сечении
фактически дает алгоритм восстановления исходной функции  ( x, y ) по набору ее
проекций. Действительно, имея проекции, полученные при различных углах 
( 0     ) и вычислив их одномерные спектры Фурье, мы получаем в частотной области
полный двумерный спектр искомой функции. Вопрос заключается в вычислении
обратного преобразования Фурье от спектра, построенного в полярной системе координат.
На практике проекционные данные имеют дискретный характер, т.к. проекции
получаются для дискретного набора углов  , а их одномерные Фурье-образы
вычисляются посредством дискретного преобразования Фурье. В результате в частотном
пространстве (  x ,  y ) получается картина, показанная на рис. 6.3.
y
P(k ,l )
l
1
M ( xm ,  yn )
a
x
1
k
Рис. 6.3. Одномерные Фурье-образы проекций в двумерном частотном пространстве
Фурье-образы проекций заданы в виде дискретных массивов P(k , l ) в полярной системе
координат, а для вычисления функции  ( x, y ) необходимо знать ее дискретный
двумерный Фурье-образ M ( xm ,  yn ) в узлах решетки, построенной в декартовой системе
координат (показана пунктирными линиями). Поэтому необходимо выполнить пересчет
из полярной решетки в декартову, что осуществляется посредством интерполяции. После
интерполяции обратным дискретным преобразованием Фурье вычисляется дискретный
массив  ( xm , yn ) .
Для обеспечения хорошего качества интерполяции необходимо, чтобы расстояния
между соседними лучами в полярной решетке на всех частотах не превышало шага
декартовой решетки. Следовательно, должно выполняться условие  / L   , где L количество проекций (направлений пучка, при которых регистрируются проекции),  шаг декартовой решетки по  x ,  y . Из этого вытекает требование к количеству проекций:
L   /  .
56
С другой стороны, чтобы по вычисленной на дискретной решетке функции
 ( xm , yn ) можно было восстановить непрерывную функцию  ( x, y ) , интервалы
дискретизации
должны
удовлетворять
критерию
Найквиста,
т.е.
x ,  y

max( x, y )   
( P( , ) является центральным сечением M ( x ,  y ) , поэтому их

верхние граничные частоты совпадают). Поскольку размер исследуемого объекта всегда
ограничен (скажем, кругом радиуса R , см. рис. 6.1), количество отсчетов N в проекции
связано с шагом дискретизации как N  2R /  , из чего, с учетом предыдущего
неравенства, следует, что
2 R
N

(6.8а)
.
Наконец, при дискретном преобразовании Фурье число отсчетов в исходном
массиве равно числу отсчетов в его Фурье-образе, содержащем частоты от   до  ,
2
следовательно  
. Тем самым определяется связь между числом отсчетов N в
N
проекции и количеством проекций:
L
N
2
.
(6.8б)
Из рисунка 6.3 следует, что отсчеты в области низких частот расположены плотнее,
чем в верхних частотах. Это обстоятельство приводит к зависимости процедуры
интерполяции от координат, тем самым существенно усложняя ее. Поэтому в
компьютерных томографах широкое применение нашел другой алгоритм восстановления.
Восстановление томограммы методом свертки и обратного
проецирования
Подставим в (6.7б) вместо P( , ) его представление через проекцию p( s, ) :



0


 ( x, y)  (2 ) 2  d  d  exp i ( x cos  y sin  )  p(s, ) exp( is)ds .
Изменяя порядок интегрирования, получим



0


 ( x, y )  (2 )  2  d  ds p( s, )  d  exp i ( x cos   y sin   s ) 

(6.9)

1

d ds p( s, )q( x cos   y sin   s ),
2 0 
где введено обозначение
q(t ) 
1
2

  exp( it )d .
(6.10)

57
Выражение (6.9) определяет способ восстановления  ( x, y ) непосредственно через
проекции без вычисления спектров. Если внимательно посмотреть на внутренний
интеграл в (6.9), то можно обнаружить, что он имеет вид одномерной свертки:
~
p (t ) 

 p(s, )q(t  s)ds ,

причем t зависит как от угла, под которым получена проекция, так и от координат
восстанавливаемой точки: t  x cos   y sin  . Здесь подстрочный индекс  показывает,
что результат свертки относится к проекции, зарегистрированной под углом  .
p (t ) является результатом фильтрации проекции p( s, ) одномерным
Следовательно, ~
линейным пространственно инвариантным фильтром с импульсным откликом q (s ) .
p (t ) фильтрованной проекцией.
Будем называть ~
Представим (6.9) в виде
 ( x, y) 

1 ~
p ( x cos   y sin  )d .
2 0
Чтобы лучше понять смысл этого выражения, вычислим приближенное значение
интеграла, заменив его суммой
 ( x, y ) 

 M 1 ~
pm ( x cos  m  y sin  m ) ,  
,

M
2 m0
m  m .
Обозначим вклад, вносимый в сумму проекцией, полученной под углом m , как
 ~
 m ( x, y ) 
p ( x cos  m  y sin  m ) ,
и
вычислим
вдоль
прямой
m ( x, y)
2 m
x cosm  y sin m  s  0 , направление которой совпадает с направлением просвечивания
 ~
p ( s ) , т.е. во все
при построении выбранной проекции. Вдоль этой прямой  m ( x, y ) 
2 m
точки, лежащие на ней, данная проекция вносит одинаковый вклад. Она как бы
“размазывается” по плоскости ( x, y ) в направлении просвечивания. Восстановление
 ( x, y ) происходит за счет суммирования всех “размазанных” проекций. Такая процедура
называется обратным проецированием. На рис. 6.4 показаны две “размазанных”
фильтрованных проекции объекта, приведенного на рис. 6.2а (а – полученная при
  3 / 4 , б – при    ) и результат их накопления (в).
а
б
в
Рис. 6.4. Восстановление посредством обратного проецирования фильтрованных
проекций
58
Определенные трудности возникают с фильтрацией проекций. Дело в том, что
импульсный отклик фильтра (6.10) определен через расходящийся интеграл. Обойти эту
трудность при реализации фильтра можно, если учесть, что спектр Фурье проекций
ограничен частотой  . Тогда выражение (6.7б) можно модифицировать следующим
образом
 ( x, y)  (2 )
2


0

 d  P(, )  expi ( x cos  y sin  )W ()d ,
(6.11)
где W ( ) - функция окна, не слишком отличающаяся от 1 в области частот    и
достаточно быстро убывающая до нуля при    . В этом случае импульсный отклик
(6.10) принимает вид
1
q(t ) 
2

  W ( ) exp( it )d .
(6.12а)

Различные функции окна и обсуждение свойств фильтров, построенных на их основе,
можно найти в [6.3]. В частности, импульсный отклик фильтра, построенного с
использованием функции окна
1,   
W ( )  
,
0
,




как нетрудно показать, имеет вид
q(t ) 
(6.12б)
cos t  t sin t  1
2
,
причем
.
q
(
0
)

t 2
2
При переходе к дискретному представлению, при условии, что количество отсчетов в
проекциях равно N  2R /  , а шаг дискретизации равен t  2R / N ,
 1, k  0
2 
k
.
q(k ) 
 (1)  1
, k 0
2 2
2 2
  k
(6.13)
График этого фильтра для N  64 приведен на рис. 6.5.
1
0.5
0
-0.5
-40
-30
-20
-10
0
10
20
30
40
Рис. 6.5. Импульсный отклик фильтра (6.13)
59
Восстановление томограммы методом обратного проецирования и
двумерной фильтрации
Рассмотрим двумерную функцию, полученную обратным проецированием
нефильтрованных проекций
~( x, y) 
1
2

 p( x cos  y sin  , )d .
0

 P( , ) exp is d , то
1
Поскольку p ( s, ) 
2



0

~ ( x, y )  (2 )  2  d  P( , ) exp i ( x cos   y sin  )d 
2

0
0
 (2 )  2  d  P ( , ) exp i ( x cos   y sin  )d
или, учитывая, что, согласно теореме о центральном сечении P( ,  )  M ( cos  ,  sin  )
2

0
0
~( x, y)  (2 ) 2  d  M ( cos  ,  sin  ) exp i ( x cos  y sin  )d .
Переходя в частотной области из полярной системы координат в декартову
посредством преобразования x   cos  ,  y   sin  , окончательно получим
~( x, y)  (2 ) 2
 
1

   y2
2
x
 


M (x ,  y ) exp i( xx  y y ) dx d y .
(6.14)
Отсюда следует, что спектр Фурье функции ~ ( x, y ) , полученной обратным
проецированием нефильтрованных проекций, отличается от спектра искомой функции
 ( x, y ) множителем (x2   y2 )1 / 2 . Поэтому, вводя функцию
 
r ( x, y ) 
 x2   y2 exp i ( x x  y y )d x d y ,

(6.15)
 
можно написать, что
 ( x, y )  (2 )
2
 
  ~( x, y)r ( x  x, y  y)dxdy .
 
Это дает еще один алгоритм восстановления, состоящий в двумерной фильтрации
результата обратного проецирования исходных проекций. Здесь следует иметь в виду, что
выражение (6.15), так же как и (6.10), не может быть применено напрямую для
вычисления импульсного отклика двумерного фильтра в силу расходимости интеграла.
Однако, если спектр  ( x, y ) ограничен, импульсный отклик r ( x, y ) восстанавливающего
фильтра может быть, как и ранее, модифицирован с помощью соответствующей функции
окна W ( x ,  y ) :
60
 
r ( x, y ) 

 x2   y2 exp i ( x x  y y )W ( x ,  y )d x d y .
 
Восстановление томограммы по проекциям, полученным в веерном пучке
При использовании рентгеновского излучения получить параллельный пучок лучей
можно двумя способами. Первый - поместить точечный источник излучения достаточно
далеко от исследуемого объекта, второй – использовать много хорошо коллимированных
источников. И тот и другой способы приводят к большим энергетическим потерям.
Гораздо выгоднее использовать веерный пучок, как это показано на рис. 6.6
y
b
a
O
x
Рис. 6.6.
Рассуждения, аналогичные приведенным выше, позволяют вывести формулу
реконструкции  ( x, y ) и для этого случая. Заметим, однако, что, выбирая
соответствующие лучи из разных пучков, можно построить наборы параллельных лучей,
пересекающих объект в различных направлениях. Так, на рис. 6.6 показаны два пучка
лучей, в которых можно найти пары параллельных лучей. Две таких пары обозначены
буквами a и b. Тогда мы снова приходим к более простому алгоритму реконструкции по
проекциям, полученным в параллельных пучках. Следует только учесть, что теперь длина
пути от источника до приемника в разных лучах различна, и, поскольку излучение
ослабевает обратно пропорционально квадрату расстояния, необходимо провести
предварительную нормировку проекций. Алгоритм реконструкции по проекциям,
полученным в веерных пучках, основанный на перепаковке проекционных данных, можно
найти в [6.3].
Влияние шума в проекционных данных на результаты восстановления
Вернемся снова к решению томографической задачи, полученному методом
свертки и обратного проецирования, и предположим, что проекционные данные содержат
61
аддитивную стационарную случайную компоненту n( s,  ) с нулевым средним значением.
В этом случае результатом восстановления будет функция


1
d ds  p(s, )  n(s, )q( x cos  y sin   s) .
2 0 
Дисперсия ошибки восстановления, обусловленной наличием случайной составляющей,
по определению есть
ˆ ( x, y) 


 2  E ˆ ( x, y)   ( x, y)2 ,


1
где  ( x, y)  Eˆ ( x, y) 
d ds Ep( s, )  n( s, )q( x cos   y sin   s) 
2 0 


1
d ds p( s, )q( x cos   y sin   s) .
2 0 
Предполагая, что p( s, ) и n( s,  ) некоррелированы, получим



0

 2  (2 )  2 E{ d1  n( s1 ,1 )q( x cos 1  y sin 1  s1 )ds1 


0

  d 2  n( s2 , 2 )q( x cos  2  y sin  2  s2 )ds2 } 

 
0 0
 
 (2 )  2   d1d 2
  ds ds q( x cos
1
2
1
 y sin 1  s1 )q( x cos  2  y sin 2  s2 )K n ( s1 , s2 ,1 ,2 ),
где K n ( s1 , s2 ,1 ,2 )  En( s1 ,1 )n( s2 ,2 ) - автоковариационная функция шума.
Обычно шумы в разных проекциях не коррелированы между собой, поэтому, с учетом
стационарности шума,
K n ( s1 , s2 ,1 ,2 )   (2  1 ) K n ( s2  s1 ) .
Поэтому
   (2 )
2
2

 
0
 
 d   ds ds K (s
1
2
n
2
 s1 )q( x cos   y sin   s1 )q( x cos   y sin   s2 ) .
Представляя автоковариационную функцию шума через ее спектр мощности
1
K n ( ) 
2

 S ( ) exp( i )d ,
n

а q (s ) в виде (6.12), и принимая во внимание (1.7), после ряда преобразований получим


 2  (2 )3  d   2W 2 ( )S ( )d 
0


1
8
 W
2
2
2

62
( ) S ( )d .
(6.16)
В частности, для шума с равномерным в интервале   n спектром мощности
и
дисперсией  n2
  n2
,   n

.
S ( )   2 n
 0,    n

Если функция окна выбрана в виде (6.12б) причем    n , то
1 3 n2
,
 
24 2  n
2
(6.17)
т.е. дисперсия ошибки восстановления томограммы растет быстрее, чем увеличивается
ширина окна W ( ) . Поэтому выбор функции окна оказывает существенное влияние на
результат восстановления томограммы, что иллюстрируют рис. 6.7, 6.8.
а
б
в
Рис. 6.7. Фантом (а), его проекции (б) и результат реконструкции методом свертки и
обратного проецирования
На рис. 6.7а показано изображение, ставшее стандартным при изучении алгоритмов
томографической реконструкции по плоским проекциям (так называемый фантом ШеппаЛогана), размером 256  256 элементов. На рис. 6.7б показан набор из 180 параллельных
63
проекций, длина которых совпадает с длиной диагонали исходного изображения. На рис.
6.7в показан фантом, восстановленный методом свертки и обратного проецирования с
использованием окна (6.12б), причем частота  соответствует половине частоты
дискретизации проекций. Следует отметить, что здесь в виде муара достаточно заметно
проявляется недостаток такого окна, обусловленный взаимодействием колебаний
импульсного отклика (6.13) с резкими перепадами сигнала в проекциях. На рис. 6.8а
приведены зашумленные некоррелированным шумом проекционные данные. Уровень
шума достаточно мал, его среднеквадратичное значение  n составляет 0.01  p , где  p разница между максимальным и минимальным значениями сигнала в проекциях. Тем не
менее в восстановленном прежним способом изображении (рис. 6.8б) случайная
компонента достаточно хорошо заметна. Уменьшение ширины окна вдвое приводит к
снижению уровня шума (рис. 6.8в), но несколько снижает четкость резких перепадов
яркости.
а
б
в
г
Рис. 6.8. Реконструкция методом свертки и обратного проецирования по зашумленным
проекционным данным
На рис. 6.8г приведен результат восстановления с использованием окна Хенна, имеющего
вид
64
 

0.51  cos  ,   
W ( )   
.


0,
 

Использование такого окна тоже приводит к снижению резкости перепадов, однако шум
подавляется лучше, кроме того, при этом не появляется колебаний на перепадах, которые
хорошо заметны на рис. 6.8в.
Вопросы
1. Что понимается под изображением внутренней структуры объекта?
2. Как формируется набор проекций для описания внутренней структуры объекта?
3. Что такое радоновский образ?
4. Как связаны Фурье-спектры проекций с Фурье-спектром объекта?
5. В чем состоит процедура обратного проецирования?
6. Как выбираются интервалы дискретизации при получении проекций?
7. Как влияет шум в проекциях результат восстановления томограммы?
Литература
1. Яворский Б.М., Детлаф А.А. Справочник по физике. М. “Наука”, 1990
2. Троицкий И.Н. Статистическая теория томографии. М., “Радио и связь”, 1989
3. Хермен Г. Восстановление изображений по проекциям. М., “Мир”, 1983
65
7. Восстановление трехмерных поверхностей по стереопаре
В обычном изображении трехмерного пространства информация о расстоянии до
различных элементов сцены проявляется только в виде косвенных признаков: через
относительные размеры объектов, затенение одних объектов другими, различной
освещенностью и т.д. Один из способов получения информации о глубине состоит в
регистрации нескольких изображений сцены под различными ракурсами. В этом случае
точки сцены дают изображения, относительное положение которых зависит от расстояния
до точки наблюдения. Оказывается, сопоставляя эти изображения, в ряде случаев можно
реконструировать трехмерную структуру сцены. Основы теории определения положения
объектов в пространстве по их перспективным изображениям были положены еще в
средние века, а в XVIII веке перспективные рисунки стали использоваться в
топографических целях. Появление фотографии положило начало фотограмметрии –
науке об определении формы, размеров и пространственного положения различных
объектов посредством измерения их фотографических изображений. В начале XX века
был изобретен стереокомпаратор – прибор для измерения пространственного положения
объектов по паре перекрывающихся фотографических изображений. Интерес к методам
восстановления трехмерной структуры сцен по их плоским изображениям возобновился в
середине XX столетия в связи с исследованиями в области искусственного интеллекта, а
практическая потребность в робототехнических устройствах, способных ориентироваться
в трехмерном пространстве, постоянно поддерживает этот интерес в последние
десятилетия.
В этой главе мы рассмотрим процесс формирования изображений, соотношения
между координатами точек сцены и их изображениями и методы оценивания параметров
системы регистрации и трехмерной структуры сцены.
Модель регистрирующей камеры
Строго говоря, различные точки пространства предметов отображаются
оптической системой камеры в пространстве изображений на различных расстояниях от
фокальной плоскости. Однако, если расстояние между камерой и наблюдаемой сценой
значительно превышает фокусное расстояние оптической системы, можно считать, что
изображение строится в ее фокальной плоскости. В этом случае можно воспользоваться
проективной моделью камеры, в которой изображение трехмерного объекта получается
проектированием его в фокальную плоскость (плоскость изображения) через
единственную точку, называемую оптическим центром. Прямая линия, перпендикулярная
плоскости изображения и проходящая через эту точку, называется оптической осью
камеры, а точка пересечения оптической оси с плоскостью изображения – главной точкой.
Определим в трехмерном пространстве ортогональную правую систему координат
OXYZ, начало которой совпадает с оптическим центром, ось OZ - с оптической осью
камеры. Такая система называется стандартной системой координат камеры. Пусть
плоскость изображения находится на расстоянии f от оптического центра. В этой
плоскости зададим систему координат oxy с началом в главной точке и осями ox и oy,
параллельными осям OX и OY соответственно (рис. 7.1). Легко убедиться, что в
стандартной системе координат проекцией точки трехмерного пространства M с
координатами ( X , Y , Z ) является точка m в плоскости изображения с координатами
( x, y ) , причем
x  fX / Z , y  fY / Z .
66
Рис.7.1. Система координат проективной камеры
Для полного описания камеры следует учесть, что для регистрации изображения в
плоскости изображения камеры помещается какой-либо фотоприемник. В фотокамере это
фотопластинка или фотопленка, в видеокамеру это видикон или фотоприемная
полупроводниковая матрица, в некоторых специальных камерах – электромеханический
сканер. В общем случае измерение координат в фотоприемнике осуществляется в
единицах, отличных от единиц, задающих координаты в стандартной системе. Например,
если используется матричный фотоприемник, его естественными координатами являются
номер строки и номер столбца фотоприемной ячейки. Поэтому для полного описания
камеры необходимо выразить координаты точки m
в естественных единицах
фотоприемника. В достаточно общем для любых фотоприемников виде (рис. 7.1) это
может выглядеть как
u  x / w  u0 , v  y / h  v0 ,
где (u 0 , v0 ) - координаты главной точки относительно начала координат фотоприемника
(в естественных координатах фотоприемника);
w и h - масштабы вдоль осей ox и oy (например, расстояния между ячейками
матричного фотоприемника вдоль строк и столбцов).
В новой системе координаты проекции точки m примут вид
u
fX
fY
 u0 , v 
 v0 .
wZ
hZ
(7.1)
Для последующего изложения введем трехмерный вектор M  ( X ,Y , Z )T ,
соответствующий точке M , и двумерный вектор m  ( x, y )T , соответствующий точке m .
Определим также вектор однородных внутренних координат камеры v  (u, v,1)T .
67
Используя эти обозначения, соотношения (7.1) можно представить в компактной
векторно-матричной записи:
Zv  AM ,
(7.2)
0
u0 
f /w

где A  0
f / h v0  - матрица, известная под названием матрицы внутренних

 0
0
1 
параметров камеры, поскольку она содержит только параметры оптической системы и
фотоприемника камеры.
Связь между различными системами координат
В общем случае трехмерные координаты точки могут быть заданы в системе, не
совпадающей со стандартной системой координат камеры (назовем ее глобальной). Пусть
OXYZ – глобальная система координат, а O' X' Y' Z' - стандартная система координат
камеры. Переход от системы OXYZ к системе O' X' Y' Z' можно осуществить поворотом
координатных осей к системе OXYZ и последующим смещением начала координат.
Тогда связь между координатами точки M в глобальной и стандартной системе может
быть представлена как
M  RM  t ,
(7.3)
где M и M  - векторы пространственных координат точки M в глобальной и
стандартной системах, соответственно; R - матрица размерности 3 3 , описывающая
поворот стандартной системы координат относительно глобальной; компонентами
матрицы являются направляющие косинусы осей глобальной системы в стандартной
системе координат ; t - трехмерный вектор смещения начала координат глобальной
системы относительно начала координат стандартной.
Рис.7.2. Переход от глобальной системы координат к стандартной системе координат
камеры.
На рис. 7.2. схематически показано преобразование координат. Здесь  ,  и  углы, образованные осью OX  с осями OX , OY и OZ соответственно. Элементы
68
первой строки матрицы R [7.1, п.14.10] содержат косинусы этих углов: r11  cos ,
r12  cos  , r13  cos  . Аналогично, вторая и третья строки матрицы содержат косинусы
углов, образованных соответственно осями OY  и OZ с осями глобальной системы
координат.
Особенность матрицы R состоит в том, что она зависит только от трех
параметров, поскольку все девять ее элементов связаны шестью уравнениями связи и,
следовательно, не являются независимыми. Обозначив строки матрицы в виде векторов
r1T , r2T и r3T , эти уравнения можно представить в виде:
r1T r1  1 , r2T r2  1 , r3T r3  1 , r1T r2  0 , r1T r3  0 , r2T r3  0 ,
(7.4)
Уравнения (7.4) являются условиями взаимной ортогональности векторов ri . Матрица,
построенная из таких векторов, называется ортогональной. Для ортогональной матрицы
справедливо соотношение R 1  R T . Условие взаимной ортогональности векторов ri в
трехмерном пространстве можно выразить в другой удобной форме, которая понадобится
нам позже:
r3  (r1  r2 ) , r2  (r3  r1 ) , r1  (r2  r3 ) .
(7.5)
Верхний знак соответствует случаю, когда матрица R представляет преобразование, не
изменяющее взаимной ориентации осей системы, а нижний – преобразование,
изменяющее правую систему координат на левую и наоборот.
Смысл вектора t  (t x , t y , t z )T ясен непосредственно из рисунка.
Стереоскопическая система
Рассмотрим ситуацию, когда две камеры, находящиеся в разных точках,
регистрируют одну и ту же сцену. Пара изображений, получаемых при этом, называется
стереопарой. Обратимся сначала к простейшему случаю. Пусть одинаковые камеры
расположены так, что их оптические оси параллельны, а прямая, проходящая через
оптические центры, перпендикулярна оптическим осям (эта прямая называется базовой
линией, а ее отрезок, заключенный между оптическими центрами – базой). Положим
длину базы равной b . Выберем такую глобальную систему координат, начало которой O
расположено на базовой линии посередине между оптическими центрами камер, ось OZ
параллельна оптическим осям, а ось OX направлена вдоль базовой линии (рис. 7.3).
Пусть начала координат в плоскостях изображений камер совпадают с главными точками
( u 0  v0  0 ), а единицы измерения координат в глобальной системе и в плоскостях
изображения камер одинаковы ( w  h  1 ).
Выберем точку M с глобальными координатами ( X , Y , Z ) . Координаты ее
проекции в плоскости изображения первой (левой) камеры обозначим через ( x , y ) , а в
плоскости изображения второй (правой) камеры – через ( x , y ) . (Проекции одной и той
же точки M в плоскостях изображений разных камер называются сопряженными
точками.) Нетрудно проверить, что
x  f ( X  b / 2) / Z , x  f ( X  b / 2) / Z , y   y   fY / Z .
Заметим, что в направлении, перпендикулярном направлению базовой линии,
координаты сопряженных точек ( y -координаты) совпадают. Это обстоятельство имеет
большое значение при автоматизированном поиске сопряженных точек на стереопаре,
69
позволяя существенно сократить размеры зоны поиска. Из первых двух соотношений
следует, что
Z  fb /( x  x) .
(7.6)
Рис.7.3. Простейшая стереоскопическая система
Это означает, что, зная геометрию съемки и выполнив измерения координат проекций
одной и той же точки в плоскостях изображения камер, можно вычислить глубину
(координату Z ) этой точки. Более того, полученные соотношения позволяют вычислить
полностью трехмерные координаты точки:
X b
( x  x)
( y   y )
, Y b
.
2( x  x)
2( x  x)
(7.7)
Разность d  x  x называется диспарантностью. Из (7.6) и (7.7) следует, что
ошибки в координатах проекций сильнее сказываются при малой диспарантности и,
следовательно, расстояния до далеких объектов измеряются менее точно, чем до близких.
С другой стороны, при фиксированной дальности диспарантность пропорциональна
размеру базы, следовательно, точность измерений повышается с увеличением базы. Далее
мы, однако, увидим, что увеличение базы может привести к ошибкам, которые не
компенсируются увеличением точности измерений.
Теперь рассмотрим общий случай, когда оптические оси камер не параллельны, и
направление смещения оптического центра одной камеры относительно оптического
центра другой произвольно (рис.7.4). Введем для каждой камеры свою стандартную
систему координат, так как это было сделано в разделе 7.1. Пусть первой камере
соответствует система координат OXYZ , а второй – OX Y Z (рис. 7.4). Пусть
вектор M  ( X ,Y , Z )T характеризует координаты некоторой точки M трехмерного
пространства в системе первой камеры, а вектор M( X ,Y , Z )T - в системе второй.
70
Переход от глобальной системы координат к стандартным системам первой и второй
камер осуществляется с помощью преобразований M  RM  t и M  RM  t
соответственно. Учитывая это, легко показать, что связь между векторами M  и M 
задается соотношением
M  RM  t ,
(7.8)
где R  RRT - ортогональная матрица, описывающая ориентацию системы координат
второй камеры относительно первой, а t  R R T t   t  - вектор трансляции,
определяющий положение оптического центра второй камеры в системе координат
первой. Матрицу R и вектор t принято называть внешними параметрами системы
регистрации.
Рис. 7.4. Система двух произвольно ориентированных камер
Используя (7.2) из (7.8) можно получить соотношение, связывающее координаты
сопряженных точек (в координатах фотоприемника) :
Z A 21 v  Z RA11 v  t ,
(7.9)
где (см. (7.2))
v  A1M / Z  ,
v  A 2M / Z  .
(7.10)
(Предполагается, что регистрация может выполняться двумя различными камерами,
внутренние параметры которых определяются матрицами A1 и A 2 ).
Уравнения (7.8) и (7.2) позволяют оценить трехмерные координаты точки M в
системе координат любой из камер, если известны внешние параметры системы камер и
удается измерить координаты изображений этой точки в плоскостях изображения камер
71
(т.е. оценить векторы v и v ). Поскольку компоненты векторов v и v могут содержать
ошибки, реально соотношение (7.9) принимает вид:
Z A 21 v  Z RA11 v  t  e ,
где e - вектор невязки, обусловленный наличием ошибок измерений.
Учитывая это, для оценивания неизвестных Z  и Z  можно воспользоваться
методом наименьших квадратов (МНК), суть которого состоит в том, чтобы найти такие
оценки Z  и Z  , которые бы минимизировали сумму квадратов компонент (норму)
вектора невязки: J1 ( Z , Z )  eT e . Приравнивая частные производные J1 по Z  и Z  нулю
(условие достижения экстремума) получим систему, состоящую из двух скалярных
уравнений
Z vT A1T A11 v  Z vT A1T R T A 21 v  vT A1T R T t  0
,
 Z vT A1T R T A 21 v  Z vT A 2T A 21 v  vT A 2T t  0 
разрешая которую относительно Z  и Z  получим
1
 vT A1T R T A 21 v  vT A1T R T 
 Z    vT A1T A11 v

 
t .
Z   T T T 1 
vT A 2T A 21 v   vT A 2T 
   v A1 R A 2 v
(7.11)
Теперь, используя (7.2), можно вычислить вектор трехмерных координат точки M в
системе любой из камер:
M  Z A11 v ,

M  Z A 1
2 v .
(7.12)
Из всего изложенного выше следует, что для оценивания трехмерных координат
некоторой точки по стереопаре необходимо: а) знать внутренние параметры камер (задача
калибровки), б) знать параметры взаимного расположения камер (задача взаимного
ориентирования), в) найти и определить на изображениях координаты соответствующих
данной точке сопряженных точек (задача поиска сопряженных точек).
Калибровка камеры
Заметим сразу, что поскольку фокусное расстояние f и масштабные
коэффициенты w и h входят в матрицу A только в комбинациях f / w и f / h , то
раздельно оценить все три этих параметра невозможно. Введем новые параметры
 u  f / w и  v  f / h , которые и будут подлежать оцениванию.
Пусть камера регистрирует сцену, содержащую N опорных точек, и трехмерные
координаты точек известны в глобальной системе координат. Задача состоит в том, чтобы
по трехмерным координатам опорных точек ( X i ,Yi , Z i ) и координатам их проекций в
плоскости изображений камеры (ui , vi ) , i  1, N оценить элементы матрицы A .
Если положение камеры относительно этой системы известно (т.е. известны
матрица R и вектор t в выражении (7.3)), можно сразу пересчитать координаты опорных
точек в стандартную систему камеры и для оценивания внутренних параметров
f / w и f / h u и v
воспользоваться соотношениями (7.1), подставив вместо
соответственно. Перепишем (7.1) в виде
72
 vY  v0 Z  vZ
 u X  u0 Z  uZ ,
Для N опорных точек получим две системы, состоящие из N
каждая, относительно неизвестных u0 ,  u и v0 ,  v :
линейных уравнений
Bu au  w u ,
Bvav  w v ,
(7.13)
 X1
 .
где B u  
 .

X N
Z1 
. 
,
. 

ZN 
 Y1 Z1 
 .
. 

,
Bv 
 .
. 


YN Z N 
 
au   u  ,
 u0 
 u1 Z1 
 . 
,
wu  
 . 


u N Z N 
 
av   v  ,
 v0 
 v1 Z1 
 . 
.
wv  
 . 


v N Z N 
Очевидно, достаточно двух опорных точек, чтобы получить оценки внутренних
параметров камеры:
Z1 Z 2 (u1  u 2 )
Z Z (v  v )
, v  1 2 1 2 ,
X 1 Z 2  X 2 Z1
Y1 Z 2  Y2 Z1
X Z u  X 1Z 2u 2
Y Z v Y Z v
u0  2 1 1
v0  2 1 1 1 2 2 .
,
X 2 Z1  X 1 Z 2
Y2 Z1  Y1 Z 2
u 
Обратим внимание на необходимость выполнения условий X 1Z 2  X 2 Z1  0 и
Y1Z 2  Y2 Z1  0 , которые формально выражают требование, чтобы в плоскости
изображения камеры проекции опорных точек не лежали на прямых, параллельных осям
координат.
Для увеличения точности оценок внутренних параметров следует использовать
большее количество опорных точек. Системы (7.13) в этом случае становятся
переопределенными, и для их решения можно применить МНК. Минимизируя норму
вектора невязки e  Ba  w получим оценки внутренних параметров
a u  (Bu Bu ) 1 Bu w u ,
T
T
a v  (B v B v ) 1 B v w v .
T
T
Рассмотрим теперь задачу калибровки в более общей постановке. Пусть
неизвестны не только матрица A , но и положение камеры относительно глобальной
системы координат (т.е. матрица R и вектор t в выражении (7.3)). Такая постановка
обусловлена тем, что технически довольно сложно выполнить точные измерения
положения камеры и особенно ее ориентации относительно произвольной системы
~
координат. Используя (7.2) и (7.3) и вводя вектор M  ( X , Y , Z ,1) , связь между
глобальными координатами опорной точки M и координатами ее изображения можно
представить в виде
73
 u r1T  u 0 r3T

Z v   ARM  t   v r2T  v0 r3T

r3T

 u t x  u0t z 
~
~
 v t y  v0 t z  M  CM .
(7.14)


tz
Матрица C имеет размер 3 4 и называется калибровочной. Обозначим
c1T  (c11 , c12 , c13 )T   u r1T  u 0 r3T ,
c14   u t x  u 0 t z ,
cT2  (c21 , c22 , c23 )T   v r2T  v0 r3T ,
c24   v t y  v0 t z ,
c T3  (c31 , c32 , c33 ) T  r3T ,
c34  t z .
(7.15)
Отметим два важных свойства этой матрицы, которые легко получить из (7.15), учитывая
(7.4) и (7.5):
c T3 c 3  1 ,
(c1  c 3 )T (c 2  c 3 )  0 .
(7.16)
Оказывается, что если элементы калибровочной матрицы cij известны, через них
можно вычислить матрицы A , R и вектор t . Действительно, учитывая (7.4), легко
показать, что
u 0  c1T c 3 ,
v0  cT2 c 3 ,
 u  c1  c 3 ,
 v  c 2  c3 .
(7.17)
Кроме того, непосредственно из (7.14) следует, что
t z  c34 ,
r3T  c T3 ,
t x  (c14  u0t z ) /  u ,
t y  (c24  v0 t z ) /  v ,
(7.18)
r  (c  u c ) /  u ,
T
1
T
1
T
0 3
r2T  (cT2  v0 cT3 ) /  v .
Задача калибровки, следовательно, сводится к предварительному оцениванию элементов
матрицы C .
Рассмотрим сначала линейный метод оценивания матрицы C . Запишем матричное
уравнение (7.14) как систему трех обычных уравнений
Z u   c11 X  c12Y  c13 Z  c14 ,
Z v  c21 X  c22Y  c23 Z  c24 ,
Z   c31 X  c32Y  c33 Z  c34 ,
или, подставляя в два первых уравнения значение Z  из третьего,
74
c11 X  c12Y  c13Z  c14  c31 Xu  c32Yu  c33 Zu  c34u  0 ,
c21 X  c22Y  c23Z  c24  c31 Xv  c32Yv  c33 Zv  c34v  0 .
Зная координаты ( X i ,Yi , Z i ) N опорных точек в трехмерном пространстве и координаты
их проекций (ui , vi ) в плоскости изображения камеры, получим однородную систему из
2 N линейных уравнений относительно 12 неизвестных элементов калибровочной
матрицы cij :
c11 X 1  c12Y1  c13 Z1  c14  c31 X 1u1  c32Y1u1  c33 Z1u1  c34u1  0
c21 X 1  c22Y1  c23 Z1  c24  c31 X 1v1  c32Y1v1  c33 Z1v1  c34v1  0




..........................................
 .
..........................................





c11 X N  c12YN  c13 Z N  c14  c31 X N u N  c32YN u N  c33 Z N u N  c34u N  0

c21 X N  c22YN  c23 Z N  c24  c31 X N vN  c32YN vN  c33 Z N vN  c34vN  0
(7.19)
Представим эту систему в матрично-векторном виде:
Lc  0 ,
(7.20)
где
0
0 0  u1 X 1
 u1Y1
 u1Z1
 X 1 Y1 Z1 1 0
 0
0
0 0 X 1 Y1 Z1 1  v1 X 1
 v1Y1
 v1Z1

 .
.
.
.
.
.
.
.
.
.
.
L
.
.
.
.
.
.
.
.
.
.
 .
 X N YN Z N 1 0
0
0 0  u N X N  u N YN  u N Z N

0
0 0 X N YN Z N 1  vN X N  vN YN  vN Z N
 0
c  (c11 , c12 , c13 , c14 , c21 , c22 , c23 , c24 , c31 , c32 , c33 , c34 ) T , 0  (0,0,...,0,0) T .

 u1 
 v1 
. 

. 
 u N 

 vN 
2N
Сначала рассмотрим некоторые общие особенности этой системы. Очевидно, что
одним из решений этой системы является тривиальное c  0 , которое не имеет
физического смысла. Известно [7.2, с.153], что если однородная линейная система имеет
хотя бы одно ненулевое решение, то она имеет бесконечное множество решений, причем,
если ĉ - решение, то и aĉ , где a - произвольное число, тоже является решением. Здесь
необходимо различать два случая.
Первый – когда ранг матрицы L на единицу меньше размера вектора c . Тогда
существует только одно (с точностью до произвольного скалярного множителя) решение.
Именно этот случай и представляет практический интерес. Для реализации этого условия
необходимо (но недостаточно), чтобы количество уравнений в (7.20) было не менее 11,
следовательно, количество опорных точек должно быть не менее шести. Ограничить
множество решений можно, воспользовавшись первым из условий (7.16). Действительно,
определив некоторое решение ĉ , в качестве оценки компонент калибровочной матрицы
выберем c  acˆ такое, чтобы (acˆ32 ) 2  (acˆ32 ) 2  (acˆ33 ) 2  1. Такая нормировка определяет
калибровочную матрицу с точностью до знака. Выбрать правильный знак матрицы можно,
75
например, зная, с какой стороны от плоскости OXY глобальной системы координат
находится камера, и учитывая первое из соотношений (7.18). Знак c34 должен совпадать
со знаком компоненты t z вектора трансляции.
Второй случай реализуется, если ранг L меньше размера вектора c на два и более.
Здесь может существовать множество различных решений системы, среди которых
осуществить правильный выбор без привлечения дополнительных данных невозможно.
Показано [7.3], что такая ситуация возникает, в частности, если все опорные точки лежат в
одной плоскости. Чтобы избежать этой ситуации, в качестве тестового объекта часто
используют объект, приведенный на рис. 7.5.
Рис.7.5. Калибровочный объект
Рассмотрим теперь непосредственно метод решения системы (7.20). Обычно,
чтобы уменьшить влияние ошибок измерений трехмерных координат опорных точек и
координат их изображений в камере, используют больше, чем шесть опорных точек.
Тогда система (7.20) становится переопределенной. Кроме того, как и ранее, из-за ошибок
в измерениях координат реально система (7.20) принимает вид
Lc  e ,
где e , как и выше, - неизвестный вектор невязки, обусловленный наличием ошибок
измерений.
В этой ситуации можно снова воспользоваться МНК, согласно которому в качестве
оценки вектора c следует принять такой, который минимизирует значение функционала
J 2  eT e  cT LT Lc при условии c T3 c 3  1 (см.(7.16)). Поскольку функционал J 2
представляет собой квадратичную форму с неотрицательно определенной симметричной
матрицей LT L , то минимума по c при условии c T c  0 он достигает, если c собственный вектор матрицы LT L , соответствующий ее минимальному собственному
числу min [7.4, с.64]. Заметим, что J 2 min  min . (Собственным вектором матрицы A
76
называется вектор b , который удовлетворяет уравнению Ab  b , где  - скалярный
множитель, называемый собственным числом матрицы A ).
Другой подход к оцениванию матрицы C основан на минимизации расстояний
между измеренными проекциями опорных точек и вычисленными в соответствии с (7.14).
Определим величину
N
 c X c Y c Z c

c X c Y c Z c
E   ( 11 i 12 i 13 i 14  ui ) 2  ( 21 i 22 i 23 i 24  vi ) 2  ,
c31 X i  c32Yi  c33 Z i  c34
i 1  c31 X i  c32Yi  c33 Z i  c34

которая представляет сумму квадратов этих расстояний, и минимизируем ее по c с
учетом ограничений (7.16). Решить эту задачу можно посредством методов условной
минимизации [7.5, гл.VI], изложение которых выходит за рамки данного учебника.
Следует отметить только, что такой подход обычно дает результаты оценивания, более
устойчивые к ошибкам измерений, чем рассмотренный выше линейный.
Взаимное ориентирование
В предыдущем параграфе показано, как с помощью тестовой сцены не только
оценить внутренние параметры камеры, но и определить ее положение относительно
системы координат, в которой задана тестовая сцена. Последнее позволяет нам,
откалибровав две камеры по одной тестовой сцене, определить их взаимное положение
(см. (7.8)). Однако если внутренние параметры камер определены их конструкцией и
могут считаться постоянными, то взаимное положение камер во многих практических
случаях может изменяться в процессе регистрации сцены. В связи с этим возникает задача
взаимного ориентирования, не предполагающая наличия тестовой сцены.
Рассмотрим снова пару камер, внутренние параметры которых известны, но
t ). Умножив обе части
неизвестны внешние параметры (матрица R и вектор
выражения (7.8) слева сначала векторно на t , а затем скалярно на M  , получим
MT (t  RM)  0 .
Это соотношение формально выражает тот факт, что векторы M  , M  и t лежат в одной
плоскости, проходящей через три точки: оптические центры камер O и O и точку
наблюдения M . Выражая M через v из (7.10) получим:
vT A 2 T (t  RA11 v)  0
(7.21)
или, учитывая свойства смешанного произведения векторов,
( vT A 2 T  RA11 v)T t  0 .
(7.22)
Эквивалентные соотношения (7.21) и (7.22) являются основой для оценивания матрицы
R и вектора t . Предположим, что известны координаты n пар сопряженных точек и,
соответственно, n пар векторов vi и v i i  1, 2, ..., n .
R и t , использующий (7.22). Так как это
Рассмотрим метод оценивания
соотношение справедливо для любой пары сопряженных точек, мы имеем систему из n
уравнений относительно неизвестных R и t , которую можно представить в виде:
77
 ( v1T A 2 T  RA11 v1 )T 


...................
B n t  0 , где B n  
.
T

T

1
T
( v A  RA v ) 
1
n
 n 2

(7.23)
Система (7.23) является однородной линейной по t . Это означает, что вектор трасляции
можно оценить только с точностью до постоянного множителя. Вводя условие
2
нормировки t  1 , количество возможных решений можно ограничить двумя,
отличающимися знаком. Вопрос о выборе знака будет рассмотрен позже. Система (7.23)
содержит пять неизвестных, так как матрица R в силу условий нормировки и
ортогональности зависит от трех параметров, а вектор t с учетом введенной нормировки
– от двух. Поэтому число уравнений в системе, следовательно и число пар известных
сопряженных точек n должно быть не менее пяти.
Поскольку на практике в матрицу B n входят не точные значения координат
сопряженных точек, а результаты их измерений, которые могут содержать ошибки,
реально система (7.23) имеет ненулевую правую часть, т.е.
Bnt  e ,
где e , как и выше, - вектор невязки, обусловленный наличием ошибок измерений.
Согласно МНК в качестве оценок матрицы вращения и вектора трансляции следует
t , которые минимизируют значения функционала
R
выбрать такие
и
2
T
T T
J 2 (R, t )  e e  t B n B n t . Как упоминалось ранее, при условии t  1 квадратичная форма
t T B Tn B n t достигает минимума J 2  min по t ( min - минимальное собственное число
матрицы B Tn B n ), если t - собственный вектор матрицы, соответствующий min . Поэтому
процедуру оценивания R и t можно разбить на два этапа. На первом находится матрица
R , минимизирующая min . На втором оценивается собственный вектор матрицы B Tn B n ,
соответствующий  min . Существует множество алгоритмов и их программных реализаций
для вычисления собственных векторов, поэтому второй этап не вызывает трудностей.
Значительно более сложной задачей является задача оценивания матрицы R . Один
из возможных алгоритмов состоит в следующем [7.6]. Известно [7.1, п.14.10], что матрица
R может быть представлена в виде R  R x ( x )R y ( y )R z ( z ) , где
0
1

R x  0 cos  x
0 sin  x
 cos  y



 sin  x  , R y   0
 sin  y
cos  x 

0
cos z
0 sin  y 


1
0  , R z  sin  z

0 cos  y 
 0
 sin  z
cos z
0
0
0 .

1
Углы  x ,  y и  z и есть те три неизвестных параметра, от которых зависит матрица R .
На практике всегда известен диапазон, в котором они могут лежать. Выполняя в этом
диапазоне полный перебор по всем углам с достаточно грубым шагом (например, 1 )
можно приблизиться к значениям, удовлетворяющим требованиям минимизации
функционала J 2 по R . Затем в окрестности этих значений для уточнения положения
минимума можно воспользоваться одним из известных методов минимизации [7.5, гл.V]
(например, наискорейшего спуска, Ньютона, Маркуардта).
Наконец, получив оценки R и t , можно, используя (7.11), оценить и Z координаты наблюдаемых точек. Из способа задания систем координат (см. рис.7.4)
78
следует, что Z  и Z  должны быть положительными. Этим условием и определяется
выбор правильного знака вектора трансляции t .
В заключение необходимо сказать, что развитием темы взаимного ориентирования
является задача самокалибровки системы камер, целью которой является оценивание как
внутренних так и внешних параметров. Не останавливаясь на этой задаче подробно,
отметим только, что в системе, состоящей из двух, даже одинаковых, камер, данных для
самокалибровки недостаточно. Добавление третьей камеры с теми же внутренними
параметрами делает самокалибровку возможной. Подробное исследование этого вопроса
можно найти в [7.7].
Отметим, что задача определения взаимного положения камер может иметь и
другую трактовку. Предположим, что движущаяся камера непрерывно регистрирует
некоторую сцену. Тогда, анализируя последовательность изображений и решая эту задачу,
можно определить характер движения камеры в пространстве.
Поиск сопряженных точек
Центральной проблемой компьютерного стереозрения является поиск
сопряженных точек. Задача автоматизированного поиска сопряженных точек состоит в
следующем: на одном из изображений выбрана точка m , являющаяся проекцией
некоторой точки M трехмерного пространства, необходимо на втором изображении
найти точку m – проекцию той же точки. Достаточно очевидно, что фактически при
решении этой задачи речь идет об отождествлении не отдельных точек, а фрагментов
изображений, лежащих в окрестностях этих точек. Здесь возникает два вопроса. Первый –
если на одном изображении указана точка, где на втором изображении искать
сопряженную? Второй – что является критерием «похожести» фрагментов?
Оказывается, на первый вопрос можно дать достаточно строгий ответ. Обратимся к
соотношению (7.21). Известно [7.8, Приложение], что векторное произведение a  b
можно представить как [a] b , где матрица [a] имеет вид:
 0

[a ]   a z
 a y

 az
0
ax
ay 

 ax  .
0 
Тогда (7.21) можно представить как
vT Fv  0
(7.24)
или
vT F T v  0 ,
где
F  A 2 T [t ] RA11 .
(7.25)
С другой стороны, любая прямая линия на плоскости может быть задана
уравнением ax  by  c  0 или, в векторном виде, a T m  0 , где m  ( x, y,1) , a  (a, b.c) .
Сравнивая уравнение прямой с (7.24) и с (7.25) приходим к выводу, что (7.24) задает в
плоскости изображения первой камеры прямую
a T v   0
(7.26)
с вектором коэффициентов a  F T v  ,
79
а в плоскости изображения второй камеры - прямую
aT v   0
(7.27)
с вектором коэффициентов a  Fv .
Это значит, что если в плоскости изображения первой камеры указана точка
с вектором внутренних координат v  , то сопряженная точка в плоскости изображения
второй камеры может лежать только на прямой, заданной уравнением (7.26). Аналогичное
правило справедливо и для точек, заданных в плоскости изображения второй камеры.
Этот результат имеет наглядную геометрическую иллюстрацию (рис.7.6).
Рис. 7.6. Эпиполярные линии
Оптические центры камер O' и O" и наблюдаемая точка M образуют плоскость
P , которая пересекает плоскости изображения камер по прямым e' m' и e"m" , где точка e'
является изображением оптического центра O" второй камеры в плоскости первой, а e" изображением центра O' в плоскости второй. С другой стороны, если задана точка m' , то
точка M трехмерного пространства может лежать только на прямой, проходящей через
m' и оптический центр O' . Следовательно, ее проекция в плоскости изображения второй
камеры должна лежать в плоскости P , лежащей на этой прямой и оптическом центре C"
, а значит, на линии пересечения плоскости P и плоскости изображения второй камеры.
Линии пересечения плоскости P с плоскостями изображений камер называются
эпиполярными линиями.
Практическая ценность полученного результата заключается в том, что его
использование при поиске сопряженных точек позволяет существенно сократить размер
зоны поиска, выполняя поиск не на всем изображении, а только вдоль эпиполярной линии,
и тем самым снизить вероятность ложной идентификации фрагментов.
В отличие от рассмотренных ранее вопросов, сопоставление окрестностей
сопряженных точек не поддается строгой формализации, поскольку в его основе лежит
проблема идентификации по изображениям фрагментов реального трехмерного мира,
которые с трудом поддаются адекватному формальному описанию. Возникающие при
80
съемке и зависящие от ракурса проективные и яркостные искажения приводят к тому, что
в изображениях одних и тех же участков сцены, снятых под разными ракурсами, могут
появиться значительные отличия. Принципиально важно то, что эти отличия зависят не
только от геометрии съемки, но и от геометрических и физических характеристик самой
сцены. Расположение источника света по отношению к поверхности сцены влияет на
распределение освещенности. Положение элементов сцены, их отражательные и
рассеивающие свойства определяют количество энергии, попадающей в объективы камер,
а следовательно, и локальные отличия в яркости сопряженных фрагментов изображений.
На рис.7.7 схематично показаны некоторые причины возникновения различий в
изображениях. Пунктиром показаны индикатрисы излучения (рассеяния) в точках A и B
наблюдаемой поверхности.
Видно, что интенсивность излучения из точки A в направлении левой камеры (с
оптическим центром C ) больше, чем в направлении правой камеры (с оптическим
центром C ). Точка B , наоборот, излучает в камеру C слабее, чем в камеру C .
Жирными столбиками показана интенсивность сигнала в изображениях этих точек в левой
( a и b ) и правой ( a и b  ) камерах. Более того, точка C вообще не видна в левой камере,
поскольку ее загораживает участок поверхности BC .
Величина различий зависит от разницы в ракурсах съемки. Как правило, чем
больше эта разница (в частности, чем больше база), тем менее похожими становятся
изображения. Поэтому все методы отождествления окрестностей сопряженных точек в
большей или меньшей степени опираются не на формальный подход, а на здравый смысл.
Рис.7.7. Проективные и яркостные искажения
Одним из наиболее распространенных методов идентификации является
корреляционный (изложение корреляционного метода дано в гл.5). При незначительных
отличиях в ракурсах съемки и на достаточно гладких поверхностях от него можно
ожидать хороших результатов. На рис.7.8 (а и б) приведена пара вертолетных снимков
района озера Карымское (Камчатка), на которые нанесена прореженная сетка
сопряженных точек, найденных корреляционным методом, а на рис.7.8.в показана
поверхность, «натянутая» на трехмерные точки, координаты которых вычислены
методом, изложенным ранее. Следует заметить, что построение поверхности, лежащей на
81
заданном множестве трехмерных точек, представляет собой самостоятельную
нетривиальную задачу, рассмотрение которой выходит за рамки темы, обсуждаемой в
этой главе.
а)
б)
в)
Рис.7.8. Восстановление поверхности трехмерной сцены по стереопаре (приведено с
любезного согласия авторов [7.9])
На снимках есть области, где сопряженные точки не удалось найти. Причин этому
несколько. Часть сцены, видимая в правой части правого снимка, просто не попала в поле
зрения левой камеры. Кроме этого, на снимках есть участки с мало изменяющейся
яркостью. На таких участках корреляционный критерий не дает хорошо выраженного
максимума, поэтому здесь координаты сопряженных точек определяются с большими
погрешностями. Более того, здесь велика вероятность ложных отождествлений.
Пространственное представление о таких участках получить без привлечения
82
дополнительной информации невозможно. Если размеры этих участков малы, а по
косвенным признакам можно предположить, что поверхность сцены изменяется плавно,
можно интерполировать трехмерную структуру участков с их границ внутрь, как это
сделано для участков a ' , a" и b ' , b" .Если их размеры велики, или сопряженные точки на
границах не определены, восстановить трехмерную структуру участка не удается (участки
c' , c" и d ' , d " ).
Для того, чтобы восстановить мелкую структуру сцены, необходимо, чтобы
сопряженные точки лежали достаточно часто. В приведенном примере для построения
рельефа найдено более 7000 точек.
Сложность применения корреляционного метода заключается в том, чтобы
подобрать такие размеры сопоставляемых фрагментов, при которых отличия в
тождественных фрагментах еще невелики (для этого нужно уменьшать размеры), а оценка
коэффициента корреляции остается достоверной (для этого размеры надо увеличивать).
Но самым серьезным его недостатком является чувствительность к масштабным
искажениям, присутствующим в отождествляемых фрагментах. Простейший способ
уменьшения масштабных различий в сопряженных фрагментах состоит в использовании
предварительной аффинной подстройки изображений. Этот способ, однако, оказывается
недейственным при вариациях высот в сцене, сравнимых с расстоянием от сцены до
системы камер, поскольку в этом случае появляются значительные локальные
масштабные искажения.
Влияние яркостных искажений можно попытаться устранить, отказавшись от
сопоставления фрагментов исходных изображений, и перейдя к сопоставлению
фрагментов контурных изображений, где выделены края, т.е. переходы между областями с
постоянной яркостью. На таких переходах, как известно, градиент яркости имеет
максимум, а лапласиан обращается в нуль. Это обстоятельство и используется для
выделения краев [7.10, п.17.4]. Существенным моментом является то, что контуры на
изображениях непрерывных поверхностей должны располагаться в одинаковом порядке,
как это видно на рис. 7.9 (изображения точек A , B и D ). Это ограничение позволяет в
некоторой степени ослабить влияние масштабных искажений. Однако и здесь, как и в
корреляционном методе, существует проблема ложного отождествления. Связана она, в
частности, с тем, что видимая часть поверхности зависит от ракурса наблюдения
(поэтому, например, на рис.7.9 изображение точки C в правой камере отсутствует), и на
разных изображениях могут пропадать разные края. Кроме того, сама задача выделения
краев только на первый взгляд кажется такой простой. В действительности неизбежное
присутствие шумов в изображениях может привести к частичному исчезновению
контуров или появлению ложных. Идея поиска сопряженных точек с помощью
отождествления краев была особенно популярна у биологов и психологов, исследовавших
механизмы зрения [7.11], но, как нам кажется, в таком идеальном виде практического
применения не нашла.
Еще один подход к поиску сопряженных точек опирается на предварительный
раздельный анализ изображений, позволяющий выделить на них некоторые характерные
объекты или особенности. Так на аэроснимках городских территорий можно попытаться
выделить перекрестки, отдельные дома или их фрагменты, деревья и т.п., а затем
выполнить их отождествление между снимками.
По-видимому,
наиболее
удачных
результатов
можно
ожидать
от
комбинированного использования всех этих методов и применения итеративной схемы,
когда по найденным сопряженным точкам строится оценка поверхности, с учетом которой
изображения подвергаются
масштабной коррекции и выполняется поиск новых
сопряженных точек.
83
Рис.7.9. Упорядочение сопряженных точек в случае непрерывных поверхностей
Вопросы
1. Какой смысл имеет знак при f в выражении (7.1)?
2. Какой вид примет выражение (7.3), если вектор трансляции будет задан в
глобальной системе координат?
3. Обратимся к рис. 7.3. Какой вид будут иметь матрицы A1 , A 2 , R и вектор t в
выражении (7.9) для ситуации, приведенной на рисунке?
4. Пусть в ситуации, изображенной на рис. 7.3, векторы v'  ( x' , y,1) и v  ( x, y,1)
внутренних координат проекций точки M в плоскостях изображений левой и
правой камер известны. Получите оценки трехмерных координат точки M в
системах координат правой и левой камер, пользуясь выражениями (7.11) и (7.12).
Сравните полученный результат с (7.6) и (7.7). Объясните отличия.
v'  ( x' , y,1) и v  ( x, y,1) имеют
5. Почему в предыдущем вопросе векторы
одинаковые y - компоненты?
6. Докажите справедливость соотношений (7.17).
7. Докажите справедливость соотношений (7.18).
8. На рис. 7.6 точки e и e являются изображениями оптических центров камер.
Полагая, что матрицы A1 , A 2 , R и вектор t известны, найдите координаты этих
точек в плоскостях изображений соответствующих камер.
9. Где будут находиться точки e и e , если камеры расположены, как показано на рис.
7.3?
Литература
1.
2.
3.
4.
5.
6.
Корн Г., Корн Т. Справочник по математике. - М.: Наука, 1973.
Бронштейн Н.Н., Семендяев К.А. Справочник по математике. - М.: Наука, 1966.
Faugeras O. Tree Dimensional Computer Vision. - MIT Press, 1993.
Рао С.Р. Линейные статистические методы и их применения. - М.: Наука, 1968.
Бард Й. Нелинейное оценивание параметров. - М.: Статистика, 1979.
Hu X., Ahuja N. Motion and Structure Estimation Using Long Sequence motion
84
models.// Image and Vision Computing. - 1993. - V.11. - № 9.
7. Maybank S., Faugeras O. A. Theory of Self-calibration of a Moving Camera.//
International Journal of Computer Vision. - 1992. - V.8. - № 2.
8. Хорн Б.К.П. Зрение роботов. - М.: Мир, 1989.
9. Popov S.A., Kirichuk V.S. Algorithm of Estimation of the Geometric Parameters of
the System of Two Projection Cameras by the Method of the Least Squares (MLS).
//Pattern Recognition and Image Analysis. – 1999. – N 2. - Р.304.
10. Прэтт У. Цифровая обработка изображений. - М.: Мир. 1982.
11. Марр Д. Зрение: информационный подход к изучению представления и
обработки зрительных образов. - М.: Радио и связь, 1987.
85
8. Математическая морфология и обработка изображений
Одним из сравнительно новых направлений в анализе изображений является
применение аппарата математической морфологии. Начало математической морфологии,
использующей представления теории множеств и интегральной геометрии, было
положено работами французских исследователей Ж.Матерона [8.1] и Дж.Серра [8.2],
занимавшихся проблемами минералогии и петрографии. Цель их исследований состояла в
количественном описании физических и механических свойств материалов посредством
анализа их геометрической структуры. За последующее время математическая
морфология достигла состояния серьезного инструмента обработки изображений с
основным применением в материаловедении, исследовании цитологических препаратов,
анализе медицинских изображений.
Конечно, объема одной лекции совершенно недостаточно для сколь-нибудь
последовательного изложения теоретических основ. Поэтому данная лекция имеет скорее
иллюстративный характер. Здесь фрагментарно обсуждаются основные операции
математической морфологии и их свойства, и приводятся результаты применения этих
операций для обработки и анализа изображений (в основном двухградационных).
Следует заметить, что публикации, посвященные как теоретическим вопросам
математической морфологии, так и ее приложениям в области обработки изображений, в
русскоязычной литературе практически отсутствуют. При написании этого материала у
нас возникали трудности с некоторыми русскоязычными названиями морфологических
операций, адекватно передающими смысл названий, введенных в оригинальных
англоязычных работах [8.2,8.3], на которых базируется изложение. Обозначения в
основном совпадают с обозначениями, принятыми в [8.2,8.3].
Напомним некоторые основные понятия из теории множеств, которые потребуются
в дальнейшем. Пусть E n - n-мерное пространство. Ниже обычно предполагается, что
En  R n или E n  Z n , где R n - n-мерное евклидово пространство, а Z n - n-мерное
дискретное пространство (n-мерная решетка). В применении к изображениям, как
правило, рассматриваются двумерные пространства. Если X  {x} и Y  {y} - множества в
Y
X
то
объединением
множеств
и
называется
множество
En ,
Z  {z : z  X или z  Y }  X  Y , (т.е. множество, состоящее из таких элементов z ,
которые принадлежат X или Y ), а пересечением множеств X и Y называется
множество Z  X  Y  {z : z  X , z  Y } . Множество Z  X c  {z : z  X } называется
дополнением множества X . Разностью множеств X и Y называется множество
Z  {z : z  X , z  Y }  X \ Y . Множество Z называется пустым, если оно не содержит ни
одного элемента. Обозначается такое множество как Z   . Справедливы следующие
соотношения:
( X  Y )c  X c  Y c ;
( X  Y )c  X c  Y c ;
X \ Y  X Y c .
(8.1)
Определим на E n индикаторную функцию множества X следующим образом:
1, x  X
.
0, x  X
 X ( x)  
Определим также меру множества X :
86
Mes ( X )    X ( x)dx - для непрерывного пространства R n и
Rn
Mes( X ) 

xi X
X
( xi ) - для дискретного пространства Z n .
Для изображений эти определения означают, что мерой множества X является его
площадь в непрерывном случае и количество узлов решетки, входящих в множество – в
дискретном.
Операции математической морфологии
Двухградационное изображение можно рассматривать как индикаторную функцию
набора множеств в E 2 (как, например, индикаторную функцию множества X 1  X 2  X 3
на рис.8.1). Для данного множества X можно зафиксировать некоторый элемент (не
обязательно принадлежащий этому множеству), который назовем центром (или началом)
множества X . Обозначим через X a множество X , центр которого помещен в точку a .
Одним из основных понятий математической морфологии является понятие
структурного элемента. Структурный элемент B - это множество, состоящее из двух
непересекающихся подмножеств B1 и B 2 , для которых определено общее начало.
Рис.8.1. Двухградационное изображение
HM-преобразование
Согласно [8.2], базовым преобразованием, позволяющим строить набор различных
операций математической морфологии, является преобразование Hit or Miss. Нам не
удалось найти адекватного перевода этому названию, поэтому далее будем пользоваться
названием “HM-преобразование”. Для данного множества X  {x  E n } и данного
структурного элемента B результат HM-преобразования определяется как
Y  X  B  {x : B1x  X , Bx2  X c } .
(8.2)
(Здесь через X c обозначено дополнение множества X .)
Нетрудно видеть (рис.8. 2), что в результате HM-преобразования на исходном
изображении выделяются элементы, окрестность которых совпадает со структурным
элементом (заметим, что форма окрестности определяется формой структурного
элемента). Условие (8.2) выполняется для элементов, лежащих на нижней границе X
(например, 1- 4 позиции структурного элемента). В позиции 5 B 1x  X , но Bx2  X c , в
позиции 6 , наоборот, B 1x  X , но Bx2  X c , а в позиции 7 не выполняются оба условия.
Применяя HM-преобразование с различными структурными элементами можно
выделять специфические геометрические особенности изображений.
87
Рис.8.2. HM-преобразование
Эрозия
Частным случаем HM-преобразования является операция эрозии (erosion). Пусть в
структурном элементе B подмножество B 2 - пусто ( B 2   ). При этом условие Bx2  X c
всегда выполняется, и в множество Y включаются только те элементы исходного
множества X , для которых выполняется условие Bx  X :
Y  XB  {x : Bx  X } .
(8.3)
Иначе говоря, если x  X , а b B , то в множество Y включаются такие элементы,
для которых выполняется условие x  b  X (рис.8.3).
Рис.8.3. Эрозия
С другой стороны, если b пробегает все возможные положения в B , условие
x  b  X выполняется тогда и только тогда, когда x принадлежит смещенному
множеству X b (рис.8.4). Поэтому другое, эквивалентное, представление операции эрозии
имеет вид
88
Y  XB   X b 
bB
X
bB
b
  Xb ,
(8.3’)

bB

где B  {b : b  B} - множество, симметричное B относительно его начала. Это
представление может оказаться полезным при численной реализации операции эрозии.
Рис.8.4. Эрозия как пересечение смещенных множеств
Дилатация
Операцией, двойственной к эрозии, является дилатация (dilation), которая
определяется следующим образом (рис.8.5):
Y  X  B  {x : Bx  X  } .
(8.4)
Рис.8.5 Дилатация
Другое представление дилатации имеет вид
Y  X  B   Xb ,
(8.4’)

bB
как это показано на рис.8.6.
89
Рис.8.6. Дилатация как объединение смещенных множеств
Если рассматривать множество X как объект, а X c как фон в изображении, то
дилатацию объекта можно интерпретировать как эрозию фона:
X  B  ( X cB) c .
(8.5)
Действительно,
( X cB) c  ( X bc ) c   X b  X  B .

bB

bB
Алгебраические свойства дилатации и эрозии
Приведем здесь без доказательства ряд полезных свойств рассмотренных операций.
a) Дистрибутивность:
дилатация дистрибутивна относительно объединения
I
I
i 1
i 1
( X i )  B   ( X i  B) ,
(8.6)
а эрозия - относительно пересечения множеств
I
I
i 1
i 1
( X iB)   ( X iB) .
(8.6’)
Свойство дистрибутивности с учетом соотношения (8.5) позволяет выполнять
операции над X по фрагментам, комбинируя затем результаты посредством объединения
или пересечения.
б) Итеративность:
( X  A)  B  X  ( A  B) ;
( XA)B  X( A  B) .
(8.7)
(8.7’)
90
Это чрезвычайно важное свойство, поскольку оно позволяет разлагать сложные
структурные элементы в композицию более простых (рис.8.7). Соответственно, операции
со сложными элементами могут быть заменены последовательностью операций с более
простыми. Так, эрозию некоего множества X посредством структурного элемента H ,
приведенного на рис.8.7, можно заменить четырьмя последовательными эрозиями со
структурными элементами A  D .
Рис.8.7. Декомпозиция структурных элементов
в) Инвариантность к изменению масштаба (рис.8.8):
Рис.8.8. Инвариантность эрозии и дилатации к масштабным преобразованиям
X  B   ( X  B ) ;
(8.8)
91
XB   ( XB) .
(8.8’)
В этих соотношениях через B , X обозначены множества
B   B  {b  b : b  B} и X   X  {x  x : x  X } .
Применение эрозии и дилатации
Эрозия и дилатация – операции, предназначенные в первую очередь для выявления
морфологических особенностей изображений, причем для выявления различных
особенностей используются различные структурные элементы. Например, эрозия
посредством круга с радиусом r позволяет найти в изображении объекты, минимальный
поперечный размер которых превышает 2 r . Если же в качестве структурного элемента
взять две точки, смещение между которыми определяется вектором h , эрозия позволит
выделить объекты, имеющие соседей в направлении и на расстоянии, заданных эти
вектором (рис.8.9). (Под объектами здесь подразумеваются односвязные множества).
Рис.8.9. Верхний ряд – исходное множество X . Средний ряд - XA . Нижний ряд XB . Стрелками помечены начала структурных элементов.
Более интересное применение эрозии с двухточечным структурным элементом
заключается в том, что с ее помощью можно вычислять автокорреляцию изображения.
Автокорреляция изображения, заданного индикаторной функцией  X (x) определяется
как
K X (h)    X ( x) X ( x  h)dx   Y ( x; h)dx ,
Rn
Rn
где  Y ( x; h) можно интерпретировать как
индикаторную
Y  X  X h , зависящего от параметра h , поскольку
1, x  Y  X  X h
.
x Y
 0,
 Y ( x; h)  
Нетрудно убедиться, что XB  X  X h , поэтому
92
функцию
множества
K X (h)  Mes( XB) .
С другой стороны, посредством эрозии и дилатации можно осуществлять фильтрацию
изображений. Условной эрозией назовем операцию
Y  XB; X 1  ( XB)  X1 ,
(8.9)
а условной дилатацией - операцию
Y  X  B; X 1  ( X  B)  X1 ,
(8.9’)
где X 1 - некоторое множество.
Введем последовательность структурных элементов {B i } и обозначим
X{B i }  (...(( XB1 )B 2 )...)B i ...
(8.10)
последовательные эрозии и
X  {B i }  (...(( X  B1 )  B 2 )...)  B i ...
(8.10’)
последовательные дилатации множества X посредством структурных элементов {B i } .
Последовательной условной эрозией назовем операцию
X{B i }; X 1  [...[[( XB1 )  X 1 ]B 2 ]  X 1...] ,
(8.11)
а последовательной условной дилатацией – операцию
X  {B i }; X 1  [...[[( X  B1 )  X 1 ]  B 2 ]  X 1...] .
(8.11’)
Последовательность {B i } может быть как конечной, так и бесконечной. Отметим,
однако, не приводя доказательства, что если множество X 1 ограничено, то
последовательные условные операции сходятся к устойчивому результату за конечное
число шагов.
Пусть {B i } бесконечная последовательность одинаковых структурных
элементов, скажем, кругов радиуса r с началом в центре круга. Тогда операция
Y  (( XB)  {B}); X позволяет удалить из изображения все объекты с поперечными
размерами менее 2 r , полностью сохранив форму оставшихся объектов. Напротив,
операция Y  (( X  B){B}); X удаляет внутри объектов полости с поперечным размером
менее 2 r , сохраняя при этом неизменными внешние границы объектов (рис.8.10).
93
Рис.8.10 Действие условных дилатации (слева) и эрозии (справа) на объекты
X разных размеров (вверху и внизу)
Размыкание и замыкание
Выше мы видели, что в общем случае невозможно точно восстановить исходное
множество X после эрозии XB с помощью только дилатации посредством того же
структурного элемента B . Дилатация восстанавливает только часть множества X ,
имеющую меньше деталей, но наиболее существенную с точки зрения характеристик
формы и размера.
Определим операцию размыкания (opening в оригинальных работах) множества X
посредством структурного элемента B как

Y  X B  ( XB)  B .
(8.12)
Аналогично определим операцию замыкания(closing) множества X посредством
структурного элемента B :

Y  X B  ( X  B)B .
(8.13)
Легко показать, что
( X c ) B  ( X B )c и ( X B )c  ( X c ) B .
(8.14)
В применении
к изображениям эти соотношения означают, что размыкание
(соответственно, замыкание) объектов и замыкание (соответственно, размыкание) фона
суть операции эквивалентные.
Приведем без доказательства важное свойство этих операций – их
идемпотентность:
( X B )B  X B и ( X B )B  X B .
(8.15)
Применение размыкания и замыкания
Так же как эрозия и дилатация, размыкание и замыкание могут быть использованы
для фильтрации изображений, сглаживания границ объектов, удаления мелких объектов и
узких “хвостов” (размыкание), удаления мелких полостей и узких “каналов” (замыкание).
Степень сглаживания и размеры удаляемых артефактов зависят от размеров структурного
элемента, который обычно выбирается в форме круга для непрерывных изображений или
правильного выпуклого многоугольника – для дискретного случая. Отметим, что при
94
фильтрации одинаковыми структурными элементами степень искажений, вносимых в
полезные детали изображения, при использовании размыкания (замыкания), оказывается
значительно меньшей, чем при использовании эрозии (соответственно, дилатации).
Сравните, например, на рис.8.10 результаты операций XB и ( XB)  B ( X  B и
( X  B )B , соответственно).
Поскольку в этом примере структурный элемент

симметричен относительно отражения от начала, т.е. B  B , то ( XB)  B  X B , а
( X  B)B  X B .
Более интересным представляется применение операции размыкания для
описания формы объектов. Пусть анализируемое множество X - круг радиуса R и
структурный элемент rB - круг радиуса r с началом в центре круга. Рассмотрим
поведение функции
F (r )  Mes( X rB ) / Mes( X ) .
(8.16)
Легко понять, что до тех пор, пока радиус структурного элемента не превышает
радиуса анализируемого множества, X rB  X . Как только r превысит R , X rB   ,
поскольку в результате эрозии, являющейся первой операцией в размыкании, будет
получено пустое множество. В результате получим
1,
F (r )  
0,
rR
.
rR
Пусть теперь множество X - область, ограниченная эллипсом с полуосями a и b ,
причем a  b . Радиус кривизны эллипса достигает своего минимального значения
2
 min  b a при пересечении с большой осью. Поэтому до тех пор, пока радиус
структурного элемента будет меньше, чем  min , размыкание не будет приводить к
изменению исходного множества и следовательно Mes( X rB )  Mes( X )  ab . С другой
стороны, ясно, что как только радиус структурного элемента станет больше малой
полуоси эллипса b , в результате размыкания получится пустое множество и Mes( X rB )
примет нулевое значение. В промежутке от  min до b Mes( X rB ) будет монотонно убывать
от ab до нуля. Поэтому F (r ) примет вид:
r   min
 1,

F (r )  m(r ),  min  r  b ,
 0,
r b

где m (r ) - монотонно убывающая функция ( 0  m( r )  1 ).
Иногда удобнее пользоваться функцией f (r )  dF (r ) / dr , характеризующей
изменение меры анализируемого множества при размыкании его семейством монотонно
увеличивающихся структурных элементов. На рис.8.11 приведены примеры объектов
разной формы и соответствующие им функции f (r ) .
95
Рис.8.11. Представление формы объектов посредством последовательных
размыканий
Функция f (r ) может быть вычислена не для одиночного объекта, а, скажем, для
изображения, содержащего множество объектов. Можно предполагать, что если все
объекты имеют близкие размеры, то f (r ) будет унимодальной, а если объекты образуют
несколько групп по размерам, то в f (r ) появиться несколько выраженных пиков при
значениях r , соответствующих этим размерам.
Аналогичным образом сформировав функцию
G(r )  Mes ( X rB ) / Mes ( X )
(8.17)
для операции замыкания, можно использовать ее для анализа расстояний между
объектами и обнаружения пространственной группировки объектов.
Морфологические операции в дискретном пространстве
Обычно n -мерные дискретные данные упорядочиваются в соответствии с n
целочисленными параметрами, образуя некоторую пространственную структуру. Если эти
параметры изменяются регулярным образом (например, номера столбцов и строк в
дискретном изображении), структура может быть представлена в виде решетки. Построим
двумерную решетку следующим образом: определим в R 2 два линейно независимых
вектора u1 и u 2 . Решеткой назовем множество вершин всех возможных векторов вида
u  k1u1  k2u 2 , где k1 , k2 - целые числа. Примеры наиболее распространенных решеток
приведены на рис.8.12.
96
Рис.8.12. Примеры решеток: 1-квадратная, 2-прямоугольная, 3-гексагональная
Переход от непрерывного к дискретному пространству создает ряд проблем не
только формального, но и практического характера. Принципиальная анизотропия
дискретного пространства делает невозможным, например, поворот на произвольный
угол. Возникает проблема и с определением расстояния, которое в непрерывном
пространстве вводится достаточно естественным образом. Для некоторых типов решеток
неоднозначным образом определяется понятие соседства. Последнее обстоятельство
иллюстрирует рис.8.13. Назовем множество связным, если из одной его точки к любой
другой можно проложить путь, проходящий только по точкам, принадлежащим этому
множеству, при этом каждая следующая точка пути должна соседствовать с текущей.
На рис.8.13а слева приведено три возможных определения соседства для
прямоугольной решетки: соседство через стороны решетки, соседство через узлы решетки
и соседство через стороны и узлы. Если мы примем первое определение соседства, то
обнаружим, что белое поле в правой части рисунка состоит из двух частей, не связных
между собой. Следовательно, их должна разделять связная область черного цвета. Между
тем, такой области нет, поскольку точки черного контура тоже не связны между собой.
Если воспользуемся вторым определением соседства, получим не менее парадоксальную
ситуацию: теперь точки и вне, и внутри связного контура принадлежат односвязной
области. Та же ситуация возникает и при третьем определении соседства.
а
б
Рис.8.13. Соседство и связность: а – прямоугольная решетка; б – гексагональная решетка
Один из способов устранения этого противоречия состоит в том, чтобы определять
по-разному соседство для белых и черных областей, скажем, для белых определить
соседство через стороны, а для черных - через узлы. Но тогда одни и те же операции,
выполненные на изображениях, инвертированных друг относительно друга по яркости,
могут приводить к различным результатам. Другой способ состоит в выборе типа
решетки, не создающего вовсе этой проблемы. К такому типу относится гексагональная
решетка (рис.8.13б). Поэтому ниже будем пользоваться этой решеткой.
Влияние анизотропии дискретного пространства демонстрирует рис.8.14. Здесь
показано поведение функции f (r ) , вычисленной для объекта, представляющего
дискретную аппроксимацию равностороннего треугольника на гексагональной решетке. В
качестве структурного элемента используется дискретный аналог круга радиуса r гексагон rH , где r - длина стороны гексагона (см. рис.8.14а слева). В первом случае
(рис.8.14а) стороны треугольника параллельны базисным векторам решетки u1 , u 2 и
97
вектору  (u1  u 2 ) , задающему третье главное направление решетки [8.2]. Во втором
случае (рис.8.14б) треугольник повернут на угол 90.
а
б
Рис.8.14. Влияние ориентации на функцию формы объекта.
Белым обозначены точки, исчезающие на первом шаге ( r  1 ); светло-серым – на втором
( r  2 ); темно-серым – на третьем ( r  3 ); черным – на четвертом ( r  4 )
Эти особенности необходимо учитывать при реализации введенных выше
морфологических операций в дискретном пространстве. Существует ряд операций,
которые можно определить и в непрерывном пространстве, однако их применение имеет
практический смысл только на решетках. Одна из таких операций нам уже известна. Это
HM-преобразование. HM-преобразование, использующее различные структурные
элементы, позволяет выделять особые точки на изображении. Например, точки
разветвления линий на гексагональной решетке могут появляться только в
конфигурациях, приведенных на рис.8.15, причем конфигурации 1-2, 3-8 и 9-14
идентичны с точностью до поворота вокруг центральной точки. Поэтому HMпреобразование
с использованием структурных элементов, построенных на базе
конфигураций 1, 3 и 9, позволяет выявить любые точки разветвления.
Рис.8.15. Конфигурации, соответствующие точкам разветвления на гексагональной
решетке
Вычисление количества связных компонент
Полостями множества X называются связные компоненты множества X c . На
гексагональной решетке количество связных компонент nc и количество полостей n h
множества X связаны соотношением
 1  1 1
  n
 ,
nc  nh  1  n
 0 0  0 
(8.18)
где символом n () обозначено количество конфигураций  , встречающихся в множестве
X . Доказательство этого утверждения можно найти в [8.2, p.185]. Если компоненты X
не содержат полостей, то nc просто равно их количеству, поскольку в этом случае
X c состоит из одной связной компоненты и, следовательно, nh  1 . Но, как мы видели
раньше, HM-преобразование выделяет в исходном множестве точки, окрестность которых
совпадает со структурным элементом. Используя в HM-преобразовании структурные
элементы, приведенные на рис.8.16, получим
98
 1  1 1
  n
  Mes ( X  N1 )  Mes ( X  N 2 ) .
n  nc  nh  1  n
 0 0  0 
(8.19)
Рис.8.16. Структурные элементы, используемые для подсчета связных компонент (точкой
обозначено начало)
Утончение и утолщение
Операция утончения (thinning) определяется как
Y  XT  X \ ( X  T ) ,
(8.20)
а операция утолщения (thickenning) – как
Y  XT  X  ( X  T ) ,
(8.21)
где T  (T1 ,T2 ) - структурный элемент, состоящий из двух непересекающихся
подмножеств T1 и T2 .
Отметим, что если начало структурного элемента принадлежит T1 , то X  T  X ,
если же начало принадлежит T2 , то X  T  X c . Поэтому в первом случае Y  XT  X
при любом T2 , а во втором - XT  X при любом T1 . Чтобы избежать получения этих
тривиальных результатов, всегда будем полагать, что при выполнении операции
утончения (соответственно, утолщения) начало структурного элемента не принадлежит T2
(соответственно, T1 ). Кроме того, можно показать, что ( XT ) c  X c T * , где T *  (T2 , T1 ) .
Примеры операций утончения и утолщения приведены на рис.8.17.
а
б
в
г
Рис.8.16. Утончение и утолщение:
а - серыми кружками помечено исходное множество; б - черными кружками помечен
результат HM-преобразования посредством структурного элемента T , а крестиками *
результат HM-преобразования посредством структурного элемента T (начало
структурного элемента – кружок с точкой в центре); в – утончение; г – утолщение.
Так же как и ранее, введем последовательность структурных элементов {T i } и
обозначим
99
X{T i }  (...(( XT 1 )T 2 )...)T i ...
(8.22)
последовательные утончения и
X{T i }  (...(( XT 1 )T 2 )...)T i ...
(8.22’)
последовательные утолщения множества X с помощью последовательности структурных
элементов {T i } .
Изучим результат последовательных утончений множества X посредством
последовательности структурных элементов {Li }, i  1,6 , где Li отличаются друг от друга
поворотом вокруг центральной точки (рис.8.18). На крайнем правом рисунке приведен
установившийся результат последовательных утончений, который при последующих
утончениях не изменяется.
Рис.8.18. Последовательные утончения
Приведенный пример демонстрирует применение операции утончения для
построения скелетона (или скелета) множества X . Понятие скелетона (или скелета)
достаточно интуитивно. На этом уровне его иногда пытаются описать с помощью
качественной модели “степного пожара”. Представим себе степной массив, покрытый
сухой травой. Допустим, что одновременно вдоль всей границы массива вспыхивает
огонь, распространяющийся во всех направлениях с одинаковой скоростью. В первый
момент фронт распространения огня совпадает с границей. По мере его распространения
различные участки фронта встречаются друг с другом, и в местах встречи фронтов огонь
будет гаснуть. Вот эти места самогашения огня и образуют “скелетон” массива (рис.8.19).
Рис.8.19. Формирование линии гашения огня
Для непрерывного двумерного пространства в [8.2] сформулированы следующие
свойства точек скелетона множества X :
если точка x является точкой скелетона, и Bx - наибольший круг с центром в
точке x , содержащийся в X , то невозможно найти содержащийся в X больший круг (не
обязательно с центром в точке x ), содержащий Bx ;
круг Bx касается границы множества X в двух или более точках.
100
Там же дано одно из определений скелетона: скелетон S ( X ) множества X есть
множество центров максимальных кругов, содержащихся в X . Под максимальным
кругом подразумевается круг, касающийся границ множества X в двух или более точках.
Рис.8.20 иллюстрирует это определение.
.
Рис.8.20. К определению скелетона. Максимальные круги
Из этого определения (и из рис.8.20) следует одно замечательное свойство
скелетона: если каждой точке скелетона сопоставить значение радиуса максимального
круга, центром которого она является, то по скелетону можно восстановить множество
X , его породившее:
X
 (  ( x ) B)
x
,
xS ( X )
где  (x ) - радиус максимального круга для точки x скелетона, B - круг единичного
радиуса. Отметим без доказательства еще одно важное свойство скелетона: если
множество X связно, то его скелетон S ( X ) тоже является связным множеством.
К сожалению, скелетон множества, заданного на дискретной решетке только
приближенно напоминает скелетон непрерывного множества. Более того, для одного и
того же множества результат построения скелетона посредством последовательных
утончений может быть различным в зависимости от порядка структурных элементов в
последовательности (топологические свойства скелетона, такие как количество связных
компонент, точек разветвления, ветвей, концевых точек и т.д. при этом сохраняются). Это
снова связано с анизотропией дискретного пространства. Тем не менее, применение
дискретного скелетона иногда оказывается чрезвычайно полезным. Так, скелетонизацией
часто пользуются при обработке чертежей или распознавании символов для сведения
линий к единичной ширине. Построение скелетона фоновой компоненты изображения,
содержащего некоторое множество объектов, позволяет сегментировать его на участки,
каждый из которых можно интерпретировать как зону влияния (жизненное пространство)
объекта. Статистический анализ размеров, ориентации и количества соседей таких зон
применяется при анализе прочностных характеристик материалов, при исследовании
поведения популяций микроорганизмов и развития лесных массивов. Множество
примеров применения операций утончения, утолщения и построенной на них
скелетонизации можно найти в [8.2, 10.4].
Вопросы
1. Какую операцию и какой структурный элемент можно использовать, чтобы
сместить все множество X на вектор a ?
2. Докажите справедливость соотношений (8.14), принимая во внимание определения
замыкания и размыкания и учитывая (8.5).
101
3. Предложите способ обнаружения пространственной группировки объектов с
применением функции G (r ) , определенной выражением (8.17).
4. Объясните появление левого максимума в функции f (r ) для второго слева объекта
на рис.8.11.
5. Пусть на дискретной решетке граничными точками множества X считаются точки
x  X , такие, что среди их соседей найдется хотя бы одна точка y  X c .
Предложите способ выделения всех граничных точек.
6. Какие структурные элементы на гексагональной решетке позволяют выделять с
помощью HM-преобразования концевые точки линий (структурные элементы,
отличающиеся только ориентацией, считать идентичными)?
7. Какую операцию и какой структурный элемент следует использовать для
устранения изолированных черных точек на изображении, заданном на
гексагональной решетке?
8. Допустим, что структурный элемент на гексагональной решетке может быть
определен в пределах минимального гексагона (см., например, рис.8.13б слева).
Нарисуйте все возможные структурные элементы, с которыми операция утончения
не приведет к изменению связности (структурные элементы, отличающиеся только
ориентацией, считать идентичными).
Литература
1. Матерон Ж. Случайные множества и интегральная геометрия. –М.: Мир, 1978.
2. Serra J. Image Analysis and Mathematical Morphology. –London-New York: Academic
Press, 1982.
3. Heijmans H. Mathematical Morphology: Basic Principles.//Proceedings of Summer
School on Morphological Image and Signal Processing. –Zakopane, Poland, 1995
(ftp://ftp.cwi.nl/pub/morphology/report/Heijmans_Zakopane_intro.ps.Z).
4. Soille P. Morphological Image Analysis. –Berlin, Heidelberg, New York: SpringerVerlag, 1999.
102
Download