Методы поиска изображений по содержанию

advertisement
Методы поиска изображений
по содержанию
Наталья Васильева
HP Labs, Russia;
СПбГУ
nvassilieva@hp.com
29 ноября 2007
Семинар Московской Секции ACM SIGMOD, 29.11.2007
План
I. Обзор методов поиска изображений
1.
2.
3.
4.
5.
Основные направления исследований
Уровни содержания изображения
Цвет
Текстура
Форма объектов
II. Синтез данных в контексте CBIR
1.
2.
3.
4.
5.
Существующие решения и их недостатки
Альретнативные подходы
Поиск в частично-аннотированной базе
WTGF: Weighted Total with Gravitation Function
Адаптивный поиск
Семинар Московской Секции ACM SIGMOD, 29.11.2007
CBIR: направления исследований
Поиск по содержанию – Content Based Image Retrieval (CBIR)
Индексирование
Хранилище
изображений
индексирование
изображения
вычисление
сигнатур
гна
си
си
гна
тур
 Выделение признаков
изображений
инде
ксы
ы
База данных
тур
запрос
ы
 Проектирование
систем поиска
поиск по индексу
рез у
льта
 Многомерное
индексирование
ты
Поиск
Традиционная архитектура систем CBIR
Семинар Московской Секции ACM SIGMOD, 29.11.2007
уровни содержания изображения
Уровни содержания изображения
Текстовые аннотации
 Семантика
 Объекты (форма)
 Текстура
низкоуровневые характеристики
 Цвет, яркость
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Поиск по содержанию
Поиск по содержанию
(content retrieval)
Признаки цвета
(color features)
Пространственные признаки
(spatial layout)
Признаки текстуры
(texture features)
Признаки формы
(shape features)
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Цвет
Признаки цвета
(color features)
Гистограммы
Статистическая модель
Мат. ожидание, дисперсия,
3-ий момент: для каждого
цветового канала
F(I) = (h1I, h2I, …, hNI)
F(I) = (E1I,E2I,E3I,
σ1I,σ2I,σ3I,
s1I,s2I,s3I)
Метрики: L1, L2, L∞
Метрики: ~L1
h 1 h2
hN
Stricker M., Orengo M. Similarity of Color Images. Proceedings of the SPIE Conference,
vol. 2420, p. 381-392, 1995
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Цветовые гистограммы – недостатки
1. Не учитывается схожесть цветов:
 Кумулятивные гистограммы
T
 d ( H1 , H 2 )  ( H1  H 2 )  A  ( H1  H 2 )
А – матрица с коэффициентами
«схожести» цветов
d(H1, H2) > d(H1, H3)
Niblack W., Barber R., et al. The QBIC project:
Querying images by content using color, texture and
shape. In IS&T/SPIE International Symposium on
Electronic Imaging: Science & Technology,
Conference 1908, Storage and Retrieval for Image
and Video Databases, Feb. 1993
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Цветовые гистограммы – недостатки
2. Не учитывается пространственное расположение цветов:
HA= HB = HC
A
B
C
f i A  (ai , bi , ci , weightiA , xiA , yiA )
i = 1..N – число цветов;
(ai, bi, ci) – параметры цвета i;
weighti – количество цвета i на изображении А;
(xi, yi) – координаты центра цветового пятна.
Васильева Н., Новиков Б. Построение соответствий между низкоуровневыми характеристиками
и семантикой статических изображений. Труды RCDL’2005.
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Пространственное расположение цветов
 Разбиение изображения на фиксированные блоки
 «Нечеткие области»
Stricker M., Dimai A. Spectral Covariance
and Fuzzy Regions for Image Indexing.
Machine Vision and Applications, vol. 10.,
p. 66-73, 1997
 Сегментация
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Гистограммы или моменты? (1)
Stricker M., Orengo M. Similarity of Color Images. ... (3000 изображений)
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Гистограммы или моменты? (2)
База Corel Photo Set (285 изображений)
эксперимент в рамках дипломной работы М. Теплых
Полнота
Точность
ColorHist
56,77 %
23,02 %
ColorMoment
55,98 %
25,06 %
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Поиск по содержанию: текстура
Поиск по содержанию
(content retrieval)
Признаки цвета
(color features)
Пространственные признаки
(spatial layout)
Признаки текстуры
(texture features)
Признаки формы
(shape features)
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Текстура: статистические
Текстурные признаки
(texture features)
Статистические
General statistics parameters
Haralick’s co-occurrence matrices
Tamura features
Спектральные
Модельные
Markov random fields
Fractals
Геометрические
PWT
TWT
DCT, DST, DHT
Complex wavelets
Gabor filters
ICA filters
Voronoi tesselation features
Structural methods


Матрицы смежности – Haralik’s co-occurrence matrices
Признаки Tamura – Tamura features (Tamura image)
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Матрицы смежности
Grey Level Co-occurrence Matrices (GLCM):
Матрица частот пар пикселей определенной яркости, расположенных
на изображении определенным образом относительно друг друга.
1, если I ( p, q)  i, I ( p  x, q  y)  j
C (i, j ) 

p 1 q 1 0, иначе
N
M

(x, y )
– параметр сдвига, задающий взаимное расположение пикселей;
I(p,q)
– уровень яркости пикселя изображения, расположенного в точке (p, q).
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Матрицы смежности: пример
(x, y)  (1,0)
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Матрицы смежности: характеристики
Статистические параметры, вычисленные по матрицам:
Energy   C 2 (i, j )
i
j

Entropy  
i
Contrast 
- минимален, когда все элементы равны
j

i
- мера хаотичности, максимален,
когда все элементы равны
C (i, j ) log 2 C (i, j )
- мал, когда большие элементы
вблизи главной диагонали
(i  j ) 2 C (i, j )
j
Inverse Difference Moment  
i
j
C (i, j )
1  (i  j ) 2
- мал, когда большие элементы
далеки от главной диагонали
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Признаки Tamura
Характеристики, существенные для зрительного восприятия:
 Зернистость (coarseness)
Tamura image:
 Контрастность (contrast)
Coarseness-coNtrast-Directionality –
точки в трехмерном пространстве CND
 Направленность (directionality)
 Линейность (line-likeness)
 Регулярность (regularity)
Признаки:

Евклидово расстояние в 3D (QBIC)

3D гистограмма (Mars)
 Грубость (roughness)
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Текстура: спектральные
Текстурные признаки
(texture features)
Статистические
Спектральные
General statistics parameters
Haralick’s co-occurrence matrices
Tamura features
Модельные
Markov random fields
Fractals
Геометрические
Voronoi tesselation features
Structural methods


Вейвлет-признаки, фильтры Габора
Фильтры ICA
Семинар Московской Секции ACM SIGMOD, 29.11.2007
PWT
TWT
DCT, DST, DHT
Complex wavelets
Gabor filters
ICA filters
Вейвлет-признаки
Вейвлет-анализ – разложение сигнала по специальному базису:
f ( x) 
 
k
j ,k
( x)
j ,k
Базисные функции:
 j , k  2 j / 2  (2 j x  k )
- масштабирующая функция
j, k  ,  ( x)  L2 ( R) - порождающий вейвлет
Набор базисных функций – банк фильтров
Изображение
Фильтр 1
Энергия 1
Фильтр 2
Энергия 2
Фильтр N
Энергия N
вектор признаков
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Фильтры Габора
Порождающий вейвлет: функция Габора

1
g ( x, y )  
 2 x y

2 
 1  x2


y
 exp  
 2   2jWx 
2


 2   x  y 


Набор фильтров:
g mn ( x, y )  a  m g ( x, y), a  1, m, n  integer, m  0,1,..., S - 1,
x  a m ( x cos   y sin ),
y   a m ( x sin   y cos ),
  n / K
a  (U h / U l ) 1 /( S 1)
К – общее число направлений,
S – число масштабов,
Uh, Ul – максимум и минимум рассматриваемых частот.
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Фильтры ICA
Фильтры получены при помощи анализа независимых компонент
I1
…
I2
dist(I1,I2) =
N
Σ KL (H
i=1
H
1i ,
H2i)
H. Borgne, A. Guerin-Dugue, A. Antoniadis.
Representation of images for classification
with independent features. Pattern
Recognition Letters, vol. 25, p. 141-154,
2004
N фильтров
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Сравнение текстурных признаков
В контексте задачи
поиска!
P. Howarth, S. Rüger. Robust texture features for still image retrieval.
In Proc. IEE Vis. Image Signal Processing, vol. 152, No. 6, December 2006
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Сравнение текстурных признаков (2)
Фильтры Габора v. s. фильтры ICA
Эксперименты по классификации изображений:
 Коллекция ангиографических снимков
 Фильтры ICA лучше на 13%
 Коллекция текстур Brodatz
 Фильтры ICA лучше на 4%
Snitkowska, E. Kasprzak, W. Independent Component Analysis of Textures in Angiography
Images. Computational Imaging and Vision, vol. 32, pages 367-372, 2006.
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Поиск по содержанию: форма
Поиск по содержанию
(content retrieval)
Признаки цвета
(color features)
Пространственные признаки
(spatial layout)
Признаки текстуры
(texture features)
Признаки формы
(shape features)
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Форма объектов
Признаки формы
(shape features)
Дескрипторы границ
(boundary-based methods)
Геометрические
Дескрипторы областей
(region-based methods)
Сигнатуры
Периметр
Эксцентриситет
Кривизна
Направление осей
Centroid Distance
Complex Coordinates
Curvature signature
Turning Angle
Геометрические
Глобальные
Moment invariants
Zernike moments
Pseudo Zernike moments
Площадь
Компактность
Число Эйлера
Grid method
Представление
сигнатур
Прочие
Цепные коды
Fourier Descriptors
UNL-Fourier
NFD
Wavelet Descriptors
Спектральные дескрипторы
(spectral descriptors)
Декомпозиция
Triangulation
Medial Axis Transform
(Skeleton Transform)
B-Splines
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Требования к признакам формы
 Инвариантность к параллельному переносу
 Инвариантность к изменению масштаба
 Инвариантность к повороту
 Устойчивость к незначительным изменениям формы
 Простота вычисления
 Простота сравнения
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Форма объектов: границы
Признаки формы
(shape features)
Дескрипторы границ
(boundary-based methods)
Дескрипторы областей
(region-based methods)
Геометрические
Сигнатуры
Прочие
Цепные коды


Глобальные
Геометрические
Представление
сигнатур
Декомпозиция
Fourier Descriptors
NFD
...
Цепные коды (Chain Codes)
Дескрипторы Фурье (Fourier Descriptors)
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Цепные коды
Нумерация направлений для 4-связного и 8-связного цепных кодов:
А: 03001033332322121111
Б: 70016665533222
Пример:
0
0
3
1
2
1
3
2
6
1
3
2
6
0
0
1
1
3
2
3
1
2
a)
7
3
1
0
6
0
Инвариантность к выбору начальной
точки: минимальный код
5
3
2
3
5
2
б)
в)
А
Б
Инвариатность к повороту:
разности цифр кода
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Дескрипторы Фурье
1. Вычисление сигнатуры (2D -> 1D):

Расстояние до центроида до границы

Комплексные координаты: z(t) = x(t) + iy(t)

...
2. Вычисление коэффициентов Фурье (s(t) – сигнатура):
1
un 
N
N 1
 s(t )e
 j 2nt / N
t 0
3. Нормализация (NFD – Normalized Fourier Descriptors):
u1 u 2
u
,
,..., N 1
u0 u0
u0
4. Сравнение:
d (
Nc
f
n
I
f
n
J
2
)
1
2
n 0
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Форма объектов: области
Признаки формы
(shape features)
Дескрипторы границ
(boundary-based methods)
Геометрические
Дескрипторы областей
(region-based methods)
Геометрические
Сигнатуры
Прочие
Глобальные
Декомпозиция
Представление
сигнатур


Грид-метод (Grid-method)
Инвариантные моменты (Moment invariants)
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Moment invariants
Zernike moments
Pseudo Zernike moments
Grid method
Грид-метод
А
А: 001111000 011111111 111111111 111111111 111110111 0111000011
Б
Б: 001100000 011100000 111100000 111101111 111111110 001111000
Инвариантность:
Нормализация по главной оси:
 направление;
 размер;
 позиционирование на гриде.
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Инвариантные моменты
Момент порядка (p+q) двумерной непрерывной функций:
m pq 

x p y q f ( x, y)dxdy
Центральные моменты для f(x,y) – дискретного изображения:
 pq   ( x  x ) p ( y  y ) q f ( x, y ), x 
x
y
m10
,
m00
y
m01
m00
Вектор признаков:
С использованием нормированных центральных моментов был выведен
набор из 7 инвариантных к параллельному переносу, повороту и
изменению масштаба моментов.
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Сравнение признаков формы
Mehtre B. M., Kankanhalli M. S., Lee W. F. Shape measures for content based image retrieval: a
comparison. Inf. Processing and Management, vol. 33, No. 3, pages 319-337, 1997.
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Признаки в системах поиска
Цвет
QBIC
Гистограммы (HSV)
dist 2  H1 AH2T
VisualSEEk
Гистограммы (HSV),
Color Sets,
Location info
Netra
Гистограммы (HSV),
Color codebook,
кластеризация
Mars
Гистограммы, HSV
N
dist  1   min( H 1 (i ), H 2 (i ))
Текстура
Форма
Tamura Image,
Euclid dist
Геометрические для
границ + моменты
Фильтры Габора
Fourier-based
(Фурье)
Tamura Image,
3D Histo
MFD (Фурье)
i 1
Семинар Московской Секции ACM SIGMOD, 29.11.2007
План
I. Обзор методов поиска изображений
1.
2.
3.
4.
5.
Основные направления исследований
Уровни содержания изображения
Цвет
Текстура
Форма объектов
II. Синтез данных в контексте CBIR
1.
2.
3.
4.
5.
Существующие решения и их недостатки
Альретнативные подходы
Поиск в частично-аннотированной базе
WTGF: Weighted Total with Gravitation Function
Адаптивный поиск
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Синтез данных в контексте CBIR
аннотации
цвет (2)
цвет
текстура
 Комбинированный поиск
(различные характеристики)
 Уточнение результатов
поиска (разные алгоритмы)
 Дополнение результатов
поиска (разные множества)
синтез
результат
Семинар Московской Секции ACM SIGMOD, 29.11.2007
форма
Существующие недостатки






CombMax, CombMin, CombSum
CombAVG
CombMNZ = CombSUM * number of nonzero similarities
ProbFuse
HSC3D
Линейная комбинация (CombSum с весами)
Недостатки:
 Не учитываются веса источников
 Если учитываются:
 линейная зависимость итогового ранга элемента от его рангов
в различных источниках и весов источников
 Не учитываются особенности запроса-образца
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Альтернативные подходы
ColorMoment
аннотации
 Учитывать веса источников,
нелинейная зависимость
результата от весов
ColorHist
синтез
 Учитывать особенности запросаобразца
результат
Семинар Московской Секции ACM SIGMOD, 29.11.2007
ICAHist
Синтез ранжированных списков с весами
ωi – вес i-го списка; rik - ранг k-го элемента в списке i
ω1
(x11, r11), (x12, r12), … , (x1n, r1n)
ω2
(x2
1,
r2
1),
(x2
2,
r2
2),
…,
(x2
n,
r2
n)
…
ωm
r0k = f(Ω, Rk), где
Ω – множество весов всех списков,
Rk - множество рангов элемента k
(xm1, rm1), (xm2, rm2), … , (xmn, rmn)
Существующие решения:





CombMax, CombMin, CombSum
CombAVG
CombMNZ = CombSUM * number of nonzero similarities
ProbFuse
HSC3D
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Поиск в частично аннотированной базе
поиск по
аннотациям
TextResult1, textrank1
TR2, tr2,
...
по содержанию
Текстовый запрос
tr1
…
tr2
…
…
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Результат
Свойства функции синтеза
1) Симметричность
2) Монотонность по каждому из аргументов
3) Функции для определения ранга объекта
Функция ранга ([0..1], [0..1])N -> [0..1]
Функция веса [0..1]N -> [0..1]
4) MinMax условие /CombMin, CombMax, CombAVG/:
min{ rx(1 ) , rx( 2 ) ,..., rx( N ) }  rx( 0)  max{ rx(1 ) , rx( 2 ) ,..., rx( N ) }
5) Дополнительное свойство (аналог HSC3D):
условие взвешенной стабилизации элементов с высоким рангом
(правило конусов)
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Weighted Total with Gravitation Function
Модернизация CombAVG, в качестве веса - стабилизационная
(гравитационная) функция:


 g (r
( )
( )
( )
g
(
r
,
w
)

r
x
x
i
i
( 0)
x
r
i
i
( i )
x
i
, w( ) )
i
где
1

g (rx( ) , w( ) )  ( w( ) ) 2   rx( )  
12 

i
i
i
4
i
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Эксперименты: метод оценки
Параметры Roverlap, Noverlap:
Roverlap ( x) 
M  R ( 0) ( x)
M
R
i
( i )
( x)
N overlap ( x) 
M  N ( 0) ( x)
M
( i )
N
 ( x)
i
Lee J. H. Analyses of multiple evidence combination. SIGIR '97: Proceedings of the 20th annual
international ACM SIGIR conference on Research and development in information retrieval.
New York, NY, USA: ACM Press, p. 267-276, 1997.
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Описание эксперимента I
Данные:
Коллекция Flickr (~15000)
Методы:




Random с условиями MinMax
CombMNZ
WTGF_MT
WeightedTotal
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Результаты эксперимента I: Roverlap
а) Зависимость Roverlap от размера списка
при delta=0.03 для 10 входных списков
б) Зависимость Roverlap от размера списка
при delta=0.07 для 10 входных списков
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Описание эксперимента II
Данные:
Коллекция Corel Photo Set (285)
Участники синтеза (попарное смешивание):
 цветовые гистограммы с пространственной информацией (СolorHist )
 статистические признаки цвета (СolorMoment )
 текстурные признаки на основе фильтров ICA (ICAHist)
Методы:
 CombMNZ
 WTGF_MT
 WTGF_MT_weighted
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Результаты эксперимента II
Графики зависимости значений Roverlap от размера списков для различных функций
синтеза применительно к различным методам поиска по содержанию:
а) ColorHist и ColorMoment; b) ColorHist и ICAHist; c) ColorMoment и ICAHist.
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Адаптивный поиск
a  C  (1  a)  T
a2
a1
a3
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Описание эксперимента III
 Характеристики
– Цвет – статистическое представление
– Текстура – свертки с фильтрами ICA
 По оценкам асессоров изображения разбиты на
классы
 Выбор метрики для класса:
– Каждое изображение – запрос для поиска с
использованием смешанной метрики
– Коэффициенты: 0, 0.25, 0.5, 0.75, 1
– Чем больше суммарная (по всем изображениям класса)
полнота, тем лучше метрика
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Результаты: зависимость полноты
0,7
0,6
0,6
0,5
0,5
0,4
Кластер 2
0,4
Кластер 3
Кластер 4
0,3
Кластер 5
полнота
полнота
Кластер 1
Кластер 6
Кластер 7
0,3
Кластер 8
0,2
0,2
0,1
0,1
0
0
0
0,25
0,5
0,75
коэффициент смешанной метрики (а)
Кластеры с преобладанием
характеристики цвета.
1
0
0,25
0,5
0,75
1
коэффициент смешанной метрики (а)
Кластеры со смещением соотношения
характеристик в сторону текстуры.
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Результаты: кластеры
Описание
Размер
Метрика
Небо
7
1 C  0  T
Животные
10
1 C  0  T
Облака
8
0.75  C  0.25  T
Озера
9
0.75  C  0.25  T
Поля, луга
10
Листва
5
Небоскребы
6
Группы людей
5
0.75  C  0.25  T
0.5  C  0.5  T
0.5  C  0.5  T
0.25  C  0.75  T
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Результаты: примеры
1 C  0  T
0.5  C  0.5  T
0.25  C  0.75  T
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Методы синтеза: выводы (1)
 Методы синтеза применимы к задаче поиска изображений и
позволяют существенно улучшить результаты поиска.
 WTGF:
- большое количество источников;
- невысокая степень перекрытия источников;
- источники с различными весами.
 CombMNZ:
- равнозначные источники;
- высокая степень перекрытия источников.
 Предложенная схема поиска по частично аннотированной базе
оправдала себя.
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Методы синтеза: выводы (2)
 Возможно выделить классы изображений, для которых большее
значение имеет та или иная характеристика.
 Можно ли выделить общие признаки для изображений одного
класса?
 Позволит ли адаптивный подход улучшить результат поиска?
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Заключение
 Большой выбор различных алгоритмов поиска по каждой из
характеристик в отдельности
 Цвет: гистограммы или статистическая модель?
 Текстура: фильтры Габора, фильтры ICA
 Форма: дескрипторы Фурье, инвариантные моменты
 Необходимо комбинировать методы поиска по различным
характеристикам
 Выбор метода синтеза зависит от конкретной задачи (что с чем
смешиваем)
 Важно учитывать веса источников
 Адаптивный подход?
Семинар Московской Секции ACM SIGMOD, 29.11.2007
Download