Алексей Дмитриевич Варламов Руслан Владимирович Шарапов RCDL’2012 Владимирский государственный университет

advertisement
Алексей Дмитриевич Варламов
Руслан Владимирович Шарапов
Владимирский государственный университет
RCDL’2012
Переславль-Залесский, 17 октября 2012 г.
Существует несколько направлений поиска
по изображениям:
 поиск по описаниям (найти изображение,
помеченное как «Совершенно секретно»
или «Москва»),
 поиск по содержанию (найти фотографию
человека или изображение, к примеру,
берёзы),
 поиск по визуальному образцу (найти
изображения, похожие на заданное) и т.д.
Цель работы: рассмотрение вопросов построения
системы поиска по визуальному образцу в
относительно больших (десятки тысяч)
коллекциях изображений.
Рассматриваемые вопросы:
- Выявление ключевых признаков изображений
для поисковых задач,
- Применение нейронных сетей для реализации
машинного обучения оценке тематической
близости изображений,
- Результаты исследований и перспективы
развития.
изображения,
обладающие визуальным
подобием
изображения, обладающие
частичным визуальным
подобием
изображения, не
обладающие визуальным
подобием
Пара изображений
Признаки пары
Близость
изображений в паре
Поиск изображений по визуальному образцу
сводится к решению задачи определения
степени
визуального
подобия
двух
произвольных изображений или отнесению
пары картинок к одному из двух классов:
подобные или не подобные между собой. С
этой точки зрения данную проблему можно
рассматривать
как задачу из теории
распознавания образов, где каждый образ
(пара изображений) необходимо представить
набором существенных признаков.
Однако, в реальных информационно-поисковых системах при
индексации анализируются не пары, а отдельные изображения.
Поэтому признаки пар должны быть основаны на признаках
отдельных изображений, которым посвящена следующая часть.
Докладчик: Варламов А.Д.
Можно использовать очень большое число признаков для
анализа пар изображений на визуальное подобие, но такая
численность является крайне нежелательной.

Во-первых, время работы результирующего алгоритма
напрямую зависит от количества признаков, так как в
данном случае велико количество величин, которые
требуется рассчитать.

Во-вторых, большее число признаков усложняет
архитектуру нейронной сети, что приводит к увеличению
требований к ресурсам, задействованным в процессе
машинного обучения, и времени самого обучения.

В третьих, существует избыточность признаков из-за их
взаимной корреляции и потенциальное наличие признаков,
которые могут не влиять не результат. Такую избыточность
желательно устранить.
Многие признаки коррелированны между собой. Это видно на диаграммах рассеяния.
Признаки: средние
значения красной и
зеленой составляющих
(k = 0,79)
Признаки: средняя
яркость и медиана
(k = 0,87)
Признаки: наличие
симметрии и медиана
(k = 0,26)
Кроме того, различные признаки имеют разную степень корреляции с целью. Также
признаки различаются по трудоемкости алгоритмов их вычисления.
Все эти факторы необходимо учесть при их отборе!
Таким образом, необходимо сокращение числа признаков, но
проводимое не вслепую в ущерб качества результата, а с
обеспечением наибольшего снижение трудоемкости их
вычисления при наименьшей потери точности результата
обучения.
В основе метода сокращения количества признаков можно
использовать различные методы понижения размерности
данных, например факторный анализ, feature selection и
другие. Мы предлагаем в качестве критерия отбора признаков
использовать величину:
где x – значимость признака, определенная методом сокращения
размерности данных, t – время вычисления признака, ca –
корреляция значения признака с целью, j – номер признака.
Отбор предлагается выполнять классическим способом
анализа графика каменистой осыпи, в которой значимость
признаков определена по предложенному авторами
критерию.
Значимость
0.020
0.015
0.010
0.005
Признак
0.000
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Ключевые признаки в дальнейшем используются:
- для обучения нейронной сети оценки близости изображений.
- (при приемлемых результатах) при индексации изображений
для формирования их поисковых образов (сигнатур) в
информационно поисковой системе.
докладчик : Варламов А.Д.
Была сконструирована
двухслойная нейронная
сеть, структура которой
приведена на рисунке.
1 слой – значения
признаков;
2,3 слои – формальные
нейроны Мак-Каллока;
4 слой – выходное
значение,
соответствующее степени
близости.
Для обучения нейронной сети использовался генетический алгоритм.
Причины выбора данного способа обучения:

Генетические алгоритмы хорошо распараллеливаются, при этом обладая
свойством масштабируемости (больше потоков – быстрее обработка).

Многие алгоритмы обучения могут свести решение к локальному
оптимальному результату (локальный минимум ошибки) и не смогут его
улучшить при сколь угодно большом количестве попыток. Генетический
алгоритм в данном случае способен “выйти” из данного локального
минимума и найти более оптимальное решение (процедура мутации).

Авторы обладают опытом обработки и анализа изображений с
использованием технологий машинного бучения, который реализовался
в нейроимитаторе Сигнейро (www.обработка-изображений.рф). Данная
технология успешно опробована в различных задачах работы с
цифровыми изображениями. С использованием эвристик разработан
быстрый генетический алгоритм обучения нейросети.
Существует большое количество метрик, оценивающих качество работы
информационно-поисковых систем (полнота, точность и т.д.). В работе в
качестве критерия оптимизации используется количество
безошибочных откликов сети на все пары выборки. Это позволяет
максимизировать аккуратность (метрика accuracy) или минимизировать
ошибку (метрика error). График изменения аккуратности от количества
прошедших поколений генетического алгоритма обучения нейросети
представлен на рисунке.
100%
Аккуратность
Кол-во
поколений
0
50
100
Характеристика
Особенность значение
Прецедент
Пара изображений и степень их
близости
Количество входов
Соответствует количеству
используемых признаков
Количество выходов
Один, со значением 1 или 0.
Количество эпох нейросети в
процессе обучения
Равно произведению количества
особей генетического алгоритма на
количество поколений обучения
Особь генетического алгоритма
Набор синаптических весов сети
Необходимость предварительной
обработки данных перед обучением
Имеется. Заключается в вычислении
признаков для всех пар изображений
значений признаков
Коллекция изображений
Отбор изображений
Изображения
Отбор изображений
Выбор признаков, которые
можно использовать для
оценки тематической
близости
Формирование обучающей выборки
Изображения
Формирование тестовой
выборки
Признаки
Пары изображений
Требование к
расширению
обучающей
выборки
Экспертны
е оценки
степени
близости
каждой
пары
Пары изображений
Вычисление признаков
изображений
Вычисление признаков
изображений
Значения
признаков
Ключевые
признаки
Факторный анализ
признаков и анализ
временных характеристик
их вычисления
Значения
ключевых
признаков
Обучение нейронной сети
Параметры
сети
Показатели
качества оценки
на обучающей
выборке
Оценки
асессоров
степени
близости
каждой
пары
Значения
ключевых
признаков
Прогон нейронной сети
Показатели
качества оценки
на тестовой
выборке
Сопоставление результатов.
Вывод о репрезентативности
обучающей выборки









Этап 1. Из коллекции изображений формируется обучающая выборка. Она состоит из множества
прецедентов, каждый из которых включает в себя пару изображений и степень их близости,
оцененную экспертом.
Этап 2. Программно реализуются (при необходимости и разрабатываются) алгоритмы вычисления
всевозможных признаков на изображениях.
Этап 3. Для каждой пары изображений вычисляются значения всех признаков.
Этап 4. Проводится факторный анализ признаков, в результате которого определяются главные
признаки, значения которых будут использоваться в обучении нейронной сети и алгоритмы
вычисления которых станут частью конечного алгоритма оценки визуального подобия изображений.
Этап 5. Обучается нейронная сеть. По завершению этого процесса запоминаются данные,
характеризующие величины ошибок нейронной сети относительно входной выборки. Эти
показатели преобразуются в полноту и точность — целевые значения оценки качества выполняемой
работы.
Этап 6. Из коллекции изображений формируется тестовая выборка. Ее структура и характеристики
(объем, соотношение близких и неблизких пар) должны соответствовать структуре и
характеристикам обучающей выборки.
Этап 7. Вычисляются значения ключевых признаков всех изображений, входящих в тестовую
выборку.
Этап 8. Прогоняется нейронная сеть на тестовой выборке с определением полноты и точности.
Этап 9. Сравниваются полнота и точность анализа нейронной сетью изображений обучающей
выборки с полнотой и точностью анализа нейронной сетью изображений тестовой выборки. При
приблизительно одинаковых значениях соответствующих показателей работа считается
завершенной.
докладчик : Шарапов Р.В.



В проведенном исследовании мы остановились на
работе с 25 признаками, наиболее часто
используемыми в задачах анализа изображений.
В связи с тем, что поиск может осуществляться в
больших коллекциях изображений, в качестве
признаков мы рассматривали только те, которые
можно просчитать для изображений заранее и
занести в некое подобие поискового индекса.
По этой причине, нами не рассматривались те
признаки, которые необходимо рассчитывать по
парам изображений непосредственно при
осуществлении поиска.









Средние значения компонент R, G, B изображения в
цветовой модели RGB;
Медиана яркости;
Детализированность;
Признак симметрии изображения;
Признак наличия текстур;
Пропорции сторон;
Наличие лиц на изображении;
Нормированные 16-ти уровневые гистограммы по
компонентам Y (яркости), U, V изображения в цветовой
модели YUV;
Среднеквадратичное отклонение яркостей уменьшенных
копий (размером 32х32 пикселя) образца и
рассматриваемого изображения.

В качестве набора исходных данных использовалась
коллекция Flickr семинара РОМИП. В ней содержится
20000 фотографий разного качества и без единой
темы; имеются фотоснимки людей, пейзажи,
городские сцены и т.д. Фотографии сделаны при
разном освещении, в помещениях, на улице и т.д. Из
данной коллекции в обучающую выборку были
отобраны 500 пар, среди которых 125 являются
тематически близкими, а 375 нет. Тестовой выборкой
являлось специальное задание дорожки семинара
РОМИП с результатами работы группы асессоров.
Полнота
(recall)
значения метрик
для изображений
обучающей выборки
значения метрик
для изображений
тестовой выборки
значения метрик
для изображений
тестовой выборки
РОМИП
Точность
(precision)
0.25
Точность(10) /
Precision(10)
Bpref
0.2
0.15
Полнота / Recall
Средняя точность /
Average precision
Точность / Precision
0.1
0.05
R-точность / R-precision
0
Система 1
Система 2
Axioma



Таким образом, была создана экспериментальная
система, способная осуществлять поиск изображений
по визуальному подобию в достаточно больших
коллекциях.
Вошедшая в оптимизационный критерий временная
характеристика позволила минимизировать
трудоемкость итогового алгоритма, который обладает
линейным порядком временной сложности.
В дальнейшем, при увеличении объемов обучающей и
тестовой выборок, качественный показатель может
быть улучшен и даже превзойден значения аналогов,
так как на данный момент имеются расхождения в
показателях обучающей и тестовой выборок.



Увеличение объемов обучающей выборки.
Более жесткий отбор пар обучающей выборки.
Расширение набора признаков изображений.
Спасибо за внимание!
Download