Середин О., Крестинин И.

advertisement
355
ЛОКАЛИЗАЦИЯ ИЗОБРАЖЕНИЯ ЛИЦА С ИСПОЛЬЗОВАНИЕМ
МЕТОДА ОСОБЫХ ТОЧЕК 1
О. С. Середин2, И. А. Крестинин2
2
Тульский государственный университет, 300600, Тула, пр. Ленина, 92, РФ
oseredin@yandex.ru, ivan@crown-s-soft.com
В статье рассматривается применение алгоритма локализации на основе особых
точек к задаче поиска изображения лица человека на изображении. Производится
выбор изображения глаз и носа человека в качестве локализуемого объекта,
выбирается модель зрачка для создания множества особых точек. Для решения
проблемы поиска нескольких лиц и улучшения характеристик базового алгоритма
локализации используется принцип двухклассового распознавания образов в
качестве критерия отнесения пробных объектов к классам лиц-нелиц.
Введение
Решение задачи идентификации личности
по фотопортрету остается актуальной на
сегодняшний день. Одной из подзадач
данной
проблемы
является
задача
локализации
изображения
лица
на
предъявленном,
обычно
растровом,
изображении.
Этой проблеме посвящено достаточно
большое количество трудов [1,2,3,4],
однако, результаты, демонстрируемые
существующими
алгоритмами,
как
правило, недостаточно высоки. Одной из
причин снижения качества можно назвать
отсутствие учета таких особенностей, как
наклон
головы,
различный
размер
изображения в зависимости от близости
человека к видеокамере или другому
регистрирующему устройству.
Можно ожидать, что использование для
решения этой задачи алгоритмов на основе
особых точек [5] может улучшить качество
решения задачи в целом. Общий алгоритм
локализации на основе особых точек
предназначен
для
поиска
любых
изображений, вследствие этого при прямом
применении он дает не высокие результаты
на столь частной задаче. В связи с этим в
статье будут рассмотрены модификации
этого алгоритма, учитывающие специфику
поиска лиц и позволяющие значительно
повысить качество распознавания.
1. Построение модели глаза
Традиционно,
многие
алгоритмы
локализации лиц используют модель
человеческого глаза, как основной объект
поиска. Отметим некоторые возможные
варианты изображений, накладывающие
существенные ограничения на подобные
модели:
 малый размер лица на изображении – это
может привести к тому, что зрачок будет
иметь размеры находящиеся на пределе
разрешающей способности аппаратуры
регистрации изображения, в результате в
случае
использования
традиционного
растрового
формата
представления
хранения, изображение зрачка будет иметь
размеры порядка одного пиксела;
 неизвестный размер зрачка – в
зависимости от близости человека к
регистрирующей аппаратуре размер зрачка
может
изменяться
в
значительном
диапазоне;
 закрытые глаза – формально на таком
изображении вообще нет зрачков, однако
для удачного решения задачи локализации
изображения лица в целом хотелось бы
чтобы модель описывала как зрачки
______________________________________________________________________
1
Работа выполнена при поддержке грантов РФФИ №№ 05-01-00679, 06-01-08042, 06-01-00412, 06-07-89249.
356
область, где они бы находились в случае
открытых глаз; потенциально для этого
случая возможно введение некоторой
дополнительной модели, описывающей
изображение опущенных век и ее
отдельное использование.
В качестве модели удовлетворяющей
вышеперечисленным требованиям нами
была выбрано описание изображения
зрачка, как центра локального минимума
функции яркости. Действительно, такая
модель достаточно проста для того, чтобы
можно было реализовать эффективные
алгоритмы на ее основе, и в то же время
достаточно «инвариантна», т.к. почти не
зависит от размера зрачка. Помимо этого с
помощью нее хоть и с меньшей
эффективностью, но все же могут быть
описаны ситуации, когда глаза закрыты,
т.к. обычно можно обнаружить как
минимум один, а чаще и более четко
выраженных минимумов на изображении
ресниц (рисунок 1).
десятков тысяч в зависимости от размера
изображения,
его
зашумленности.
Интересный
подход
позволяющий
уменьшить количество получаемых таким
образом особых точек описан в работе [6],
описание более сложных моделей глаза
можно найти в работе [7].
С целью снижения влияния шума,
изображение предварительно подвергается
процедуре фильтрации, параметры этой
процедуры также влияют на количество
особых
точек изображения. Можно
попытаться
оценить
необходимое
количество особых точек и параметры
фильтрации для групп изображений со
сходными характеристиками анализируя
вероятность совпадения какой-либо из
особых точек с истинным положением
зрачка. Например, для базы BioID Face DB
[8] согласно данным, представленным на
рисунке 2 количество особых точек может
быть выбрано на уровне 200-300 точек и
размер окна медианного фильтра   4 .
 6
1
 8
0.9
0.8
0.7
0.6
4
0.5
2
0.4
0.3
0.2
0.1
0
100
200
300
400
500
600
700
Рис. 2. Частота нахождения особой точки в 15пиксельной окрестности изображения зрачка в
зависимости от количества особых точек для
различных размеров окна медианного фильтра 
Рис. 1. Центры локальных минимумов функции
яркости в случае полуоткрытых и закрытых глаз
Однако простота такой модели является как
ее преимуществом, так и ее главным
недостатком. На ее основе не удается
отличить минимумы, соответствующие
зрачкам глаз от других минимумов
функции яркости изображения, количество
которых обычно колеблется в диапазоне от
нескольких десятков, до нескольких
Однако
как
показала
практика
использование фиксированного размера
окна фильтра приводит к слишком жесткой
привязке
алгоритма
к
конкретным
параметрам изображения, потому лучших
результатов
позволяет
добиться
применение
адаптивных
процедур
фильтрации, это в частности позволяет и
снизить количество особых точек, так для
базы BioID Face DB это количество
согласно рисунку 3 может быть выбрано на
уровне 70-100.
357
3. Применение процедуры SVM для
классификации объектов лицо-не-лицо
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
25
50
75
100
125
150
Рис. 3. Частота нахождения особой точки в 15пиксельной окрестности изображения зрачка в
зависимости от количества особых точек для базы
BioID Face Database
2. Выбор модели искомого изображения
Фрагмент,
поиск
которого
будет
осуществляться, должен не очень сильно
изменяться на разных изображениях,
потому, например, неудачным выбором
будет использование изображения головы
человека, т.к. для разных людей может
изменяться вид прически, наличие бороды,
усов. На разных фотографиях одного
человека
может
сильно
меняться
изображение рта, особенно, во время
разговора. В связи с этим подходящим
объектом для поиска можно назвать
изображение глаз и носа человека, как
имеющих
не
очень
большую
вариабельность. Как правило, вид этой
части лица не очень сильно варьируются ни
для разных людей, ни для разных
фотографий одного человека. На рис. 4
показан шаблон поиска, полученный путем
усреднения изображений вырезанных из
1520-ти фотографий.
Одним
из
важных
преимуществ
использования классификатора в задаче
локализации
является
возможность
определения с помощью него количества
лиц на изображении. Кроме этого можно
сделать предположение, что использование
классификатора должно дать лучшие
результаты, нежели обычное сравнение с
эталоном.
3.1 Выбор пространства признаков
Объект
распознавания
(после
фотометрической
нормализации)
проецировался в решетку фиксированного
размера ( 12 10 ). Значения яркостей узлов
решетки и использовались как числовые
признаки.
3.2 Выбор вида потенциальной функции
для метода опорных векторов
Использование сложных разделяющих
поверхностей
нежелательно,
т. к.
решающие правила, построенные с их
использованием,
требуют
больших
вычислительных
ресурсов
при
их
использовании, кроме того, требуется
большее количество данных для обучения.
В связи с этим, несмотря на линейную
неразделимость
имеющихся
у
нас
множеств в выбранном пространстве, на
настоящий
момент
использовалась
линейная разделяющая гиперплоскость.
3.3 Структура обучающего материала
Рис. 4. «Усредненное» изображение глаз и носа
На стадии предварительных исследований
как решение задачи локализации в целом на
изображении
искался
фрагмент,
минимально отличающийся от шаблона.
Применение данного подхода дало не
высокие результаты, в частности при
тестировании на базе BioID удалось
правильно определить положение лица
лишь на 60% изображений.
Обучающая выборка была сформирована
следующим образом: к базе изображений
BioID
была
применена
процедура
аналогичная
процедуре
локализации
изображения на основе особых точек [7], за
тем исключением, что фрагменты, которые
должны были подаваться на вход
бинарному классификатору вместо этого
записывались в файлы, составляющие
обучающую
выборку.
Класс
этих
изображений определялся на основе
содержащихся в базе BioID сведений об
истинном положении зрачков глаз. Таким
образом, была сформирована база из
358
1300000 изображений "нелиц" и порядка
3000 изображений лиц. Дополнительно в
обучающую выборку было добавлено
порядка
1200000
изображений
лиц
полученных путем вырезки фрагмента
соответствующего изображению лица на
основе данных о его положении с
применением различных смещений.
3.4 Метод обучения с отбором
обучающего материала
Таким образом, полная обучающая выборка
составила около 2.5 млн. фрагментов,
однако имеющиеся в наличии процедуры
обучения
имели
существенные
ограничения на количество объектов, на
которых возможно провести обучение за
приемлемое время, обычно их количество
не превышало 5-8 тыс. объектов. В связи с
этим для обучения был использован
итерационный подход, основанный на
особенностях SVM классификатора, в
частности на том свойстве, что решающее
правило в итоге определяется не всем
множеством объектов, а лишь некоторой
его частью, так называемыми опорными
векторами.
Таким
образом,
можно
попытаться
построить
некоторое
решающее
правило
по
небольшой
случайной
подвыборке,
а
затем,
зафиксировав только опорные объекты,
добавить к ним очередную случайную
порцию данных в надежде, что новые
объекты уточнят решающее правило.
Схема такой процедуры представлена на
рис. 5.
полная обучающая выборка
(1 200 000 объектов - лиц,
1 300 000 объектов - «нелиц»)
4. Использование априорной
информации
Заметим, что для общего алгоритма
локализации изображений по особым
точкам требуется как минимум 3 точки,
однако, эффективно выделять мы можем
лишь 2 точки – центры зрачков. Решить
данную проблему можно отказавшись от
поиска аффинного преобразования общего
вида и перейдя к его достаточно частной
форме учитывающей лишь поворот,
масштабное преобразование (с равным
масштабом по обеим осям) и смещение.
Для ускорения процедуры поиска можно
воспользоваться еще некоторой априорной
информацией, например, если известно, что
видеокамера
имеет
определенное
положение и люди стоят либо сидят, то
можно предположить, что изображение
лица наклонено не слишком сильно,
например не более, чем на ±60°. Также
может быть известно, что люди находятся
не дальше и не ближе какого-либо
расстояния от видеокамеры, тогда размер
лица на изображении будет достаточно
определенным, в данном случае можно
наложить дополнительные ограничения на
возможный
масштаб
изображения
(фактически на расстояние меду особыми
точками).
с предыдущей итерации
опорные объекты
(порядка 200 - 400)
случайно отобранные
объекты
(2000 лиц и 2000 «нелиц»)
SVM
решающее правило
Рис. 5. Итерационная процедура обучения
Можно доказать сходимость данной
процедуры
для
случая
разделимых
множеств.
Однако,
как
показали
эксперименты, имеющиеся множества не
являются линейно разделимыми, тем не
менее, с использованием данного подхода
удалось добиться удовлетворительного
решения задачи.
Рис. 6. Множество фрагментов до и после
наложения ограничений на возможный масштаб и
наклон головы.
Все эти эмпирические предположения
позволяют
наложить
дополнительные
359
ограничения на множество возможных
преобразований A , а, следовательно, и
сократить
количество
анализируемых
фрагментов изображений, существенно
сократив время работы алгоритма (рис. 6).
5. Результаты экспериментальных
исследований
При тестировании алгоритма локализации с
использованием базы BioID Face Database
была выявлена следующая особенность:
при
классификации
фрагментов,
выделенных
на
изображении,
классификатор относил к классу "лицо"
около 10-100 фрагментов, несмотря на то,
что верным был лишь один из них. Данный
результат можно объяснить недостаточно
высоким качеством классификатора, тем не
менее, после сортировки полученных после
классификации фрагментов были получены
следующие результаты:
 на 88.2% изображений алгоритм верно
указывает область лица, и эта область
оказывается на первом месте;
 на 96.5% изображений область лица
оказывается среди 4-х «лучших»
областей указанных алгоритмом;
 на 98.3% изображений область лица
оказывается среди 16-ти «лучших»
областей указанных алгоритмом.
Заключение
Как видно из результатов эксперимента
показатели качества работы алгоритма
достаточно высокие, однако тот факт, что в
12%-х случаев на первом месте оказывается
фрагмент
несоответствующий
действительному
положению
лица
показывает, что необходимо продолжить
работы
по
улучшению
показателей
качества классификатора.
Использование для сравнения изображений
методов теории распознавания образов
позволяет существенно улучшить качество
решения задачи локализации по сравнению
с использованием обычного сравнения
фрагмента с искомым изображением.
Направление
будущих
исследований
связано с изменением вида потенциальной
функции и применения процедур отбора
признаков.
Литература
1. Li Ma, Yunhong Wang, Tieniu Tan. Iris Recognition
Based
on
Multichannel
Gabor
Filtering.
ACCV2002: The 5th Asian Conference on
Computer Vision, pp. 23-25 January 2002,
Melbourne, Australia.
2. А. Костин, Д. Киттлер Метод опорных векторов
для быстрого поиска лиц и координат глаз на
изображении. 6-я международная конференция
"Распознавание образов и анализ изображений:
новые информационные технологии" (РОАИ-62002). Великий Новгород, 21-26 окт. 2002 г.: Тр.
конф.: В 2 т. / Отв. за вып. Е. И. Зайцева; НовГУ
им. Ярослава Мудрого. Великий Новгород, 2002.
- Т. 2. 316-320 с.
3. Zhiwei Zhu, Kikuo Fujimura, Qiang Ji Real-Time
Eye Detection and Tracking Under Various Light
Conditions // ETRA'02 New Odeans Louisiana
USA, 2002.
4. A. Sachenko, I. Paliy, Y. Kurylyak, V. Kapura, R.
Sadykhov, D. Lamovsky Face Detection Algorithm
for Video Surveillance Systems. Pattern Recognition
and Information Processing: Proceedings of the
Ninth International Conference. Vol. II. - Minsk:
United Institute of Informatics Problems of National
Academy of Science of Belarus, 2007. pp. 141-145.
5. Крестинин И.А., Середин О.С. Алгоритмы на
основе особых точек в задачах локализации
графических изображений. Статья в этом
сборнике.
6. Morimoto C., Koons D., Amir A. and Flickner M.
Pupil detection and tracking using multiple light
source// Image and Vision Computing, special
issue on Advances in Facial Image Analysis and
Recognition Technology. - No. 4. - 2000. - P.331335.
7. Qui Chen, Koji Kotani, Feifei Lee, Tadahiro Ohmi
Accurate Eye Detection Using Elliptical Separability
Filter. Proceding of the Eighth IASTED
International Conference. Signal and Image
Processing. August 14-16, 2006, Honolulu, Hawaii,
USA, pp. 207-211.
8. http://www.humanscan.de
Download