Алгоритм гендерной классификации изображений лиц людей на

advertisement
Л.А. ШМАГЛИТ, А.Н. ГАНИН
Ярославский государственный университет им. П.Г. Демидова
connect@piclab.ru
АЛГОРИТМ ГЕНДЕРНОЙ КЛАССИФИКАЦИИ
ИЗОБРАЖЕНИЙ ЛИЦ ЛЮДЕЙ
НА ОСНОВЕ АДАПТИВНЫХ ПРИЗНАКОВ
И МЕТОДА ОПОРНЫХ ВЕКТОРОВ
Описан алгоритм автоматического распознавания пола людей по изображению лица, основанный на методах машинного обучения. Синтезированный алгоритм состоит из двух этапов: извлечение адаптивных признаков, классификация методом опорных векторов. Проведен сравнительный
анализ работы предложенного алгоритма, представлена методика его обучения и тестирования.
Ключевые слова: выделение лиц, гендерная классификация, генерация адаптивных признаков, метод опорных векторов
Введение
Работа посвящена разработке системы, различающей людей на изображениях по гендерному признаку (разбиение на два класса: «мужчины»
и «женщины»). Подобные системы находят широкое применение в различных областях: робототехнике, интерфейсах взаимодействия человеккомпьютер, системах сбора и оценки демографических показателей, видеонаблюдении, системах интеллектуального представления информации
с цифровых носителей, и многих других. К примеру, распознавание пола
может использоваться как первый этап при решении задачи идентификации личности. Методы машинного обучения [1], применяемые при построении гендерных классификаторов, носят универсальный характер, что
позволяет использовать разработки в области распознавания пола в системах понимания изображений для решения задач классификации любых
других объектов.
Существуют всеобъемлющие сравнительные исследования методов
распознавания лиц на изображениях [2], методов обнаружения лиц [3], а
также методов распознавания выражения лица [4]. Задача распознавания
пола на сегодняшний день менее изучена. Сравнительный анализ гендерных классификаторов, предложенных за последнее время, приведен в работе [5]. Существуют подходы, основанные на нейронных сетях, на ком-
бинации вейвлетов Габора и метода главных компонент, на анализе независимых компонент и линейном дискриминантном анализе. В работе [6]
используется генетический алгоритм для генерации признаков и классификатор на базе метода опорных векторов (МОВ) [7]. В работе [8] были
предложены локальные бинарные признаки в комбинации с обучающей
процедурой AdaBoost. Алгоритм на основе сетей радиальных базисных
функций и индуктивных решающих деревьев описан в работе [9].
Предлагаемый алгоритм распознавания пола основан на классификаторе МОВ в комбинации с ядерным преобразованием на базе радиальных
базисных функций. Для извлечения информации и уменьшения размерности предлагается алгоритм генерации адаптивных признаков, обучение
которого осуществляется посредством процедуры оптимизации в соответствии с принципом ЛДА. Для организации полностью автоматической
системы распознавание пола используется совместно с алгоритмом выделения лиц на базе бустинга, который отбирает кандидатов для анализа
[10]. Выделенные фрагменты подвергаются предобработке для приведения их к единому разрешению и яркостным характеристикам.
Вначале рассмотрена схема работы предлагаемого алгоритма, в следующем разделе приведена методика его обучения и тестирования, и,
наконец, представлены результаты сравнения предлагаемого алгоритма с
классическими алгоритмами гендерной классификации.
Описание предлагаемого алгоритма
Классификатор строится на базе адаптивных признаков и метода
опорных векторов (АП-МОВ). Схема его работы приведена на рис. 1.
Алгоритм АП-МОВ включает в себя следующие шаги: преобразование
цветового пространства, масштабирование, вычисление набора адаптивных признаков, классификацию методом опорных векторов с применением ядерного преобразования. Входное изображение ÀYRGB
Y преобразуется
из пространства RGB в цветовое пространство HSV и масштабируется до
фиксированного разрешения N  N . Далее вычисляется набор признаков
ПiHSV , при этом i-й признак вычисляется как сумма по строкам и столбцам поэлементного произведения матрицы изображения на матрицу коэффициентов CiHSV размерностью N  N , получаемую при обучении:
Ï
HSV
i
HSV
   ANHSV
.
 N .  Ci
N
N
(1)
АYRGB
Y
Входное изображение
Преобразование
RGB 
 HSV
Масштабирование
Y Y 
 N  N
ANHSV
N
Вычисление набора признаков
П   A

HSV
i
HSV
N N
N
N

.  CiHSV 

Данные
набор матриц N  N
C 
HSV
i
П
МОВ классификатор


f ( П )  sgn   yi i k ( X i , П )  b 
 i 1

m
  z1  z2
k ( z1 , z2 )  С exp

2

2




Данные
Опорные вектора
X i 
Коэффициенты
y i   i 
Параметры
С 
b
Решение (мужчина / женщина)
Рис. 1. Схема работы алгоритма АП-МОВ
К полученному вектору признаков применяется ядерное преобразование с использованием радиальной базисной функции Гаусса:
  z1  z2 2 
.
k ( z1 , z2 )  Ñ exp 
(2)


2


Параметры функции – С и  определяются на этапе обучения. Преобразованный вектор служит входом для линейного классификатора на базе
МОВ с решающим правилом:
m
(3)
f ( Ï )  sgn   yi i k ( X i , Ï )  b  .
 i 1

Набор опорных векторов X i , а также наборы коэффициентов yi , i 
и смещение b определяются во время обучения классификатора.
Методика обучения и тестирования
Для осуществления обучения и тестирования классификатора необходима достаточно объемная база полноцветных изображений. Существует
общепринятая база данных для распознавания лиц – FERET [11], однако,
она содержит недостаточное количество лиц различных людей, поэтому
нами была составлена собственная база, набранная из различных источников. На каждом изображении из собственной базы алгоритмом на базе
бустинга были выделены лица. Затем вручную были удалены ложные выделения и сформирована база выделенных фрагментов, содержащая
10 500 изображений (по 5 250 на каждый класс). Эта база была разделена
на три независимых выборки: обучающую, контрольную и тестовую.
Обучающая выборка использовалась для генерации признаков и построения классификатора на базе МОВ. Контрольная выборка была необходима
для того, чтобы избежать эффекта переобучения в процессе оптимизации
параметров ядерной функции. Проверка работы обученного классификатора осуществлялась с использованием тестовой выборки.
Обучение классификатора АП-МОВ содержало в себе два независимых этапа: генерация признаков, формирование и оптимизация классификатора на базе МОВ. Рассмотрим процедуру генерации признаков. Она
состоит из следующих основных шагов:
преобразование цветового пространства обучающих фрагментов
RGB → HSV (далее все операции выполняются независимо для каждой
цветовой компоненты);
масштабирование обучающих фрагментов до единого разрешения
NN;
генерация по случайному закону матрицы коэффициентов CiHSV ;
вычисление значения признака П iHSV для каждого обучающего фрагмента;
вычисление целевой функции оптимизации как отношения квадрата
разности средних значений признака, вычисленных для наборов обучающих изображений «мужчин» и «женщин», к сумме их дисперсий [12]:
 Ï
F
HSV
i
Ï

HSV
i
Ï 
  Ï 

Ì
Ì
HSV
i
HSV
i

Æ
2
;
(4)
Æ
далее в цикле итеративно (до достижения фиксированного максимального числа итераций): генерация по случайному закону матрицы CiHSV
внутри фиксированной окрестности матрицы CiHSV , вычисление признака
~
ПiHSV для каждого обучающего фрагмента и вычисление целевой функции F , переход в новую точку ( F  F , C  C ), если F  F ;
сохранение по истечении некоторого заданного числа итераций матрицы коэффициентов CiHSV ;
переход к генерации следующего (i+1-го) признака.
Представленная процедура оптимизации позволяет извлекать из изображения только ту информацию, которая необходима для разделения
классов. При этом признаки, имеющие большее значение целевой функции F, обладают большей разделяющей способностью. Настраиваемыми
параметрами при генерации признаков являются: разрешение обучающих
изображений (N), число обучающих изображений (M), максимальное число итераций (T). Эмпирически были получены следующие значения, как
компромисс между достигаемой разделяющей способностью и скоростью
обучения:
(5)
N  65;
M  400;
T  105 .
Было обучено по 1000 признаков для каждой цветовой компоненты.
На втором этапе обучения эти признаки извлекались из обучающих изображений и подавались на вход классификатора МОВ. При этом методика
обучения классификатора включала в себя:
вычисление набора признаков, сгенерированных на первом этапе, для
каждого из обучающих фрагментов;
нормализацию признаков;
обучение МОВ классификатора на обучающем наборе изображений с
различными параметрами ядерной функции;
вычисление уровня верного распознавания (D) по валидационной выборке;
нахождение оптимальных параметров ядра (максимизирующих D);
обучение итогового классификатора МОВ с найденными оптимальными параметрами ядра.
Целью этапа формирования классификатора является нахождение решения, обладающего большей обобщающей способностью, то есть имеющего минимальную ошибку классификации. Настраиваемыми параметрами являются: число признаков (N2), число обучающих изображений
(M2), параметр ядра , параметр ядра С.
Для нахождения оптимальных параметров ядра использовался алгоритм поиска по сетке: классификатор МОВ был обучен с C  10k1 и
  10k 2 , где k1 и k 2 – целые числа; для обучения были использованы все
комбинации k1 и k 2 в интервале [-15 … 15]; при этом измерялся уровень
верного распознавания с использованием валидационной выборки. Результаты. Максимальный уровень верного распознавания (порядка 80 %)
был получен для параметров со значениями: C  106 ;   108 .
Кроме того было проведено исследование зависимости результатов
распознавания от количества признаков, извлекаемых из изображения для
каждой цветовой компоненты – N2, и от числа самих обучающих изображений для каждого класса – M2 .
Анализ показал, что каждый признак обладает существенной разделяющей способностью, и уже при N 2  30 уровень верного распознавания
достигает 79,5 %. При этом наблюдается рост уровня распознавания как с
увеличением N2, так и с увеличением M2, что объясняется ростом количества информации о рассматриваемых классах, содержащейся в классификаторе. Таким образом, с точки зрения компромисса между качеством и
быстродействием были выбраны параметры: N 2  30 ; M 2  400 .
Результаты тестирования
В данном разделе представлены результаты сравнения предлагаемого
алгоритма АП-МОВ с общепринятыми методами классификации: МОВ
[7] и KDDA (Kernel Direct Discriminant Analysis) [12].
Классификатор АП-МОВ был обучен в соответствии с методикой,
приведенной в предыдущем разделе. Классификаторы МОВ и KDDA обладают гораздо меньшим набором настраиваемых параметров, поскольку
используют непосредственно значения пикселей, а не признаков в процессе обучения и распознавания. Для их обучения была использована та
же самая обучающая база, что и для классификатора АП-МОВ. Одинаковыми для всех трех рассматриваемых классификаторов также были следующие условия: число обучающих изображений, разрешение обучающих изображений, процедура предобработки изображений. Также как и
для алгоритма АП-МОВ параметры классификаторов МОВ и KDDA были
оптимизированы с использованием валидационной выборки. Таким образом, были обеспечены равные условия для независимого сравнения рассматриваемых алгоритмов классификации по скрытой до этого тестовой
выборке изображений.
Для представления результатов классификации использовалась так
называемая кривая ошибок или ROC-кривая (Receiver Operator Characteristic) [13]. Поскольку классов два, один из них называется классом с положительными исходами, второй – с отрицательными исходами. ROCкривая показывает зависимость количества верно классифицированных
положительных примеров (RR) от количества неверно классифицирован-
ных отрицательных примеров (FPR) при варьировании порога решающего
правила. Преимуществом ROC-кривой является её инвариантность относительно отношения цены ошибки I и II рода.
Результаты тестирования классификаторов АП-МОВ, МОВ и KDDA
представлены на рис. 2 и в табл. 1. Измерения проводились на персональном компьютере со следующей конфигурацией: операционная система
Microsoft Windows 7; процессор Intel Core i7 (2 GHz); количество ядер – 4;
оперативная память 6 Гб.
Рис. 2. ROC-кривые тестируемых алгоритмов распознавания пола
Таблица 1
Сравнительный анализ основных показателей тестируемых алгоритмов
Алгоритм
МОВ
KDDA
АП-МОВ
Параметр
Уровень распознаНеверНеверНеверВерно
Верно
Верно
вания
но
но
но
Распознано мужчин,
80
20
75,8
24,2
80
20
%
Распознано женщин,
75,5
24,5
65,5
34,5
79,3
20,7
%
Общий уровень рас22,3
30,3
20,4
77,7
69,7
79,6
познавания, %
Быстродействие,
44
45
65
лиц/с
Анализ результатов тестирования показывает, что наиболее эффективным как с точки зрения качества распознавания, так и с точки зрения
быстродействия, является классификатор АП-МОВ: он показал самый
высокий уровень верного распознавания среди всех трех алгоритмов –
79,6 %, и превзошел классификаторы МОВ и KDDA по скорости работы
приблизительно на 50 %.
Такое преимущество объясняется тем, что классификатор АП-МОВ
работает с небольшим набором адаптивных признаков, каждый из которых несет в себе всю необходимую информацию об анализируемых классах, в то время как алгоритмы МОВ и KDDA работают непосредственно с
массивом значений пикселей изображения.
Рассмотрим возможность увеличения уровня распознавания за счет
наращивания обучающей базы с 400 до 5000 изображений на каждый
класс. При обучении классификаторов МОВ и KDDA по такой расширенной базе не удается достичь какого-либо значительного увеличения уровня распознавания. При этом быстродействие алгоритмов ухудшается пропорционально увеличению объема обучающей выборки. Это связано с
тем, что эти классификаторы работают непосредственно с пикселями
изображений, количество которых с увеличением объема обучающей выборки возрастает, что усложняет процесс поиска оптимального решения в
получившемся сверхвысокоразмерном пространстве и делает последующее разделение классов линейным классификатором трудновыполнимым.
Для алгоритма АП-МОВ существует возможность решения проблемы
снижения эффективности классификатора МОВ при увеличении обучающей выборки за счет генерации небольшого количества признаков, несущих информацию сразу обо всем наборе обучающих изображений. Для
этого предлагается при обучении каждого следующего признака подавать
на вход процедуры генерации признаков 400 случайным образом выбранных изображений каждого класса. Изображения отбираются из обучающей базы объемом M = 5000. Таким образом, каждый полученный признак будет нести максимально возможное количество информации для разделения классов, и при этом совокупность полученных признаков будет
включать в себя информацию обо всех изображениях обучающей базы.
На этапе генерации признаков по вышеприведенной методике было
получено 300 признаков. Далее с использованием полученных признаков
был обучен классификатор МОВ по той же методике, что и ранее. При
этом число обучающих изображений для этапа обучения классификатора
было сохранено равным 400, а следовательно, быстродействие полученного классификатора не изменилось и составило 65 обрабатываемых лиц в
секунду.
Результаты сравнения классификатора АП-МОВ, обученного по увеличенной базе изображений (М = 5000), и первоначально обученного
классификатора АП-МОВ (М = 400) приведено в табл. 2 и на рис. 3.
Таблица 2
Уровень распознавания, показанный алгоритмом АП-МОВ при различном
объеме обучающей выборки
Алгоритм
Параметр
Уровень распознавания
Распознано мужчин, %
Распознано женщин, %
Общий уровень распознавания, %
АП-МОВ
(M=5000)
Верно
Неверно
90,6
9,4
91
9
90,8
9,2
АП-МОВ
(M=400)
Верно
Неверно
80
20
79,3
20,7
79,6
20,4
Рис. 3. ROC-кривые для алгоритма АП-МОВ при различном объеме
обучающей выборки
Результаты показывают, что с помощью алгоритма АП-МОВ и предложенной методики обучения удается значительно увеличить процент
верного распознавания при наращивании обучающей базы изображений
до М = 5000. Уровень распознавания в этом случае приближается к 91 %.
Заключение
Предложен алгоритм классификации на базе адаптивных признаков и
метода опорных векторов, решающий задачу автоматического распознавания пола людей по изображению лица. Вероятность верного распознавания составила 79,6 %, что на 1,9 % больше, чем у классификатора МОВ
и на 9,9 % больше, чем у алгоритма KDDA. Предложена методика обучения алгоритма АП-МОВ, позволяющая добиться увеличения уровня распознавания до 91 % за счет наращивания обучающей базы до 5000 изображений на класс. Количество лиц, обрабатываемых АП-МОВ в секунду,
составило 65, что позволяет использовать его в приложениях реального
времени.
Адаптивный характер генерации набора признаков в процедуре обучения АП-МОВ позволяет использовать предлагаемый классификатор для
распознавания любых объектов, находящихся на изображении (помимо
лиц). Для этого необходимо лишь сформировать обучающий набор фрагментов для каждого рассматриваемого класса и переобучить классификатор в соответствии с методикой, приведенной в данной работе.
Список литературы
1. Потапов А.С. Распознавание образов и машинное восприятие: общий подход на основе принципа минимальной длины описания. СПб.:
Политехника, 2007.
2. Zhao W., Chellappa R., Phillips P., Rosenfeld A. Face recognition: A literature survey // ACM Computing Surveys (CSUR). 2003. V. 35. № 4. P. 399458.
3. Hjelmas E. Face detection: A Survey // Computer vision and image understanding. 2001. V. 83. № 3. P. 236-274.
4. Fasel B., Luettin J. Automatic facial expression analysis: A survey // Pattern Recognition Letters. 2003. V. 36. № 1. P. 259-275.
5. Makinen E., Raisamo R. An experimental comparison of gender classification methods // Pattern Recognition Letters. 2008. V. 29. № 10. P. 15441556.
6. Sun Z., Bebis G., Yuan X., Louis S.J. Genetic feature subset selection
for gender classification: A comparison study // Proc. IEEE Workshop on Applications of Computer Vision, 2002. P. 165-170.
7. Burges C. A Tutorial on Support Vector Machines for Pattern Recognition // Data Mining and Knowledge Discovery, 1998. V. 2. P. 121-167.
8. Sun N. et al. Gender classification based on boosting local binary pattern
// Proc. Int. Symposium on Neural Networks, 2006. V. 2. P. 194-201.
9. Gutta S., Wechsler H., Phillips P.J. Gender and ethnic classification of
face images // Proc. Int. Conf. on Automatic Face and Gesture Recognition.
1998. P. 194-199.
10. Шмаглит Л.А., Голубев М.Н., Приоров А.Л. Сравнительный анализ
алгоритмов выделения лиц на изображениях при наличии нормального шума // Тез. докл. IX всерос. науч. конф. «Нейрокомпьютеры и их применение». М., 2011. С. 37.
11.Phillips P.J. et al. The FERET evaluation methodology for face recognition algorithms // IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000. V. 22. №10. P. 1090-1104.
12.Gao H., Davis J. Why direct LDA is not equivalent to LDA // Pattern
Recognition Letters, 2006. V. 39. № 5. P. 1002-1006.
13.Fawcett T. ROC Graphs: Notes and Practical Considerations for Researchers // Pattern Recognition Letters, 2004. V. 27. № 8. P. 882-891.
Download