методы и алгоритмы автоматического определения возраста и

advertisement
НИЖЕГОРОДСКОЕ РЕГИОНАЛЬНОЕ ОТДЕЛЕНИЕ
РОССИЙСКОГО НАУЧНО-ТЕХНИЧЕСКОГО ОБЩЕСТВА
РАДИОТЕХНИКИ, ЭЛЕКТРОНИКИ И СВЯЗИ им. А. С. ПОПОВА
58-я Научно-техническая миниконференция
МЕТОДЫ И АЛГОРИТМЫ
АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ
ВОЗРАСТА И ЭМОЦИЙ ЧЕЛОВЕКА ПО
ИЗОБРАЖЕНИЯМ ЛИЦА
Докладчик: Спижевой Алексей Сергеевич,
аспирант Института информационных технологий,
математики и механики ННГУ
Март 2016
1
Актуальность темы
1.
2.
3.
4.
Цифровые рекламные вывески: маркетинговые исследования (анализ состава
целевой аудитории, анализ реакции на товары/рекламу).
Создание систем, поведение которых подстраивается под человека: контекстная
реклама, адаптация интерфейса, адаптация содержимого.
Видеонаблюдение, системы безопасности, контроль по возрасту.
Использование информации о поле, возрасте, эмоциях как вспомогательной с
целью повышения качества работы биометрических систем.
2
http://intelli-signage.com/
Цель работы
● Обзор существующих подходов решения задач
автоматического определения возраста, эмоций и
пола.
● Разработка и анализ оригинальных алгоритмов с
целью повышения точности/скорости решения
поставленных задач.
● Оценка качества работы предложенных подходов и
сравнение с другими существующими алгоритмами.
● Реализация разработанных алгоритмов в виде
программных комплексов.
3
Автоматическое определение возраста
входные
данные
Система определения
возраста человека
вспомогательные
данные
выходные
данные
возраст: 38 лет
Автоматическое определение возраста
i
I -- черно-белое изображение лица человека
I(i,j) -- яркость изображения в пикселе (i,j)
y=f(I) -- возраст человека в годах
I=I(i,j), f(I)=38
j
Itrain=(I1,I2,...,In), Ytrain=(y1,y2,...,yn). Itrain,Ytrain -- тренировочный набор данных,
где для каждой фотографии известен возраст изображенного на ней
человека.
Задача заключается в том, чтобы по имеющимся данным Itrain,Ytrain построить
модель g(I) и научится по I предсказывать y:
1.
2.
3.
Модель g(I) должна соответствовать тренировочным данным:
Q(g,Itrain,Ytrain)➝min.
На практике качество модели также дополнительно оценивается на
валидационном наборе данных Ival,Yval.
Вместо черно-белых изображений удобно использовать признаковое
описание X(I)=Rm фиксированной размерности, тогда g(I)=g’(X(I)).
5
Структура предложенного решения
Детектирование
лица и глаз
Viola & Jones каскад
Предсказание
возраста
SVM, ранжирование
Геометрическая
нормализация
Нормализация
яркости
Преобразование подобия
Выравнивание гистограммы
Снижение
размерности
Метод главных компонент
Вычисление
признаков
Биологически обусловленные
признаки
возраст:
38 лет
6
Вычисление признаков (предварительные шаги)
1. Поиск лица и глаз
(процедура скользящего окна)
2. Геометрическая нормализация
(преобразование подобия sR+t)
3. Нормализация яркости
(выполняется поблочно)
60x60
7
Вещественный фильтр Габора
i
j
8
Статистические признаки
FK:
...
9
Метод главных компонент
●
Исходная размерность пространства признаков
получается достаточно высокой: m порядка 104.
●
В то же время размерность обучающей выборки
относительно невелика -- 1002 фотографии в базе FGNET Age.
●
Снижение размерности пространства признаков
снижает время тренировки, ускоряет процесс
определения возраста, снижает влияние
“несущественных” факторов и способствует повышению
точности.
●
Финальная размерность (m’) ~800.
-- отцентрированные
признаки изображений Itrain
10
Метод опорных векторов
В методе опорных векторов (SVM)
строится гиперплоскость, оптимально
разделяющая метки двух разных классов
В случае, если объекты линейно
неразделимы может быть
использовано более сложное
представление объектов в котором они
становятся разделимы
11
Предсказание возраста c помощью
ранжирования
Строится K вспомогательных бинарных SVM классификаторов
gt(x), каждый из которых обучается отвечать на вопрос
"превосходит ли возраст человека порог в t лет?"
g0=1
0 лет
g20=1
g37=1
g38=0
g55=0
38 лет
g68=0
69 лет
Ответы аккумулируются: fRANK(x) = ∑t=0..K-1gt(x).
12
Оценка качества определения возраста
Средняя абсолютная
ошибка (в годах)
CS(5)
BIF+SVR [9]
4.77
69%
AAM+OHRank1 [10]
4.48
74.4%
AAM+OHRank2 [10]
4.56
74.7%
C-lsRCA+lsLPP [47]
4.38
74%
GN+BIF+OHRank
4.56
74.3%
GN+HE+BIF+OHRank
4.32
74.7%
GN+CLAHE+BIF+OHR
ank
4.1
76.4%
Метод
Примеры фотографий
из базы FG-NET Age
Обработка 640x480 изображения занимает
порядка 35 мс на Intel Core i5 (3.2 GHz)
13
Оценка качества определения возраста
14
Результаты определения возраста на реальных
данных
●
Подход выдает оценку возраста
близкую к истинному значению
(26 лет).
●
Алгоритм устойчив к вариациям
освещенности, наклону головы.
●
Качество ухудшается при
проявлении эмоций (что
объясняется ограниченностью
тренировочной выборки).
15
Автоматическое определение эмоций
Кадр 1
Кадр 1
Кадр 2
Кадр 2
..
. N
Кадр
...
Кадр N
Система
определения
эмоций
эмоция: радость
Базовые эмоции:
0. нейтральная
1. гнев
2. отвращение
3. страх
4. радость
5. грусть
6. удивление
пример последовательности из базы CK+
16
Автоматическое определение эмоций
V -- последовательность черно-белых изображений
лица человека
V(t,i,j) -- яркость изображения t в пикселе (i,j)
K(t,s)=(xkt,s,ykt,s) -- s-ая ключевая точка лица (s=1..68)
y=f(V,K) -- эмоция человека (0..6)
t
j
i
V=V(t,i,j),
f(V)=4
VKtrain=(V1,K1,V2,K2,...,Vn,Kn), Ytrain=(y1,y2,...,yn). VKtrain,Ytrain -- тренировочный набор
данных, где для каждой последовательности известна эмоция.
Задача заключается в том, чтобы по имеющимся данным VKtrain,Ytrain построить
модель g(V,K) и научится по V,K предсказывать y:
1.
2.
3.
Модель g(V,K) должна соответствовать тренировочным данным:
Q(g,VKtrain,Ytrain)➝min.
На практике качество модели также дополнительно оценивается на
валидационном наборе данных VKval,Yval.
Вместо последовательностей черно-белых изображений удобно использовать
признаковое описание X(V,K)=Rm фиксированной размерности, тогда g(V,K)=g’(X
(V,K)).
17
Локальные бинарные шаблоны
Источник: http://robinhsieh.com/?p=156
18
Источник: http://what-when-how.com/
Точность (%)
BoW модель построения признаков
Число кластеров на эмоцию
Алгоритм построения словаря:
1. В окрестности ключевых точек лица всех
тренировочных изображений взять
трехмерные патчи (17x17x9).
2. Вычислить LBP-TOP описатели (P=8,
m=768) для всех выбранных патчей.
3. Среди всех описателей выделить
кластеры с помощью метода k-средних.
Алгоритм построение описателей:
1. Вычислить LBP-TOP описатели для всех
выбранных патчей.
2. Для описателя каждой ключевой точки
найти ближайшее слово из словаря.
3. Построить гистограмму частот
встречаемости слов на изображениях
входной последовательности.
19
Оценка качества определения эмоций
Средняя
точность
классификации
(%)
Динамический
метод
Baseline [17]
83.3
Нет
Shape+SVM [18]
84.06
Нет
CSPL [49]
89.9
Нет
SVM+LBP [50]
92.6
Нет
GN+CLAHE+BIF+sh
ape+SVM
96.8
Нет
ITBN [16]
86.3
Да
Cov3D [15]
92.3
Да
LDCRF [18]
95.79
Да
BCSFMC [19]
96.32
Да
LBPTOP+BOW+SVM
97.7
Да
Метод
20
Заключение
1.
Разработаны подходы автоматического определения возраста, пола, эмоций (статических и
динамических выражений лица) по изображениям.
2.
Была продемонстрирована высокая точность разработанных алгоритмов, по сравнению с
остальными рассмотренными подходами.
3.
Предложено использование комбинации метод ранжирования и BIF признаков для задачи
определения возраста.
4.
Предложено использования метода адаптивного выравнивания гистограммы в задачах
определения возраста, пола и эмоций.
5.
Предложено комбинирование моделей, построенных по BIF признакам и ключевым точкам
для задачи распознавания статических выражений лица.
6.
Для снижения времени работы шага снижения размерности пространства признаков,
рассмотрен метод на основе деревьев решений, как альтернатива методу главных
компонент.
7.
Реализованные коды планируется интегрировать в библиотеку компьютерного зрения
OpenCV.
8.
4 конференции (РОАИ-11-2013, Самара; Графикон’2014, Ростов-на-Дону; ИТИС-2014, Нижний
Новгород; OGRW-2014, Кобленц, Германия), 3 ВАК публикации.
21
Спасибо за внимание!
22
Download