Использование восстановления фронтального

advertisement
8Н
УДК 004.932
К.М. Нюнькин
Институт проблем искусственного интеллекта, г. Донецк, Украина,
kmn@iai.donetsk.ua
Использование восстановления фронтального
вида лица человека при распознавании
Для оценки эффективности восстановления фронтального вида при распознавании человека по
изображению его лица проведены эксперименты на большом количестве изображений лиц, снятых
при различных углах поворота головы. Определены условия, при которых можно использовать такое
восстановление.
Введение
Большинство алгоритмов распознавания лица человека анализируют
изображение как набор пикселей. Поэтому для них существенно, чтобы ракурсы лиц
при занесении в базу и распознавании были одинаковыми. В противном случае
изображения лица, полученные с разными ракурсами, сильно отличаются. Однако
контролировать положение головы, а следовательно, обеспечить соблюдение указанного условия на практике не всегда возможно. Также нереально обеспечить ввод
в базу данных системы распознавания изображений лица каждого человека с
различными ракурсами. Отсюда следует необходимость подвергать изображение
лица преобразованию, восстанавливающему фронтальный вид лица как при
занесении в базу, так и при распознавании.
Восстановление фронтального вида лица человека по одному изображению –
процесс многостадийный. Эти этапы, информация, получаемая на каждом из них, а
также направления передачи этой информации приведены на рис. 1.
Вначале на исходном изображении выполняется поиск характерных точек с
учетом того, что лицо на изображении может иметь произвольный масштаб, а голова
произвольным образом наклонена и повернута. Затем из множества всех найденных
характерных точек отбираются такие, которые могут образовывать лицо человека, а
из множества сформированных ими конфигураций выбирается та, которая больше
всего соответствует лицу человека. Далее по характерным точкам, образующим
наилучшее лицо, определяются углы наклонов и поворота головы [1], [2].
Зная углы наклонов и поворота головы, а также координаты характерных
точек, можно по исходному изображению восстановить фронтальный вид лица [3],
который и используется в качестве входного изображения подсистемы распознавания [4], [5].
Все этапы обработки изображений, обнаружения и распознавания лиц людей
были разработаны ранее [1-5]. Настоящие исследования имели целью определить
эффективность восстановления фронтального вида лица и определить границы его
применимости.
658
«Искусственный интеллект» 3’2005
Использование восстановления фронтального вида лица человека...
Исходное
изображен
ие
8Н
Координаты точек
Поиск характерных
точек
Составление из
точек лица
Списки точек
Определение
наклонов и
поворота головы
Восстановление
фронтального вида
лица
Углы
Фронтальное
Распознавание
восстановленного
изображения
Результат распознавания
Рисунок 1 – Этапы восстановления фронтального вида лица
1 Метод распознавания
В работе используется разработанный и описанный ранее [4], [5] метод
распознавания, основанный на свертке изображения с набором функций Габора пяти
различных масштабов,   0,...,4 , и восьми углов поворота,   0,...,7 [6]:
2 
 k 2j x 2  
k 2j

 exp ik x  exp    .
 j ( x )  2 exp 
j
 2 
 2 2  





(1)
 2

  k cos  



kj 
, k  2 2  ,     ,

8
 k sin   
(2)


где индекс j    8 . Полное волновое преобразование (1) дает 40 комплексных
коэффициентов в каждой точке изображения (5 масштабов и 8 ориентаций).


 

J j ( x )   I ( x ) j ( x  x )d 2 x  .
«Штучний інтелект» 3’2005
659
Нюнькин К.М.
8Н
Для сравнения векторов признаков, полученных на основе (3), используется
мера в виде косинуса угла между ними:
S ( J1 , J 2 ) 
( J1 , J 2 )
.
J1  J 2
Следуя методу эластичного сопоставления графов, изображения лиц трансформируются в граф лица, содержащий его свойства. Конфигурация графа определяет
геометрические особенности лица, векторы свойств в узлах – локальные свойства
изображения. В настоящей работе используется конфигурация графа лица, показанная на рис. 2.
Рисунок 2 – Используемая конфигурация графа лица
Эта конфигурация имеет вид прямоугольной сетки, причем первая сверху
линия узлов графа соответствует линии бровей; вторая – линии глаз; четвертая –
линии, содержащей кончик носа; шестая – линии губ. Граф располагается в
центральной части лица, что позволяет исключить влияние на формирование
признаков прически и окружающего фона.
Для определения близости изображений лиц сравниваются соответствующие
им графы лиц с помощью метрики:
S G (G1 , G 2 ) 
1 N 1
 S (G1n , Gn2 ) ,
N n 0
где S G – результат сравнения графов; N – число узлов в графе; n – индекс, определяющий номер узла; G1n , Gn2 – векторы признаков, соответствующие n-му узлу
графа; S (Gn1 , Gn2 ) – функция сравнения векторов признаков (4).
Принятие решения о принадлежности данного изображения классу
изображений лиц данного человека осуществляется с помощью порога на результат
сравнения графов тестируемого изображения и графа лица известного человека.
Причем, для повышения устойчивости алгоритма к случайным изменениям
отдельных точек лица, при сравнении учитываются не все 28 узлов, а только те 16 из
них, которые дают наилучшее соответствие. Это дает возможность в какой-то мере
уменьшить влияние таких факторов, как улыбка или закрытые глаза, а также
позволяет вести распознавание, когда небольшая часть лица закрыта.
660
«Искусственный интеллект» 3’2005
Использование восстановления фронтального вида лица человека...
8Н
При анализе очередного изображения лица конфигурация графа подгоняется
под его пропорции для того, чтобы добиться соответствия между сравниваемыми
точками изображений лиц.
2 Используемая база данных лиц
В работе использованы изображения лиц из базы данных FERET-2001, точнее,
той ее части, содержащей 2200 изображений лиц, в которой собраны изображения
лиц людей при различных углах поворота головы. Изображения представлены в
градациях серого и имеют размеры 256x384.
Для каждого из 200 человек в этой части базы имеется по 11 «видов»,
обозначенных латинскими буквами от a до k. В табл. 1 приведены характеристики
этих «видов». Положительное значение угла соответствует повороту головы влево,
отрицательное – вправо. Масштаб изображений базы данных таков, что расстояние
между наружными краями глаз составляет около 100 пикселей.
Таблица 1 – Обозначения углов поворота головы в базе данных FERET
Вид
a
b
c
d
e
f
g
h
i
j
k
Угол поворота
Номин.
Измер.
0
–1
+60
+45
+40
+27
+25
+17
+15
+9
–15
–8
–25
–17
–40
–28
–60
–45
0
–1
0
+1
Выражение
лица
нейтральное
нейтральное
нейтральное
нейтральное
нейтральное
нейтральное
нейтральное
нейтральное
нейтральное
улыбка
нейтральное
Условия
освещения
обычное
обычное
обычное
обычное
обычное
обычное
обычное
обычное
обычное
обычное
затемненное
Следует отметить, что указанные в сопровождающей документации выражения
лица и углы поворота головы соблюдаются на изображениях не очень строго. Так, на
многих фотографиях с якобы «нейтральным» выражением лица люди улыбаются, а
разброс углов поворота головы от среднего значения достигает ± 10 – 15º. Более
того, по неизвестной причине номинальные углы поворота головы (15, 25, 40 и 60
градусов) в полтора раза превышают реально измеренные по фотографиям. Масштаб
изображений также различается. Боковой и прямой наклон головы не контролировались. При этом боковой наклон достигает 10 градусов, а прямой, вероятно, и
того больше (его точная оценка затруднена).
Фотографии с углами поворота головы ± 45º (виды b и i) в проводимых
исследованиях не участвовали, поскольку при таком сильном повороте головы
видны не все характерные точки, которые необходимы для определения углов
наклона и поворота головы, а также для восстановления фронтального вида лица.
«Штучний інтелект» 3’2005
661
Нюнькин К.М.
8Н
3 Влияние на распознавание ракурса съемки
Поскольку используемый нами распознающий алгоритм анализирует изображение как набор пикселей, для него существенно, чтобы ракурсы лиц при занесении
в базу и распознавании были одинаковыми. В противном случае изображения лица,
полученные с разными ракурсами, сильно отличаются (рис. 3). Ясно, что результат
попиксельного сравнения, скажем, изображений c и h друг с другом и с
фронтальным (a), не будет хорошим.
Рисунок 3 – Изображения лица с разными ракурсами:
a – фронтальный вид; поворот влево: c – на 40º, d – на 28º, e – на 19º;
поворот вправо: f – на 8º, g – на 17º, h – на 37º; j – улыбка;
k – затемненное изображение (выглядит светлым из-за нормировки)
На рис. 4 приведено распределение степени похожести изображений лица,
имеющих разные ракурсы, на фронтальное изображение того же человека.
Рисунок 4 – Распределение степени похожести изображений
лица одного человека, снятых с разными ракурсами
662
«Искусственный интеллект» 3’2005
Использование восстановления фронтального вида лица человека...
8Н
По горизонтальной оси отложена степень похожести, по вертикальной –
плотность функции распределения. Как и следовало ожидать, наибольшую степень
похожести имеют изображения, близкие к фронтальным (ракурсы e и f). Изображения лиц, повернутых на 17º (ракурсы d и g), похожи на фронтальные значительно
хуже. Лица же, повернутые на 27º (ракурсы c и h), практически не похожи на
фронтальные изображения. Степень их похожести почти такая же, как и у
изображений других людей (слабая сплошная линия без отметок).
4 Восстановление фронтального вида лица
При автоматическом восстановлении фронтального вида лица человека по
одному изображению, на котором лицо произвольно наклонено и повернуто,
используются автоматически найденные положения характерных точек и
определенные по ним углы наклонов и поворота головы на этом изображении.
К числу характерных точек относятся наружные края глаз, переносица, центр и углы
рта, а также надкозелковые точки. Методы, обеспечивающие такое восстановление,
были разработаны и описаны ранее [1-3].
Результаты такого восстановления для изображений рис. 3 представлены на
рис. 5. Эти изображения уже можно сравнивать между собой, поскольку они, в
отличие от исходных, имеют один ракурс и похожи друг на друга.
Рисунок 5 – Восстановление фронтального вида
изображений лиц рисунка 3
5 Распознавание изображений восстановленного
фронтального вида
Рассмотрим, как восстановление фронтального вида сказывается на результатах распознавания. На рис. 6 представлены распределения степени похожести
изображений лиц одного и того же человека (тонкие линии с отметками) и разных
«Штучний інтелект» 3’2005
663
Нюнькин К.М.
8Н
людей (толстые слабые линии) до (пунктир) и после (сплошные линии)
восстановления фронтального вида. Хотя восстановление фронтального вида и
улучшает разделимость классов «свой» и «чужой», однако результаты не выглядят
впечатляющими. Общая ошибка распознавания, хотя и снижается с 41 % до 26 %,
остается значительной.
Рисунок 6 – Влияние восстановления фронтального вида на
распределение степени похожести
5.1 Влияние выражения лица и условий освещения
В представленные на рис. 6 распределения вносят вклад все «виды» лиц.
Анализируя вклад отдельных «видов» можно заметить, что наибольший вклад в
ошибку распознавания вносят изображения с различными выражениями лица и
условиями освещения. На рис. 7 приведены распределения степени похожести лиц
вида a на лица видов f (поворот на 10º), j (улыбка) и k (затемненное изображение).
Соответственно, суммарные ошибки распознавания в этих трех случаях составляют
2 %, 21 % и 31 %.
Рисунок 7 – Влияние выражения лица и условий освещения
на распределение степени похожести
Сильное различие изображений с улыбкой от обычных вполне объяснимо.
На изображениях улыбающегося человека наиболее характерные детали лица (глаза
664
«Искусственный интеллект» 3’2005
Использование восстановления фронтального вида лица человека...
8Н
и рот) существенно изменяются, а вокруг носа резче выделяются носогубные
складки (рис. 3, виды a и j). Поэтому метод сравнения, основанный на значениях
пикселей в окрестностях некоторых точек, не дает хороших результатов.
В то же время, большая ошибка на затемненных изображениях на первый
взгляд кажется непонятной, поскольку используемый метод сравнения изображений
обладает инвариантностью к линейным преобразованиям яркости. Чтобы понять, что
происходит, обратимся к гистограммам распределения яркости обычного (вид a) и
затемненного (вид k) изображений, приведенных на рис. 8. Хорошо видно, что
преобразование яркости существенно нелинейно, особенно в области малых
значений, которые соответствуют деталям лица. Именно такая нелинейность и
обусловливает низкую степень похожести таких изображений друг на друга и,
следовательно, приводит к большим ошибкам распознавания.
а
b
Рисунок 8 – Гистограммы распределения яркости обычного (a)
и затемненного (b) изображений
5.2 Влияние поворота головы
Еще один фактор, который влияет на качество распознавания – это угол поворота
головы. Его влияние обусловлено погрешностями восстановления фронтального вида
лица, которые проистекают главным образом из использования модели среднего
трехмерного лица человека, которая к тому же не очень сильно детализирована [3].
Например, форма носа видов c и h на рис. 5 отличается не только друг от друга, но и от
правильной формы носа на фронтальном изображении (вид a).
На рис. 9 представлены распределения степени похожести при сравнении с
фронтальным изображений, имеющих различные углы поворота головы. Рис. 9a
показывает результат сравнения с фронтальным изображением видов e и f, рис. 9b –
видов d и g, рис. 9c – видов c и h. Представлены результаты сравнения изображений
лиц одного и того же человека (тонкие линии с отметками) и разных людей (толстые
слабые линии), а также до и после восстановления фронтального вида (пунктир и
сплошные линии, соответственно). Рис. 9d позволяет сравнить между собой
распределения степени похожести для разных углов поворота головы.
В табл. 2 приведены соответствующие рассматриваемым ситуациям ошибки
распознавания, которые рассчитаны при пороге, установленном по условию
равенства степеней похожести «своих» и «чужих». Такой порог минимизирует
суммарную ошибку распознавания, если предъявления изображений «своих» и
«чужих» равновероятны.
«Штучний інтелект» 3’2005
665
Нюнькин К.М.
8Н
a)
b)
c)
d)
Рисунок 9 – Распределения степени похожести при сравнении с фронтальным
изображений, имеющих различные углы поворота головы
Таблица 2 – Ошибки распознавания изображений, имеющих различные углы
поворота головы по фронтальному изображению
Исходные изображения
Восстановленные фронтальные
Виды
Ложная Пропуск
Ложная Пропуск
Порог
Средняя Порог
Средняя
тревога цели
тревога цели
ef_a
0,91
0,030
0,036
0,040
0,058
0,033 0,92
0,049
dg_a
0,89
0,088
0,146
0,111
0,120
0,117 0,90
0,116
ch_a
0,87
0,459
0,515
0,227
0,487 0,895 0,172
0,199
Обращает на себя внимание сильный рост ошибки распознавания с увеличением угла поворота головы для исходных изображений. Для восстановленных
фронтальных изображений ошибка растет существенно меньше. То есть
восстановление фронтального вида лица позволяет заметно улучшить качество
распознавания. Тем не менее, при сильных поворотах головы (~30º) эта ошибка
достигает 20 %, что нельзя считать хорошим результатом. Кроме того, как видно из
666
«Искусственный интеллект» 3’2005
Использование восстановления фронтального вида лица человека...
8Н
рис. 9c, в этом случае области похожести лиц одного человека и разных людей
существенно перекрываются. Поэтому даже повышение порога распознавания до
значения, обеспечивающего уровень ошибок ложной тревоги в пределах десятых и
сотых долей процента, в системах идентификации не приведет к хорошим
результатам, поскольку при этом значительно возрастут ошибки пропуска цели и
работа системы станет неустойчивой. Вероятно, предельные значения допустимого
угла поворота головы составляют около 20 – 25º.
Как уже указывалось, причинами значительных ошибок распознавания при
больших углах головы являются погрешности восстановления фронтального вида
лица из-за использования модели среднего трехмерного лица человека, которая к
тому же не очень сильно детализирована.
Следует также отметить тот факт, что при малых поворотах головы ошибка
распознавания в результате восстановления фронтального вида лица даже несколько
возрастает. Это связано с тем, что восстановленные фронтальные изображения
разных людей больше похожи друг на друга. Соответственно, их степень похожести
становится выше (на рис. 9 сплошная слабая линия лежит правее пунктирной), что
увеличивает ошибки ложной тревоги. Надо также учитывать, что распределение
степени похожести для разных людей строилось по всем ракурсам, в том числе и по
изображениям с сильными поворотами головы, для которых применение
фронтального преобразования существенно увеличивает похожесть.
Рассмотренные результаты относятся к отдельно взятым сравнениям
изображений повернутой головы с фронтальным изображением. Для практических
целей больший интерес представляют результаты распознавания всех изображений в
пределах определенных углов поворота головы. На рис. 10 приведены степени похожести при сравнении изображений, имеющих различные углы поворота головы, друг
с другом. На рис. 10a для всех вариантов видов a, e и f, на рис. 10b – видов a, e, f, d и
g. В табл. 3 приведены соответствующие рассматриваемым ситуациям ошибки
распознавания, которые рассчитаны при пороге, установленном по условию
равенства степеней похожести «своих» и «чужих».
a)
b)
Рисунок 10 – Распределения степени похожести при сравнении изображений,
имеющих различные углы поворота головы, друг с другом
«Штучний інтелект» 3’2005
667
Нюнькин К.М.
8Н
Таблица 3 – Ошибки распознавания изображений, имеющих различные углы
поворота головы
Исходные изображения
Восстановленные фронтальные
Ложная Пропуск
Ложная Пропуск
Порог
Средняя Порог
Средняя
тревога цели
тревога цели
aef
0,904 0,058
0,030
0,087
0,040
0,044 0,91
0,063
aefdg 0,893 0,538
0,088
0,133
0,111
0,313 0,90
0,122
Все
0,888 0,669
0,140
0,172
0,405 0,895 0,364
0,268
Виды
Здесь также заметно существенное снижение ошибок распознавания в результате восстановления фронтального вида лица, причем эффект тем больше, чем
большие повороты головы принимаются во внимание. Следует учесть и то, что в
оценку ошибок распознавания для всех ракурсов (третья строка таблицы) вошли
также изображения улыбающихся людей и затемненные, которые имеют заведомо
большие ошибки. Поэтому реальный эффект восстановления фронтального вида для
всех ракурсов будет еще большим.
6 Масштабирование изображений
Как уже указывалось, исходные изображения довольно велики (имеют размеры
256x384), и обработка одного такого изображения занимает около 40 – 45 секунд на
ПК типа Celeron-1100, причем практически все это время тратится на поиск
характерных точек. С целью сокращения времени обработки исходные изображения
можно предварительно уменьшить в несколько раз. Однако такая операция снижает
точность определения характерных точек и, следовательно, приведет к увеличению
погрешности в определении углов наклона и поворота головы, искажениям
восстановленного фронтального вида и, в конечном счете, к возрастанию ошибок
распознавания. Чтобы определить влияние масштабирования изображений на
результат распознавания, были проведены исследования при различных масштабах
обрабатываемых изображений.
На рис. 11 представлены распределения степени похожести при различных
масштабах обрабатываемых изображений. На рис. 11a показаны результаты,
полученные при распознавании по фронтальным изображениям видов e и f, 11b –
видов d и g, 11c – видов c и h. Каждый из рисунков содержит результаты,
полученные при трех различных масштабах обрабатываемых изображений: A1 –
изображения уменьшены в 2 раза, A2 – изображения уменьшены в 4 раза, A3 –
изображения уменьшены в 8 раз. Поскольку на исходных изображениях расстояние
между наружными краями глаз составляет около 100 пикселей, то при уменьшении
изображений в 2, 4 и 8 раз оно уменьшится соответственно до 50, 25 и 12 пикселей.
В табл. 4 приведены ошибки распознавания фронтальных изображений с
различными видами для рассматриваемых масштабов обрабатываемых изображений,
которые рассчитаны при пороге, установленном по условию равенства степеней
похожести «своих» и «чужих».
668
«Искусственный интеллект» 3’2005
Использование восстановления фронтального вида лица человека...
a)
b)
8Н
c)
Рисунок 11 – Распределения степени похожести при различных масштабах
обрабатываемых изображений
Таблица 4 – Ошибки распознавания при различных масштабах обрабатываемых изображений
A1
Виды
ef_a
dg_a
ch_a
aef
aefdg
Все
A2
A3
Ложн Проп.
Ложн Проп.
Ложн Проп.
Порог
Средн. Порог
Средн. Порог
Средн.
трев. цели
трев. цели
трев. цели
0.92 0.05 0.05 0.05 0.92 0.04 0.06 0.05 0.90 0.13 0.06 0.10
0.90 0.09 0.13 0.11 0.90 0.11 0.12 0.11 0.89 0.22 0.11 0.16
0.895 0.18 0.20 0.19 0.895 0.17 0.23 0.20 0.88 0.36 0.17 0.26
0.915 0.06 0.05 0.06 0.91 0.09 0.04 0.06 0.90 0.17 0.06 0.12
0.90 0.09 0.13 0.11 0.90 0.13 0.11 0.12 0.89 0.23 0.17 0.20
0.895 0.32 0.20 0.26 0.895 0.36 0.17 0.27 0.88 0.39 0.26 0.32
И по распределениям рис. 11, и по данным табл. 4 видно, что уменьшение
исходных изображений в 4 раза практически не изменяет распределения степени
похожести и не ухудшает результатов распознавания. При этом время обработки
одного изображения сокращается приблизительно до 3 секунд. Дальнейшее
уменьшение изображений заметно изменяет распределения степени похожести, что
приводит к существенному возрастанию ошибок распознавания. Заметим, что этот
результат имеет место для всех ракурсов лица на исходных изображениях.
Выводы
Таким образом, восстановление фронтального вида лица человека позволяет
заметно улучшить качество распознавания. Однако вследствие недостаточного
соответствия трехмерной модели среднего лица человека конкретному человеку,
такое восстановление и последующее распознавание возможны только при не очень
больших углах поворота головы (примерно до 20º). Увеличение поворота головы
приводит к возрастанию ошибок распознавания.
«Штучний інтелект» 3’2005
669
Нюнькин К.М.
8Н
Поскольку угол прямого наклона головы на изображениях с относительно
небольшими углами поворота головы оценивается с большой погрешностью, что
приводит к сильным искажениям, его не следует учитывать при восстановлении
фронтального вида лица.
При определении углов наклона и поворота головы и восстановлении
фронтального вида лица большое значение имеет правильность и точность
определения положения характерных точек. Поэтому следует использовать
изображения лиц достаточно большого размера, такого, чтобы расстояние между
краями глаз составляло порядка 25 или более пикселей.
Литература
1.
2.
Нюнькин К.М. Определение углов наклонов головы человека на изображениях // Искусственный
интеллект. – 2004. – № 1. – С. 243-250.
Нюнькін К.М. Визначення орієнтації голови людини на зображенні // Оброблення сигналів і
зображень та розпізнавання образів: Сьома всеукр. міжнар. конф. – Київ. – 2004. – С. 169-172.
Агарков А.В., Нюнькин К.М. Восстановление фронтального вида лица человека по одному
изображению // Искусственный интеллект. – 2005. – № 1. – С. 4-12.
Муригін К.В. Виявлення ключових точок на зображенні обличчя людини // Матеріали VI
Всеукраїнської Міжнар. конф. «Оброблення сигналів i зображень та розпізнавання образів». –
Київ. – 2002. – С. 123-126.
Мурыгин К.В. Оптимизация габоровских вейвлет для задачи распознавания человека по
изображению лица // Искусственный интеллект. – 2003. – № 4. – С. 223-229.
Lades M., Vorbruggen J., Buhmann J., Lange J., Masburg C. and Wurtz R. Distortion invariant object
recognition in the dynamic link architecture // IEEE Trans. on Computers. – 1993. – Vol. 42. – P. 300-311.
3.
4.
5.
6.
К.М. Нюнькін
Використання відновлення фронтального виду обличчя людини при розпізнаванні
Для оцінки ефективності відновлення фронтального виду при розпізнаванні людини по зображенню її
обличчя проведені експерименти на великій кількості зображень облич, знятих при різних кутах
повороту голови. Визначено умови, за яких можна використовувати таке відновлення.
K.M. Nyunkin
Use of the Restoration of the Frontal View of Human Face for Recognition
For an estimation of frontal view restoration efficiency for recognition of the person from the face image the
experiments on numerous images of faces have been made with different head turn angles were made. The
conditions are determined, in which the restoration is applicable.
Статья поступила в редакцию 11.07.2005.
670
«Искусственный интеллект» 3’2005
Download