СИСТЕМА АНАЛИЗА ГРАФИЧЕСКОГО КОНТЕНТА ВЕБ - СТРАНИЦ

advertisement
СИСТЕМА АНАЛИ ЗА ГРАФИЧЕСКОГО КОНТЕНТА ВЕБ СТРАНИЦ
Попова Л.П., Датьев И.О., Шишаев М.Г.
Под веб-контентом понимают наполнение сайта это любые материалы, размещенные на веб-ресурсе.
Графический
контент
представляет
собой
изображения, присутствующие на веб-страницах.
Информация о принадлежности этих изображений к
некоторому классу может быть полезна при поиске
изображений, а также для определения тематической
направленности или какой-либо классификации
самих веб-страниц. Анализ веб-изображений на
предмет принадлежности к некоторому классу
является задачей распознавания изображений
[6,14,15,16,17].
Практическую
значимость
распознавания
изображений трудно переоценить. Все области
человеческой деятельности, так или иначе, связаны с
использованием одного из пяти человеческих чувств
–
зрения.
Таким
образом,
потенциальная
применимость систем распознавания изображений
практически ничем не ограничена. На сегодняшний
день, успехи по распознаванию букв и цифр в
документах и текстах впечатляют, также как и
другие значительные достижения по анализу
изображений
специального
вида
(например,
распознавание
треков
ядерных
частиц,
идентификация
автомобилей-нарушителей
по
фотоснимкам, анализ и распознавание сигналов в
медицине и геологии). Однако, универсальных
методов обработки изображений, сравнимых по
эффективности
с
интеллектуальными
возможностями человека, еще не найдено, что
стимулирует активную деятельность ученых в этом
направлении.
Обзор
методов
распознавания
образов,
применяемых в современных системах анализа
изображений приведен в работе [6].
Неоспорима и практическая значимость систем
анализа графического контента. Содержимое сайтов,
в частности графическое, напрямую связано с
проблемой контроля доступа к Интернет-ресурсам.
Необходимость анализа веб-котента возникает при
решении следующих важных задач: блокирование
доступа
к
нелегальной
(экстремистской,
антисоциальной и другой) информации; пресечение
утечек конфиденциальной информации через
Интернет; ограничение использования Интернетресурсов не по назначению, в частности,
блокирование доступа к развлекательным ресурсам в
рабочее время.
Задачу распознавания
изображений часто
ассоциируют с поиском изображений в Интернете. У
большинства поисковых систем изображения
интегрированы с результатами контекстного поиска.
Роботы-индексаторы картинок обращают внимание
и на текст, окружающий картинки, определяя их
релевантность друг другу. Данный подход называют
поиском графического контента по текстовым
аннотациям (description based image retrieval DBIR).
Как правило, не все изображения в Интернете
должным образом оптимизированы под поисковые
системы.
Следовательно,
ожидать
высокой
надежности
от
алгоритмов
распознавания
изображений в контексте Интернет поиска не
приходится.
Для
преодоления
данных
недостатков
предлагается подход анализа графического контента
веб-страниц, основанный на применении алгоритма
поиска изображений по содержанию (Content Based
Image Retrieval, CBIR) [2]. Рассматриваемый подход
позволяет полностью автоматизировать процесс
аннотирования. В условиях отсутствия какой-либо
дополнительной информации об изображении для
аннотирования
используются
низкоуровневые
характеристики самого изображения. В последние
годы было предложено большое количество
различных моделей описания данных характеристик,
функций расстояния и основанных на них оценок
схожести изображений[10], [11], [12], [13].
Авторами
предлагается
система
анализа
графического контента, в которой изображения,
извлеченные
с
веб-страниц,
аннотируются
семантическими метками. Метод распознавания,
лежащий в основе разработанной программной
системы, впервые был предложен в мае 2007г.
английским
ученым
Nuno
Vasconchelos
в
университете Cambridge [1]. В основе метода лежит
подход многоклассового присваивания меток
(supervised multiclass labeling, SML)[4], который, по
мнению
автора,
приводит
к
наилучшему
аннотированию
изображений.
Процесс
контролируемого многоклассового присваивания
меток показан на рисунке 1.
Оценка плотности класса состоит из следующих
этапов: оценка плотности для каждого изображения
X |L ,W ( x | l , i ), l  {1, Di }
(среднее значение для
отдельных изображений), оценка плотности класса
X |W ( x | i) 
изображений
построение
1 Di
 X |L,W ( x | l, i)
D l 1
,
Гауссовой
смеси
X |L,W ( x | l , i)    ik,l ( x, ik,l , ik,l )
k
.
Для уменьшения сложности оценки параметров
смеси класса изображений используется ЕМалгоритм отыскания максимального правдоподобия
на неструктурированных данных[7]. EM-алгоритм
необходим
для
кластеризации
компонентов
гауссовой смеси для определения принадлежности к
классу. Основной алгоритм разделен на два шага:
шаг ожидания и шаг максимизации. В итоге
получаем условное распределение для класса
Рисунок 1. Моделирование семантических
классов
а) Изображение представляется в виде набора
характеристик, из каждой совокупности строится
Гауссова смесь. б) Для картинок, связанных одной
семантической меткой (здесь - горы), складывается
оценка всего класса изображений. в) Аннотирование
изображений осуществляется на основе плотности
классов.
На рисунке 2 представлена общая схема
алгоритма, предложенного Nuno Vasconchelos[1].
Первым этапом метода является преобразование
RGB-изображения в цветовое представление YBR. В
представление YBR на каждый пиксель отводится
три цветовых канала: яркость, оттенок синего,
оттенок красного. Комбинации интенсивности этих
каналов
образуют
весь
цветовой
спектр.
Человеческий глаз устроен таким образом, что
наиболее чувствителен к яркости, чем к оттенку
цвета, поэтому цветовое представление YBR удобно
использовать в алгоритмах сжатия изображения с
потерей качества: канал Y, как наиболее важный,
менее «урезается», каналы B и R – более.
Следующим этап рассматриваемого метода
распознавания
—
Дискретно-косинусное
преобразование
Фурье
(ДКП).
Дискретное
косинусное
преобразование
алгоритм,
обеспечивающий
сжатие
высококачественных
изображений с коэффициентом уплотнения данных
более 25:1, одно из ортогональных преобразований
[8].
ДКП
используется
для
формирования
изображения с отсечением наименее важных
цветовых составляющих. Для каждого цветового
канала YBR строится вектор характеристик
следующим образом: обрабатываемое изображение
разбивается на участки размером 8x8 px, далее к
каждому сегменту применяется ДКП.
Далее следует оценка плотности класса
изображений.
64
X |W ( x | w)    wk  ( x,  wk ,  kw )
k
изображений
.
Заключительным этапом выбранного метода
является вычисление апостериорных вероятностей
(вероятности
появления
на
изображении
определенных
элементов)
и
аннотирование
изображения определенными классами с наибольшей
вероятностью[3].
Программная реализация описанного выше
метода представляет собой чрезвычайно трудоемкую
задачу. Поскольку, целью авторов являлось создание
функционирующей
программной
системы,
способной с приемлемой точностью осуществлять
распознавание
изображений
в
условиях
ограниченных временных рамок, оригинальный
метод [1] был модифицирован. В разработанной
программной системе, анализ изображений и их
последующее аннотирование осуществляется на
основе такой низкоуровневой характеристики
изображений, как цвет.
На этапе подготовки в разработанной системе
были определены наиболее важные сервисные
функции:
представление
обрабатываемого
изображения в виде матрицы значений, отправка
изображения на экран (функция GRPtoDC), загрузка
изображений
(функции
GrpLoadEx
и
LoadBMPData32).
В
разработанной
системе
программно
реализовано ДКП [9], которое используется для
выделения наиболее значимых составляющих
изображения.
На
этапе
ДКП
происходит
нормализация изображения, представленного в виде
матрицы, относительно 0. Затем рассматриваемое
изображение раскладывается в спектр с целью
определения наиболее важных цветовых переходов.
Рисунок 2. Общая схема алгоритма
Для формирования изображения с отсечением
наименее важных цветовых составляющих к матрице
ДКП применяется квантование.
Каждый сегмент рассматриваемого изображения
описывается некоторым набором характеристик.
Метка, ассоциируемая с сегментом изображения,
называется блобом. В разработанной программной
системе каждый блоб представлен в виде диапазона
цветов с именем. Используемые системой блобы
описаны в отдельном файле (blob.txt), который имеет
следующую структуру: количество определенных
блобов (максимальное число блобов равно 255), имя
блоба, количество диапазонов цветов (максимум
255), и непосредственно сами цветовые диапазоны,
каждый из которых состоит из четырех значений.
Программа, в соответствии с определенными
блобами, анализирует изображение и аннотирует их
в тех областях, где концентрация блобов наибольшая
(функция AnnotMake).
Сначала строится таблица вероятностей, в
которой определено попадание точки в цветовой
диапазон блоба. Вероятность суммируется для
каждой составляющей цвета R, G, B. Из всех
вероятностей выбирается наибольшая. После
построения карты вероятностей начинается поиск
наибольшей концентрации каждого из блобов.
Рисунок разбивается на участки 64x64 px, шаг
разбиения равен 8 px. Для каждого участка
находится, какой из блобов в нём преобладает (по
карте вероятности), из всех участков для каждого
блоба выбирается участок, в котором тот блоб
преобладает наиболее всего, именно эти участки
помечаются именами на конечном изображении.
В
разработанной
программной
системе
предусмотрено
построение
температурной
и
цветовой карты (рис.3). В температурной карте
жёлтые и красные участки соответствуют самой
большой вероятности.
Рисунок 3. (а) Температурная и (б) цветовая
карта
В
цветовой
карте
точки
вероятности
окрашиваются в цвет блоба, которым эти
вероятности соответствуют.
В качестве примера работы программной
системы, рассмотрим аннотированное изображение
(рис.4). В образце определены следующие блобы:
земля, камень, столб, мох, дерево, человек.
Заключение
Результатом представленной работы является
реализованная программная система распознавания
изображений, в которой анализ графического
контента
рассматривается
с
точки
зрения
распознавания изображений на основе анализа и
сравнения низкоуровневых цветовых характеристик.
В дальнейшем, разработанная система может быть
использована для решения задач классификации и
поиска изображений, в системах фильтрации
нежелательного трафика,
при анализе влияния
графического контента веб-страниц на трафик,
генерируемый при просмотре этих страниц.
Рисунок 4. Аннотированное изображение
Литература
1. G. Carneiro, A. Chan, P. Moreno, N. Vasconcelos.
Supervised Learning of Semantic Classes for Image
Annotation and Retrieval. IEEE TRANSACTIONS
ON PATTERN ANALYSIS AND MACHINE
INTELLIGENCE. - VOL. 29. NO 3, MARCH 2007.
2. N. Vasconcelos. From pixels to semantic spaces:
Advances in content-based image retrieval. Computer.
40 (7), 2007.- 20-26 pp.
3. P. Duygulu, K. Barnard, and D.F.N. Freitas. Object
Recognition as Machine Translation: Learning a
Lexicon for a Fixed Image Vocabulary. Proc.
European Conf. Computer Vision, 2002.
4. G. Carneiro, N. Vasconcelos. A Database Centric
View of Semantic Image Annotation and Retrieval.
Proc. ACM SIGIR Conf. Research and Development
in Information Retrieval, 2005.
5. N. Vasconcelos, Image Indexing with Mixture
Hierarchies. Proc. IEEE Computer Vision and Pattern
Recognition Conf., 2001.
6. Попова Л.П., Датьев И.О. Обзор существующих
методов
распознавания
образов
//
Информационные технологии в региональном
развитии. – Апатиты, 2007. – Вып. VII. – C. 93-103.
7. A. Dempster, N. Laird, and D. Rubin, “MaximumLikelihood from Incomplete Data via the EM
Algorithm,” J. Royal Statistical Soc., vol. B-39, 1977.
8. C. Gloster, Jr., W. Gay, M. Amoo, M. Chouikha.
Optimizing the Design of a Configurable Digital
Signal Processor for Accelerated Execution of the 2-D
Discrete Cosine Transform. Proceedings of the 39th
Hawaii International Conference on System Sciences ,
2006.
9. U. Mendoza-Camarena, R. Romero-Troncoso. VHDL
Core for the Computation of the One-Dimensional
Discrete Cosine Transform. ReConFig 2006. IEEE
International Conference on Volume. Issue, Sept.
2006. - 1–8pp.
10. Александров В.В., Кулешов С.В., Цветков О.В.
Цифровая
технология
инфокоммуникации.
Передача, хранение и семантический анализ
текста, звука, видео. – СПб.: Наука, 2008. – 244с.
11. F. Liu, R. Picard. Periodicity, Directionality, and
Randomness: Wold Features for Image Modeling and
Retrieval. IEEE Trans. Pattern Analysis and Machine
Intelligence, vol. 18, no. 3, July 1996. - 722-733pp.
12. B. Manjunath and W. Ma, “Texture Features for
Browsing and Retrieval of Image Data,” IEEE Trans.
Pattern Analysis and Machine Intelligence, vol. 18, no.
8, pp. 837-842, Aug. 1996.
13. R. Manmatha, S. Ravela. A Syntactic Characterization
of Appearance and Its Application to Image Retrieval.
Proc. SPIE Conf. Human Vision and Electronic
Imaging II, vol. 3016, 1997.
14. J. Bonet, P. Viola. Structure Driven Image Database
Retrieval. Proc. Conf. Advances in Neural Information
Processing Systems, vol. 10, 1997.
15. J. Vailaya, A. Vailaya. Image Retrieval Using Color
and Shape. Pattern Recognition J., vol. 29, Aug. 1996.
- 1233-1244pp.
16. A. Pentland, R. Picard, S. Sclaroff. Photobook:
Content-Based Manipulation of Image Databases.
Int’l J. Computer Vision, vol. 18, no. 3, June 1996. 233-254pp.
17. N. Vasconcelos, A. Lippman. Library-Based Coding:
A Representation for Efficient Video Compression and
Retrieval. Proc. Data Compression Conf., 1997.
Download