Retrieving images by content

advertisement
Поиск фотографий по
содержанию
Алексей Явлинский
Аспирант университета Imperial
College London, Великобритания
План презентации
• Сегодня мы поговорим о том
 Как работают поисковики фотографий в интернете
 В чем проблема нынешних методов поиска
 Как анализ содержимого образов может быть
полезен для решния этой проблемы
 Какие есть существующие методы анализа образов
 Как работает наш метод
• И увидим прототип поисковика образов в
Интернете, который применяет наш метод
анализа (Behold)
Фотографии везде
•
•
•
•
Flickr
Страницы интернета в целом
Ваша личная фото-коллекция
Youtube
Организация фотографий
• В Вашей личной коллекции:
наименование файлов
• На Flickr: тегировка
• На WWW: непросто
 Индекс Google насчитывает более
миллиарда образов
 Пользователи не делают аннотации своих
фотографий вручную
Интернет-поисковик
фотографий
• Должен угадать что в каждом образе
• Нынешний способ: ассоциированние
фотографии с текстом содержащей ее
веб-страницы
sunset_boat.jpg
Сложности нынешнего
подходa
• Аннотации вынимаются из страниц и имен
файлов автоматически -> частые ошибки
 Иногда страницы не содержат никакой информации
 Некоторые страницы не упоминают очевидные
вещи
 Прим.: фотография роз отмечена как любовь, но
слово цветы не упоминается
• Дополнительный, автоматический метод
прогнозированния содержимого фотографий
был бы полезен!
Поиск в Google: ‘flower’
bf_img_flower_water.gif
Botanical-flower-press.jpg
Избранные плохие результаты
FlowerPower_vF.jpg
Автоматический анализ
содержимого фотографий
Применение статистической
модели к этим параметрам
для прогноза содержимого
Непомеченный образ
Извлечение важных
Визуальных параметров
образа
Прогноз: “автомобиль, асфальт, трава”
Заметьте: поскольку это статистический прогноз,
иногда он будет ошибочным
Расчет статистической
модели для категории образов
x ~100
Извлекаем важные
визуальные
параметры каждого
образа
Собираем большое
количество
образов данной
категории
Статистически рассчитываем
типичные параметры для данной
категории -- это наша модель
Ошибочность прогноза будет зависеть
от сложности выбранной категории образов
Подходы к извлечению
визуальных параметров
• Сегментация
 Автоматически расчлененяем образ на части,
анализируем каждую отдельно
• Обнаружение обьекта
 Фиксируем специфическую конфигурацию
пикселей
• Анализ образа целиком (глобальный метод)
 Используем все содержимое образа вместе
• Каждый метод требует отдельный тип
статистического моделирования
• Сотни академическх публикаций на эту тему
Сегментация образа
Алгоритм “Region growing”
Средний цвет: зеленый
(RGB 0, 200, 0)
Ориентация текстуры:
неравномерная
Тип текстуры: мелкий
Размер сегмента: большой
Средний цвет : оранжевый
(RGB 255, 128, 0)
Ориентация текстуры:
вертикальная
Тип текстуры: крупный
Размер сегмента: средний
Прогноз слов на основе
визуальных параметров
•
•
•
Рассчитать таблицу ‘перевода’ между сегментами и
словами
Это можно сделать статистически, максимизируя
вышеуказанную функцию на сегментах
аннотированных фотографий
Используем параметры функции как модель для
прогноза слов для сегментов неаннотированных фото
•
Детали подхода в Duygulu et al. -- ‘Object recognition as machine
translation’, European Conference on Computer Vision, 2002
Прогноз слов для сегментов
неподписанного образа
Проблемы с сегментацией
• Пока нет общего решения проблемы
точной сегментации образов
• Процесс обработки образов методом
сегментации занимает много времени
 Требуется значительная нагрузка на
вычеслительные ресурсы для обработки
больших объемов фотографий
Обнаружение объекта
• Рассчитываем как объект должен
выглядеть в образе на уровне пикселей
(модель объекта)
• Ищем конфигурации пикселей в
неаннотированных образах
соответсвующие нашей модели
• Пример: обнаружение лиц
Обнаружение лиц
Собираем большую базу данных из образов
выделенных лиц, и образов лиц не содержащих
Используем статистический алгоритм чтобы найти самую
информативную конфигурацию пикселей для
обнаружения наличия лица
Обнаружение лиц (2)
Сканируем пиксели новой фотографии на
предмет их совпадения с моделью лица
Дополнительная информация в Viola and Jones, 2001
Проблемы с методами
обнаружения объектов
• Для рассчета пиксельных моделей объектов
требуется большое количество образов с четко
выделенным расположением объекта в каждом
образе
• Создание такой базы фотографий -- трудоемкая
работа
• Алгоритмы обычно обнаруживают объекты в
определенных ракурсах, например, в профиль
или в фас, но не под углом
Наш подход: анализ
образа целиком
• Не применяем сегментацию
• Аннотации фотографии прогнозируются на
основе распределения визуальных параметров
образа
• Эти параметры могут быть простыми,
например, распределение цвета или текстуры
• Именуем подход: глобальный анализ образов
• Преимущества: быстрый и простой анализ
содержимого фотографий
Глобальный подход:
мотивировка
Оригинал
Цвет
Текстура
Аннотация образов через
глобальный анализ
• Моделируем процесс аннотации как
• p(w|x) - вероятность аннотации w при визуальных параметрах x
• Нужно найти функцию
для каждой категории
аннотаций (слова)
Рассчитываем эту функцию непараметрической аппроксимацией
Парцена:
• Используя n образов содержащих аннотацию w в нашей
аннотированной базе данных
• Применяем первую модель к визуальным параметрам
неаннотированных фотографий для прогнозированния слов
Дополнительная информация в
Yavlinsky, Schofield, Rueger, Conference on Image and Video Retrieval, 2005
Визуальные параметры
• Локализованный цвет
 CIELab colour (3 канала) в 9 равных частях
образа
• Текстура
 Gabor wavelets - набор из 24 фильтров
Применения
• Поиск неаннотированных фотографий через
текстовые запросы
• Улучшение качества поикса образов
существующих интернет-поисковиков,
например, Google Image Search
• Организация неаннотированных фотографий в
Вашей персональной фото-коллекции
• Автором разработан поисковик на основе
глобального анализа образов:
http://www.beholdsearch.com
• Вы можете со мной связаться:
alexei@yavlinsky.com
Спасибо!
• Вопросы?
Ссылки и публикации
Сайт автора: http://www.beholdsearch.com/alexei
Публикации упомянутые в презентации
(детали подхов, оценки точности и т.д.):
• P Duygulu, K Barnard, N de Fretias, and D Forsyth. Object recognition as
machine translation: Learning a lexicon for a fixed image vocabulary. In
Proceedings of the European Conference on Computer Vision, pages 97–112,
2002.
• P Viola and M Jones. Rapid object detection using a boosted cascade of simple
features. In International Conference on Pattern Recognition, pages 511–518,
2001.
• A Yavlinsky, E Schofield, and S Ruеger. Automated image annotation using
global features and robust nonparametric density estimation. In Proceedings of
the International Conference on Image and Video Retrieval, pages 507–517,
2005.
Download