Retrieving images by content

Поиск фотографий по содержанию Алексей Явлинский Аспирант университета Imperial College London, Великобритания План презентации • Сегодня мы поговорим о том  Как работают поисковики фотографий в интернете  В чем проблема нынешних методов поиска  Как анализ содержимого образов может быть полезен для решния этой проблемы  Какие есть существующие методы анализа образов  Как работает наш метод • И увидим прототип поисковика образов в Интернете, который применяет наш метод анализа (Behold) Фотографии везде • • • • Flickr Страницы интернета в целом Ваша личная фото-коллекция Youtube Организация фотографий • В Вашей личной коллекции: наименование файлов • На Flickr: тегировка • На WWW: непросто  Индекс Google насчитывает более миллиарда образов  Пользователи не делают аннотации своих фотографий вручную Интернет-поисковик фотографий • Должен угадать что в каждом образе • Нынешний способ: ассоциированние фотографии с текстом содержащей ее веб-страницы sunset_boat.jpg Сложности нынешнего подходa • Аннотации вынимаются из страниц и имен файлов автоматически -> частые ошибки  Иногда страницы не содержат никакой информации  Некоторые страницы не упоминают очевидные вещи  Прим.: фотография роз отмечена как любовь, но слово цветы не упоминается • Дополнительный, автоматический метод прогнозированния содержимого фотографий был бы полезен! Поиск в Google: ‘flower’ bf_img_flower_water.gif Botanical-flower-press.jpg Избранные плохие результаты FlowerPower_vF.jpg Автоматический анализ содержимого фотографий Применение статистической модели к этим параметрам для прогноза содержимого Непомеченный образ Извлечение важных Визуальных параметров образа Прогноз: “автомобиль, асфальт, трава” Заметьте: поскольку это статистический прогноз, иногда он будет ошибочным Расчет статистической модели для категории образов x ~100 Извлекаем важные визуальные параметры каждого образа Собираем большое количество образов данной категории Статистически рассчитываем типичные параметры для данной категории -- это наша модель Ошибочность прогноза будет зависеть от сложности выбранной категории образов Подходы к извлечению визуальных параметров • Сегментация  Автоматически расчлененяем образ на части, анализируем каждую отдельно • Обнаружение обьекта  Фиксируем специфическую конфигурацию пикселей • Анализ образа целиком (глобальный метод)  Используем все содержимое образа вместе • Каждый метод требует отдельный тип статистического моделирования • Сотни академическх публикаций на эту тему Сегментация образа Алгоритм “Region growing” Средний цвет: зеленый (RGB 0, 200, 0) Ориентация текстуры: неравномерная Тип текстуры: мелкий Размер сегмента: большой Средний цвет : оранжевый (RGB 255, 128, 0) Ориентация текстуры: вертикальная Тип текстуры: крупный Размер сегмента: средний Прогноз слов на основе визуальных параметров • • • Рассчитать таблицу ‘перевода’ между сегментами и словами Это можно сделать статистически, максимизируя вышеуказанную функцию на сегментах аннотированных фотографий Используем параметры функции как модель для прогноза слов для сегментов неаннотированных фото • Детали подхода в Duygulu et al. -- ‘Object recognition as machine translation’, European Conference on Computer Vision, 2002 Прогноз слов для сегментов неподписанного образа Проблемы с сегментацией • Пока нет общего решения проблемы точной сегментации образов • Процесс обработки образов методом сегментации занимает много времени  Требуется значительная нагрузка на вычеслительные ресурсы для обработки больших объемов фотографий Обнаружение объекта • Рассчитываем как объект должен выглядеть в образе на уровне пикселей (модель объекта) • Ищем конфигурации пикселей в неаннотированных образах соответсвующие нашей модели • Пример: обнаружение лиц Обнаружение лиц Собираем большую базу данных из образов выделенных лиц, и образов лиц не содержащих Используем статистический алгоритм чтобы найти самую информативную конфигурацию пикселей для обнаружения наличия лица Обнаружение лиц (2) Сканируем пиксели новой фотографии на предмет их совпадения с моделью лица Дополнительная информация в Viola and Jones, 2001 Проблемы с методами обнаружения объектов • Для рассчета пиксельных моделей объектов требуется большое количество образов с четко выделенным расположением объекта в каждом образе • Создание такой базы фотографий -- трудоемкая работа • Алгоритмы обычно обнаруживают объекты в определенных ракурсах, например, в профиль или в фас, но не под углом Наш подход: анализ образа целиком • Не применяем сегментацию • Аннотации фотографии прогнозируются на основе распределения визуальных параметров образа • Эти параметры могут быть простыми, например, распределение цвета или текстуры • Именуем подход: глобальный анализ образов • Преимущества: быстрый и простой анализ содержимого фотографий Глобальный подход: мотивировка Оригинал Цвет Текстура Аннотация образов через глобальный анализ • Моделируем процесс аннотации как • p(w|x) - вероятность аннотации w при визуальных параметрах x • Нужно найти функцию для каждой категории аннотаций (слова) Рассчитываем эту функцию непараметрической аппроксимацией Парцена: • Используя n образов содержащих аннотацию w в нашей аннотированной базе данных • Применяем первую модель к визуальным параметрам неаннотированных фотографий для прогнозированния слов Дополнительная информация в Yavlinsky, Schofield, Rueger, Conference on Image and Video Retrieval, 2005 Визуальные параметры • Локализованный цвет  CIELab colour (3 канала) в 9 равных частях образа • Текстура  Gabor wavelets - набор из 24 фильтров Применения • Поиск неаннотированных фотографий через текстовые запросы • Улучшение качества поикса образов существующих интернет-поисковиков, например, Google Image Search • Организация неаннотированных фотографий в Вашей персональной фото-коллекции • Автором разработан поисковик на основе глобального анализа образов: http://www.beholdsearch.com • Вы можете со мной связаться: alexei@yavlinsky.com Спасибо! • Вопросы? Ссылки и публикации Сайт автора: http://www.beholdsearch.com/alexei Публикации упомянутые в презентации (детали подхов, оценки точности и т.д.): • P Duygulu, K Barnard, N de Fretias, and D Forsyth. Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary. In Proceedings of the European Conference on Computer Vision, pages 97–112, 2002. • P Viola and M Jones. Rapid object detection using a boosted cascade of simple features. In International Conference on Pattern Recognition, pages 511–518, 2001. • A Yavlinsky, E Schofield, and S Ruеger. Automated image annotation using global features and robust nonparametric density estimation. In Proceedings of the International Conference on Image and Video Retrieval, pages 507–517, 2005.

Retrieving images by content

Related documents

Products

Support

Retrieving images by content

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib