6,782,049 НР System for selecting a keyframe to represent a video

advertisement
6,782,049 НР System for selecting a keyframe to represent a video. Dufaux; Frederic
(Chestnut Hill, MA); Swain; Michael J. (Newton, MA)
Система для выбора ключевого фрейма для представления видео файла.
Предлагается способ выбора ключевого фрейма, характерного(образцового) для
последовательности фреймов в видео файле. Последовательность фреймов
подразделяется в кадры при обнаружении границ кадров. Границы кадров
находятся измерением изменений в интенсивности движения между фреймами
используя меру интенсивности пикселов разницы гистограм между фремами.
Наиболее интересный кадр в последовательности фреймов выбирается, используя
измерения интенсивности движения, пространственной интенсивности, цвета
пиксела и длины кадра. Ключевой фрейм выбирается в наиболее интересном кадре,
используя измеренения пространственной интенсивности и интенсивности
движения.
Этот патент является продолжением патента Ser. No. 09/239,937, "A System for
Indexing World Wide Web Multimedia" by Frederic Dufaux et al., filed on Jan. 29, 1999
Базовое описание:
The World Wide Web ("WWW") содержит миллионы документов (веб страниц)
форматированных в HTML формате. Чтобы иметь доступ к веб странице должен
быть известен Uniform Resource Locator ("URL"). Поисковые машины индексируют
веб страницы и делают их URL доступными пользователю сети. Чтобы
сгенерировать индекс поисковая машина Compaq Computer Corporation's
ALTAVISTA может искать WWW для новых веб страниц, используя веб краулер
(crawler). Поисковая машина выбирает значимую информацию из веб страницы
после анализа содержания веб страницы и хранит важную информацию и URL веб
страницы в индексе(указателе, каталоге).
Веб страницы могут также содержать линки (связи) с другими документами на
WWW, например текстовыми документами и файлами, хранящими изображения.
При поиске веб страниц для связи с файлами, хранящими изображения, поисковая
машина, связанная с WWW, такая как Compaq Computer Corporation's ALTAVISTA
Photo Finder, обеспечивает индекс таких файлов. Индекс содержит URL и
характерное изображение из файла.
Веб страницы содержат также линки к мультимедийным файлам (видео, аудио).
При поиски веб страниц для связи с мультимедийными файлами мультимедийная
поисковая веб машина такая как Scour Inc.'s SCOUR.NET, обеспечивает индекс
мультимедийных файлов. SCOUR.NET's индекс для видео файлов обеспечивает
текст, описывающий содержание видео файла и URL для мультимедийного файла.
Другая мультимедийная поисковая машина WebSEEK суммирует видео файл,
генерируя очень хорошо сжатую версию видео файла. Видео файл суммируется
выбором серии фреймов из кадров в видео файле и перепаковкой фреймов в GIF
файл. WebSEEK также генерирует цветную гистограмму для каждого кадра, чтобы
автоматически классифицировать видео файл, и позволяет делать визуальные
запросы. Это описано John R. Smith et al. "An Image and Video Search Engine for the
World-Wide Web", Symposium on Electronic Imaging: Science and Technology-Storage and Retrieval for Image and Video Databases V, San Jose, Calif., February 1997,
IS&T/SPIE. Анализ содержания видео файла затруднен из-за низкого качества и
низкого разрешения сильно сжатых цифровых видео файлов.
Настоящее изобретение обеспечивает механизм эффективной индексации видео
файлов и имеет частное применение к индексации видео файлов, размещаемых веб
краулером (crawler) поисковой машины. Ключевой фрейм, один фрейм
представляющий видео файл, извлекается из последовательности фреймов.
Последовательность фреймов может включать множество сцен или кадров,
например, непрерывные движения относительно камеры, разделяемые различными
искажениями. Чтобы извлечь ключевой фрейм находятся границы кадров в
последовательности фреймов, ключевой кадр выбирается из кадров внутри
обнаруженных границ кадров.
Границы кадра находятся по результатам первого или второго теста , которые
зависят от прямых и обратных разрывов разности интенсивности пикселов между
последовательными фреймами и распределением гистограммы яркости для
каждого фрейма.
Назовем мерой прямого разрыва разность интенсивности пикселов между текущим
и следующим фреймами. Тогда мера обратного разрыва есть разность
интенсивности пикселов между текущим и предыдущим фреймами.
Первый тест определяет является ли наибольший разрыв фрейма между прямым и
обратным разрывами фрейма относительно гистограммы яркости, больше чем
первая пороговая величина(>2P). Если при этом не обнаруживается граница кадра,
то выполняется второй тест.
Второй тест находит границу кадра как по максимальному, так и минимальному
разрыву в разности интенсивности пикселов прямого и обратного фрейма
относительно гистограммы яркости.
Второй тест определяет, является ли наибольший прямой и обратный разрыв в
разности интенсивности пикселов фрейма относительно гистограммы яркости,
больше, чем вторая пороговая величина(>P), а соответствующий минимумум
,больше, чем третья пороговая величина(>P/2).
Если тест1 или тест 2 верен, то фрейм помечается как граница кадра.
Ключевой кадр выбирается по уровню слоя цветных пикселов, движения между
фреймами, пространственной интенсивностью между фреймами и длиной кадра.
Дополнение
Мера величины разницы между пикселами в последовательных фреймах может
быть использована для определения границы кадров в цифровом видео файле. Эта
величина вычисляется по разности интенсивности между пикселом текущего
фрейма и интенсивностью того же пиксела в предыдущем фрейме и
суммированием по абсолютной величине разностей по всем пикселам.
Для последовательных фреймов в кадре эта разность будет небольшой, так как
число изменяющихся пикселов от фрейма к фрейму небольшое. Большая величина
разности указывает на возможное изменение границ кадра. Разностная величина
пикселов фрейма чувствительна к ложному обнаружению границ кадров при
резком изменении движения.
Мера интенсивности движения вычисляется, чтобы уменьшить неправильное
обнаружение границ кадра. Эта мера основана на гистограмме яркости для фрейма,
т.е графике распределения яркости фрейма, в котором величина яркости каждого
пиксела меняется от 0 до 255. Интегральное распределение гистограммы яркости
текущего и последующего фрейма сравнивается. Для этого используется
статистический тест Колмогорова-Смиронова. Эта мера используется, чтобы
определить кадры с большой интенсивностью движения, указывающей на
важность цифрового видео.
Мера пространственной интенсивности измеряется как энтропия каждого фрейма.
Высокий уровень энтропии указывает на фрейм с высоким пространственным
содержанием. Фрейм с высоким пространственным содержанием имеет плоскую
гистограмму. Фрейм с низким уровнем пространственного содержания имеет
гистограмму, в которой яркость всех пикселов центрируется и создает пик на
гистограмме. Например, фрейм, содержащий лодку на озере в облачный день имеет
гистограмму сцентрированную вокруг голубого цвета. Энтропия используется,
чтобы определить наиболее интересный кадр, так как в кадре с низким
разрешением интенсивности пикселов нет много объектов.
Длина кадра используется, так как обычно камера задерживается дольше на
интересном месте.
Патент по теме уже упомянутого 6,633,845
HP Music summarization system and method
Великолепное решение задачи цифровой медиа-индустрии. Но не понятно какой задачи!
Не понятно для чего сравниваются пикселы и вычисляются гистограммы.
Для чего нужно отловить самый "интересный" (для кого?!!) видео-кадр? Что потом делается? Ради
чего все это?
Где и для чего это может применяться в медиа-бизнесе. На чем зарабатывать деньги, на какой
услуге?
PS: Исследуется рынок медиа-технологий, здесь невозможны жесткие рекомендации "что надо –
чего не надо". Эта область техники, точнее – социотехники (!), находится в состоянии
революционного скачка (преддверие скачка, начало скачка – не важно), поэтому возможны любые
резкие перемены, новые идеи и находки
Download