IMAGE PROCESSING AND STORAGE IN DIGITAL ARCHIVES

advertisement
EVA’98-Москва
В.Н. Карнаухов ~ Н.С. Мерзляков ~ Б.М. Миллер ~ Л.И. Рубанов
Цифровые архивы рукописей и фотодокументов:
технологии разработки и опыт создания
В. Н. Карнаухов, к.т.н
Н. С. Мерзляков, к.т.н.,
Б. М. Миллер, д.ф.-м.н., профессор
Л. И. Рубанов, к.т.н.
Институт проблем передачи информации Российской Академии наук (ИППИ РАН)
Адрес: 101447 Москва, ГСП-4, Большой Каретный пер.,19
Телефон: (095) 209-0579
Факс: (095) 209-0579
E-mail: {vic, nick, bmiller, rubanov}@ippi.ras.ru
В ходе описываемого проекта были разработаны различные методы обработки
изображений применительно к компьютерной реставрации, улучшению качества и
последующему архивированию рукописных и фотодокументов. Разработанные методы,
алгоритмы и программное обеспечение использовались для создания архивных цифровых
баз раритетных изображений на основе материала двух собраний, имеющих большую
историческую и культурную ценность:
 Рукописная картотека древнерусского словаря (РКДС), хранящаяся в единственном
бумажном экземпляре в Институте русского языка Российской Академии наук в
течение последних ста лет. Картотека содержит свыше 2 млн. разнотипных
рукописных карточек из бумаги самого различного качества, и отражает историю
России, восходящую к XI-XVII в.в.
 Архив фотодокументов, накопленный в Лаборатории научно-прикладной фотографии
и кинематографии Российской Академии наук (ЛАФОКИ) за последние 120 лет. Это
собрание насчитывает свыше 200 тыс. черно-белых и цветных негативов, слайдов и
фотографий, на которых изображены выдающиеся деятели и события российской
науки. В создаваемую базу архивных фотодокументов предполагается включить
около 30-35 тыс. черно-белых и цветных изображений.
Разработка ориентирована на использование современных технологий обработки и
хранения видеоинформации при создании и поддержке многофункциональной базы
архивных изображений различных типов – как текстографических бинарных изображений,
так и многоградационных и полноцветных изображений реального мира, полученных с
помощью фотографии, дистанционного зондирования, рентгенографии, томографии и
других инструментальных методов.
Теоретические и экспериментальные исследования в рамках данного проекта
проводятся по трем основным направлениям, что нашло свое отражение в структуре
системы (рис.1):
1. Разработка и практическое опробование отвечающей мировому уровню технологии
ввода архивной графической информации (черно-белых и цветных негативов и
фотоснимков, а также рукописных документов) и ее предобработки с целью
улучшения визуального качества изображений и ликвидации специфических
дефектов. Создание программного обеспечения рабочего места по вводу и обработке
изображений перед их внесением в цифровой архив.
2. Разработка оригинальных алгоритмов высокоэффективного двух-трехкратного
сжатия черно-белых, полутоновых и цветных изображений, обеспечивающий их
последующее точное восстановление. Эксперименты показали, что по степени сжатия
эти алгоритмы превосходят достигнутый мировой уровень и дают лучшие результаты,

Работа поддержана Российским Фондом Фундаментальных Исследований (проект № 96-07-89028).
5~1~1
EVA’98-Москва
В.Н. Карнаухов ~ Н.С. Мерзляков ~ Б.М. Миллер ~ Л.И. Рубанов
чем традиционные программы архивации файлов.
3. Построение типовой базы архивных изображений и интеграция разработанных
алгоритмов сжатия графической информации в состав соответствующих современных
СУБД для каждой из применяемых аппаратных платформ. Создание программного
обеспечения рабочего места конечного пользователя цифрового архива изображений.
Рис.1: Структура системы
5~1~2
EVA’98-Москва
В.Н. Карнаухов ~ Н.С. Мерзляков ~ Б.М. Миллер ~ Л.И. Рубанов
Полнофункциональная версия базы данных, накапливаемой в локальной сети
владельца, с высококачественными изображениями и возможностями тематического поиска
по индексу, должна распространяться на компакт-дисках по мере наполнения. Создан также
WWW-сервер, через который предоставляется доступ по сети Интернет к некоторой части
внесенного в базу данных архива фотодокументов ЛАФОКИ. В целях сохранения авторских
и имущественных прав, демонстрируются уменьшенные копии изображений, с
преднамеренно сниженным качеством; возможности поиска в базе данных также
ограничены.
Ввод и цифровая обработка архивных фотодокументов. Разработанная технология
позволяет осуществлять ввод разнообразной архивной графической информации
(рукописных документов, черно-белых и цветных фотоснимков и негативов на фотопленке
и фотопластинках), а также ее цифровой обработки с целью улучшения визуального
качества изображений и ликвидации специфических дефектов, возникающих в результате
длительного хранения. В ходе работы над проектом было проведено исследование видов
характерных дефектов рукописных карточек РКДС и черно-белых и цветных негативов и
снимков из фондов ЛАФОКИ, и были предложены такие методы предобработки вводимой
графической информации, которые позволяют достичь приемлемого качества при
последующей визуализации и тиражировании. Методы и алгоритмы фильтрации шумов и
улучшения качества рукописных и фотодокументов реализованы в виде прототипа
интерактивной системы ввода и обработки фотодокументов PDPS, рассчитанной для
работы на персональных компьютерах в 32-разрядной среде Windows. В состав PDPS
входят подсистема ввода изображений и подсистема цифровой обработки,
взаимодействующие друг с другом в рамках локальной вычислительной сети, развернутой в
ИППИ РАН.
Процесс преобразования исходного фотодокумента в цифровую форму осуществляется
в подсистеме ввода, использующей подключенный к РС планшетный сканер UMAX Power
Look II, который укомплектован адаптером для ввода с прозрачных материалов (UTA-II).
Сканер имеет динамический диапазон оптической плотности 3.3D при разрешении до 1200
dpi; эти характеристики признаны достаточными для материалов, составляющих
обсуждаемые архивные фонды.
PDPS поддерживает многооконный режим работы, при котором пользователь имеет
возможность независимо управлять отдельными этапами обработки. В ходе цифровой
обработки фотодокументов в системе PDPS выполняются геометрические преобразования
изображений фотодокументов (кадрирование), фильтрация импульсного шума и коррекция
яркостных искажений фотодокументов, включая реставрацию механических повреждений
исходного носителя. Все виды обработки могут применяться в интересующей области
произвольной формы.
Процедура фильтрации импульсного шума выполняется в общем случае в два этапа: на
первом этапе осуществляется обнаружение искаженных отсчетов, а на втором – оценка
корректированного значения с использованием значений неискаженных отсчетов и замена
искаженного значения отсчета его оценкой. Простейшим алгоритмом обнаружения
импульсного шума является пороговый алгоритм с переключающей матрицей. Для
фотодокументов использование этой простейшей глобальной пороговой процедуры часто
является недостаточным, но сочетание ее с определенными локально-адаптивными
ранговыми алгоритмами, базирующимися на анализе некоторой пространственной
окрестности обрабатываемого отсчета изображения, дает хорошие результаты. Локальная
адаптивная природа, робастность и возможность рекурсивной обработки изображения
относятся к числу основных достоинств подобных алгоритмов.
Коррекция яркостных искажений на изображениях проводится, как правило, в
интерактивном режиме с помощью традиционных процедур улучшения качества
5~1~3
EVA’98-Москва
В.Н. Карнаухов ~ Н.С. Мерзляков ~ Б.М. Миллер ~ Л.И. Рубанов
изображений: сглаживания, повышения локального контраста, устранения эффекта
"виньетирования" и т.п. В зависимости от присутствующих конкретных искажений, в
системе PDPS в интерактивную процедуру могут в различных сочетаниях вовлекаться
нелинейная амплитудная коррекция по гистограмме, медианная фильтрация и
локально-адаптивная обработка изображения. Несмотря на использование известных
методов обработки изображений, относительно новой является технология выбора
последовательности их применения и критерии подбора значений параметров
преобразований, равно как и сама организация интерактивной процедуры в системе PDPS,
применяемой на рабочем месте по вводу архивных фотоизображений.
Разработка программного обеспечения системы PDPS была осуществлена методами
объектно-ориентированного программирования с использованием интегрированной среды
разработки Borland C++ Builder. Работоспособность системы апробирована при работе в
операционных средах Windows 95/98 и Windows NT 4.0. Для отработки и
совершенствования указанной технологии был проведен опытный ввод и предобработка
нескольких сотен рукописных карточек и фотонегативов, взятых без предварительного
отбора. Эксперименты показали, что применительно к РКДС и фотоархиву ЛАФОКИ и с
учетом имеющихся в распоряжении устройств растрового ввода графических изображений
в компьютер данная технология является достаточно эффективной и отвечает
современному мировому уровню.
Обратимое сжатие изображений. В ходе создания представляемых баз данных проводится
разработка оригинальных алгоритмов высокоэффективного обратимого сжатия (т.е. без
потери информации) двухградационных, полутоновых и цветных изображений. Требование
отсутствия потерь при сжатии изображений является непременным условием архивного
хранения, при котором ставится задача максимально точного воспроизведения оригинала (в
отличие от видеотелефонии, видеоконференций и т.п.). Удалось разработать эффективные
методы сжатия изображений с последующим точным восстановлением, превосходящие
известные алгоритмы по степени сжатия информации.
Для сжатия двухградационных черно-белых архивных изображений (печатные и
рукописные документы РКДС) использован известный метод двумерного кодирования
длин серий, однако его эффективность была улучшена примерно на 5% по сравнению с
обычной неадаптивной процедурой за счет адаптивной конструкции кодовых книг для кода
Хаффмана. Дополнительное сжатие было получено за счет раздельного хранения кодовых
книг для серий черных и белых битов.
Алгоритм сжатия полутоновых изображений с 256 градациями серого построен на
основе оригинального интерполяционно-пирамидального метода и позволяет достичь
степени сжатия 2-3 (без потери содержащейся в них информации) в зависимости от
изображения. Эксперименты с типичными полутоновыми архивными изображениями
показали, что во всех случаях этот алгоритм дает выигрыш 15-20% в степени сжатия по
сравнению с лучшими из известных стандартных программ архивации файлов (PKZIP, ARJ,
LHA). Поскольку при создании базы данных архивных изображений именно степень сжатия
является определяющим параметром, полученный результат можно оценить как
превосходящий достигнутый мировой уровень и имеющий особое значение для успешного
выполнения проекта.
Разработанный для полутоновых изображений метод сжатия был в дальнейшем
распространен и на цветные изображения. Простейшая реализация такого подхода
заключается в независимом сжатии каждой из цветовых составляющих R, G, B с помощью
такой же иерархической процедуры интерполяционного кодирования, как и для
черно-белого изображения, т.е. по методу преобразования компонент с интерполяцией по
отсчетам (ПКИО). Получаемая при такой реализации степень сжатия в точности
соответствует результатам, достигаемым при сжатии черно-белых полутоновых
5~1~4
EVA’98-Москва
В.Н. Карнаухов ~ Н.С. Мерзляков ~ Б.М. Миллер ~ Л.И. Рубанов
изображений. Имеется, однако, дополнительная возможность сжатия информации,
обусловленная тем, что цветовые составляющие большинства реальных изображений, как
правило, сильно коррелированы. Поэтому был предложен вариант метода ПКИО с
комбинированием цветовых компонент, учитывающий такую корреляцию, в котором код
Хаффмана используется для сжатия выбранных линейных комбинаций трех цветовых
компонент R, G, и B (скажем, R, G+R и B+G) на трех уровнях пирамиды. На
каждом уровне может использоваться одна из 16 возможных комбинаций, дающая
минимальную длину кода Хаффмана. Результаты моделирования показали его более
высокую эффективность; повышение эффективности объясняется тем, что комбинации
компонент ПКИО различных уровней лучше адаптируются к свойствам составляющих
кодируемого цветного изображения в различных диапазонах пространственных частот.
Дополнительный выигрыш в степени сжатия с помощью метода ПКИО с комбинированием
цветовых компонент составляет 7-10% по сравнению со схемой раздельного кодирования
составляющих.
Кроме того, при применении метода ПКИО с комбинированием компонент отпадает
необходимость согласовывать динамические диапазоны этих компонент, поскольку
функции распределения разностных компонент ПКИО всегда имеют сходные быстро
спадающие распределения с максимумом в нуле. В связи с наличием указанных
преимуществ, именно метод ПКИО с комбинированием компонент был выбран в качестве
базового для построения алгоритмов сжатия цветных изображений в рамках данного
проекта.
Организация базы данных. Это направление проекта предусматривало построение
цифрового архива изображений фотодокументов в виде типовой базы данных с интеграцией
разработанных алгоритмов сжатия графической информации в состав соответствующей
современной СУБД. При этом необходимо было учитывать два объективно
присутствующих фактора:
1. Возможность широкого доступа к архиву фотодокументов и работы с ним в различных
режимах, с использованием отличающихся программно-аппаратных платформ;
2. Продолжительность времени, требующегося для наполнения всего архива, в течение
которого неизбежно произойдет смена поколений оборудования и программного
обеспечения.
Таким образом, во главу угла была поставлена задача создания архива фотодокументов,
работающего в разнородных операционных окружениях и легко переносимого с одной
аппаратной платформы на другую. Такое решение диктует обязательность применения
стандартных общесистемных программных средств, присущих той или иной операционной
платформе. К числу таких средств, в частности, следует отнести реляционные СУБД, в
изобилии разработанные для всех известных платформ, от РС до мэйнфреймов (и
достаточно быстро перерабатываемые либо заново создаваемые для вновь появляющихся
семейств компьютеров).
Поэтому при работе над проектом были отвергнуты идеи разработки
специализированной СУБД, которая бы максимально учитывала специфику хранимой
информации – сжатых изображений фотодокументов, их описаний, индексной информации
для поиска и т.п. Вместо этого проводился сравнительный анализ доступных систем
управления реляционными базами данных с позиций их распространенности,
функциональной полноты, удобства и, конечно, применимости в данном проекте. В
частности, для среды IBM-совместимых персональных компьютеров, работающих под
управлением MS Windows (так называемая платформа Wintel), была выбрана СУБД MS
Access.
Другим важным фактором, учитываемым при разработке, является значительная
5~1~5
EVA’98-Москва
В.Н. Карнаухов ~ Н.С. Мерзляков ~ Б.М. Миллер ~ Л.И. Рубанов
асимметрия архивной информации: несмотря на достигаемое сжатие изображения
фотодокумента, объем хранимой графической информации значительно (в сотни раз и
более) превосходит объем цифровой и текстовой информации, относящейся к этому
документу (описание, поисковые ключи и т.п.), причем эта пропорция меняется в широких
пределах. Поэтому применена раздельная схема хранения, при которой архив изображений
обособлен от базы данных, хранится в виде отдельных физических файлов, и
поддерживается логическая связь (ссылка) между записями файлов СУБД и содержимым
архива изображений. Такая организация в виде двух логически связанных, но хранимых
раздельно компонент – реляционной базы данных с текстовой информацией и собственно
архива изображений, сжатых с помощью разработанных методов, – имеет ряд достоинств:

Эффективная реализация физического уровня хранения данных в СУБД;

Собственно в базе данных хранятся только текстовая описательная информация и
поисковые дескрипторы; эти данные относительно просто могут экспортироваться из
одной применяемой СУБД в другую;

Независимость преобладающей по объему части хранимой информации, т.е.
собственно архива изображений, от применяемой СУБД (вплоть до возможности
использования одного и того же архива в нескольких различных СУБД
одновременно);

Простота тиражирования архива фотодокументов при его распространении в виде
комплекта CD-ROM (большинство дисков одинаково для всех платформ).
Поскольку разработанные в данном проекте методы сжатия и форматы хранения
сжатых изображений не относятся к числу стандартных, общепринятых (по крайней мере,
на сегодняшний день), перенос цифрового архива на любую платформу неизбежно требует
реализации программ кодирования/декодирования для этой платформы. Иногда это
упрощается тем, что СУБД содержит точки подключения алгоритмов пользователя для
фильтрации или редактирования содержимого конкретных полей записи базы данных
(примером служат СУБД семейства Oracle). В остальных случаях необходимо искать
возможные места включения алгоритмов кодирования/декодирования изображений в
процедуры СУБД. Универсальные рекомендации дать трудно, но обычно такая
возможность имеется. Отчасти переносимость архива фотодокументов облегчается тем, что
соответствующие прототипы алгоритмов запрограммированы на языке С++, и только в
ограниченном числе мест для повышения быстродействия применены команды
Ассемблера.
Конкретно, для платформы Wintel алгоритмы кодирования/декодирования реализованы
в виде библиотеки динамического вызова (DLL), включающей в себя раздельные функции
для работы с черно-белыми, полутоновыми и цветными изображениями. Эти функции
вызываются из соответствующих интерфейсных модулей обработки событий (типа,
например, чтения очередной записи базы данных), которые запрограммированы на языке
Visual Basic for Applications (VBA), встроенном в СУБД Microsoft Access. В момент вызова
VBA-модуль сообщает библиотечной функции имя и местоположение (например, в форме
URL) необходимого архивного файла изображений вместе с именем изображения, на
которое ссылается данная запись, а также требуемое действие (например, декодирование
изображения с преобразованием его в стандартный формат BMP). В результате информация
текущей записи базы данных вместе с изображением отображается и при необходимости
печатается в виде соответствующей формы (рис. 2 и 3).
Разумеется, описанная схема специфична именно для платформы Wintel. В других
операционных системах интеграция алгоритмов кодирования/декодирования изображений
и СУБД может происходить иначе. Тем не менее, подчеркнем, имеющееся информационное
содержание записей базы данных Access переносится в новую СУБД путем обычной
5~1~6
EVA’98-Москва
В.Н. Карнаухов ~ Н.С. Мерзляков ~ Б.М. Миллер ~ Л.И. Рубанов
процедуры экспортирования, а сам архив изображений вообще не требует изменений. В
этом состоит основное достоинство выбранного построения базы данных.
Дальнейшая разработка описанной схемы приводит к простому соображению. Далеко
не всегда при работе с архивом фотодокументов (например, при первичном подборе
нужного материала) необходимо абсолютно идентичное воспроизведение оригинала.
Учитывая большой объем изображений, измеряемый единицами-десятками мегабайт, их
декодирование требует заметного времени. При дистанционном доступе к архиву передача
полноразмерных изображений по каналам связи занимает недопустимое время (и иногда
неприемлема с позиций сохранения имущественных или авторских прав). Поэтому в
обособленных файлах архива изображений вместе с закодированным полным
изображением хранится его уменьшенная копия ("контролька") в одном из стандартных
графических форматов.
Рис. 2 . Пример формы для архивной базы данных РКДС
5~1~7
EVA’98-Москва
В.Н. Карнаухов ~ Н.С. Мерзляков ~ Б.М. Миллер ~ Л.И. Рубанов
Рис. 3. Пример формы для архивной базы данных ЛАФОКИ
Для черно-белых изображений выбран формат GIF на сильно прореженном исходном
растре, для полутоновых и цветных изображений - формат JPEG, также на прореженном
растре и с большим коэффициентом сжатия. Незначительно увеличивая объем хранящегося
архива, эти "контрольки" применяются для ускорения работы в тех случаях, когда важно
быстро оценить сюжет изображения, не обращая внимание на детали, а также при
удаленном доступе к архиву, в том числе, через Интернет.
Помимо прочего, такое решение позволяет после переноса (экспорта) базы данных на
новую платформу или/и СУБД сразу приступать к работе с архивом фотодокументов,
используя упомянутые "контрольки" в стандартных графических форматах, не дожидаясь,
пока алгоритмы декодирования полных изображений будут окончательно сопряжены с
новым программно-аппаратным обеспечением.
Применение эффективных средств обработки и хранения видеоданных обеспечивает
высокое качество и надежное хранение уникальных изображений, компактность базы
данных, малое время доступа к ее содержимому, а также удобные для пользователя способы
просмотра и отбора необходимой информации. Создаваемые базы данных являются
многофункциональными, но ориентированы в первую очередь на решение задач
информатизации культурного наследия.
5~1~8
EVA’98-Москва
В.Н. Карнаухов ~ Н.С. Мерзляков ~ Б.М. Миллер ~ Л.И. Рубанов
Литература
1. I.M.Bockstein. A method of lossless image compression. Pattern Recognition and Image
Analysis, 1993, Vol. 3, No. 2, pp. 92-98.
2. I.M.Bockstein, N.A.Kuznetsov, N.S.Merzlyakov, L.I.Rubanov, and G.A.Bogatova. Digital
restoration of archival handwritten texts. Pattern Recognition and Image Analysis, 1997, Vol. 7,
No.3, pp.379-390.
3. Бокштейн И.М., Карнаухов В.Н., Мерзляков Н.С., Рубанов Л.И. Разработка баз данных
архивных изображений на основе современных технологий их обработки и хранения.
Компьютерная оптика. Выпуск 17, 1997. Самара-Москва, 1997, стр.116-124.
4. I.M.Bockstein, N.A.Kuznetsov, N.S.Merzlyakov, and L.I.Rubanov. Development of an archive
image database within the framework of modern technologies of image processing and storage.
In: 6th International Workshop on Digital Image Processing and Computer Graphics (DIP-97):
Application in Humanities and Natural Science, Editors: E.Wenger, L.I.Dimitrov. Proceedings
of SPIE, vol. 3346, pp.342-349 (1998).
5. I.M.Bockstein, V.N.Karnaukhov, N.A.Kuznetsov, N.S.Merzlyakov, and L.I.Rubanov. Digital
restoration, enhancement and archiving of photo-documents. Ibid., pp.350-356 (1998).
6. Бокштейн И.М., Кузнецов Н.А., Мерзляков Н.С., Рубанов Л.И. Возможности и средства
цифровой реставрации архивных рукописных текстов. Информационные технологии и
вычислительные системы. ИВВС РАН, М., № 1, 1997, стр.1-15.
7. I.M.Bockstein, V.N.Karnaukhov, N.A.Kuznetsov, N.S.Merzlyakov, and L.I.Rubanov. Digital
image processing of archival photo-documents. In: Computer and Holographic Optics and
Image Processing, Editor A.L.Mikaelian. Proceedings. of SPIE, vol. 3348, pp.226-232 (1998).
8. I.M.Bockstein, V.N.Karnaukhov, N.S.Merzlyakov, and L.I.Rubanov. Image databases and
modern technology of image processing and archiving. Pattern Recognition and Image
Analysis. 1998, (accepted).
Карнаухов Виктор Николаевич
К.т.н., старший научный сотрудник сектора цифровой оптики, ИППИ РАН. Обработка
изображений, цифровая оптика, цифровая голография.
Телефон: (095) 209-2883; E-mail: vic@ippi.ras.ru
Мерзляков Николай Степанович
К.т.н., старший научный сотрудник, заведующий сектором цифровой оптики, ИППИ РАН.
Цифровая оптика, обработка изображений, цифровая голография.
Телефон: (095) 209-2883; E-mail: nick@ippi.ras.ru
Миллер Борис Михайлович
Д. ф.-м. н., профессор, заведующий лабораторией обработки изображений и цифровой
оптики, ИППИ РАН. Теория дискретно-непрерывных и гибридных систем, теория
управления, оптимальная фильтрация, обработка изображений.
Телефон:. (095) 209-4781; E-mail: bmiller@ippi.ras.ru
Рубанов Лев Израилевич
К.т.н., ст.н.с., старший научный сотрудник лаборатории обработки изображений и
цифровой оптики, ИППИ РАН. Теория человеко-машинного взаимодействия,
ориентированная лингвистика, анализ и интерпретация текстов и изображений, базы
данных.
Телефон: (095) 209-4781; E-mail: rubanov@ippi.ras.ru
5~1~9
EVA’98-Москва
В.Н. Карнаухов ~ Н.С. Мерзляков ~ Б.М. Миллер ~ Л.И. Рубанов
Институт проблем передачи информации Российской Академии наук
(ИППИ РАН)
Основные направления фундаментальных и прикладных научных исследований,
проводимых в ИППИ РАН – теория информации и прикладная математика, теория
коммуникаций, техническая кибернетика, биологическая кибернетика, языкознание.
5 ~ 1 ~ 10
Download