Деятельность рабочих групп OCLC/RLG в

advertisement
Международная конференция «Румянцевские чтения 2005
Т е м а: Электронные библиотеки России
Авторы доклада: Гуреев Д.Ю., Давыдова Н.Р., РГБ
Данные об авторе: Гуреев – главный библиотекарь отдела электронной библиотеки РГБ,
Давыдова Н.Р.
Название доклада: Деятельность рабочих групп OCLC/RGL в области метаданных
сохранности цифровых объектов.
Аннотация: В докладе рассказывается о деятельности рабочих групп OCLC/RGL в области
метаданных сохранности цифровых объектов, включая PREMIS, а также рассматривается
структура метаданных сохранности, предложенная рабочей группой OCLC/RLG в области
метаданных сохранности цифровых объектов (OCLC/RLG Working Group on Preservation
Metadata).
Текст доклада:
При изучении вопросов формирования электронной библиотеки РГБ, определения
основных групп метаданных сохранности и их наборов внутри этих групп сотрудниками отдела
электронной библиотеки РГБ рассматривался широкий круг опубликованных по этой теме
источников, анализировался опыт работы зарубежных коллег. Большой интерес вызвала
деятельность международных рабочих групп экспертов OCLC/RLG по метаданным в области
сохранности цифровых объектов.
В марте 2000 OCLC и RGL была создана международная рабочая группа для проработки
вопросов практического применения метаданных долговременного хранения цифровых
материалов
и
предоставления
доступа
к
ним.
(http://www.oclc.org/research/projects/pmwg/wg1.htm). RLG - некоммерческая организация,
объединяющая более 150 научных и университетских библиотек, архивов, музеев, других
организаций, связанных с сохранением культурного наследия. В состав рабочей группы из 14
человек входили представители ряда международных организаций, таких как OCLC, RLG,
NEDLIB и др., крупнейших библиотек разных стран - Библиотеки Конгресса США, Британской
библиотеки, Национальной библиотеки Австралии, ряда университетов США. Результатом
работы группы стали документы, излагающие основополагающие моменты в области
метаданных сохранности:
- «Preservation metadata for digital objects: a review of the state of the Art: A white paper by the
OCLC/RLG working group on preservation metadata. January 31, 2001»
(http://www.oclc.org/research/projects/pmwg/presmeta_wp.pdf),
где определена концепция метаданных сохранности, рассматриваются их важность для
цифрового хранения и перспективы использования метаданных в рамках деятельности по
сохранению цифровых объектов.
- «A metadata framework to support the preservation of digital objects: white paper by the
OCLC/RLG Working Group on Preservation Metadata. June 2002».
http://www.oclc.org/research/projects/pmwg/pm_framework.pdf» . Этот документ - главный
результат деятельности этого коллектива. В нем представлена концепция структуры
метаданных для описания архивного цифрового объекта в модели Открытой архивноинформационной системы Open Archival Information System (OAIS). OAIS - структура
метаданных, которая принята международным сообществом de facto в качестве стандарта в
области метаданных долговременного хранения и применяется для создания цифровых
архивов. Модель ОAIS обеспечивает логичный и последовательный порядок выполнения
функций и расположения данных. Сущность этой модели состоит в унификации функций
включения (Ingest) электронных ресурсов, их архивного хранения, управления данными,
доступа к электронным ресурсам и администрирования данных.
1
Международная конференция «Румянцевские чтения 2005
Т е м а: Электронные библиотеки России
После выхода двух данных работ деятельность рабочей группы по созданию структуры
метаданных была завершена, но результаты признаны столь значимыми, что продолжением
этой инициативы стало создание новой международной рабочей группы PREMIS (PREservation
Metadata: Implementation Strategies) http://www.oclc.org/research/projects/pmwg/. Состав рабочей
группы был значительно расширен,
(http://www.oclc.org/research/projects/pmwg/membership.htm.
Основываясь на результатах работы первой рабочей группы по метаданным для
сохранения цифровых объектов, PREMIS ставит задачей разработку стратегии практического
внедрения метаданных для описания в цифровых системах хранения, ведет работы по
определению набора основных элементов (ядра) метаданных сохранности, рассматривает
возможности обмена метаданными между системами, анализирует предложения и
разрабатывает рекомендации по наборам метаданных сохранности. В 2005 году намечен к
выпуску отчет с анализом полученных результатов и предложениями по стратегическим
вопросам в области сохранности цифровых объектов. В настоящее время в рамках
деятельности Premis опубликованы статьи и материалы:
PREMIS - Preservation Metadata Implementation Strategies Update 2: Core Elements for
Metadata to Support Digital Preservation / Rebecca Guenther, Library of Congress//
http://www.rlg.org/en/article2)

PREMIS - Preservation Metadata - Implementation Strategies Update 1. Implementing
Preservation Repositories for Digital Materials: Current Practice and Emerging Trends in the
Cultural Heritage Community /Priscilla Caplan, Florida Center for Library Automation//
http://www.rlg.org/en/article2

Implementing Preservation Repositories For Digital Materials: Current Practice And Emerging
Trends In The Cultural Heritage Community : September 2004 report of a PREMIS survey
conducted in Winter 2003-04. (PDF: 668K/66pp.)
//http://www.oclc.org/research/projects/pmwg/surveyreport.pdf

Implementing Metadata in Digital Preservation Systems: The PREMIS Activity.:April 2004
report on the objectives, current status, and future activities of PREMIS/ Brian Lavoie, OCLC //
http://www.dlib.org/dlib/april04/lavoie/04lavoie.html

The Open Archival Information System Reference Model: Introductory Guide. : January 2004
joint report of the Digital Preservation Coalition (DPC) and OCLC, published electronically as a
DPC Technology Report//http:/www.dpconline.org/docs/lavoie_OAIS. pdf
Последним был опубликован отчет о тенденциях в области архивирования и сохранения
электронных ресурсов, подготовленный на основе проведенного в конце 2003–2004 гг.
анкетирования библиотек, архивов, музеев, университетов: «Implementing Preservation
Repositories For Digital Materials: Current Practice And Emerging Trends In The Cultural Heritage
Сommunity» //(http://www.oclc.org/research/projects/pmwg/surveyreport.pdf).
Фундаментальная работа «A Metadata Framework to Support the Preservation of Digital Objects:
A Report by The OCLC/RLG Working Group on Preservation Metadata» дает ориентиры для
исследований в области определения набора метаданных долговременного хранения.
В работе выделено 4 типа метаданных:
 Информация о содержании (Content Information), т.е. сама информация (содержание
документа), которая включается в архив и информация о представлении документа.
2
Международная конференция «Румянцевские чтения 2005
Т е м а: Электронные библиотеки России
 Preservation Description Information (PDI) – данные, необходимые для контроля за
сохраненным объектом (Content Information) и управления им, включая описание условий
хранения, описание объекта (документа) и его положения в архиве.
 Packaging Information (PI) – данные, объединяющие документ и метаданные о нем в
идентифицируемое целое.
 Descriptive Information (DI) – данные, обеспечивающие доступ к документу (файлу)
через поисковую систему электронного архива.
CONTENT INFORMATION
Representation Information
Content Data Object
Environment Description
Content Data Object Description
В работе подробно рассмотрены метаданные содержания и метаданные сохранности.
Информация о содержании (Content Information) состоит из непосредственно содержания
объекта (Content Data Object) и метаданных, описывающих характеристики цифрового
материала, содержащего сохраненные данные, т.е. информацию о представлении документа
(Representation Information).
Representation Information – прежде всего описывает технические, функциональные
характеристики файла, содержащего сохраненный документ. Метаданные этого раздела
делятся на две части:
- Content Data Object Description – характеристики файла - носителя,
необходимые для описания документа в электронном архиве.
- Environment Description – описание программ и компьютерного
оборудования, необходимого для открытия, трансформирования и чтения
информации в документе (файле).
Метаданные Environment Description делятся также на две части:
1. Software Environment – описание программ для чтения представленных форматов,
вывода текста на экран или его трансформации (архивирование). Software Environment
(программное окружение) в свою очередь состоит из двух подразделов
Rendering Programs – программы по обеспечению доступа к файлу, его
открытию и представлению для работы
Operating System – операционная система для работы приложений,
связанных с открытием и управлением документа (файла)
2. Hardware Environment - описание компьютерного оборудования и затрат памяти для
открытия, сохранения и работы с файлом.
Preservation Description Information (PDI) – метаданные, необходимые для сохранения,
идентификации данного документа (файла) в электронном архиве. Данные, содержащиеся в
этом разделе, делятся на 4 группы:
- Reference Information – метаданные для идентификации и описания объекта в
электронном архиве.
- Context Information – отношения сохраненного объекта с родственными и
похожими по содержанию документами (файлами).
3
Международная конференция «Румянцевские чтения 2005
Т е м а: Электронные библиотеки России
Provenance Information – история происхождения документа (файла), включая
описание событий и фактов создания, изменения форматов, прав и иных
качественных характеристик документа до включения его в данный
электронный архив.
- Fixity Information – описание программ и способов проверки стабильности и
неизменности текста документа, данные определяют истинность и соответствие
документа информации о нем.
Далее в тексте примеры метаданных условны и выделены курсивом
Метаданные, описывающие представление документа в электронном архиве - Content
Data Object Description.

Краткая характеристика формы объекта (Underlying abstract form description) –описание
файловой системы объекта.– Три файла - ZIP.

Структурный тип документа (Structural Type)- изображение, текст, звуковой файл,
Web- документ.
 Техническая инфраструктура сложносоставного объекта (Technical infrastructure of
complex object) – в том случае, если документ представлен как система различных
файлов, например – Web- страница, состоит из одного HTML-файла, включающего три
GIF-файлами и один WAV- файл.
 Описание файла (File Description) – специфические характеристики данного файла.
Могут быть распределены по различным типам – видео, аудио. Могут быть указаны
размеры в (пикселях), разрешение, цветовая палитра, алгоритмы сжатия и т.д. Здесь
может быть указан также размер файла, если он не указан в специальном пункте «Размер
файла». Файл - изображение GIF:.
 Ограничения в доступе (Access Inhibitors) – описание средств ограничения пользования
документом, защиты от использования, копирования и т.д., такие как пароли, водные
знаки, системы проверки сохранности и др.– Доступ по паролю
 Требования при инсталляции (Installation Requirements) – Описание дополнительных
процедур для инсталляции объекта. Разархивировать файл, перезагрузить компьютер
после инсталляции и т.п.
 Размер – например, в мегабайтах, документа (файла) (Size) – 1, 4 Мб.
 Технические особенности получения доступа к тексту (Access Facilitators), включая
методы улучшения доступа к тексту, такие как навигационные гиперссылки в
гипертекстовом документе, маркеры времени для звуковых и видео- файлов.
 Значимые характеристики хранящегося документа (файла) (Significant properties) –
определение наиболее важных составляющих содержания для отдельного документа. Основным объектом сохранения является текст, в данном тексте гиперссылки
несущественны и не сохраняются.
 Функциональные качества документа (файла) (Functionality)– отличительные
функциональные свойства документа, присущие ему на данный момент хранения
объект включает JavaScript
 Описание содержания документа (файла) (Description of rendered content), включая
описание характера представленной информации, разъяснение потенциально
двусмысленной информацию, определение структурных характеристик документа
(файла). - Объект состоит из списка химических вычислений в форме таблицы с
табуляций, представленного в HTML.
 Изменения в форме представления документа (файла) (Quirks). Обычно имеются в виду
негативные изменения, повлекшие потерю данных или функциональных качеств. Webстраница переведена в формат PDF, как следствие, гиперссылки нарушены, JavaScript
не доступен.
-
4
Международная конференция «Румянцевские чтения 2005
Т е м а: Электронные библиотеки России

Документация (Documentation)– вспомогательная литература, необходимая для работы с
файлом и (или) его содержанием, может быть на сайте электронной библиотеки либо
ссылка, желательно с возможностью скачивания – «Users’ manual…».- NY, 2004
Программное обеспечение - Software Environment
Программные средства для представления (Rendering Programs)
Процессы трансформации
 Процесс трансформации (Transformation Process) – указание необходимых действий по
превращению файла в документ для чтения, например, - Разархивирование.
 Программа трансформирования (Transformer Engine) – WinRAR
 Параметры трансформации (Parameters) – указание необходимой директории для
разархивирования. – Сохранить файл в директории C:/ Database/ Temple of Wisdom/
Room 16.
 Исходный формат (Input Format) – формат файла, с которым работает устройство по
трансформации – файлы с расширением .zip.
 Формат полученного файла (Output Format) – описание формата, созданного после
процесса трансформации исходного файла – PDF, HTML.
 Местонахождение трансформирующей программы (Location) со ссылкой на URL
организации- владельца, свободно распространяемый ресурс или файл на сервере
электронного архива. www.download.com/
 Документация (Documentation) – вспомогательная литература по использованию
трансформирующей программы. – Справка по WinZip.
Приложения для работы с файлом (вывода информации на дисплей и доступа к
файлу) (Display/Access Application)
 Название приложения (Display/Access Application) – Adobe Acrobat Reader 7.0.,
Internet Explorer 6, Microsoft Word 2000
 Исходный формат (Input Format) –PDF
 Формат вывода (Output Format) – описание свойств документа, созданного рабочей
программой. – Текстовый файл с функцией «только чтение».
 Местонахождение (Location) – Описание места в Интернете или на сервере, где
можно
найти
необходимую
программу
для
работы
с
файлом.
http://www.adobe.com/products/acrobat/readstep2.html
 Документация (Documentation) – Вспомогательная литература по работе с
программой. – Пособие по Adobe Acrobat Reader.-М, 2004 .
При описание программных средств можно указать только необходимые, либо
рекомендуемые данные, введя рубрику, например, « Рекомендуется», «Минимальные
требования» и т.п..
Операционная Система. Operating System
 Название Операционной системы (OS Name) – Windows, Apple, Linux
 Версия Операционной системы (OS Version)–Windows 98, Windows2000
 Местонахождение (Location) – URL производителя, эмуляция. www.allsoft.net
 Документация (Documentation) – вспомогательная литература по управлению ОС.
– Справка по Windows 2000.
Если нужно указать только минимальные, либо рекомендуемые требования по ОС, можно
создать рубрику метаданных – «Тип Операционной системы «Рекомендуется» или
«Минимальные требования».
Техническое обеспечение - Hardware Environment.- Метаданные по компьютерному
оборудованию.
 Технические требования к микропроцессору (Microprocessor Requirements)– Intel
Pentium II 333Mz
5
Международная конференция «Румянцевские чтения 2005
Т е м а: Электронные библиотеки России





Технические требования к памяти (Memory Requirements)– 128 MB RAM
Требования к ресурсам для сохранения и установки, например, свободное место на
диске (Storage Information)–– 33 Мб жесткого диска.
Дополнительное оборудование (Peripheral Requirements) – Звуковая карта, колонки,
CD-ROM
Документация (Documentation) – Техническая документация по работе с
компьютерным оборудованием – Руководство по применению...
Местонахождение (Location) – контактные данные производителя, ссылки на сайты
и магазины. www.intel.com
Сведения о сохраняемом объекте
Preservation Description
Information
Reference
information
Context
Information
Provenance
Information
Fixity Information
Preservation Description Information (PDI). Метаданные – сведения о сохраненном
объекте.
Reference Information Справочная информация
 Идентификационный номер объекта в электронном архиве (Archival System
Identification) – присваивается в момент включения документа (файла) в архив.
К123455Г12
o Буквенно-цифровое значение (Value) – Кл123Г12 – 00
o Метод составления (Construction Method) – описывает способ и структуру
группировки элементов – Номер автоматически генерируется при включении
документа с электронную библиотеку.
o Ответственное агентство (Responsible Agency) – Отдел Х, ответственный за
ведение идентификационного номера.
 Идентификация в глобальных системах и сетях (Global Identification), например
международный стандартный номер или его альтернатива, DOI, PURL – ISBN 2-25201969-7
 Описание ресурса (Resource Description) – описание ресурса для поиска документа во
внутренних и внешних поисковых системах, включая метаданные формата (схемы)
описания (Existing Metadata), например, MARC 21 или Dublin Core и существующие
записи (Existing Records) в каталогах, прежде всего электронных – Запись в MARC
21, в WorldCat, № ХХХХХХ
Контекстная информация (Context Information) – отношения сохраненного документа с
родственными документами.
 Цель создания (электронного документа) (Reason of Creation)– Сохранение редких видов
изданий, старых книг, и др.
 Отношения между документами (Relationship) – определяет различные отношения
между похожими или идентичными текстами. Цифровая копия книги Элис Купер. «Я,
Элис». М, 2004….
 Представление (Manifestation) – ссылки на версии данного документа в разных
форматах. Версии книги в PDF и Word.
 Смысловые отношения документа (Intellectual Content) - это может быть часть серии,
либо коллекции изображений по искусству, составной элемент сложной Web- страницы
6
Международная конференция «Румянцевские чтения 2005
Т е м а: Электронные библиотеки России
Изображение «Сикстинская Мадонна» Рафаэля Санти является частью коллекции
«Искусство Итальянского Возрождения».
Метаданные об источнике документа и его происхождении- Provenance Information.
 Процесс создания документа (Origin) – описание технического процесса появления
электронного документа – Сканирован и сохранен в формате TIFF.
 История документа (файла) до включения в электронный архив (Pre-Ingest) – изменения
в содержании, формате, правах на документ с момента его создания до включения в
данный электронный архив. – Представлен на сайте «Библиотека Артефакт» в
формате Word. Скопирован и включен в архив по договору с правообладателем.
 Включение в Архив описываемого документа (Ingest) – описание процесса сохранения
документа (файла) в архиве –23.12.2004. документ сохранен в стандартном формате,
но с разбиением на составные части.
 История сохранения (Archival Retention) – история изменений, перемещений документа
в архиве, обновление технических характеристик представления, пересмотр и изменения
в авторских правах на документ. 7.07.2005 Файлы HTML объединены в один PDF файл.
 Права на доступ и использование документа (файла) (Rights Management) включают
широкий круг метаданных об уровнях доступа, разрешении на использование, сведеньях
о правообладателях и ответственных за контроль за доступом к документу (файлу)
лицах и организациях и т.д.
Внутри рубрик метаданных описание сведений по истории и изменениям в документе
(файле) происходит в форме отдельных событий (фактов) (Event). Правила описания
отдельного события применяются во всех метаданных об источнике документа и его
происхождении и включают:
 Определение события (Designation) – Смена Правообладателя, Перемещение,
Программное обновление
 Процедура (Procedure) – описание пошагового процесса внесения изменений и
затраченного на них времени Можно указать даты здесь или в пункте 3.. – 13.12.2004
истек срок действия авторского права по «Закону РФ об авторских и смежных
правах». Документ переведен из ограниченного в свободный доступ.
 Дата (Date) – хронология произошедшего события. 12.12.2004. Перевод формата. 13.01.
2004. Снятие ограничений в доступе.
 Сведения об ответственных лицах и учреждениях, участниках события (Responsible
Agency) – Организация Х, Отдел Х
 Результат (Outcome)– объект успешно трансформирован в формат PDF
 Примечания (Note) - дополнительная информация, не вошедшая в основные пункты. –
Редкое издание Библии 145БГ. Требуется перевод в графический формат.
Метаданные, описывающие устойчивость объекта (файла). Fixity Information.
 Тип установления подлинности документа (файла). (Authentication Type) – Цифровая
подпись
 Процесс установления подлинности (Authentication Procedure) – Программное средство
MD5
 Дата последней проверки на аутентичность (Authentication Date) – 11.11.2003
 Результат проверки на подлинность. (Authentication Result) – Подлинность
подтверждена
Отчет рабочей группы OCLC/RLG «A Metadata Framework to Support the Preservation of
может стать базой при определении набора метаданных долговременного хранения
электронных документов для электронной библиотеки РГБ.
7
Download