Архивные базы данных - Комитет по управлению архивным

advertisement
Архивные базы данных: от именного каталога к просопографическому
исследованию
Применение информационных технологий в создании системы научносправочного аппарата на основе одного из обязательных элементов системы
– электронного архивного каталога – в Государственном архиве Ростовской
области
стало
первоочередным
шагом
в
формировании
архивной
информационной среды.
В 2006 г. госархивом совместно с НИИ нерокибернетики была создана
и вот уже на протяжении чуть менее 10 лет постоянно модернизируется и
оптимизируется специализированная программная система «КомплексАрхив», которую мы неоднократно представляли на научных советах. Тогда
же, в 2006 г., в ГАРО было принято решение о ведении только электронного
каталога, при безусловном сохранении, поддержке и использовании
традиционных каталогов.
Зачастую архивные информационные системы представляют собой
разрозненные учетно-справочные базы данных (далее БД), информация в
которых, как правило, статична. Используются они в работе отдельных
подразделений
архивов
и
обеспечивают
автоматизацию
процессов
повседневной деятельности далеко не в полной мере.
Программная система «Комплекс-Архив» на практике реализует
комплексный подход при внедрении информационно-коммуникационных
технологий в деятельность современного архива. Основу ее составляют
объектно-ориентированные БД, связанные через модуль «Картотека», в
основе которого лежит электронный аналог традиционной архивной
карточки.
Объектами описания, прежде всего, являются персоналии, населенные
пункты и учреждения (организации, предприятия и т.д.).
Система включает в себя следующие взаимосвязанные модули:
«Картотека» - электронный аналог каталожной тематической карточки ГКУ
РО «ГАРО»; «Каталог», содержащий перечень всех источников информации
в архиве: Фонд, Опись, Дело с кратким описанием каждой позиции;
«Персоны» - генеалогическая БД, позволяющая автоматически формировать
родственные связи и строить генеалогическое древо, а также получать самую
разнообразную
информацию
по
любой
персоне;
«Административно-
территориальное деление» («АТД») - историко-географический справочник
по всем объектам АТД региона (области войска Донского и нынешней
Ростовской области); «Фотоархив» - каталог оцифрованных документов;
«Автоматизация работы с ведомственными архивами» и «Читальный зал».
Все эти базы данных могут работать автономно, но при этом разработана
такая структура баз данных, которая позволяет через БД «Картотека»
реализовать привязку информационных объектов к тексту тематической
карточки.
Система «Комплекс-Архив» позволяет вести в электронном формате:
- систематический и тематический каталоги (БД «Картотека»);
- именной каталог (БД «Персоны»);
- географический каталог и каталог АТД (БД «АТД»).
Как показала практика, при конструировании баз данных в нашей
системе интуитивно были заложены два уровня ведения каталога:
традиционный (ввод информации в БД «Картотека»), имеющий узкую
прагматическую
направленность
и
иногда
представляющий
собой
механический ввод данных в СУБД, и интеллектуально-исследовательский
(ввод информации в БД «Персоны», «АТД» и т.д.), требующий довольно
высоких профессиональных навыков.
Остановимся
подробней
на
создании
в
программной
системе
«Комплекс-Архив» аналога именного каталога.
Как было сказано выше, в системе информация о персоналиях может
накапливаться
двумя
способами:
создание
электронного
аналога
традиционной архивной карточки (БД «Картотека») и ведение БД
«Персоны».
Понятно, что структура БД «Картотека» практически полностью
соответствует структуре каталожной карточки и основным полем является
«Содержание». В это поле вводится свободный неструктурированный текст,
в котором указывается вид источника, дата создания, автор, если есть
адресат, а главное, кратко, ёмко, понятно формулируется содержание
документа. Даже при отсутствии жесткого структурирования информации
любая поисковая система уже позволяет нам осуществлять контекстный
поиск по всей совокупности записей, что значительно ускоряет и облегчает
поиск. Автоматизирован в программе и выбор архивного источника, для
этого создана привязка к БД «Каталог».
Кроме необходимости четкой формулировки содержания документа у
исполнителя, вообще, не возникает никаких трудностей при создании
карточки. При накоплении достаточно большого массива информации
единственно необходимо дополнительно осуществлять контроль повторного
ввода одной и той же информации из одного и того же источника. В нашей
программе
такой
инструмент
контроля
реализован.
Реализована
и
возможность автоматизации, скажем так, массового ввода информации из
одного и того же источника (например, при каталогизации метрических книг,
ревизских сказок, послужных списков и т.д.) исполнитель может создавать
карточки с помощью инструмента в модуле «Каталог», т. е. из дела, не вводя
для каждой новой карточки поисковые данные.
Массив электронных карточек создается гораздо быстрее, чем
формировался традиционный каталог ГАРО. К 2006 г. систематический
каталог ГАРО насчитывал более чем 528 тыс. карточек. На сегодняшний день
в БД «Картотека» внесено более 100 тыс. записей. Надо отметить, что в
традиционной
каталог
вливались
карточки
как
подокументной
каталогизации, так и поединичной, при электронной же каталогизации мы
исключили в БД «Картотека» ввод заголовков дел, создав модуль «Каталог»,
который, по сути, является совокупностью электронных описей архива. Если
учесть, что в БД «Каталог» за неполные 10 лет также внесено более 120 тыс.
записей, при сложении этих нехитрых цифр получаем 220 тыс. записей, т.е.
карточек.
Единственным недостатком, но довольно серьезным, можно считать
только параллельное существование двух каталогов, традиционного и
электронного, не предполагающих единый сквозной поиск.
Такую простую, в чём-то механическую, каталогизацию с тем же
успехом можно было бы вести в MS Word или в MS Exel. Да и ПК
«Архивный фонд» также позволяет вести подобную каталогизацию. Что
действительно отличает нашу систему от всех остальных – это возможность
ведения специализированных баз данных, связанных между собой через
модуль «Картотека».
БД «Персоналии» организована как многофайловая структура в
которой имеется один основной файл (Flat-Fail) с безусловно стабильной
информацией (ФИО, годы жизни, пол, национальность и т.д.) и связанные с
ним по ключу дополнительные файлы, содержание которых отражает
динамические характеристики (перемещение по служебной лестнице,
награды, вероисповедание и т.д.). Такая структура позволяет уйти от
источниково-ориентированной базы данных, сделав объектом описания
жизненный путь человека, но при этом собирая сведения о нем из самых
разных по типу и предназначению источников, в конечном итоге из всех
документов, хранящихся в архиве.
Кроме того, в данной базе данных реализована и, необходимая для
исполнения генеалогических запросов, возможность создания родственных и
брачных связей.
Понятно, что записи в базе данных не должны дублироваться, т.е.
каждая персона вводится в базу только один раз. Однако в силу разных
причин не всегда удается следовать этому принципу. Например, довольно
сложной
бывает
идентификация
женщин,
фигурирующих
в
разных
документах и под девичьей фамилией и под фамилией мужа или мужей. В
настоящее время наши разработчики ООО «Текранч» разрабатывают для нас
инструмент, позволяющий объединять записи в БД «Персоны» без потери
данных и привязок к другим модулям.
Таким образом, мы, конечно, усложняем ведение именного каталога, но
при этом создаем новые инструменты для дальнейших исследований и
расширяем возможности каталогизации, делая ее более подробной и
информативной.
Методика ввода информации заключается в следующем: создается
запись в БД «Картотека», затем создаются записи в БД «Персоны» на все
персоналии,
упоминающиеся
в
документе,
структурируя
по
соответствующим полям сведения о персоналии, извлеченные из документа.
Далее записи из БД «Персоны» связываются с карточкой, при этом на
вкладке «Источники» появляется информация об архивном источнике, в
котором упоминается
персоналия, а в БД «Картотека» появляется
возможность уже не только контекстного поиска, но и поиска по коду
персоналии, т.е. поиск становится адресным.
В
результате
такой
организации
системы
именной
каталог
представляет собой уже просопографическую базу данных. Просопография один из наиболее перспективных методов исследования, предполагающий
изучение массовых источников с целью создания на основе статистического
анализа
их
информации
динамических
«коллективных
биографий»
определенных социальных группы, страт и т.п.
Как оказалось, довольно сложно вести БД «Персоны», бессистемно
внося в нее информацию, необходимо было выработать какие-то подходы к
решению данной задачи. Решение, как всегда, подсказала жизнь. В течение
ряда лет мы издаем сборники документов, неотъемлемой составляющей
которых является именной указатель. Так, у нас накопился материал по
донским офицерам участникам Отечественной войны 1812 г. и заграничных
походов русской армии 1813-1814 гг., по донским офицерам участникам
Первой мировой войны, членам войсковой администрации периода Первой
мировой войны. Понятно, что самым простым подходом ввода информации
является проблемно-тематический. В первую очередь в БД «Персоны»
вводятся персоналии донских офицеров и донских дворян за какой-то
определенный временной период, обычно, связанный с участием в какойлибо войне.
Данный подход позволяет определить и стратегию предоставления
информации из программной системы «Комплекс-Архив» удаленным
пользователям, создавая тематические выгрузки, объединяющие базы
данных и оцифрованные документы. При таком объединении двух
разнородных
информационных
ресурсов
мы
сможем
предоставить
удаленному пользователю через публикацию базы данных на сайте как
поисковый инструмент по тем полям, которые определены для выгрузки
(естественно база данных не будет выгружаться в полном объеме), так и сам
аутентичный документ.
Кроме того, методика ведения нашей системы позволила подойти и к
решению проблемы двух параллельных каталогов. В рамках реализации
договора о сотрудничестве с ЮФУ в этом году в ГАРО в течение полугода
стажировались
студенты-документоведы.
Пользуясь
их
волонтерской
помощью, мы решили начать перевод карточек традиционного каталога в
электронный. Процесс ручного ввода текста из традиционных карточек
оказался довольно трудоемким и, как оказалось, сложным из-за того, что
большинство карточек в каталоге ГАРО рукописные.
Поэтому было принято решение использовать метод так называемых
имидж-картотек, или имидж-каталога. Карточки нумеруются, сканируются с
сохранением нумерации в имени файла, сохраняются на сервере, в случае,
если информация из одного источника содержится на лицевой и оборотной
стороне карточки, стороны совмещаются в единый файл в программе
CorelDRAW или Adobe Photoshop. Далее по методике, описанной выше,
создаются связанные записи в БД «Картотека» (в поле «Содержание»
указывается вид документа и номер карточки в системе хранения, а в поле
«Признак» проставляется отметка «Каталог») и в БД «Персоны».
Подводя итог всему вышесказанному, следует отметить, что объектноориентированная база данных, может быть, и не вполне корректный термин,
но в какой-то мере, он позволяет выделить нашу систему из общего ряда баз
данных
как
синтетическую,
объединяющую
различные
подходы
к
организации баз данных. Она позволяет, пусть в отдаленной перспективе,
создать уникальную просопографическую базу данных, подразумевающую
изучение судеб отдельных людей от рождения до смерти и воссоздающую
коллективный портрет социума, проживающего на одной территории в
течение более 250 лет, используя всю полноту документов, хранящихся в
архиве. Такой исследовательский проект не под силу ни одному
исследователю, он может осуществиться только в архиве и, более того, он
уже
ежедневно
реализуется,
являясь
частью
нашей
повседневной
деятельности.
Практика показала, что вести базы данных, подобные нашим,
требующие как определенных знаний, так и серьезной аналитической и
исследовательской
работы
могут
и
должны
только
высококвалифицированные специалисты. Подобные базы данных могут
впоследствии развиваться в специализированные справочники, изначально
создаваемые в электронном формате и не имеющие традиционных аналогов.
Поэтому сегодня уже недостаточно механического внесения записи в базу
данных, а необходимо
серьезное изучение комплексов документов,
связанных, в том числе, с генеалогическими исследованиями. Таким образом,
для ведения подобных баз данных необходимы специалисты, выступающие в
роли
администраторов
или
редакторов,
обладающие
историческими,
источниковедческими, краеведческими и IT-знаниями. К сожалению, ВУЗы
сегодня не готовят таких специалистов, а их обучение в архиве потребует
длительного времени, не менее 5 лет.
Гл. архивист ГКУ РО «ГАРО»
З.А. Чумакова
Download