Шайлазымов доклад - Архив Президента Республики Казахстан

advertisement
Организация электронного архива
в Архиве Президента Республики Казахстан
Шайлазымов Б.Д.,
Архива Президента РК
Вопрос неуклонного роста объемов архивных документов ее
систематизации и обеспечения сохранности является актуальной
практически для всех предприятий и организаций, независимо от их рода
деятельности, формы собственности и отраслевой принадлежности.
Сегодня наиболее используемым решением данного вопроса стала
автоматизация процесса, путем внедрения современных информационных
технологий, а именно организация многофункционального электронного
архива учреждения.
Современный электронный архив должен как минимум обеспечивать
быстрый поиск, прямой доступ к записанным на них сведениям с
возможностью редактирования и функции передачи записанной информации
по каналам связи, поэтому процесс ее организации является сложным,
требующим комплексного подхода и существенных материальных затрат.
В 2004 году в рамках принятой Государственной программы
формирования «Электронного правительства» был разработан проект
электронных архивов государственных органов СЭАГО, в соответствии с
которым, в 2005 г. началась ее опытная эксплуатация на базе Архива
Президента Республики Казахстан.
С тех пор, на протяжении 10 лет электронный архив Архива
Президента Республики Казахстан находится в постоянном процессе
улучшения и совершенствования, результаты работы будут изложены в
данном докладе.
В целом электронный архив учреждения представлен в виде
информационно-поисковой системы (далее — ИПС) «Электронный архив»,
которая содержит электронные копии архивных документов (т.е.
электронный фонд пользования) и обладает многоуровневой системой их
поиска.
Формирование ИПС начинается с создания электронных копий
архивных документов, а именно перевод бумажных документов в
электронный вид.
Рис. 1
Работа по данному направлению осуществляется на Станции
оцифровки бумажных документов, в которой функционирует 6
многофункциональных устройств (далее — МФУ) со встроенными
высокоскоростными сканерами. Из-за разнородности форматов архивных
документов выбор пал именно на эти устройства. Дополнительный
планшетный сканер и обходной лоток позволяет придерживаться темпов
сканирования даже в тех случаях когда в архивном деле встречаются
страницы не соответствующие стандартному формату - А4 или с
колеблющейся плотностью бумаги. Встроенный планшетный модуль так же
необходим для сканирования ветхих архивных документов.
В среднем оператор одной машины сканирует около 12 дел в день
объемом 1 200 стр., что в месяц составляет 240 дел (24 000 стр.). Таким
образом, за 1 месяц через 6 МФУ проходят около – 1 440 дел (144 000 стр.).
К сканированию допускаются документы, не требующие либо
прошедшие реставрацию. Данная мера обеспечивает не только физическую
сохранность сканируемых документов, но и позволяет операторам станции
оцифровки придерживаться установленных темпов работы.
Документы с размытым текстом, механическими повреждениями
(мятые, порванные), залитые чернилами, имеющие жировые пятна и следы
реставрации, затрудняющие чтение документа, не всегда поддаются
восстановлению, поэтому сканирование производится с использованием
специальных графических редакторов.
Посредствам локальной сети сканеры в паре с рабочими станциями
взаимосвязаны единым банком данных. Операторы оцифровки, находясь за
своими рабочими местами, занимаются только сканированием и приданием
им первичных атрибутов, такими как: Фонд, Опись и Дело. Весь
отсканированный материал попадает и аккумулируется в едином банке
данных, где их систематизируют, отправляют на электронный носитель и
вносят в базу данных.
Значительную помощь в увеличении объемов оцифровки бумажных
документов так же оказывает и Com-система. Предназначенная для создания
микрофиши страхового фонда, система была настроена таким образом, что
перед экспозицией и проявкой микроформ, отсканированные документы
сохраняются в памяти рабочей станции в электронном виде. Далее остается
лишь придать опознавательные атрибуты данным, записать их на
электронный носитель и внести в базу данных.
Работа по усовершенствованию вопросов ускорения оцифровки
продолжается, так как одним из приоритетных задач Архива является
широкомасштабная оцифрования всего объема архивного материала
учреждения.
Следующей немаловажной составляющей является организация работ
по систематизированному наполнению информационно-поисковой базы
данных ИПС «Электронный архив».
Данный процесс осуществляется на Станции ввода электронных
документов. Процесс ввода начинается с линии ретроконверсии, так как для
решения задач атрибутивного и контекстного поиска возникает
необходимость перевода документа в машиночитаемый вид.
Рис. 2
Ретроконверсия (ретроспективная конверсия) — это специальная
промышленная (т.е. в больших объемах) технология перевода текстовых
данных из графического вида в цифровой машиночитаемый вид путем
сканирования и автоматического распознавания.
Для организации этой линии используется технология оптического
распознавания символов, в нашем случае представленная программным
продуктом Capture Batch Manager компании «Kofax».
Оптическое распознавание символов (англ. optical character recognition
OCR) — механический или электронный перевод изображений рукописного,
машинописного или печатного текста в текстовые данные —
последовательность кодов, использующихся для представления символов в
компьютере (например, в текстовом редакторе). Распознавание широко
используется для конвертации книг и документов в электронный вид.
По завершению автоматического процесса распознавания мы получаем
дополнительную прикрепленную копию исходного документа в формате
текстового файла (Word) с любым заданным расширением (DOC или DOCX).
Полученный машиночитаемый документ позволяет нам в дальнейшем
ставить дополнительную задачу для поисковой системы по осуществлению
полнотекстового поиска необходимого документа.
Полнотекстовый поиск — автоматизированный документальный поиск,
при котором в качестве поискового образа документа используется его
полный текст или существенные части текста.
Объем распознанных текстовых символов прямопропорционально
зависит от качества бумажного документа и процесса сканирования. Поэтому
для категории слабочитаемых документов с затухающим или
слабоконтрастным текстом после распознавания необходим процесс
верификации и редактирования.
После завершения этого цикла работ данные экспортируются в базу
данных (платформа IBM FileNet) и с помощью встроенного функционала им
придают поисковые атрибуты, а также определяют место расположения.
Атрибуты подразделяются на основные и вспомогательные. Основными
атрибутами электронного архивного дела считаются: номер фонда, описи,
дела и его название. В случае если за единицу хранения берется документ, то
и его номер с названием. Вспомогательные формируются в зависимости от
рода деятельности и задач каждого учреждения. Учитывая направление работ
Архива Президента Республики Казахстан, а так же предложения наших
исследователей в функции поиска вошли следующие вспомогательные
атрибуты:
- поиск по составу и виду документа;
- поиск по географическому указателю;
- поиск по персоналиям;
- поиск по автору документа;
- поиск по начальной и конечной дате документа.
Поиск архивных документов по атрибутам бессмыслен без удобного
путеводителя по фондам, поэтому в ИПС «Электронный архив»
предусмотрен электронный путеводитель по фондам – БД «Архивный фонд».
Рис 3.
Он представляет собой систематизированный перечень наименований
архивных фондов с их краткими характеристиками. Данные БД «Архивный
фонд» активны и могут углубляться до уровня описи, а далее и дела, что в
свою очередь позволяет нам оперативно получать информацию о составе,
количестве и состоянии архивных документов.
Таким образом организован электронный архив нашего учреждения,
работы по развитию и совершенствованию которого продолжаются, и по сей
день.
Related documents
Download