Подсистема формирования электронных документов

advertisement
ТЕМА 2.
Системы электронного
документооборота.
Лекция 7-8.
Функциональная структура СЭД.
Функциональная
структура СЭД
Подсистема управления
полномочиями пользователей
Специализированные
функциональные
приложения
Подсистема маршрутизации и
контроля исполнения
Подсистема ввода/
вывода документов
Подсистема хранения и поиска
документов
Традиционное
хранилище
бумажных
документов
Подсистема массового ввода
Подсистема формирования
электронных документов
Электронная почта
Факс-служба
Неструктурированная
информация
(файлы)
Структурированная
информация (БД)
Основные функциональные
подсистемы СЭД




подсистема формирования электронных
документов
подсистема организации массового ввода
документов
подсистема хранения и поиска документов
подсистема маршрутизации и контроля
исполнения документов
Подсистема формирования электронных
документов





Электронная форма документа – это страница с пустыми
полями, оставленными для заполнения пользователем.
Под электронной формой документа понимается не
изображение бумажного документа, а технология работы с
формами, где бумажная форма появляется только по
требованию в качестве копии электронной.
Машиночитаемая форма – бланк, пригодный к компьютерной
обработке без предварительной подготовки.
Форма всегда имеет фиксированный набор полей и строго
фиксированное расположение этих полей.
В каждом поле формы может находиться информация строго
определенного содержания.
Типы форм, используемых в СЭД
1. Формы, предназначенные для сбора
информации и ее последующей статистической
обработки (извлечение информации из
бумажных форм – выборы, ЕГЭ и т.д.).
2. Формы, предназначенные для сбора
информации, требующие процедуры
ознакомления и подтверждения (заказы на
покупку, счета, отчеты о командировках).
3. Формы, размещенные на Web-сайтах для
использования удаленными пользователями
(регистрация клиентов, заказ продукции).
Состав формы ЭД



Поля с постоянными реквизитами, не изменяющимися
среди экземпляров документа одного типа (наименование
предприятия).
Поля с переменными реквизитами, значения которых
могут заполняться либо вручную, либо автоматически.
Автоматически заполняемые поля:





вычисляемые поля с помощью подключения стандартных
статистических, математических, логических, финансовых функций
или макросов,
автоматически заполняемые поля из БД или справочников.
Управляющие кнопки, предназначенные для
инициирования более сложных вычислений или отправки
документа по маршруту.
Поля для отметок, которые ставятся в документе в
процессе его просмотра.
Поля с электронными подписями.
Проектирование экранных форм
Проектирование форм ЭД
1. Проектирование структуры (внешнего вида)
формы ЭД.
2. Проектирование содержания формы ЭД
(определение перечня элементов).
3. Определение последовательности форм ЭД.
4. Установление связей между формами ЭД.
5. Апробация форм ЭД и их заполнение.
Пример формы ЭД
Пример заполненного документа
Подсистема организации массового
ввода документов
1. Персональный ввод бумажных
документов.


Ввод небольшого количества разнотипных
бумажных документов с помощью планшетных
или персональных сканеров.
Ручная индексация путем заполнения карточки
документа.
2. Массовый (поточный) ввод бумажных
документов.


Ввод большого количества однотипных
бумажных документов.
Автоматическая индексация.
Зачем нужны машиночитаемые
формы?




Сокращение ручного ввода данных с форм
(замена автоматическим распознаванием)
Сокращение ошибок ввода данных
(опечаток)
Итоговое повышение эргономики ввода
данных для первичных пользователей
Сокращение издержек компании на
многократный ручной ввод данных в
различные системы
Каким должен быть
правильный бланк?






Соблюден корпоративный стиль
Правильная эргономика
Оптимальные размеры и расстояния
Присутствуют реперные точки
Все поля хорошо видны
Оптимизированная длина полей
Задачи системы массового ввода


Извлечение данных из бумажных документов без
сохранения их образов
Извлечение данных из бумажных документов с
сохранением их образов



В случае использования структурированных данных
для организации хранения и поиска изображений
применяется атрибутивная индексация
В случае использования неструктурированных данных
применяется полнотекстовая индексация
Извлечение данных из бумажных документов с
частичным сохранением их образов (наиболее
значимой части документа)
Подготовительный этап обработки
документа
1. Подготовка документов для сканирования:






вскрытие конвертов, удаление скрепок или других
предметов, мешающих сканированию;
определение состава документов, подлежащих
сканированию;
выбор конкретных областей в каждом документе для
сканирования;
определение технологической цепочки движения
документа по рабочим местам;
формирование пакетов документов для сканирования;
выписка ярлыков на каждый пакет документов с
указанием кода документа и количества документов
каждого типа в пакете.
2. Настройка системы на конкретную форму и модель
ввода документа предполагает описание полей
документа и модели его ввода в базу данных.
Настройка системы на форму ЭД




Форма ЭД – набор полей.
Каждое поле описывается в двух аспектах:
визуально и содержательно.
Визуально каждое поле должно быть явно
обособлено.
Содержательная часть характеризуется
назначением поля, словарным и
алфавитным составом, а также законами
построения текста
Настройка системы на модель ввода
1. Ввод ключевых слов. Ключевые слова будут
использоваться в качестве индексов для
конкретного изображения.
2. Ввод всего текста документа. Производится
ввод всех слов документа для возможности
осуществления полнотекстового поиска.
3. Формо-ориентированный ввод данных.
Применяется для ввода данных из форм
стандартных, однотипных документов. Атрибуты
документа используются для составления
индекса документа для его поиска и хранения.
Основной этап ввода документов
1. Сканирование
2. Предварительная обработка изображений



Улучшение читаемости изображения
Повышение точности распознавания.
Уменьшение размера изображения
3. Сегментация (нахождение полей) и
распознавание
4. Контроль качества распознавания и
редактирование
5. Индексирование документа и загрузка.
Технологии распознавания




OCR (Optical Character Recognition) –
технология оптического распознавания
печатных символов;
ICR (Intelligent Character Recognition) –
распознавание раздельных печатных
символов, написанных от руки;
OMR (Optical Mark Recognition) –
распознавание отметок;
Стилизованные цифры – распознавание
рукописных цифр, написанных от руки
по шаблону.
Выбор системы массового ввода









тип обрабатываемых документов и вид
содержащихся в них данных;
точность распознавания;
наличие эффективной системы редактирования;
настраиваемость системы на требования заказчика;
способность системы адаптироваться к
изменяющимся внешним условиям без
программирования;
наличие поддержки сканеров различных типов;
наличие редактора форм;
наличие редактора схем обработки документов;
наличие редактора схем экспорта в базу данных
для хранения или в другие бизнес-приложения для
обработки.
Схема централизованного
ввода данных
Преимущества
Недостатки
Процесс ввода легко
Увеличение времени на обработку
стандартизируется, поскольку все
документа до момента получения
операции сосредоточены в едином
доступа к данным.
центре.
Меньшие затраты на обучение
операторов.
Доставка документов в центр обработки
является постоянным расходом
организации.
Единая отчетность по вводу,
упрощение контроля
Обучение новых операторов требует
дополнительных расходов.
Единая система резервного
копирования.
Операторы сканирования могут не
обладать достаточными знаниями о
смысле и целях обрабатываемого
документа, что может повлечь ошибки
при проверках и дальнейшей передаче
данных в работу.
Схема децентрализованного
ввода данных
Преимущества
Введенные данные становятся
доступны практически сразу,
поскольку их обработка
происходит на местах.
Не требуется физической
транспортировки документов,
сокращаются затраты на
логистику.
Недостатки
Сложности стандартизации
процесса ввода.
Сложности с централизованным
контролем и получением единой
отчетности.
Возможны более высокие по
Требования к вводу и
сравнению с централизованной
обработке данных отражают
моделью затраты на
специфику работы конкретного
лицензирование программного
подразделения.
обеспечения.
Схема распределенного
ввода данных
Преимущества
Позволяет проводить сканирование и
ввод данных в систему любому
сотруднику организации.
Недостатки
Без специальных доработок
программного обеспечения сложно
стандартизировать работу по вводу
данных.
Процесс сканирования и получения
доступа к данным облегчен, поскольку Усложняется контроль за
ориентирован на широкий круг
безопасностью и сохранностью
пользователей. Специального обучения документов.
операторов не требуется.
Процессом ввода данных целиком
руководит создатель или конечный
Каждое используемое устройство
пользователь обрабатываемого
должно быть надежно связано с
документа. Сокращается риск ошибок
единой сетью и репозиториями.
при проверке и отправке данных в
работу.
Требования к системам автоматизации
ввода данных








Высокая точность и качество распознавания
Возможность масштабирования
Высокая производительность и скорость ввода данных
Автоматизированная обработка документов со сложной
структурой
Поддержка распределенного процесса обработки
Отказоустойчивость, эффективное распределение
нагрузки и резервное копирование данных
Возможности оперативной настройки системы в связи с
появлением новых типов документов
Интеграция с различными ИС
Выгоды от внедрения системы
массового ввода документов

Прямые:




Сокращение суммарных расходов на обработку
документов
Увеличение скорости ввода данных в ИС (в 3-10 раз)
Быстрый возврат инвестиций (окупаемость проекта – 6-10
мес.)
Косвенные:




Ускорение бизнес-процессов
Более быстрое и качественное обслуживание клиентов
Получение быстрого доступа к данным
Повышение уровня защиты доступа к информации
Подсистема хранения и поиска
документов


Библиотечный сервис – программная система
управления документами, построенная в
архитектуре клиент-сервер.
Серверная часть обеспечивает:





централизованное хранение,
поиск,
архивирование,
защиту
Клиентская часть обеспечивает:


возможности обращения к функциям серверной части;
возможность открытия документов на рабочих станциях
пользователей для просмотра и редактирования.
Документы, устанавливающие
регламент хранения документов



Типовые требования к
автоматизированным системам
электронного документооборота.
Спецификация MoReq (Model Requirements)
Основные правила работы государственных
архивов РФ
ГОСТ Р ИСО 15489-1-2007 «Управление
документами»
Цели управления хранением документов



Соответствие текущим и будущим
потребностям деловой деятельности;
соответствие правовым требованиям путем
обеспечения документирования в
конкретном направлении деловой
деятельности;
соответствие текущих и будущих
потребностей внешних и внутренних
заинтересованных лиц.
Цели хранения документов




Сохранение информации о прошлых и настоящих решениях
и видах деятельности в целях информационного
обеспечения решений и деятельности в настоящем и
будущем;
сохранение доказательств прошлой и настоящей
деятельности для соблюдения обязательств и формирования
отчетности;
своевременное, санкционированное и систематическое
уничтожение документов, которые больше не
используются;
сохранение контекста документа для того, чтобы будущие
пользователи могли считать документы аутентичными и
достоверными даже в тех случаях, когда документные
системы, в которых они хранятся, прекратили свое
существование или подверглись существенным
изменениям.
Документы долговременного
хранения





обеспечивают доказательство и информацию о
политике и действиях организации;
обеспечивают доказательство и информацию о
взаимодействии организации с обслуживаемыми ею
клиентами;
документально фиксируют права и обязанности
отдельных лиц и организаций;
используются для создания «памяти» об
организации в научных, культурных или
исторических целях;
содержат доказательство и информацию о
деятельности, представляющей интерес для
внутренних и внешних заинтересованных лиц.
Проблемы долговременного хранения
документов

Процедуры по обеспечению сохранности
электронных документов:




обеспечение физической сохранности файлов
с электронными документами;
обеспечение условий для считывания информации
в долговременной перспективе;
обеспечение условий для воспроизведения электронных
документов в человеко-читаемом виде.
Проблемы долговременного хранения возникают:



из-за деградации носителей информации;
из-за устаревания оборудования;
из-за устаревания форматов файлов.
Выбор носителя зависит от:




вида хранимых электронных документов
и их совокупного объема,
предполагаемого срока хранения
документов и обеспечения к ним доступа,
характера производства самих носителей
и предполагаемых режимов их хранения,
требований по обеспечению аутентичности
документов.
Срок
хранения
Носители
До 5 лет
10-15 лет
Любые современные носители
информации, в том числе
магнитные дискеты
Оптические компакт-диски (CD)
Свыше 15 лет
(до 50 лет)
Оптические диски (WORM),
магнитные ленты (стримеры)


Срок службы носителя определяется условиями
хранения.
«Основные правила работы государственных
архивов»: температура +17 -19 °С, относительная
влажность 50-55%.
Решение проблемы деградации
носителей
1. Обеспечение условий хранения (температурновлажностного режима);
2. Обеспечение текущей замены носителей (путем
копирования с них информации на новые) прежде
истечения ожидаемого срока службы;
3. Обеспечение хранения нескольких копий каждого
документа и их систематического сравнения в
соответствии с установленным графиком.
Решение проблемы устаревания
оборудования




Мониторинг состояния оборудования;
обеспечение миграции информации на
новые современные носители;
выбор носителей и оборудования, имеющих
наиболее продолжительный срок службы;
выбор наиболее популярных,
зарекомендовавших себя моделей вместо
самых современных новинок рынка.
Устаревание форматов
Воспроизведение электронных документов зависит
в первую очередь от применяемого программного
обеспечения:
 операционной системы,
 системы управления базами данных (СУБД),
 текстовых редакторов и процессоров,
 графических (ACDSee) и web-браузеров (Internet
Explorer, Opera, Firefox),
 специализированных проектных (AutoCAD,
ArchInfo) и гео- приложений (MapInfo),
 программ, специально разработанных для работы
с конкретными базами данных.
Решение проблемы устаревания
форматов
Миграция

преобразование информации в новые форматы, которые
должны быть доступны при помощи современного
оборудования и программного обеспечения;
Эмуляция

перемещение информации на новое оборудование, но с
дополнительным программным компонентом, который
эмулирует старое оборудование, позволяя таким образом
исполнять старые прикладные программы;
Инкапсуляция

включение электронных документов в состав файлов
межплатформенных форматов, например, в XML.
Консервация технологий

непрерывная поддержка оригинального оборудования;
практически неприменимо в долгосрочной перспективе.
Проблема обеспечения подлинности
электронных документов

ЭЦП – это «реквизит электронного документа,
предназначенный для защиты данного
электронного документа от подделки,
полученный в результате криптографического
преобразования информации с использованием
закрытого ключа электронной цифровой подписи
и позволяющий идентифицировать владельца
сертификата ключа подписи, а также установить
отсутствие искажения информации в электронном
документе»
ФЗ"Об электронной цифровой подписи"
Проблема обеспечения подлинности
электронных документов



Аутентификация электронного документа
становится невозможной после смены
технологической платформы или
бесполезной после утраты юридической
силы сертификата средства ЭЦП.
Стойкость ЭЦП зависит от длины открытого
ключа подписи.
Переформатирование документа при
длительном хранении приводит к
изменению ЭЦП.
Рекомендации по организации
долговременного хранения документов
1.
2.
3.
4.
В архив должны приниматься и храниться
«информационные объекты» (файлы), включающие
содержательную и контекстную информацию (данные).
В краткосрочной перспективе (5–10 лет) сохранность
документов обеспечивается созданием резервного
и рабочего экземпляров электронных документов
на отдельных носителях.
В долговременной перспективе (более 10 лет) необходимо
проведение миграции документов в программно
независимые форматы (страховые форматы), причем таким
образом, чтобы в дальнейшем полученное поколение
документов можно было признать подлинниками.
При обеспечении сохранности электронных документов
большое внимание следует также уделять вопросам
информационной безопасности.
Поиск документов в СЭД




Для хранения структурированных данных можно
применять специализированные ИС, основанные на
использовании СУБД.
Для хранения неструктурированных данных
нужны электронные архивы, работающие на
принципах информационно-поисковых систем
(ИПС).
ИПС фактографического типа предназначены для
хранения и поиска фактов, показателей,
характеристик каких-либо объектов или процессов.
ИПС документографического типа
предназначены для хранения и поиска сложных и
объемных документов – отчетов, рефератов,
обзоров, журналов.
Особенности организации ИПС
документографического типа
Документы могут храниться на любых типах носителей

необходимым условием их хранения является наличие электронной
регистрационной карточки;
Для поиска документов создают и хранят их поисковые образы.

Поисковый образ документа (ПОД) – это совокупность кодов
ключевых слов;
Ключевые слова и их коды хранятся в тезаурусе;
Поиск осуществляется с использованием информационнопоискового языка (ИПЯ)

В состав ИПЯ входят тезаурус и грамматика языка, т.е. совокупность
правил задания множества высказываний на множестве ключевых
слов;
Для поиска документа нужно создать с помощью ИПЯ
поисковый образ запроса (ПОЗ)

ПОЗ – совокупность закодированных ключевых слов, описывающих
те документы, которые нужно найти.
ИПЯ - тезаурус
Поисковый образ
документа (ПОД)
Документ
БД документов
БД адресов
хранения
документов
Поисковый образ
запроса (ПОЗ)
Запрос
БД ПОД
Схема взаимодействия
компонентов ИПС
Состав ИПС




Лингвистическое обеспечение, включающее ИПЯ;
Техническое обеспечение (ЭВМ и устройства
создания, хранения, чтения и размножения копий на
бумажных носителях и в электронной форме);
Информационное обеспечение (БД документов, БД
адресов хранения документов, БД ПОД и тезауруса);
Программное обеспечение, предназначенного для
автоматизации следующих основных функций:




Составления, кодирования и загрузки БД ПОД;
Загрузки БД документов и их адресов хранения;
Составления и кодирования ПОЗ;
Поиска и выдачи ответа на запрос в виде документа или
адресов хранения документов.
Основные термины поиска



Релевантность – степень соответствия
найденного документа запросу.
Точность поиска показывает, какова доля
релевантных документов в общем числе
найденных документов.
Полнота поиска показывает, какова доля
найденных релевантных документов в
общем количестве релевантных
документов, хранящихся в БД.
Поиск документов

Первый подход – в
процессе поиска
ищется документ,
который точно
существует в системе.

Второй подход –
ищутся все
документы по
интересующему
вопросу.
Атрибутивный – поиск
документа по
реквизитам,
присваиваемым
документу во время его
регистрации.
Полнотекстовый – поиск
документов по
содержащимся в них
словам и фразам.
Методы поиска документов
1) Методы индексного (двоичного) поиска;
2) статистические методы;
3) семантические методы, основанные на
базах знаний;
4) методы нечеткого поиска, основанные на
технологии адаптивного распознавания
образов.
Индексный поиск



Слова интерпретируются как
последовательности закодированных
символов.
Система двоичного поиска выбирает
точное соответствие для отдельного слова
или цепочки слов.
Недостатки: малая полнота и низкая
точность.
Способы повышения точности
индексного поиска





Отождествление заглавных и малых букв;
использование метасимволов (*, ?);
использование различных грамматических
форм;
использование логической комбинации
слов;
использование меры близости слов («не
далее 5 слов»).
Семантический поиск


Основан на построении и использовании
базы знаний, с помощью которой
осуществляется поиск информации на
основе использования концептуальных
отношений.
Семантический поиск позволяет
использовать:
файлы синонимов;
 лингвистические правила;
 семантические сети.

Технология адаптивного
распознавания образов APRP



APRP – Adaptive Pattern Recognition Processing
Основана на сравнении бинарных
представлений (образов) запроса и
информации, хранящейся в архиве.
Основу поискового механизма составляет
нейронная сеть, позволяющая выделять в
зашумленной битовой последовательности
"похожие фрагменты", не требуя точного
контекстного совпадения запроса и фрагмента
в документе.
Особенности технологии APRP





Нечеткий поиск;
автоматическая индексация;
высокая точность поиска;
использование меньшего объема ресурсов;
высокая скорость поиска информации.
Потоковая обработка информации


Потоковая обработка информации
выполняется автоматически, ей подвергаются
все поступающие в систему новые
документы.
Результатами потоковой обработки являются:
сигнальное информирование, т.е. оперативное
уведомление пользователей о поступлении
документов, отвечающих заданным ими
критериям,
 избирательное распределение, т.е. автоматическое
помещение поступающих документов в нужные
папки в соответствии с заданными критериями.

Маршрутизация документов
Маршрутизация – пересылка документа с
помощью СЭД нескольким адресатам с заданием
следующих параметров:
 типа маршрута;
 лимита времени на обработку документа на
каждом этапе маршрута;
 требованием сбора виз и примечаний адресатов;
 контроля прохождения документа по маршруту.
Типы маршрутизации

Свободная маршрутизация:



Жесткая маршрутизация:



самостоятельное определение маршрута движения
документа;
контроль исполнения необязателен.
маршрут движения заранее определен;
контроль исполнения обязателен.
Типы маршрутов:




Последовательные маршруты.
Параллельные маршруты.
Комбинированные маршруты.
Условные маршруты.
Проектирование рациональной системы
документооборота основывается на
следующих положениях





исключение или крайнее ограничение возвратного
движения документов;
передача документа по инстанциям только с целью
обработки;
распараллеливание обработки документов с целью
повышения оперативности их исполнения;
передача сведений о ходе движения и исполнения
документов в службу ДОУ с помощью
регистрационных карточек, исключая возвратное
движение самих документов;
многовариантность движения документов.
Download