Наука управления документами
Андрей Колесов
Компания Cognitive Technologies (http://www.cognitive.ru)
хорошо известна на нашем рынке систем управления документами и, безусловно,
входит в лидирующую группу отечественных разработчиков подобных технологий.
В то же время ее технологическая и маркетинговая стратегия отличается от деятельности
других российских ИТ-компаний.
Компания выступает на рынке одновременно как поставщик набора коробочных и
тиражируемых продуктов (распространяемых напрямую и через партнерскую сеть)
и как проектный интегратор. В свою очередь, ее программные продукты предлагаются
в виде нескольких изданий. Благодаря этому технологии Cognitive подходят как
для малых предприятий (и даже индивидуальных пользователей), так и для корпоративных
заказчиков. В настоящее время компания предлагает следующие продукты для построения
систем управления документами:
- "Евфрат-Документооборот" — система автоматизации документооборота;
- "Астарта" — автоматизированная система аналитической обработки документов;
- Cognitive Forms — система обработки форм документов;
- "Евфрат" — управление электронным архивом документов;
- CuneiForm — система оптического распознавания символов.
Отличительная особенность этих продуктов — использование собственных базовых
технологий компании, которые относятся к категории наукоемких. Широкая публика
знает о достижениях Cognitive Technologies в области распознавания образов.
Менее известно, что в ее продуктах могут использоваться не только промышленные
СУБД сторонних поставщиков, но и собственная объектно-ориентированная СУБД "Ника",
применение которой существенно повышает производительность обработки документов.
А в "Астарте" используются оригинальные математические алгоритмы автоматического
анализа текстовой информации (подробнее об этом продукте см. "BYTE/Россия"
№ 2/2002).
Научный руководитель направления систем управления документами Cognitive Technologies профессор Н. Е. Емельянов считает, что развитие данных технологий должно идти не только за счет прямого наращивания функционала и увеличения вычислительных мощностей. Принципиальный эффект может дать применение качественно новых подходов к обработке традиционных документов.
Один из таких новых подходов — создание систем класса "формооборота" (forms processing). Ключевая идея здесь — максимальная структуризация документов в виде набора полей. Представление традиционных документов в виде форм резко сокращает затраты на решение нескольких взаимосвязанных задач: преобразования бумажных документов в электронный вид, оптимизации объема архива и аналитической обработки документов.
Данная технология была отработана компанией при выполнении ряда корпоративных проектов и представлена в очередной версии системы Cognitive Forms, выпущенной весной прошлого года.
Другое перспективное направление — более широкое использование сложноструктурированных документов (упрощенно говоря, это означает, что документ представляет собой не плоский набор записей, а иерархическую структуру с произвольной глубиной вложения). Идея эта не нова, но в данном случае очень важно, каким образом она будет реализована. Оптимальный вариант — переход от применения традиционных реляционных баз данных к объектно-ориентированным. В решении этой задачи компания отводит особую роль развитию своей СУБД "Ника".
"Евфрат-Документооборот"
Первый вариант продукта под названием "Евфрат" появился еще в 1995 г. и предназначался в основном для решения поисковых задач в рамках файловой системы локального компьютера. За прошедшие годы "Евфрат" превратился в универсальное средство поддержки электронных архивов с развитыми функциями управления документами, реализованное в трех вариантах — SOHO, Office (обе версии однопользовательские) и "Клиент/Сервер". Эти продукты уже давно использовались для создания систем делопроизводства, однако для более эффективной автоматизации документооборота потребовалось существенно расширить их функции, в частности, управление маршрутизацией документов и поддержку групповой работы. В этой ситуации было принято решение о разделении универсального пакета "Евфрат" на две продуктовые линии — "Электронный Архив" и "Документооборот". В результате летом прошлого года на рынке появился "Евфрат-Документооборот".
Помимо функций управления документами "Евфрат-Документооборот" включает внутреннюю почтовую службу, технологии морфологического анализа текста, встроенное средство просмотра документов различного формата, генератор отчетов, дизайнер форм регистрационных карточек, а также набор API-функций для разработки дополнительных модулей. Коробочный вариант предусматривает использование встроенной СУБД "Ника", но при необходимости можно работать и с базами данных других поставщиков — с Oracle, IBM DB/2, Microsoft Exchange и SQL Server. В системе реализована идея использования сложноструктурированных документов — документ в общем случае представляет собой регистрационную карточку с набором вложенных файлов.
Архитектура системы "Евфрат-Документооборот".
|
"Евфрат-Документооборот" имеет трехуровневую структуру (его архитектура показана на рисунке) и включает следующие основные компоненты, входящие в типовой комплект поставки.
Делопроизводство — реализует основную функциональность рабочих мест
пользователей системы, включая функции регистрации, поиска, контроля исполнения,
почтовый клиент, формирование отчетов, просмотр и печать документов.
Администратор документооборота — создает группы пользователей, отвечает
за настройку прав, словарей, календаря, адресной книги, структуры предприятия,
новых потоков документов и т. д.
Администратор сервера — отвечает за управление местом хранения данных,
создание резервных копий базы и при необходимости восстановление базы из резервной
копии.
Серверное хранилище — реализует все серверные функции хранения данных,
управления заданиями, контроля разграничения доступа для пользователей.
СТ Генератор отчетов — средство разработки, генерации, просмотра и печати
любых отчетов на основании данных, хранящихся в системе "Евфрат-Документооборот".
Кроме того, в поставку могут быть включены дополнительные модули.
Евфрат: Дизайнер форм — утилита, позволяющая настраивать "Евфрат-Документооборот"
на работу со своими собственными уникальными регистрационными формами документов.
Интернет-клиент ("тонкий" клиент) — обеспечивает доступ пользователя
к системе в объеме, определяемом его правами. Включает программу кодирования
передаваемых через Интернет данных.
Данные системы "Евфрат-Документооборот" хранятся в подсистеме "Серверное хранилище", базе данных подсистемы "Делопроизводство" и конфигурационном файле сервера приложений. В "Серверном хранилище" содержатся все документы, их реквизиты и файлы, присоединенные к документам. Здесь же в виде документов хранятся системные настройки, формы, опубликованные на сервере, подробная информация о пользователях, словари, списки рассылки и другие подобные данные.
Классификация систем обработки документов
Широкий спектр предложений на рынке систем обработки документов делает актуальным создание классификаторов, которые можно использовать, например, для сравнительного анализа различных технологий. В этой связи ниже мы рассмотрим один из вариантов такого классификатора, разработанный специалистами Cognitive Technologies.
В настоящее время многие авторы предлагают такую классификацию систем обработки документов: "Делопроизводство", "Документооборот", "Управление документами" и "Управление знаниями". К сожалению, при этом довольно редко дается четкое определение этих классов. В этой связи представляют интерес соответствующие формулировки*.
Делопроизводство — регистрация документов (бумажных и/или электронных
как таковых, вообще говоря, без регистрации их содержания — только ввод краткой
неструктурированной аннотации), задание поручений по ним и контроль исполнения.
Документооборот — средства первого класса и регистрация содержания документов,
выполнение бизнес-процессов, связанных с этим документом, маршрутизация.
Управление документами — средства первых двух классов и средства массовой
загрузки документов, архивы, хранение на CD, DVD, MO, разнообразные средства
вывода и т. п.
Управление знаниями — средства первых двух классов и средства рубрикации,
классификаторы, информационно-аналитические средства**.
* См. Арлазаров В. Л., Емельянов Н. Е. Системы обработки документов. Основные
компоненты. Сборник трудов "Управление информационными потоками" ИСА РАН — М.:
Едиториал УРРС, 2002.
** О системах управления знаниями см. также статьи в "BYTE/Россия"
№ 2/2002 (тема номера — "Управление знаниями").
В таблице приведен структурированный перечень основных компонентов систем обработки документов в порядке прохождения их жизненного цикла. Для всех компонентов указан соответствующий класс систем обработки документов, которому они наиболее свойственны.
Структурированный перечень компонентов систем обработки документов и их принадлежность
к определенному классу
Функция | Компоненты | Какому классу свойственны |
1. Ввод документов (бумажных или электронных) | Средства сканирования бумажных документов | Делопроизводство |
Средства ввода из Интернета | Делопроизводство | |
Средства ввода из Windows-приложений | Делопроизводство | |
2. Регистрация по определенным формам содержания документов (в общем случае сколь угодно сложной формы) |
Средства описания форм сложноструктурированных документов | Делопроизводство |
Редактор документов на основе их форм | Делопроизводство | |
Средства генерации новой (расширение имеющейся) схемы БД информационных объектов по описаниям форм входных документов и, наоборот, построение формы ввода на основе фрагмента (или всей) схемы БД |
Документооборот | |
Средства ввода данных, представленных по формам, в БД (набор драйверов для разных СУБД) |
Документооборот | |
3. Распознавание | Средства распознавания всего документа | Делопроизводство |
Распознавание выделенного фрагмента во время переноса атрибута (Drag&Recog) |
Делопроизводство | |
Средства распознавания блока атрибутов, что позволяет в образе документа указать только место расположения группы атрибутов (индексация по имиджу) |
Делопроизводство | |
4. Массовая загрузка данных | Средства проектирования форм для автоматического ввода и распознавания | Управление документами |
Специальный редактор для корректировки ошибок распознавания | Управление документами | |
Система обеспечения конвейера сканирования, распознавания, корректировки, ввода в БД |
Управление документами | |
Средства разбора и загрузки данных из новостных лент | Управление документами | |
Средства разбора (полностью или только изменений) Интернет-сайтов | Управление документами | |
Средства экспорта данных в архив | Управление документами | |
5. Индексация | Система индексации по атрибутам документа | Делопроизводство |
Средства полнотекстовой индексации, стоп-словари | Делопроизводство | |
Система автоматической рубрикации | Документооборот | |
Система индексации по атрибутам объектов содержания документов | Документооборот | |
Автоматическая индексация дат, географических наименований, имен и фамилий, e-mail и http-адресов и т. п. |
Управление документами | |
6. Лингвистический анализ (как правило, используется в средствах индексации и поиска) |
Морфологический и семантический анализ, средства нормализации (приведение к единственному числу, именительному падежу и т. п.) |
Делопроизводство |
Работа с другими языками, не только с русским | Делопроизводство | |
Автоматическое выделение понятий | Управление знаниями | |
Элементарные средства перевода с одного языка на другой (например, английский -русский) |
Управление знаниями | |
7. Хранилище документов и описаний информационных объектов |
Хранилище документов (файл-сервер, документно-ориентированная или универсальная БД) |
Делопроизводство |
Хранилище информационных объектов, описанных в документах, — универсальная БД на промышленной СУБД (а не документно-ориентированной) |
Документооборот | |
Средства хранения документов на CD, DVD, МО | Управление документами | |
Средства сжатия данных | Управление документами | |
8. Поиск | Средства поиска по любому логическому выражению (с указанием скобок, фрагментов контекста и т. д.) |
Делопроизводство |
Средства полнотекстового поиска (в частности, с учетом близости слов в документе) |
Делопроизводство | |
Средства комбинированного поиска (по всем словам и атрибутам) | Делопроизводство | |
Средства оценки релевантности и уточнения запроса | Делопроизводство | |
Средства автоматизации предложений к уточнению запроса | Управление знаниями | |
Система поиска объектов и подобъектов любой глубины вложенности по собственным и унаследованным атрибутам |
Управление знаниями | |
9. Экспорт-импорт данных | Экспорт-импорт в виде программного скрипта | Делопроизводство |
Обмен информацией с объектно-ориентированной БД | Документооборот | |
Обмен информацией с реляционной или объектно-реляционной БД | Документооборот | |
Обмен информацией в форматах HTML, PDF, PostScript и т. д., пригодных для публикации в Интернете или на бумаге |
Документооборот | |
10. Web-сервер над архивом документов (для обеспечения работы с документами средствами стандартных браузеров) |
Средства обеспечения доступа к архиву документов в Интернете | Делопроизводство |
Средства включения файлов как в качестве приложения ко всему документу, так и компонентов описания объектов документа (фотографии, чертежи, тексты, звук и т. п.) |
Документооборот | |
Средства выделения подмножеств атрибутов (подсхем БД), доступных для разных типов пользователей |
Документооборот | |
Средства гибкого оперативного управления режимом отображения информационных объектов (списки, таблицы, иерархии) |
Управление знаниями | |
11. Обмен сообщениями | Средства передачи сообщений | Делопроизводство |
Хранилище сообщений | Делопроизводство | |
Адресная книга | Делопроизводство | |
12. Репликации | Слежение за версиями и копиями | Управление документами |
Средства объединения версий | Управление документами | |
Совместная разработка частей документа группой пользователей | Управление документами | |
Репликация для мобильных, удаленных пользователей | Управление документами | |
Выборочная репликация | Управление документами | |
Фоновая репликация | Управление документами | |
Синхронизация с логикой приложений и дизайном (пересылаются не только данные, но и изменения в логике и дизайне) |
Управление документами | |
13. Работа в сетях | Локальных с малым числом (до 10) пользователей | Делопроизводство |
Локальных и глобальных с большим числом пользователей (>100) | Делопроизводство | |
Средства обмена скриптами или XML-документами между клиентами и сервером |
Делопроизводство | |
Монитор транзакций | Делопроизводство | |
Сервер приложений | Делопроизводство | |
14. Маршрутизация исполнительской деятельности | Средства описания поручений | Документооборот |
Средства задания маршрута | Документооборот | |
Средства определения текущего состояния по поручениям | Документооборот | |
Средства контроля исполнительской деятельности | Документооборот | |
Средства отображения истории обработки поручения и документов | Документооборот | |
15. Защита от несанкционированного доступа | Система идентификаторов и паролей | Делопроизводство |
Средства описания групп пользователей | Делопроизводство | |
Система разграничения доступа к объектам и функциям | Делопроизводство | |
Средства протоколирования всех операций (ввод, обработка, корректировка, чтение, распечатка и т. п.) |
Делопроизводство | |
Средства электронной подписи | Делопроизводство | |
Средства администратора безопасности | Документооборот | |
16. Вывод документов | Генератор отчетов | Делопроизводство |
Печать документов по формам ввода | Делопроизводство | |
Печать форм массового ввода, заполненных полностью, частично или пустых в виде, готовом для ввода и автоматического распознавания |
Управление документами | |
Печать каталогов, справочников на основе издательских систем | Управление документами | |
17. Публикация информации на CD в виде отчуждаемого продукта | Обеспечение работы средствами стандартных браузеров | Делопроизводство |
Защита от несанкционированного копирования дисков целиком | Управление документами | |
Защита от копирования отдельных объектов | Управление документами | |
18. Средства разработки приложений. API-функции | API ко всем объектам системы | Документооборот |
Интерфейсы ко всем перечисленным выше компонентам системы | Документооборот | |
Средства поддержки стандартных интерфейсов систем управления документами (ODMA, DMA, CORBA и т. д.) |
Управление документами | |
19. Средства управления знаниями | Управление голосом | Управление знаниями |
Классификаторы, тезаурусы | Управление знаниями | |
Средства ввода, обработки, хранения, поиска и отображения сложноструктурированных знаний |
Управление знаниями | |
Системы автоматического перевода | Управление знаниями | |
Системы типа OLAP | Управление знаниями |