Byte/RE ИТ-издание

Промышленные технологии потокового ввода документов от Kofax

Андрей Колесов

Сканерные технологии активно используются в нашей стране уже около 10 лет, и сегодня они достаточно распространены в различных системах документооборота предприятий. Тем не менее можно констатировать, что только сейчас российские организации подходят к тому, чтобы широко использовать потоковый ввод документов на промышленном уровне. Это утверждение требует некоторых пояснений.

В несколько упрощенной формулировке под промышленным уровнем можно понимать информационные системы, в которых количество вводимых документов составляет более 2-3 тыс. в день. Прибавьте к этому распределенный характер систем, разбросанных по всей стране или даже по всему миру. А еще повышенные требования к оперативности, критичность по отношению к основному бизнесу…

Рассмотрим такой случай. Банк выдает кредиты в Москве и регионах, основные задачи автоматизации решены, идет битва за каждого клиента. А потенциальный клиент делает выбор между тем или иным банком, основываясь в том числе и на времени рассмотрения заявки. Например, некто в Саратове хочет приобрести автомобиль в кредит, решение о кредите принимается в центральном офисе в Москве, заявление о выдаче кредита и необходимые справки (о доходах, о налогах и т. п.) можно послать по факсу (документ может не пройти, потеряться, возможен несанкционированный доступ и расхищение информации), отправить курьерской почтой (это дорого), отсканировать и послать по электронной почте (это уже лучше).

Если в офис приходит с такой проблемой один человек в день, все перечисленные варианты вполне приемлемы. А если клиентов десятки или сотни, а пакеты документов – по 50 страниц, и речь идет о выдаче кредита не физическому лицу, а компании для закупки оборудования для нефтяных вышек на миллионы долларов? А если в филиале отсканировали устав предприятия-заказчика, отослали его в центр, и там выяснилось, что документ отсканирован с неправильными настройками сканера и требуется повторное сканирование? А если филиалов десятки?

Таких примеров можно привести множество, из различных сфер деятельности коммерческих и государственных структур. И сегодня все большее число руководителей начинает осознавать, что документ выступает как основной элемент в работе организаций, и от эффективности работы с ним, скорости получения информации из документов в КИС, СУБД, биллинговой системе, ERP-, CRM-, CSM-системе, электронном архиве зависят последние строчки в бухгалтерском балансе компании, где фиксируется ее прибыль.

Как и во многих других сферах деятельности, процесс автоматизации ввода и передачи документов проходит три основные фазы. Когда речь идет о нескольких клиентах в день, то можно обойтись набором автономных технологий – сканер, электронная почта, возможно, еще система оптического распознавания символов (OCR). Если же предприятие имеет дело с потоком подобных запросов, то встает задача автоматизации всего этого бизнес-процесса. Обычно она решается при помощи заказной разработки, тем более что у организаций обычно есть собственный ИТ-отдел со своими программистами. Положительный результат от внедрения "самопального" решения ощущается довольно быстро, но вскоре оказывается, что его нужно постоянно модифицировать, расширять функционально, а стоимость этих работ постоянно возрастает…

А если такие задачи возникают не перед крупной корпорацией, которая может себе позволить специализированную заказную разработку и ее дорогостоящее сопровождение? Понятно, что для массового применения требуются специализированные готовые продукты. К тому же и те, кто прошел через создание собственного уникального решения, осознали, что лучше ориентироваться на стандартные отраслевые технологии. Тем более они на своем опыте убедились в том, что если на этапе начальных капитальных вложений в системы документооборота на подобные задачи приходится около 20% затрат, то во время эксплуатации их доля повышается до 80% (рис. 1).

Fig.1 Рис. 1. Обычно задачи ввода документов требуют небольших капитальных вложений, но потом на них падает львиная доля текущих затрат.


И тут появляется Kofax

Американская компания Kofax (http://www.kofax.com)
входит в число мировых лидеров в области потокового ввода документов, в прошлом
году объем ее продаж составил около 60 млн долл. Во всем мире у нее более 50
дистрибьюторов, примерно столько же технологических партнеров, свыше 700 авторизованных
реселлеров в 56 странах. Ее продукты выпускаются на шести национальных языках.
Свою деятельность фирма начала в 1985 г., создавая специальные аппаратные решения
для объединения высокопроизводительных сканеров с маломощными тогда персоналками.
По мере повышения вычислительной эффективности ПК процедуры обработки данных
стали перемещаться на уровень программ, и сегодня основной объем продуктов Kofax
приходится на софт, хотя в ее арсенале по-прежнему есть аппаратные решения.

Один из основных продуктов Kofax – Ascent Capture, представляющий собой один из базовых элементов построения распределенной системы обработки контента. Его основная задача – обеспечить взаимодействие между системами ввода исходных документов и управления документами (рис. 2).

Fig.2
Рис. 2. Набор решений Ascent Capture – один из ключевых элементов построения интегрированной системы распределенной обработки контента.


Решение этой задачи включает следующие основные операции: пакетирование исходных образов, преобразование в вид для электронной обработки (распознавание текста, выделение полей, верификация, составление индекса) и распространение (рис. 3, табл. 1). Эффективность применения Ascent Capture обусловлена и тем, что данное решение интегрируется штатным образом практически со всеми ведущими системами управления документами. С его помощью можно не только преобразовывать бумажные документы в электронный вид (обеспечивается поддержка сканеров всех ведущих поставщиков), но выполнять необходимые преобразования электронных документов различных форматов (почтовые сообщения, XML-документы, Интернет-формы и т. п.) для их последующего применения в системах документооборота. Высокие возможности адаптации достигаются за счет открытого программного интерфейса, что позволяет применять специализированные программные модули и расширения.

Fig.3
Рис. 3. Поточный ввод документов с помощью Ascent Capture.


Таблица 1. Снижение стоимости операций при работе с Kofax Ascent Capture

Этап обработки Выполняемые операции Начальные расходы Варианты снижения трудозатрат
Подготовка документов Сортировка документов, удаление скрепок, подготовка пакетов
и т. п.
Зарплата сотрудников, готовящих документы вручную Автоматическая идентификация форм снижает затраты на сортировку
документов по пакетам. Технология VirtualReScan исключает необходимость
сортировки в зависимости от качества бумаги (цвета, толщины и т. п.)
Сканирование Преобразование бумажных документов в электронные файлы, обычно
формата PDF или TIFF
Капитальные затраты на приобретение сканеров и текущие расходы
по их обслуживанию
Постраничное сканирование очень медленное и не позволяет сканерам
работать с максимальной скоростью. Использование пакетного сканирования
резко повышает эффективность применения отдельного сканера, тем самым уменьшая
требуемое количество устройств и соответственно стоимость их обслуживания
Распознавание Автоматическая выборка данных или индексация информации Начальная стоимость серверов распознавания Автоматизация процедуры распознавания снижает, а в некоторых
случаях просто исключает необходимость участия человека. При автоматической
выборке данных из форм и документов процесс верификации существенно упрощается,
сотрудники только проверяют результат распознавания, как правило, для механически
поврежденных участков документов
Индексация и верификация Доставка документов. Применение ключевых слов ко всем
документам; таким образом, выборку данных из них можно гарантированно выполнить
позднее.
Доставка данных. Проверка правильности результатов автоматического
распознавания
Трудозатраты операторов, проверяющих результаты вручную. Обычно
на одного оператора, управляющего сканером, требуется 2-4 человека на проверке
Использование штрих-кодов, оптическое распознавание символов,
интеллектуальное распознавание символов, оптическое распознавание меток,
а также применение настраиваемых сценариев позволяет автоматизировать процесс
выборки данных. Кроме специальных методов работы проверяющих операторов,
можно применять различные правила для каждого индексируемого поля. Верификация
на удаленных рабочих местах ("надомники" или "офшорные сотрудники)
также может снизить затраты
Повторное сканирование Проверка качества сканирования документа и в случае необходимости
отправка на повторное сканирование
Зарплата сотрудников, выполняющих проверку изображений Можно использовать проверку целостности пачек документов.
Программные средства обработки изображений могут автоматически исправлять
некоторые ошибки (перекосы, перевернутые надписи и т. п.). Продукт Kofax
упрощает процедуры повторного сканирования отдельного листа из пачки, без
нарушения последовательности страниц
Экспорт Экспорт изображения в хранилище данных или СУБД или в систему
управления контентом и документооборотом
Затраты совсем небольшие ПО Kofax Capture поддерживает интеграцию со всеми распространенными
системами хранения данных, базами данных, а также наиболее популярными решениями
в области управления документами

Функциональность продукта

Ascent Capture позволяет проводить полный цикл доставки документов объемом от тысячи до 100 тыс. страниц в день, сочетая высокоскоростной ввод и низкую удельную стоимость операций. В продукте имеются следующие основные функции и возможности.

Доставка документов. Интегрированные средства управления процессом сканирования
и полнотекстового распознавания. Высококачественные графические образы документов
обеспечиваются за счет собственной технологии VirtualReScan.

а – исходный образ документа после сканирования; б – преобразование образа без применения VRS; в – преобразование с применением VRS.

Повторное сканирование. Существует много причин, по которым отсканированное
изображение получается недостаточно качественным. Ascent Capture управляет процессом
повторного сканирования нужных страниц, чтобы обеспечить целостность документа.

Извлечение и доставка данных. Автоматическое распознавание форм, регистрационных
параметров документов и штрих-кодов, выборочная очистка образов отдельных фрагментов
документов, верификация и возможности автоматизации рутинных операций обработки
документов (табл. 2).

Таблица 2. Различные типы выборки данных, реализованные в Kofax Ascent Capture

Тип выборки Комментарий
Идентификация форм (form ID) Используется при обработке обычных форм для автоматического
распознавания или очистки изображений заданных полей
Регистрация страниц (page registration) Применяется для определения смещения страницы во время сканирования
относительно заданного шаблона и необходимой коррекции изображения. Это
позволяет автоматически компенсировать механические допуски сканеров и повысить
качество последующего распознавания
Оптическое распознавание символов (OCR) Преобразование графических образов текстовых документов в
алфавитно-цифровой вид без ручного набора. Правильность преобразования проверяется
различными автоматизированными методами, в том числе по заданным словарям,
индексам и путем проверки грамматики
Интеллектуальное распознавание символов (ICR) Примерно то же, что и OCR, но применяется для документов,
заполненных печатными символами вручную. Точность преобразования в этом
случае несколько ниже, чем в OCR, но все же достаточно высока, особенно
если символы вводятся в заранее заданные окна или вводятся только цифровые
данные
Оптическое распознавание меток (OMR) Используется для автоматического распознавания флажков и других
меток на форме

Возможности настройки. Новые модули можно подключать к системе через
средство XML Backbone, а пользовательский интерфейс – модифицировать с помощью
COM-технологии. К модулям верификации и распознавания можно добавить дополнительные
сценарии, функции импорта и экспорта можно расширять и настраивать с использованием
Visual Basic.

Масштабируемость. Архитектура системы позволяет ей функционировать как
на одной рабочей станции, так и на нескольких десятках мест. Небольшие автономные
рабочие станции можно просто и быстро преобразовать в многопользовательскую
систему нужной производительности. При небольшом объеме операций (до 3 тыс.
страниц в день) все операции – сканирование, преобразование образов, индексацию,
верификацию – можно выполнять на одном ПК. При повышении объема работы для каждой
функции можно выделить отдельный компьютер.

Интеграция. Ascent Capture интегрируется с большинством ведущих пакетов
управления контентом и документооборота: IBM, FileNET, Documentum, PC DOCS,
Optika, icomXpress, Open Text, IMR, Excalibur, Eastman Software и т. д.

Распределенная обработка

Создание эффективных систем распределенной обработки документов в Ascent Capture обеспечивается за счет дополнительных модулей, реализованных на базе Интернет-технологий: Ascent Capture Internet Server, Web Validation Server и Ricochet.

Ascent Capture Internet Server (ACIS) предназначен для централизованной
обработки документов, вводимых с удаленных клиентских мест. Наиболее распространен
вариант, когда на рабочих станциях выполняется поточное сканирование и в центр
передаются лишь первичные графические образы. Однако систему можно сконфигурировать
и таким образом, чтобы на рабочих местах выполнялись любые другие операции обработки
(очистка изображения, верификация и т. п.).

Web Validation Server (WVS) – распределенная среда для организации процесса
верификации. Удаленные работники могут индексировать документы через Интернет.
Это может стать идеальным решением для организаций, использующих временных сотрудников
или "надомников", для снятия пиковых нагрузок на систему. Применение WVS не
требует какого-то специального ПО, достаточно обычного Web-браузера (нужна только
серверная лицензия, число возможных подключений не ограничивается).

Ricochet обеспечивает интерактивное взаимодействие удаленных процессов
ввода и обработки. В отличие от ACIS основной объем операций первичной обработки
документов в Ricochet выполняется не в центре, а на удаленных рабочих местах.
Этот вариант нужен в тех случах, когда удаленный сотрудник – это не просто оператор
ввода, а исполнитель конкретного бизнес-процесса, и документ непосредственно
инициирует этот процесс (например, это может быть продавец-консультант магазина
сложной бытовой техники). При этом систему возможно организовать таким образом,
что в реальном времени в центр передаются только оцифрованные данные, а сами
образы графических документов передаются с небольшой задержкой в пакетном режиме
(это снижает нагрузку на коммуникации).

 

Тандем ABBYY и Kofax

Продвижение технологий Kofax в России имеет двухлетнюю историю. До недавнего
времени ее партнерами выступали компании "Весть-Метатехнология" (системы
управления документами), "Электронный Архив" (программно-аппаратные решения
для создания электронных архивов) и NeuHaus (сканеры). И тем не менее,
когда Kofax решила создать дистрибьюторский канал для поставок своих продуктов
в нашей стране, ее выбор пал на компанию ABBYY (http://www.abbyy.ru):
в конце июня было подписано стратегическое партнерское соглашение, в соответствии
с которым ABBYY получила статус приоритетного дистрибьютора системы Kofax
Ascent Capture в России и странах СНГ.

По словам директора Kofax по региональным продажам в Центральной и Восточной
Европе Хайнера Ванденберга, ABBYY была выбрана в значительной степени
благодаря ее "нейтральной" позиции по отношению к нынешним и потенциальным
партнерам в России. Тем более что ABBYY также была партнером Kofax, но
до того момента – сугубо технологическим. Модуль ABBYY FineReader с 2001
года поставляется в составе Kofax Ascept Capture в качестве одного из
трех механизмов распознавания образов (и единственный – для русского языка).
Как подчеркнул вице-президент ABBYY по корпоративной работе Арам Пахчанян,
этот движок позволяет не только распознавать 177 языков, но и сохранять
результаты в формате Adobe PDF. Именно поэтому продукт ABBYY пользуется
отличным (выше, чем в России) спросом за рубежом.

Основной проблемой на пути распространения промышленных систем потокового
ввода в России представители ABBYY называют недостаточную осведомленность
потенциальных заказчиков о наличии подобных решений. Именно поэтому сегодня
главные усилия будут направлены на "разъяснительную работу", а также на
создание партнерской сети.

Летом Kofax выпустила новую версию Ascent Capture 6.0, основные усовершенствования
в которой связаны с модернизацией системы лицензирования механизма управления
потоками пакетов документов, а также с функциональным расширением Ascent
Capture Internet Server. В ней также будет использоваться недавно вышедший
продукт ABBYY FineReader 6.0. Уже в конце нынешнего лета должна появиться
русская версия Kofax Ascent Capture 6.0. Компания ABBYY планирует постепенно
расширять интеграцию своих продуктов с этой системой.

Вам также могут понравиться