Byte/RE ИТ-издание

ABBYY FlexiCapture Studio для обработки гибких форм

Любая современная компания вынуждена тратить значительные ресурсы на обработку входящей бумажной документации и ввод данных в информационную систему. Автоматизация процесса ввода — наиболее эффективное решение задачи снижения этих затрат. Огромный объем информации, вводимой с бумажных носителей, приходится на документы в виде форм, состоящих из полей, каждое из которых содержит определенного рода данные (дата, название компании, сумма, адрес и т. д.). Но форма форме рознь.

Существуют жесткие формы, в которых зафиксированы не только число и состав полей, но и их расположение на листе (бланки жестких форм совпадают на просвет). Для обработки таких документов компания ABBYY (http://www.abbyy.ru) уже много лет предлагает продукт ABBYY FormReader, который используют сегодня тысячи компаний в 30 странах мира. Однако в жизни гораздо чаще бывает, что схожие по содержанию документы приходят в компанию из разных источников и потому по-разному структурированы и оформлены — одни и те же поля расположены на них неодинаково. Специалисты называют такие документы неструктурированными, или гибкими, формами.

В России ABBYY реализовала уже несколько проектов, связанных с автоматической обработкой гибких форм, но все они требовали серьезной настройки технологий распознавания. А самое важное — эту настройку могли провести лишь сотрудники ABBYY, профессиональные программисты, с помощью специальных инструментов. Фактически единственным в арсенале компании массовым продуктом для ввода гибких форм был ABBYY FineReader Банк, предназначенный для ввода платежных документов. Другие виды гибких форм, такие, как счета, заявки, квитанции, чеки, договоры, бухгалтерские и финансовые документы, техническая и научная документация, приходилось по-прежнему обрабатывать вручную.

Именно это обстоятельство послужило основанием для выпуска специального инструмента FlexiCapture Studio, с помощью которого любой разработчик сможет создать решение для автоматизированного ввода гибких форм. Он основан на технологии распознавания ABBYY — OCR/ICR/OMR/OBR. Первая версия продукта появилась на рынке в начале весны этого года.

Технологиям распознавания ABBYY «училась» у живой природы. ABBYY FlexiCapture основана на принципах IPA (Integrity, Purposefulness, Adaptability — целостность, целенаправленность и адаптивность), которыми пользуются чемпионы распознавания — люди и животные. При вводе гибких форм в компьютер человек первым делом определяет местоположение полей, а затем перепечатывает информацию из них в базу данных или файл. Аналогично ведет себя и программа: находит на бланке нужные поля, опираясь на их названия или другие признаки (типы единиц, пояснительные надписи и т. п.), распознает их содержимое и переносит его в базу данных. Чтобы программа могла «понять», где какие поля находятся, ей нужно предоставить корректное описание их расположения и содержания, которое называется FlexiLayout. Как раз для разработки таких описаний и был создан новый программный продукт ABBYY FlexiCapture Studio.

Photo

В ABBYY FlexiCapture Studio реализован эффективный алгоритм поиска по совокупности признаков — вместо классификации полей по каждому признаку в отдельности, как происходит в других программных продуктах данного класса. Благодаря этому FlexiCapture Studio способна резко ограничить время обработки документов и снизить вероятность ошибки при определении расположения полей. С появлением этого продукта появилась возможность автоматизировать обработку практически любых гибких форм, в том числе со сложной структурой и большим количеством полей. Пользователь "обучает" программу поиску нужных полей. Для этого описывается, в терминах FlexiCapture Studio, расположение каждого поля формы через задание его окружения — стационарного текста, рисунков, разделителей, свободных участков и т. д. Опираясь на это описание, программа находит все похожие объекты и выбирает вариант, в наибольшей степени совпадающий с описанием.

Если поля найдены правильно, шаблон (формализованная структура документа) переносится в программу FormReader или FineReader Engine (на уровне этого встроенного механизма распознавания технология FlexiCapture будет доступна в III квартале текущего года). ABBYY FlexiCapture Studio позволяет создавать шаблон на двух уровнях — с помощью диалогов программы (dialog boxes) либо мета-языка описания гибких форм FlexiCapture. Поэтому для разработки шаблона необязательно иметь навыки программирования.

ABBYY FlexiCapture Studio адресован в первую очередь разработчикам программных решений, интеграторам и консалтинговым компаниям. В сочетании с ABBYY FormReader или FineReader новый инструмент позволит им создавать для своих клиентов «заточенное» под конкретные задачи решение для ввода форм и документов. Компании-заказчики, со своей стороны, смогут самостоятельно настроить FlexiLayout, обучив своего специалиста этой технологии.

В заключение еще раз отметим основные достоинства инструмента ABBYY FlexiCapture Studio:

  • специальная технология описания структуры гибких форм — результат проводимых ABBYY исследований и опыта реализации проектов;
  • удобная среда визуализации для создания, редактирования и отладки шаблона;
  • создание описания структуры гибких форм FlexiLayout на двух уровнях;
  • специальный алгоритм поиска совокупности элементов (вместо перебора каждого элемента в отдельности);
  • возможность экспорта одного и того же шаблона как в ABBYY FormReader, так и в ABBYY FineReader Engine.
Вам также могут понравиться