Byte/RE ИТ-издание

ПО Compressimo: сжатие оцифрованных документов

Компания Cognitive Technologies выпустила новый программный продукт Compressimo для сканирования, сжатия и отправки документов по электронной почте. Программа рассчитана на массового пользователя и предназначена для обработки широкого класса бизнес-документов (накладные, таблицы, факсы, договоры, деловые письма, счета и т. д.), доля которых в отечественном документообороте составляет более 90%. Compressimo способен распознавать, где в документе находится основной контент, а где вспомогательный, исключая тем самым потери полезных данных при обработке таких элементов изображения, как рецензии, подписи, печати, распоряжения и т. д.

Как известно, существует две основные проблемы при работе с оцифрованными документами: во-первых, требуется их приемлемое визуальное качество, но качественное изображение занимает большой объем места на диске. Громоздкие оцифрованные документы дорого хранить, при их передаче по сетям генерируется значительный трафик. Во-вторых, необходимо улучшать качество изображения для распознавания символов под различного рода помехами, искажениями — следами маркера, каплями чернил, некачественной печатью, к том уже и исходный документ может быть ветхим, напечатанным на плохой бумаге.

ПО Compressimo позволяет автоматизировать процесс сканирования и обработки документов и получать компактные и одновременно качественные оцифрованные документы, пригодные как для полнотекстового поиска по их содержимому, так и для долговременного хранения. Благодаря Compressimo пользователь может получать более высокое качество содержательных разделов документа, чем на бумажном оригинале.

Compressimo базируется на ключевой технологии Cognitive PDF/A, представленной компанией Cognitive Technologies в апреле 2011 г. При создании продукта использовались новые алгоритмы анализа и обработки изображений: выделение на изображении документа его структурных компонентов (текста, иллюстраций, графики, декоративных элементов), применение к каждому такому компоненту (слою) эффективного алгоритма сжатия, что делает его более компактным без потери информации. При этом текст на изображении можно распознать и «запомнить», чтобы в дальнейшем выполнять поиск и обработку информации. Подготовленные таким образом слои исходного изображения упаковываются в отдельный файл, в результате чего получается «читабельный документ», с которым просто проводить любые действия. Размер файла такого документа минимален при сохранении высокого качества изображения.

В продукте реализован аналог экспертной системы — система сама умеет «понимать» тип и структуру документа и автоматически подбирает наиболее подходящий режим обработки. После удаления искажений и помех изображение автоматически разделяется на слои (текст, иллюстрации, печати, подписи и т. п.). При этом система сама выбирает для каждого слоя свой оптимальный алгоритм сжатия.

В Compressimo предусмотрена возможность распознавания текста на 23 языках при помощи встроенного и доработанного ядра OCR-системы CuneiForm (OpenOCR). После обработки и сжатия все слои (включая слой с распознанным текстом) собираются в одностраничный или многостраничный файл в формате PDF/A (стандарт для долговременного хранения документов ISO 19005-1:2005). Этот подход позволяет снизить объем оцифрованных документов в среднем до 20 раз.

Стоимость Compressimo составляет 799 руб. за одно рабочее место на российском рынке и 20 евро для зарубежного рынка.

Вам также могут понравиться