Распознавание русского рукописного текста в ContentCapture

--> Дата: Июл 19, 2023 1 622

Content AI Искусственный интеллект (AI)Распознавание документов (OCR)Распознавание образов / Генерация изображений / Компьютерное зрение (ML IR)

Компания Content AI, российский разработчик ИИ-решений, представила обновленный релиз своего флагманского продукта – платформы интеллектуальной обработки информации ContentCapture, в котором появилась функция распознавания русского рукописного текста.

Программа с новой функциональностью способна с высокой точностью распознавать в документах заполненные от руки поля на русском языке. Ранее ContentCapture могла распознавать только рукопечатный текст, где каждая буква прописывалась в отдельных полях заполняемой формы, например, анкеты или опроса. В новом релизе эти возможности объединены: система автоматически определяет, как написан текст, и распознает символы. В основе технологии распознавания русского рукописного текста лежат собственные разработки Content AI в области нейронных сетей.

Важное технологическое новшество – способность распознавать курсив, т. е. фразы, написанные без отрыва ручки от бумаги. Это одна из самых сложных задач, с которой ранее OCR-редакторы справлялись менее успешно. Кроме того, в новом выпуске существенно оптимизировано качество распознавания рукописного английского текста.

В ходе тестирования новой функциональности ContentCapture подтверждена точность распознавания данных в документах определенного типа в диапазоне 85–95%: речь идет о паспортах и других документах, удостоверяющих личность, тестовых формах, служебных записках, подготовленных в свободном стиле.

Как поясняют в Content AI, качество распознавания в рамках данной задачи сильно зависит от разборчивости почерка и вида документа. Во внутренних тестах в компании ориентировались на лучшие образцы технологий, имеющиеся на российском рынке. По ряду сценариев распознавание русского рукописного текста в ContentCapture демонстрирует самые высокие показатели среди всех протестированных продуктов. Разработчики также готовы индивидуально обучать и настраивать систему для более точной обработки конкретного, даже самого редкого, типа документа, если это будет необходимо заказчику.

В текущем релизе распознавание русского рукописного текста доступно в версии ContentCapture для Windows. До конца года планируется выпуск кросс-платформенной версии с возможностью использования на ОС семейства Linux.

В числе других новшеств релиза ContentCapture – редизайн интерфейса веб-станций, который стал более легким и современным. При этом внутренняя структура продукта не претерпела значительных изменений, поэтому уже знакомые с платформой пользователи смогут приступить к работе без повторного обучения.