Нейросети для системы распознавания документов Smart Engines
Компания Smart Engines представила новую версию системы распознавания паспорта и других документов Smart ID Engine 2.5 для удостоверения личности клиентов. Разработчики обучили два нейросетевых ансамбля – «Да Винчи» и «Шерлок», которые позволят эффективнее бороться с фродом, упростить клиентский путь и повысить конверсию. Время исполнения обеих моделей ИИ на одном изображении составляет в среднем менее 1 секунды без использования GPU.
Нейросетевая архитектура «Да Винчи» способна находить и распознавать документ, расположенный как угодно: под углом, вверх ногами или даже отраженный зеркально (известно, что в режиме «селфи» многие смартфоны отзеркаливают изображения), а также определять его геометрию. Как поясняют в компании, название было дано продукту именно потому, что великий Леонардо да Винчи свободно владел зеркальным письмом.
В предельных случаях ИИ «Да Винчи» может извлекать паспортные данные, когда разворот документа занимает менее 15% фото с размерами 720х1280 пиксел. Число ошибок при распознавании полей документа на селфи сократилось в 5 раз. Это дает возможность проводить процедуру KYC по одному селфи с паспортом для клиентов с бюджетными смартфонами. Таким образом, отмечают в компании, Smart ID Engine 2.5 позволит банкам и финтех предложить дистанционное обслуживание новой аудитории и расширить клиентскую базу.
«Шерлок» – это нейросетевой ансамбль для проверки подлинности документов. Анализируя параллельно сотни параметров, ИИ делает логически обоснованный вывод о том, что это подлинный документ либо подделка или муляж. При этом он аргументирует свое решение и дает понятное любому человеку объяснение. Как комментируют разработчики, ансамбль назван в честь гениального сыщика Шерлока Холмса, который мастерски раскрывал сложнейшие дела и умел элегантно и просто объяснить свои умозаключения.
«Шерлок» справляется как с элементарными подделками, так и со сложными, например, выполненными с использованием дипфейк-технологий. Всего ИИ выполняет 533 проверки, разделенные на 13 групп. Ансамбль нейросетей удостоверяется в цифровой подлинности документа, обнаруживает любые вмешательства в изображения («Антифотошоп»), исследует образцы в УФ-, ИК- и видимом диапазонах, анализирует данные на предмет согласованности. Помимо этого, «Шерлок» определяет «живость» документа (liveness), исключая подмену реальной бумаги ксерокопией или съемкой с экрана, и сверяет фотографию из документа с лицом предъявителя. Нейросеть способна определить подделку документа любой страны мира, а если бланк устарел или государства не существует, сообщит об этом. «Шерлок» подходит для работы и в физическом канале, и в цифровом с фото- и видеопотоками.
Как подчеркивают в Smart Engines, если раньше нейросеть давала бинарный ответ – «подделка» или «не подделка», то «Шерлок» в каждом случае будет давать понятное объяснение: почему нейросети дали положительный или отрицательный ответ. Применяемые в новой версии Smart ID Engine алгоритмы ИИ позволят усилить защиту от мошенников в цифровых каналах, не усложняя процесс получения услуг добросовестным клиентам.
Благодаря проведенным алгоритмическим оптимизациям в обновлении Smart ID Engine снижен объем потребляемой памяти для паспорта РФ на 17% и повышено качество распознавания документов. Число ошибок при распознавании паспорта РФ, заполненного от руки, снизилось на 19%, в случае с машинописным – на 6%. Улучшения коснулись и других наиболее востребованных документов: количество ошибок при распознавании СТС сократилось на 29%, водительского удостоверения – на 20%, СНИЛС – на 14%, свидетельства о рождении – на 15%. За счет интеграции 4.6-битных сверхлегких нейросетей скорость детекции печатного и рукописного текстов на изображении увеличилась на 10%.
Соответствие закону обеспечивается как на этапе обучения ИИ, так и во время работы системы у клиента. Для обучения систем и проведения замеров использовались специализированные датасеты графических данных, созданные по методологии MIDV.
Smart ID Engine 2.5 работает в контуре у заказчика, документы не передаются на обработку в сторонние сервисы, облачным верификаторам, на краудсорсинговые платформы.
В настоящее время Smart ID Engine позволяет распознавать все страницы паспорта РФ, в том числе рукописную прописку, водительские права, свидетельства ЗАГС и другие удостоверения личности на фотографиях, сканах и в видеопотоке. В новой версии добавлена поддержка 107 типов документов, теперь Smart ID Engine распознает 2897 типов документов. В общей сложности поддерживается 4573 шаблона документов всех стран мира. Решение включено в Реестр ПО Минцифры РФ.