Датасет поддельных документов для антифрод-систем
Компания Smart Engines представила первый в России масштабный датасет с поддельными документами – MIDV-DM. Он включает 8 тыс. изображений с удостоверениями личности РФ, СНГ и других стран. Вошедшие в набор образцы были изготовлены с помощью наиболее распространенных у мошенников методов подделки. Датасет позволит разработчикам со всего мира обучать, тестировать и совершенствовать антифрод-системы на базе ИИ.
Как подчеркивают разработчики, MIDV-DM – первый публичный датасет, который систематизировал все основные способы манипуляций с документами. В основу набора легла 1000 изображений из ранее опубликованной исследователями Smart Engines выборки MIDV-2020: образцы внутреннего паспорта РФ, национальные паспорта и ID-карты Азербайджана, Латвии, Эстонии, Финляндии и других стран. Разработчики использовали такие манипуляции с документами, как вставка текстовых полей или фото из «донорского» документа, «маскирование» отдельных полей документа, склеивание разных фрагментов в один образ, вставка посторонних объектов – эмблем, голограмм и др.
Новый набор данных позволяет повышать точность антифрод-решений. Это особенно актуально на фоне участившихся случаев мошенничества с поддельными документами.
Как отмечают в Smart Engines, при создании MIDV-DM разработчики сознательно вышли за рамки сценариев с текстовыми манипуляциями, детекция которых не является проблемой для современных систем. В датасет вошли подделки с изменением подписи, фотографии держателя и отдельных полей документа, т. е. полный спектр типичных атак, с которыми на практике сталкиваются банки, МФО и госструктуры. Это позволит ИИ-системам учиться с повышенной точностью видеть не только замененные ФИО, но и сложные структурные несоответствия в документе
В дальнейшем с помощью MIDV-DM Smart Engines планирует развивать собственную антифрод-систему «Шерлок 2о» – мультимодальную ИИ-модель, способную одновременно работать с изображениями документов из оптического, УФ- и ИК-спектров, текстовыми полями, данными NFC-чипа, штрих-кодами, метаданными и сигнатурами.