Открытый русскоязычный бенчмарк MWS AI
Компания MWS AI объявила о запуске открытого русскоязычного бенчмарка – MWS Vision Bench, предназначенного для оценки качества мультимодальных моделей ИИ (Visual Language Models, VLM), способных одновременно анализировать изображения и текст.
MWS Vision Bench – это первый бенчмарк, ориентированный на оценку мультимодальных моделей в реальных продуктовых сценариях, где необходимо работать с документами на русском языке. Новый инструмент позволяет тестировать возможности генеративного ИИ в распознавании и понимании документов, содержащих визуальные данные.
Современные модели умеют анализировать договоры, счета, формы, схемы и таблицы. Но существующие международные бенчмарки, такие как OCRBench, AI2D и MMMU, охватывают только английский и китайский языки. Подходящих бенчмарков на русском языке до сих пор не было, что делало невозможной объективную оценку таких моделей при решении продуктовых задач в российских компаниях.
Бенчмарк MWS Vision Bench охватывает широкий спектр задач, направленных на оценку способности моделей работать с документами. Он проверяет, насколько эффективно модели умеют считывать текст с изображений, понимать структуру документа, находить необходимую информацию, распознавать расположение элементов и отвечать на сложные вопросы по содержимому.
В состав MWS Vision Bench вошли 800 изображений и 2580 заданий, отражающие реальные сценарии работы с документами в российских организациях. В набор включены офисные и личные документы, схемы, рукописные записи, таблицы, чертежи, диаграммы, графики. Все изображения полностью обезличены. Для удобства использования исходный набор данных был случайным образом разделен на две части: валидационную (400 изображений, 1302 задания) и тестовую (400 изображений, 1 278 заданий). Валидационная часть бенчмарка опубликована в открытом доступе.
Открытый исходный код бенчмарка опубликован на GitHub, а датасет доступен на платформе Hugging Face. Это позволит компаниям загружать и тестировать как собственные, так и сторонние модели. На текущий момент лучшие результаты в бенчмарке показали соответственно Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. В сравнении также участвовали ChatGPT-5 и Qwen3-VL.