Две ИИ-модели Сбера – в открытом доступе
По сообщению Сбера, бизнес и разработчики получили открытый доступ к обновленной модели для создания векторных представлений текста – Giga-Embeddings, а также модели для генерации видео Kandinsky Video Lite. Обе модели распространяются по открытой лицензии, допускающей свободное использование в коммерческих проектах любого масштаба.
Как отмечают в Сбере, научная команда активно публикует различные модели генеративного искусственного интеллекта. Так, в открытый доступ выложены все модели линейки Kandinsky, семейство акустических моделей для русского языка GigaAM, на основе которых работает сервис GigaChat. Доступ к новым мощным инструментам, таким как Kandinsky Video Lite и Giga-Embeddings, способствует ускорению темпов исследований, развитию инновационных продуктов и сервисов мирового уровня.
Kandinsky Video Lite позволяет создавать короткие видео длительностью до 10 секунд на основе текстового запроса (промпта). Это компактная модель, содержащая всего 2 млрд параметров. При этом по внутренним тестам Kandinsky Video Lite превосходит по общему качеству (которое включает в себя оценки качества следования промпту, визуала и динамики) более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13–14 раз. Особое внимание при обучении Kandinsky Video Lite было уделено пониманию отечественного культурного кода: для этого был сформирован специальный датасет из более чем миллиона изображений и видео, существенная его часть отбиралась в несколько этапов большой командой профессиональных художников и дизайнеров. За счет этого, подчеркивают в Сбере, модель хорошо понимает характерные для нашей страны и ее истории объекты. Выложена также ускоренная версия Kandinsky Video Lite Flash, которая работает примерно в 6 раз быстрее базовой модели.
Разработчикам и бизнесу также стала доступна обновленная модель, преобразующая текстовую информацию в эффективные векторные представления – Giga-Embeddings. Эта модель занимает первое место в общем зачете бенчмарка ruMTEB с результатом 74.1, значительно опережая другие открытые модели, а также показывает высокое качество работы и на английском языке.
Giga-Embeddings обеспечивает построение высокоэффективных RAG-систем (Retrieval-Augmented Generation), гарантирующих надежность и точность ответов искусственного интеллекта. Таким образом, корпоративный сектор получает мощный инструмент для повышения качества поиска по документам, аналитики данных и автоматизированной поддержки пользователей на основе актуальной информации. Разработчики с помощью модели смогут быстро создать умных помощников и чат-ботов, способствующих эффективной обработке корпоративных данных без риска появления недостоверных ответов.
Модели уже доступны для свободного использования на ведущих платформах.