Новинки в линейке нейросетевых моделей Сбера
Сбер сообщил, что открывает веса двух новых флагманских MoE-моделей в линейке GigaChat – Ultra-Preview и Lightning, созданных с нуля для русскоязычных задач, а также новое поколение открытых моделей GigaAM-v3 для распознавания речи с пунктуацией и нормализацией.
Кроме того, стали доступны все модели генерации изображений и видео новой линейки Kandinsky 5.0 – Video Pro, Video Lite и Image Lite. Это собственные нейросети, нативно понимающие промпты на русском языке, знающие русскую культуру и умеющие писать кириллический текст на изображениях и видео, а также модели для сжатия визуальных данных K-VAE 1.0, необходимые для обучения моделей генерации визуального контента. Код и веса этих всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.
Принципиальная позиция Сбера, комментируют в компании, – не строить «закрытую» технологию, но стать открытым фундаментом для всей страны. Именно поэтому Сбер открывает веса моделей. Любая компания в России, от банка до стартапа, может установить эти модели внутри своего закрытого контура и дообучить на своих чувствительных данных, никому не показывая.
Модели GigaChat получили пополнение в лице GigaChat Ultra Preview и GigaChat Lightning. Ultra Preview – самая мощная и большая модель в линейке GigaChat. Это первая в России модель подобного масштаба, обучение которой все еще продолжается, но уже на текущем этапе, по данным разработчиков, она превосходит как DeepSeek V3.1 по общим метрикам качества на русском языке (лидирует в бенчмарке MERA), так и предыдущую флагманскую модель – GigaChat Max 2.
GigaChat Ultra Preview выпускается под открытой лицензией, что позволит дообучать модель локально – например, в закрытых корпоративных средах, где критически важны полный контроль над приватными данными, соответствие требованиям информационной безопасности и максимальное качество. Несмотря на большой размер, модель остается достаточно быстрой – быстрее GigaChat 2 MAX.
GigaChat Lightning, напротив, самая компактная и быстрая MoE-модель в линейке, оптимизированная для локального запуска на ноутбуке и поддержки быстрых продуктовых итераций. По качеству она конкурирует с мировыми лидерами open-source в своей категории: превосходит Qwen3-4B в русскоязычных задачах и не уступает ей в диалоге, анализе документов и решении прикладных бизнес-задач.
Как и в случае с GigaChat Ultra, Сбер публикует не только веса модели, но и технологию ускоренного инференса: Lightning не только обгоняет конкурентов в своем классе, она работает почти так же быстро, как и Qwen3-1.7B, несмотря на то что превосходит ее по размеру в 6 раз.
Обе модели эффективно интегрируют систему использования сторонних инструментов, из которых особенно выделяются два ключевых: код и память.
- Код – это инструмент для выполнения, анализа и визуализации программных операций: он позволяет запускать фрагменты кода, строить графики, проводить расчеты и проверять гипотезы в реальном времени.
- Память – система для персонализированного общения, запоминающая важные детали: цели, предпочтения и историю обсуждений. Модели могут давать пользователю персонализированные советы и корректировать информацию по ходу диалога. При этом устаревшая или чувствительная информация удаляется, а пользователь может вручную корректировать память моделей.
GigaAM-v3 – открытый набор из пяти моделей для автоматического распознавания речи на русском языке (ASR), которые доступны для промышленного применения и коммерческого использования. GigaAM-v3 ориентирован на голосовые ассистенты, контакт-центры и аналитику звонков, агрегаторы голосовых сообщений и мультимодальные агенты.
В новой версии акустических моделей GigaAM масштаб предобучения увеличен с 50 тыс. до 700 тыс. часов аудио, а в обучение добавлены новые домены: колл-центр, музыкальные запросы, речь с особенностями, спонтанная речь — что заметно улучшило качество в этих сценариях.
На основе фундаментальной модели GigaAM-v3 можно сделать любые речевые технологии: в Сбере она уже используется в распознавании речи, синтезе речи, а также позволяет GigaChat работать с видео и аудио.
Линейка Kandinsky 5.0 включает в себя модель Image Lite, которая может генерировать изображения по тексту и редактировать их, а также две версии моделей генерации видео: быструю модель Video Lite и мощную Video Pro, которые могут генерировать видео по текстовому описанию и «оживлять» изображения.
Универсальная модель Kandinsky 5.0 Image Lite работает в HD-разрешении, хорошо знает российский культурный код, нативно понимает запросы как на русском, так и на английском языках и генерирует надписи на латинице и кириллице. Модель Kandinsky 5.0 Video Pro генерирует до 10 секунд HD-видео в 24 fps и превосходит Wan 2.2 A14B, а также достигает паритета по визуальному качеству с Veo 3, одной из самых мощных в мире проприетарных моделей. Для снижения порога входа при интеграции в прикладные проекты модель Kandinsky 5.0 Video Lite оптимизирована для работы на домашних видеокартах от 12 Гбайт памяти.
Обучение Kandinsky 5.0 проводилось на почти миллиарде изображений и 300 млн видео. Для адаптации под отечественный культурный контекст разработчики использовали дополнительно еще более миллиона медиаматериалов. Работа с такими объемами данных потребовала применения современных подходов, часть из которых была создана специально для этого проекта. На финальных этапах обучения использовался сверхкачественный датасет, отобранный большой командой дизайнеров и художников. Эксперты тщательно выбирали материалы с безупречной композицией, стилем и визуальным качеством.
Модели Kandinsky открывают возможности для создания разнообразных продуктов – от сервисов для персонального творчества до профессиональных инструментов для индустрии. На основе выкладываемых в открытый доступ нейросетей разработчики и компании смогут создавать решения, которые позволят пользователям генерировать персонализированные видеопоздравления, оживлять фотографии или придумывать оригинальные визуальные истории. Для профессионалов – режиссеров, дизайнеров, маркетологов, художников-аниматоров – продукты, построенные на Kandinsky 5.0, могут стать инструментами для производства промоматериалов, контента и визуальных проектов в коммерческих сценариях. Все это будет способствовать развитию открытой экосистемы вокруг российских генеративных технологий.