Byte/RE ИТ-издание

Обновленная модель нейросети Kandinsky Video

Сбер представил на конференции AI Journey бета-версию нейросети нового поколения Kandinsky 4.0 Video для создания реалистичных видеороликов по текстовому описанию или стартовому кадру. Нейросеть подойдет как обычным пользователям для создания анимированных роликов, так и дизайнерам, маркетологам, мультипликаторам, которым она может помочь в генерации трейлеров и клипов.

Как отмечают в блоке «Технологическое развитие» Сбербанка, за год с момента релиза первой версии модели Kandinsky Video команда разработчиков улучшила такие показатели, как качество и скорость генерации полноценных видеороликов. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280×720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности.

Важнейшие свойства новой модели – улучшенное визуальное качество (высокий контраст и четкость кадров, выстраивание общей композиции сцены) и реалистичность движений генерируемых объектов.

В дополнение к основной модели Сбер представил быструю версию Kandinsky 4.0 Video Flash, которая генерирует видеоряд продолжительностью до 12 секунд в разрешении 480p (720×480) по любому текстовому описанию всего за 15 секунд.

Kandinsky 4.0 Video – это ансамбль моделей, главная часть которого является диффузионным трансформером с 5 млрд параметров. Инженеры команды Kandinsky использовали самые современные алгоритмы и способы оптимизации обучения больших моделей, что позволило эффективно выучить модель такого размера на огромных массивах видео. Модель разработали и обучили исследователи Sber AI при партнерской поддержке ученых из Института AIRI на объединенном датасете Сбера.

Первыми доступ к новой версии Kandinsky Video получат представители креативных индустрий – художники, дизайнеры и кинематографисты. Для них модель будет доступна в рамках инструмента, который дает возможность генерировать полноценные мини-фильмы – со сценарием, полноценным видеорядом и звуковым сопровождением. Для широкой аудитории нейросеть будет доступна в I квартале 2025 г.

Вам также могут понравиться