Новая версия нейросети Kandinsky Video
Сбербанк объявил, что в самое ближайшее время новая версия генеративной нейросети для генерации видео – Kandinsky 4.1 Video – будет доступна всем пользователям. По заявлению компании, модель стала в разы лучше по всем параметрам: по соответствию промпту, визуальному качеству, качеству генерации движений, а также способности моделировать физику мира. Такие разработки открывают широкие возможности как для дизайнеров, маркетологов, так и для представителей других креативных индустрий, работающих над созданием высококачественного видеоконтента.
Модель Kandinsky 4.1 Video генерирует видеоряд продолжительностью до 10 с в разрешении SD (720×576) или HD (1280×720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать качественные видео с произвольным соотношением сторон под любые пользовательские и продуктовые потребности.
В основе новой модели лежит продвинутая архитектура диффузионного трансформера. Одним из ключевых факторов, позволивших значительно улучшить качество модели, стало ее дообучение (Supervised Fine-Tuning, SFT) на тщательно отобранных данных, подготовленных более чем 100 экспертами – дизайнерами, фотографами и художниками с профильным образованием. Этот этап обучения позволил существенно повысить уровень художественной выразительности, композиции видео и кинематографичности визуального ряда.
Переход к новой архитектуре заметно увеличил потребность в вычислительных ресурсах, поэтому при разработке уделялось особое внимание оптимизации. В результате применения методов дистилляции и ускорения время генерации видео сократилось более чем в три раза по сравнению с исходным вариантом, при этом в ряде сценариев качество генерации сохранилось или даже улучшилось.