Новые версии нейросети Kandinsky 3.0 от Сбера
Сбер представил новую версию своей генеративной модели для творчества – Kandinsky 3.0. Эта версия в сравнении с предыдущими лучше понимает текстовый запрос пользователя.
Нейросеть теперь умеет создавать еще более фотореалистичные изображения, генерировать полноценные художественные картины и арты со скетчами, модель работает с запросами из широкого списка тем.
Kandinsky 3.0 лучше предыдущих версий знает элементы отечественного культурного кода. Так, улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например, гжельской росписи.
Кроме того, у новой модели усовершенствована функция редактирования изображений и возможность их дорисовки в режиме бесконечного полотна (inpainting и outpainting). Версия 3.0 создает изображения с высоким разрешением – 1024×1024, при этом может синтезировать картинки с выбранным соотношением сторон.
Для обучения нейросети разработчики использовали обновленный датасет в размере 1,5 млрд пар текст – изображение, содержащий данные, которые прошли многоэтапные процедуры фильтрации, что заметно повысило качество генераций.
Пользователи нейросети Kandinsky 3.0 также могут создавать видеоролики по текстовому описанию в режиме анимации. По одному запросу генерируется видео длиной 4 секунды c выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640×640. Синтез одной секунды видео в среднем занимает около 20 секунд. Для расширения возможностей базовой модели реализованы разные виды анимации изображений, что позволило перемещать объекты, приближать и отдалять их, оживлять статику всеми возможными способами. В основе режимов анимации лежит функция перерисовки изображения по текстовому описанию (image2image).
Kandinsky 3.0 понимает запросы более чем на 100 языках, а пользователи могут создавать изображения в неограниченном количестве стилей. Модель разработали и обучили исследователи Sber AI при партнерской поддержке ученых из Института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices.
Оценить возможности нейросети можно на платформе fusionbrain.ai, в Telegram- и в VK-ботах, на сайте rudalle.ru. Модель работает в сервисе GigaChat, доступна в мобильных приложениях СберБанк Онлайн и Салют, а также на умных устройствах Sber.
Сбер также представил нейросеть Kandinsky Video – первую в России генеративную модель для создания полноценных видеороликов по текстовому описанию. Модель генерирует видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду. Архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй – за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. В основе двух блоков лежит новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0. Формат сгенерированного видео представляет собой непрерывную сцену с движением как объекта, так и фона. Это отличает видеоролики, синтезированные моделью Kandinsky Video, от анимационных видеороликов, в которых динамика достигается за счет моделирования пролета камеры относительно статичной сцены.
Нейросеть создает видеоролики с разрешением 512×512 и различным соотношением сторон. Модель обучена на датасете из более чем 300 тыс. пар «текст – видео». Генерация видео занимает до 3 минут.