Модель генерации изображений Kandinsky от Сбера
Cбер представил самую большую на данный момент модель генерации изображений по текстовому описанию на русском языке – Kandinsky. Это улучшенная версия мультимодальной нейросети ruDALL-E, которая генерирует картинки по описанию на русском языке. Использовать ее можно для создания любых видов изображений – иллюстраций, материалов для рекламы, архитектурного и промышленного дизайна и даже дизайна в области цифрового искусства.
В ноябре прошлого года, комментируют в Сбере, была выпущена модель ruDALL-E XL, содержащая 1,3 млрд параметров. Ее параметры и код были выложены в открытый доступ, и был разработан сервис генерации изображений. За полгода этим сервисом воспользовались 2 млн уникальных пользователей, которые суммарно сгенерировали 125 млн изображений. Кроме того, в ноябре была анонсирована, а в декабре опубликована в маркетплейсе AI Services платформы SberCloud ML Space эксклюзивная модель ruDALL-E XXL c 12 млрд параметров.
В этом году команды Sber AI и SberDevices существенно улучшили качество работы этой модели, дообучив ее на 179 млн изображений, снабженных текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo. Дообученная модель Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может использовать новый способ повышения разрешения сгенерированных картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1 (помимо стандартного подхода с использованием Real-ESRGAN). Теперь модель значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения.
Создание изображений при помощи модели Kandinsky происходит в три этапа. Сначала одна нейросеть (непосредственно Kandinsky), используя текстовое описание, генерирует заданное число изображений. Затем вторая (ruCLIP Large) выбирает наиболее удачные и максимально соответствующие заданному текстовому описанию картинки, а потом третья увеличивает их в размере (доступны как диффузионная модель, так и генеративно-состязательная модель Real-ESRGAN). Итогом работы модели является набор сгенерированных изображений высокого качества. Преимуществом модели Kandinsky по сравнению с предыдущими версиями, отмечают в Сбере, является более высокая степень детализации создаваемых изображений.
Модель доступна в мобильном приложении «Салют», на умных устройствах Sber по запросу «Включи художника».