Новое поколение визуальной нейросети «Яндекса»

TW6bURcstk Дата: Окт 15, 2024 1 575

Большие текстовые модели (Transformers / GPT и проч.)Генеративный ИИ (AI)Дообучение нейросетевых моделей Искусственный интеллект (AI)Распознавание образов / Генерация изображений / Компьютерное зрение (ML IR)Яндекс (Yandex)

Компания «Яндекс» представила следующее поколение визуальной нейросети – YandexART 2.0. Модель умеет создавать надписи прямо на изображениях, придерживаться нескольких стилей на одной картинке, располагать объекты в пространстве и относительно друг друга более естественно и учитывать при генерации больше деталей из текстового запроса.

В основе YandexART 2.0 лежит собственная разработка компании – новая гибридная архитектура модели, которая сочетает качество работы сверточной и трансформерной нейросетей. Сверточная модель работает по принципу человеческого глаза и выявляет на картинке важные признаки – края, текстуры и формы. Нейросеть с такой архитектурой не умеет учитывать длинный контекст (поэтому ей трудно справляться с большим количеством деталей в промтах), зато это умеет трансформер. Объединение двух этих моделей в YandexART 2.0 позволило точнее следовать текстовым запросам. Так, теперь нейросеть умеет придерживаться нескольких стилей в одном изображении и может, например, сгенерировать фотореалистичную банку лимонада, на этикетке которой будет аниме-персонаж.

YandexART обучалась на сотнях миллионов пар картинок и текстовых описаний к ним. Чтобы повысить качество этих текстов и сделать их более точными, «Яндекс» использовал собственную VLM-модель. Она анализировала изображения и детально описывала, что на них находится. YandexART 2.0 обучили на улучшенных данных, что помогает учитывать больше деталей из запроса пользователя.

Визуальные нейросети могут генерировать отдельные буквы, но чтобы составлять из них слова, требуется дополнительное обучение на большом количестве примеров. Обучающий датасет YandexART 2.0 был расширен несколькими сотнями тысяч изображений с текстом. Так нейросеть научилась создавать надписи латинскими буквами на картинках.

Для замера качества работы нейросети в «Яндексе» разработали новую систему оценки. Она включает четыре основных параметра: релевантность, эстетичность, дефектность и комплексность, т. е. сложность и детализированность картинки. Так, YandexART 2.0 выиграла у Midjourney v6.1 в 66% случаев по критерию комплексности, в 58% по эстетичности и практически сравнялась по доле побед в релевантности запросам пользователей.

YandexART 2.0 уже доступна на облачной платформе Yandex Cloud. Ее можно использовать через API, чтобы интегрировать генерацию изображений в свои приложения, а также протестировать в деморежиме, чтобы подобрать оптимальный промт. Нейросеть лучше понимает запросы пользователя, поэтому компании смогут быстрее и качественнее создавать реалистичные изображения для маркетинговых и рекламных кампаний. Предприниматели смогут генерировать иллюстрации для статей и социальных сетей, создавать баннеры или разрабатывать варианты брендирования одежды.

Кроме того, с помощью YandexART 2.0 можно создавать рекламные объявления в «Яндекс Директ». По результатам экспериментов, использование нейрообъявлений в сочетании с собственными креативами может увеличить эффективность рекламной кампании на 10–15%.