Яндекс представил нейросеть YandexART — она поможет создавать изображения и анимацию для бизнес-задач и творчества

Яндекс представил диффузионную нейросеть Yandex AI Rendering Technology (YandexART), которая создаёт изображения и анимацию в ответ на текстовые запросы пользователей. Нейросеть уже интегрирована в приложение Шедеврум и помогает иллюстрировать рекламные объявления в Яндекс Бизнесе, а вскоре появится в Клавиатуре и других сервисах компании

YandexART формирует изображения и анимацию методом каскадной диффузии: сначала нейросеть генерирует картинки и кадры в соответствии с запросом пользователя, а затем поэтапно увеличивает их разрешение, насыщая деталями. По сравнению с предыдущим поколением диффузионной модели, которая использовалась в Шедевруме, YandexART создаёт более реалистичную и детализированную графику. По итогам внутренней оценки асессоров Яндекса её результаты лучше в 60% случаев.

Для улучшения качества работы нейросети разработчики увеличили размер обучающего набора данных в 1,5 раза — до 330 миллионов картинок с текстовым описанием. Для обучения YandexART используются самые эстетичные картинки — они отбираются при помощи трёх режимов фильтрации. Новый алгоритм распознавания текстов помогает нейросети лучше понимать пожелания пользователей. Кроме того, нейросеть качественнее прорабатывает особенности лиц, глаз и рук, что позволяет ей делать фотореалистичные портреты.

Для улучшения качества генерации используется дообучение с подкреплением. Специалисты компании отсматривают, например, сразу несколько сотен или тысяч созданных с помощью YandexART капибар и отмечают удачные и неудачные изображения. Это позволяет нейросети понять, как именно лучше и правильнее изображать животных, персонажей, объекты, явления и не только.