Новая нейросеть от «Сбера» генерирует картинки из текстового описания

Новая нейросеть от «Сбера» генерирует картинки из текстового описания

Сбербанк разработал нейросеть ruDALL-E, которая может создавать изображения по русскоязычному описанию. Как заявляют авторы, система может использоваться для разработки дизайна интерьера, векторных иллюстраций, материалов для рекламы и создания стоковых картинок.

Изображения с помощью ruDALL-E создаются в три этапа: сначала одна нейросеть принимает текст запроса и генерирует из него картинки, другая определяет, какие из них наиболее удачные, а третья увеличивает их в размере без потери качества. Всего доступны две системы — ruDALL-E XL, у которой 1,3 млрд параметров, а также ruDALL-E 12B, которая обладает 12 млрд параметров.

Модель ruDALL-E XL можно бесплатно скачать с GitHub. Также вскоре обе модели будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud. Обучение нейросети заняло 23 тыс. часов, всего было проанализировано 120 млн пар текст—изображение. Как заявляют в Сбербанке, ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ.

Иллюстрация к статье: Яндекс.Картинки

Читайте также

Оставить комментарий

Вы можете использовать HTML тэги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>