Команда Google Brain представила нейросеть-художника, которая распознает текст с использованием больших языковых моделей, после чего выдает фотореалистичный рисунок.
При этом Imagen генерирует первую картинку размером 64х64 пикселей, а затем повышает разрешениедо 256х256 и 1024х1024 точек, в процессе добавляя детали.
ИИ Imagen уже превзошел DALL-E 2 по качеству картинок. Помогаем Поможем собрать средства на тепловизоры для спасателей Николаевской и Харьковской областей «Наше ключевое открытие заключается в том, что универсальные большие языковые модели (например, T5), предварительно обученные на текстовых массивах, удивительно эффективны при кодировании текста для синтеза изображений: увеличение размера языковой модели в Imagen значительно повышает как точность выборки, так и выравнивание изображения и текста», — заявили разработчики.
Читать на itc.ua