Google представила нейросеть Lumiere для генерации коротких реалистичных видео. Для этого используется модель пространственно-временной диффузии (Space-Time-U-Net, STUNet).Lumiere генерирует пятисекундные видеоролики по текстовому описанию.
Главное отличие модели Space-Time-U-Net, которая используется в Lumiere, в том, что она создаёт видео за один проход. Другие нейросети для этого сначала генерируют ключевые кадры, а потом заполняют время между ними.
Из-за этого часто возникает несогласование кадров между собой.Для обучения модели преобразования текста в видео использовали датасет из 30 млн роликов с текстовым описанием.
Читать на habr.com