Компания Nvidia разработала нейросеть VideoLDM, генерирующую короткие и реалистичные видеоролики по текстовому описанию. Алгоритм позволяет создавать анимации продолжительностью около пяти секунд в разрешении до 2048х1280 пикселей и частотой 24 FPS.
Модель генерирует видео как по простым, так и сложным подсказкам. В основе VideoLDM лежат наработки алгоритма Stable Diffusion.
Согласно отчету, нейросеть учитывает 4,1 млрд параметров. Из них 2,7 млрд обучались на видео. В компании заявили, что добились «значительного прогресса» в тренировке нейросети достаточно быстро.
Читать на forklog.com