Исследователи представили нейросеть EchoMimic для генерации реалистичной лицевой анимации по редактируемым маркера лица и аудио.
Особенность метода в том, что сохраняется исходное изображение.EchoMimic разработан на базе генеративных моделей Stable Diffusion, а для распознавания референсов, аудио и характеристик лица используются дополнительные модули Audio Encoder, Landmark Encoder и Reference U-Net.
На вход нейросеть получает изображение и запись голосу, а на выходе пользователь получает видео с анимацией. Нейросеть самостоятельно распознаёт лицевые маркеры: положения глаз, носа и губ.Разработчики протестировали свою модель и отметили, что EchoMimic работает лучше и быстрее похожих решений, например AniPortrait и SadTalker.
Читать на habr.com