23.07.2024 - 10:04 / habr.com

Исследователи представили метод EchoMimic для генерации лицевой анимации по аудио и редактируемым маркерам

Исследователи представили нейросеть EchoMimic для генерации реалистичной лицевой анимации по редактируемым маркера лица и аудио.

Особенность метода в том, что сохраняется исходное изображение.EchoMimic разработан на базе генеративных моделей Stable Diffusion, а для распознавания референсов, аудио и характеристик лица используются дополнительные модули Audio Encoder, Landmark Encoder и Reference U-Net.

На вход нейросеть получает изображение и запись голосу, а на выходе пользователь получает видео с анимацией. Нейросеть самостоятельно распознаёт лицевые маркеры: положения глаз, носа и губ.Разработчики протестировали свою модель и отметили, что EchoMimic работает лучше и быстрее похожих решений, например AniPortrait и SadTalker.

daniilshat

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

AMD выпустила Amuse 2.0 — приложение для локального запуска моделей Stable Diffusion habr.com / 1 месяц назад

Обновление «Яндекс Музыки» для Apple Watch: переработанный интерфейс плеера и управление волной habr.com / 1 месяц назад

Stability AI показала модель Stable Video 4D для генерации новых ракурсов для видео habr.com / 1 месяц назад

Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают