Microsoft технологии люди спорт общество tiktok ByteDance Microsoft
/ habr.com

Новая AI-модель от ByteDance оживляет статичные изображения с помощью звука

Материнская компания TikTok, ByteDance, разработала систему AI под названием INFP, которая способна заставлять статичные портретные фотографии говорить и реагировать на аудиовход.Что отличает INFP (Interactive, Natural, Flash and Person-generic) от других, так это его способность создавать реалистичные видео разговоров между двумя людьми без необходимости вручного назначения ролей говорящего и слушающего.

Система автоматически определяет эти роли по ходу разговора.Система работает в два основных этапа. На первом этапе, который ByteDance называет "Motion-Based Head Imitation" (Имитация движений головы на основе движения), AI учится учитывать все мелкие детали того, как люди общаются — такие как мимика и движение головы во время разговоров.

Он берет эти движения из видео и превращает их в данные, которые можно использовать позже. Эти данные о движении затем могут анимировать статическое фото, соответствуя движениям исходного человека.На втором этапе, "audio-guided motion generation" (генерация движения с управлением по звуку), система определяет, как сопоставлять звуки с естественными движениями.

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA