Исследователи Университета Торонто представили See-2-Sound — нейросеть для генерации звуков окружения по картинке или видео.
Модель машинного обучения не только создаёт подходящую дорожку, но и расставляет источники звука в пространстве для создания эффекта присутствия.See-2-Sound работает в несколько этапов:Нейросеть получает на вход изображение, анимацию или видео и оценивает источники.
Тут модель пытается понять, какие объекты могут издавать звуки и природу этих звуков.На основе полученных данных генерируется звук.
Читать на habr.com