Группа исследователей из Чикагского университета обнаружила, что алгоритмы копирования голоса способны обмануть как устройства распознавания речи, так и людей, которые их слушают.
Ученые протестировали две самые известные дипфейк-модели — SV2TTS и AutoVC. Они собрали набор данных из 90 голосовых фрагментов длительностью до пяти минут из общедоступных источников.
Ученые также привлекли 14 волонтеров, предоставивших образцы речи и доступ к своим устройствам. Затем исследователи протестировали обе системы, используя программное обеспечение с открытым исходным кодом Resemblyzer, — оно сравнивает записи голоса и дает оценку схожести образцов.
Читать на forklog.com