В начале ноября 2024 года команда разработчиков из Standard Intelligence представила открытую ИИ-модель для синтеза речи в полнодуплексном режиме под названием hertz-dev.
Исходный код проекта написан на Python и опубликован на GitHub под лицензией Apache 2.0.Проект может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи.
Модель hertz-dev позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, обеспечивая взаимодействие в стиле живого человеческого общения без задержек.По уточнению разработчиков, на системе с GPU Nvidia GeForce RTX 4090 средняя задержка перед генерацией речи в этой модели составляет 120 мс (теоретически до 65 мс), что примерно в два раза быстрее, чем у имеющихся в открытом доступе существующих моделей.Опубликованный в открытом доступе вариант hertz-dev построен с использованием архитектуры трансформер.
Читать на habr.com