denis19 Nvidia Apache крипто denis19
/ habr.com

Релиз открытой ИИ-модели hertz-dev для полнодуплексного голосового общения

В начале ноября 2024 года команда разработчиков из Standard Intelligence представила открытую ИИ-модель для синтеза речи в полнодуплексном режиме под названием hertz-dev.

Исходный код проекта написан на Python и опубликован на GitHub под лицензией Apache 2.0.Проект может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи.

Модель hertz-dev позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, обеспечивая взаимодействие в стиле живого человеческого общения без задержек.По уточнению разработчиков, на системе с GPU Nvidia GeForce RTX 4090 средняя задержка перед генерацией речи в этой модели составляет 120 мс (теоретически до 65 мс), что примерно в два раза быстрее, чем у имеющихся в открытом доступе существующих моделей.Опубликованный в открытом доступе вариант hertz-dev построен с использованием архитектуры трансформер.

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA