Исследовательская группа Amazon по искусственному интеллекту анонсировала разработку самой большой на данный момент модели для преобразования текста в речь.
Под «самой большой» подразумевается количество параметров и объем данных, использованных для обучения.Представленная модель под названием BASE TTS содержит 980 млн параметров.
Ее обучали на 100 000 часов аудиозаписей речи с публичных ресурсов, в основном на английском языке.Также системе продемонстрировали примеры разговорных фраз на других языках, чтобы она могла правильно произносить распространенные выражения.В ходе тестирования на небольших данных команда Amazon выявила «скачок» в качестве синтеза речи при достижении 150 млн параметров.
Читать на gagadget.com