Компания Mozilla представила в открытом доступе обновлённые наборы голосовых данных Common Voice с примерами произношения более 200 тысяч человек.
Их можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Объём речевого материала в коллекции увеличился с 31.8 до 32.6 тысяч часов, из которых более 20 тысяч часов прошли процедуру проверки.
Одновременно число поддерживаемых языков увеличилось со 129 до 131.Для англоязычных записей использовали голоса 93,9 тысяч человек.
Читать на habr.com