Команда Mozilla Ocho, которая разрабатывает экспериментальные функции браузера Firefox, сейчас занимается технологией локального перевода аудио в текст.
Проект построен на базе Llamafile — другой разработки Mozilla, предназначенной для простого распространения моделей машинного обучения в виде всего одного файла.Технология получила название Whisperfile, а разработали её на базе модели машинного обучения Whisper от OpenAI.
Помимо расшифровки аудио поддерживается и перевод на английский язык. В исполняемый файл Whisperfile упакованы веса нейросети, поэтому её можно без проблем запустить на Linux, MacOS, Windows, FreeBSD, NetBSD (AMD64 и ARM64) и OpenBSD.Система может обрабатывать аудио в форматах WAV, MP3, OGG или FLAC.
Читать на habr.com