Answer.AI и LightOn объявили о выпуске ModernBERT, новой модели обработки естественного языка с открытым исходным кодом, которая превосходит BERT от Google по скорости, эффективности и качеству.
Согласно сообщению в блоге разработчиков, эта модель, работающая только с энкодером, обрабатывает текст в четыре раза быстрее своего предшественника, используя при этом меньше памяти.
Команда обучила ModernBERT на 2 триллионах токенов из веб-документов, программного кода и научных статей.ModernBERT может работать с текстами длиной до 8192 токенов, что в 16 раз больше типичного предела в 512 токенов для существующих моделей-энкодеров.
Читать на habr.com