Разработчики китайской компании Alibaba Group представили обновление семейства языковых моделей Qwen 2.5. Обновили базовую нейросеть и модели, дообученные для решения математических задач и работы с кодом.Qwen версии 2.5 выпустили в шести размерах: 0.5B, 1.5B, 3B, 7B, 14B, 32B и 72B.
Если раньше разработчики уделяли внимание только компактным и большим моделям, то в этот раз опубликовали нейросети среднего размера: 14 и 32 млрд параметров.
Qwen 2.5 обучали на увеличенном датасете, включающем в себя 18 трлн токенов. Отмечается, что нейросеть лучше справляется со сложными задачами, понимает структурированные данные и может генерировать ответы в JSON.Базовая языковая модель, специально дообученная для решения математических задач.
Читать на habr.com