Исследователи нашли более эффективный способ помочь моделям искусственного интеллекта изучать математику. Их новый подход, названный PRIME, дает лучшие результаты, используя лишь часть обучающих данных, необходимых другим методам.Команда протестировала свой метод на модели под названием Eurus-2-7B-PRIME, которая основана на существующей системе Qwen 2.5 Math 7B.
После обучения с использованием PRIME (Process Reinforcement through Implicit Rewards) производительность модели увеличилась с 32,2% до 48,9% по математическим бенчмаркам — значительное улучшение на 16,7 процентных пункта.Эти результаты особенно впечатляют по сравнению с более крупными моделями.
GPT-4o достигает 43,3%, тогда как Llama-3.1-70B-Instruct достигает 35,7%. Даже специализированная Qwen-2.5-Math-7B-Instruct показывает более низкие результаты — 43,8%.Наибольшие улучшения наблюдались в Американском Пригласительном Математическом Экзамене (AIME), одном из самых сложных математических конкурсов для школьников.
Читать на habr.com