Команда Yandex Research совместно с исследователями IST Austria и Kaust разработала и опубликовала в свободном доступе новые методы сжатия больших языковых моделей.
По словам разработчиков, эти методы позволяют сократить бизнесу расходы на вычислительные ресурсы до восьми раз. Чтобы большая языковая модель отвечала качественно и быстро, требуется множество дорогостоящих мощных графических процессоров.
Решение «Яндекса» позволяет уменьшить модель в несколько раз. Это сокращает количество необходимых для работы процессоров и позволяет запустить её на устройствах с меньшей вычислительной мощностью.
Читать на habr.com