В России появилась первая платформа на русском языке для оценки качества больших языковых моделей на основе пользовательских задач.
Платформу под названием LLM Arena создал разработчик Роман Куцев в коллаборации с экспертами по нейросетям TrainingData.ru. Платформа позволяет в режиме реального времени тестировать русскоязычные нейросети и оценивать качество их ответов в соответствии с запросом.
Для сравнения пользователю платформы предлагаются две случайные модели. Он может написать любой запрос, сравнить ответы моделей и выбрать лучшие.
Читать на habr.com