Исследователи из Transluce – только что анонсированной некоммерческой ИИ лаборатории – создали инструмент Monitor, который поможет людям наблюдать, понимать и управлять внутренними вычислениями языковых моделей.
В ходе экспериментов ученые рассмотрели несколько известных задач, в которых LLM традиционно ошибаются, и выяснили, с чем могут быть связаны такие галлюцинации.
LLM – черный ящик. Мы можем наблюдать только входы и выходы модели, но отследить ее "мысли", то есть проанализировать глубокие процессы активации миллиардов нейронов – довольно нетривиальная задача.
Читать на habr.com