За несколько недель до выпуска новейшей рассуждающей модели OpenAI, o1, независимая исследовательская компания Apollo, занимающаяся исследованиями безопасности искусственного интеллекта, обнаружила заметную проблему.
Apollo поняла, что модель выдает неверные результатыпо-новому. Или, говоря более разговорным языком, она лжёт.Иногда обман казался безобидным.
В одном примере исследователи OpenAI попросили o1-preview предоставить рецепт брауни с онлайн-ссылками. Ход мыслей модели, функция, которая должна имитировать то, как люди разбивают сложные идеи, внутренне признал, что она не может получить доступ к URL-адресам, что делает запрос невозможным.
Читать на habr.com