13.07.2024 - 00:54 / habr.com

С помощью блок-схем можно заставить GPT-4o выдавать заблокированный текстовый ответ

Исследователи выяснили, что изображения блок-схемы обманом заставляют GPT-4o создавать вредоносный текст. Они передавали чат-боту эти изображения со схемами вредоносной деятельности вместе с текстовой подсказкой.Вероятность успеха атаки составила 92,8%.

В случае с версией GPT-4-vision-preview он был немного ниже и достигал 70%.Исследователи разработали автоматизированную платформу для джейлбрейка, которая могла сначала генерировать изображение блок-схемы из вредоносного текстового приглашения, а затем передавать его в модель для получения результата.

Для неё использовали 520 вредоносных моделей поведения из набора данных AdvBench, чтобы создавать изображения блок-схем. Модель просили подробно описать, что происходит на картинке, добавив как можно больше деталей.

maybeelf

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Браузер Arc получил встроенную блокировку рекламы habr.com / 1 месяц назад

Вышел симулятор электронных схем с открытым кодом Qucs-S v24.3.0 habr.com / 1 месяц назад

Samsung Galaxy Ring можно использовать с любым смартфоном Android habr.com / 1 месяц назад

Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают