maybeelf Китай самит инвестор google крипто токен maybeelf Китай
/ habr.com

Данные обучения китайских токенов GPT-4o оказались заспамлены и содержат порнозапросы

Тианле Цай, аспирант Принстонского университета, изучающий эффективность вывода в больших языковых моделях, получил доступ к библиотеке токенов GPT-4o и извлёк список из 100 самых длинных китайских токенов, которые ИИ использует для анализа и вывода подсказок на китайском языке.

Ранее пользователи из КНР пожаловались, что GPT-4o выдаёт ответы со спамом и элементами порно.Из 100 токенов только три кодировали информацию, используемую в повседневных беседах; остальные представляли собой слова и выражения, которые обычно употребляются в контексте азартных игр или порнографии.

Самый длинный токен, состоящий из 10,5 китайских иероглифов, буквально означает «бесплатное японское порновидео для просмотра».

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA