maybeelf Китай самит инвестор google крипто токен maybeelf Китай

Данные обучения китайских токенов GPT-4o оказались заспамлены и содержат порнозапросы

habr.com

Тианле Цай, аспирант Принстонского университета, изучающий эффективность вывода в больших языковых моделях, получил доступ к библиотеке токенов GPT-4o и извлёк список из 100 самых длинных китайских токенов, которые ИИ использует для анализа и вывода подсказок на китайском языке.

Ранее пользователи из КНР пожаловались, что GPT-4o выдаёт ответы со спамом и элементами порно.Из 100 токенов только три кодировали информацию, используемую в повседневных беседах; остальные представляли собой слова и выражения, которые обычно употребляются в контексте азартных игр или порнографии.

Самый длинный токен, состоящий из 10,5 китайских иероглифов, буквально означает «бесплатное японское порновидео для просмотра».

Все новости дня

Change privacy settings
На этой странице могут использоваться файлы cookie, если они требуются поставщику аналитики.