Тианле Цай, аспирант Принстонского университета, изучающий эффективность вывода в больших языковых моделях, получил доступ к библиотеке токенов GPT-4o и извлёк список из 100 самых длинных китайских токенов, которые ИИ использует для анализа и вывода подсказок на китайском языке.
Ранее пользователи из КНР пожаловались, что GPT-4o выдаёт ответы со спамом и элементами порно.Из 100 токенов только три кодировали информацию, используемую в повседневных беседах; остальные представляли собой слова и выражения, которые обычно употребляются в контексте азартных игр или порнографии.
Самый длинный токен, состоящий из 10,5 китайских иероглифов, буквально означает «бесплатное японское порновидео для просмотра».
Читать на habr.com