Датасет LAION-5B содержит более 5 млрд изображений и служит учебной базой для многих нейросетей, таких, как Stable Diffusion.
Согласно недавнему исследованию Стэнфордской Интернет-обсерватории, в наборе данных также обнаружены тысячи фрагментов с жестоким обращением с детьми, которые могут способствовать созданию опасного реалистического контента в генераторах изображений.
Представитель организации, стоящей за LAION-5B, заявил, что они соблюдают «политику нулевой терпимости» к незаконному контенту и временно удаляют набор данных, чтобы убедиться в его безопасности и переопубликовать. «Этот отчет сосредоточен на наборе данных LAION-5B в целом.
Читать на itc.ua