Робин Спир, создательница проекта Wordfreq по анализу использования языка людьми в интернете, объявила о его закрытии. По её словам, нейросети слишком сильно загрязнили данные, из-за чего анализ стал невозможен.Wordfreq — это программа, которая отслеживала, как люди используют более 40 различных языков, анализируя статьи в «Википедии», субтитры к фильмам и передачам, новости, книги и посты в соцсетях, таких как Twitter и Reddit.
Система предназначена для оценки меняющихся языковых привычек, сленга и популярной культуры. На странице проекта на GitHub Робин Спир написала, что проект «больше не будет обновляться».«Генеративный ИИ загрязнил данные.
Я не думаю, что у кого-то после 2021 года есть надёжная информация об использовании языка людьми», — написала она.Спир напоминает, что веб-скрейпинг был важной частью источников данных для проекта, но «теперь весь интернет полон мусора, сгенерированного большими языковыми моделями, который написан никем и ничего не сообщает.
Читать на habr.com