AnnieBronson Twitter люди общество самит reddit AnnieBronson Twitter
/ habr.com

Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком загрязнили данные

Робин Спир, создательница проекта Wordfreq по анализу использования языка людьми в интернете, объявила о его закрытии. По её словам, нейросети слишком сильно загрязнили данные, из-за чего анализ стал невозможен.Wordfreq — это программа, которая отслеживала, как люди используют более 40 различных языков, анализируя статьи в «Википедии», субтитры к фильмам и передачам, новости, книги и посты в соцсетях, таких как Twitter и Reddit.

Система предназначена для оценки меняющихся языковых привычек, сленга и популярной культуры. На странице проекта на GitHub Робин Спир написала, что проект «больше не будет обновляться».«Генеративный ИИ загрязнил данные.

Я не думаю, что у кого-то после 2021 года есть надёжная информация об использовании языка людьми», — написала она.Спир напоминает, что веб-скрейпинг был важной частью источников данных для проекта, но «теперь весь интернет полон мусора, сгенерированного большими языковыми моделями, который написан никем и ничего не сообщает.

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA