Сайт The Atlantic исследовал набор данных, который использовался для обучения моделей ИИ, принадлежащих Apple, Anthropic и Nvidia в частности, и обнаружил, что опасения работников киноотрасли относительно новой технологии далеко небезосновательны.В набор были включены элементы из 53 000 фильмов и 85 000 сериалов: в частности все ленты, номинированные на «лучший фильм» в течение 1950-2016 годов, около 600 эпизодов «Симпсонов», 170 эпизодов «Сайнфелда», 45 эпизодов «Твин Пикс», а также все серии «Во все тяжкие» и «Клана Сопрано».
Также набор данных содержал «живые» диалоги из трансляций «Золотого глобуса» и «Оскара». The Atlantic отмечает, что тексты, представленные в наборе данных — не оригинальные сценарии, а субтитры, взятые с сайта OpenSubtitles.org.
Пользователи обычно их извлекают из DVD, Blu-ray и стримингов с помощью программного обеспечения оптического распознавания символов, а дальше загружают на сайт (сейчас там размещено более 9 миллионов файлов с субтитрами на более чем 100 языках и диалектах).
Читать на itc.ua