Разработчики платформы Hugging Face представили SmolTalk — синтетический англоязычный датасет для обучения больших языковых моделей.
Он включает в себя существующие и новые наборы данных. С его помощью Hugging Face обучала нейросеть SmolLM2.Датасет состоит почти из 2,2 млн строк данных, а его размер составляет более 4 ГБ.
Разработчики заметили, что языковые модели, обученные на открытых данных, оказываются менее эффективными, если сравнивать их с нейросетями на основе проприетарных датасетов.
Читать на habr.com