daniilshat Microsoft Apache daniilshat Microsoft
/ habr.com

Hugging Face выпустила SmolTalk — синтетический датасет для обучения языковых моделей

Разработчики платформы Hugging Face представили SmolTalk — синтетический англоязычный датасет для обучения больших языковых моделей.

Он включает в себя существующие и новые наборы данных. С его помощью Hugging Face обучала нейросеть SmolLM2.Датасет состоит почти из 2,2 млн строк данных, а его размер составляет более 4 ГБ.

Разработчики заметили, что языковые модели, обученные на открытых данных, оказываются менее эффективными, если сравнивать их с нейросетями на основе проприетарных датасетов.

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA