daniilshat технологии самит google крипто daniilshat
/ habr.com

Разработчики представили Reader-LM — языковую модель для конвертации HTML в Markdown

Разработчики Jina AI представили семейство языковых моделей Reader-LM, предназначенных для конвертации HTML в Markdown. Во время конвертации нейросеть удаляет лишнее из файла веб-разметки, структурирует информацию и записывает в формате .md.Семейство Reader-LM доступно в компактных размерах 0,5B и 1,5B.

При этом контекстное окно в 256 тыс. токенов. Модели мультиязычные, а обучали их на наборе синтетических данных, состоящих из пар «HTML-Markdown».

Всего в корпус обучающих данных вошло 2,5 млрд токенов. Пары сгенерировали с помощью Jina Reader API и GPT-4o.Производительность Reader-LM сравнили с большими языковыми моделями GPT-4o, Gemini-1.5-Flash, Gemini-1.5-Pro, LLaMA-3.1-70B и Qwen2-7B-Instruct.

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA