daniilshat связь экономика Apache крипто daniilshat
/ habr.com

Hugging Face выпустила SmolVLM — коллекцию компактных визуально-текстовых моделей

Команда платформы Hugging Face выпустила коллекцию компактных визуально-текстовых моделей машинного обучения SmolVLM. Их главное преимущество в том, что модели можно развернуть локально на устройстве с ограниченными ресурсами.

Код проекта открыт.Коллекция состоит из четырёх моделей:SmolVLM Base — для файнтюнинга;SmolVLM Synthetic — с синтетическими данными;SmolVLM Instruct — настроенные инструкции для использования в приложениях.VLM (Vision-Language Model) — тип мультимодальных моделей машинного обучения, которые объединяют обработку визуальных и текстовых данных.

Они предназначены для распознавания связей между текстом и образами на изображениях или видео. Модели построена на архитектуре Idefics3, которую авторы проекта модернизировали.

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA