Команда платформы Hugging Face выпустила коллекцию компактных визуально-текстовых моделей машинного обучения SmolVLM. Их главное преимущество в том, что модели можно развернуть локально на устройстве с ограниченными ресурсами.
Код проекта открыт.Коллекция состоит из четырёх моделей:SmolVLM Base — для файнтюнинга;SmolVLM Synthetic — с синтетическими данными;SmolVLM Instruct — настроенные инструкции для использования в приложениях.VLM (Vision-Language Model) — тип мультимодальных моделей машинного обучения, которые объединяют обработку визуальных и текстовых данных.
Они предназначены для распознавания связей между текстом и образами на изображениях или видео. Модели построена на архитектуре Idefics3, которую авторы проекта модернизировали.
Читать на habr.com