26.10.2024 - 13:22 / habr.com

Stability AI опубликовала Stable Diffusion 3.5 Large — модель text-to-image с 8 млрд. параметров

В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера: 🟢 OpenCLIP-ViT/G; 🟢 CLIP-ViT/L;🟢 T5-xxl.

OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.⚠️ Инференс квантованной NF4-версии на ограниченных VRAM⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.В целом, модель выглядит лучше 3-й версии.

Местами лучше FLUX, метсами хуже. Подтянули эстетику и фотореализм, но согласованность в анатомии все еще не очень.

общество самит крипто США

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Почти как у сиквела: опубликованы подробные системные требования Horizon Zero Dawn Remastered gagadget.com / 6 дней назад

Reuters: Meta* выпускает модель искусственного интеллекта, которая может проверять работу других ИИ-моделей habr.com / 1 неделю назад

Стейблкоин Tether достиг рекордной капитализации в $120 млрд ilenta.com / 1 неделю назад

Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают