23.09.2024 - 12:02 / habr.com

Nvidia выпустила NVLM 1.0 – собственную мультимодальную LLM, которая на некоторых тестах опережает GPT-4o

NVLM 1.0 (NVIDIA Vision Language Model) – это семейство открытых мультимодальных LLM, состоящее из моделей NVLM-D (Decoder-only Model), NVLM-X (X-attention Model) и NVLM-H (Hybrid Model) на 34B и 72B.

Модели особенно хорошо показывают себя на визуальных задачах. Например, на бенчмарке OCRBench, который проверяет способность модели считывать текст с картинки, NVLM-D обогнала даже GPT-4o – последнюю мультимодальную модель от OpenAI.

А еще модель понимает мемы, разбирает человеческий почерк и хорошо отвечает на вопросы, чувствительные к точному местоположению чего-либо на картинке.

Nvidia самит стартап google крипто

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Huawei первой выпустила складывающийся втрое телефон charter97.org / 2 дня назад

8BitDo выпустила NGC Retro Receiver, девайс добавляет поддержку сторонних Bluetooth-контроллеров в GameCube и Wii habr.com / 3 дня назад

Вход в Ад стал бесплатным: Blizzard выпустила временную пробную версию Diablo IV для PC, Xbox и PlayStation gagadget.com / 3 дня назад

Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают