daniilshat Китай токен daniilshat Китай
/ habr.com

Alibaba представила мультимодальную нейросеть, которая может за четыре секунды проанализировать двухчасовое видео

Инженеры китайской компании Alibaba представили мультимодальную модель машинного обучения mPLUG-Owl3. С её помощью можно анализировать текст, изображения и видео.

Разработчики делают упор именно на скорость работы нейросети, отмечая, что на обработку двухчасового видео уйдёт всего четыре секунды.В основе mPLUG-Owl3 используется модель Qwen2, которую доработали и оптимизировали.

Благодаря этому в шесть раз сократилось время ожидания первого токена, а на одной видеокарте A100 можно обрабатывать по 400 изображений в секунду.

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA