Компания Microsoft представила нейросеть Kosmos-1, которая объединяет в качестве входных данных текст, изображения, аудио- и видеоконтент.
Исследователи назвали систему «мультимодальной большой языковой моделью». По их мнению, подобные алгоритмы станут основой общего ИИ (AGI), который сможет выполнять задачи на уровне человека. «Будучи базовой частью интеллекта, мультимодальное восприятие необходимо для достижения AGI с точки зрения приобретения знаний и привязки к реальному миру», —заявили исследователи.
Согласно примерам из статьи, Kosmos-1 может: анализировать изображения и отвечать на вопросы о них;читать текст с картинок;создавать подписи к изображениям;проходить визуальный IQ-тест с точностью 22–26%.Демонстрация работы нейросети Kosmos-1.
Читать на forklog.com