Работу поставили 170 заданий и отправили в комнаты, которую он видел только на видео Довольно долго идея о том, что искусственный интеллект может понимать визуальные и текстовые сигналы так же как человек был частью научной фантастики.
Теперь ИИ может понимать одновременно несколько сигналов. Среди такого заточки — визуально-языковые модели (VLM). Они могут обрабатывать и понимать язык (текст) и видеть (обрабатывать изображения) одновременно.
Команда робототехников из Университета Нью-Йорка, вместе со специалистом по AI в Meta, разработала работа, которая может не только найти описанные объекты в незнакомой комнате, но и поставить их на назначенное место.
Читать на telegraf.com.ua