Исследователи Apple создали новый искусственный интеллект MM1, способный интерпретировать как изображения, так и текстовые данные.
Компания опубликовала документ на arXiv, описывающий семейство мультимодальных моделей (MLLM) и результаты их тестирования.По данным разработчиков, семейство мультимодальных моделей MM1 достигло значительных успехов в задачах создания подписей к изображениям, визуального ответа на вопросы и поисковых запросов путем интеграции текста и графических данных.
Некоторые из них включают до 30 млрд параметров.Модели используют наборы данных, состоящие из изображений с подписями, документов с изображениями и чистого текста.
Читать на gagadget.com