Apple выпустила модель машинного обучения MGIE (MLLM-Guided Image Editing), предназначенную для редактирования изображений по текстовому описанию.
Нейросеть разрабатывали совместно с исследователями Калифорнийского университета в Санта-Барбаре.MGIE — мультимодальная модель, которая умеет работать с несколькими типами данных.
К примеру, нейросеть может распознавать команды на естественном языке, образы на исходной фотографии и генерировать новые объекты с помощью диффузионной модели.
Читать на habr.com