По данным The Information, OpenAI представила некоторым клиентам новую мультимодальную модель искусственного интеллекта, которая способна общаться и распознавать объекты.Она предлагает более быструю и точную интерпретацию изображений и аудио, чем существующие модели транскрипции и преобразования текста в речь.
Потенциально модель может использоваться в работе служб поддержки, так как она позволит «лучше понимать интонацию голосов звонящих».Источники утверждают, что модель может превзойти GPT-4 Turbo в «ответах на некоторые типы вопросов», но всё же склонна к ошибкам.
Возможно, OpenAI также готовит новую встроенную опцию ChatGPT для телефонных звонков. Разработчик Ананай Арора опубликовал скриншоты с кодом, связанным с вызовами.
Читать на habr.com