OpenAI放出了最新语音模型：GPT-Realtime，用于语音Agent的多模态模型，支持图像输入 | Notion

OpenAI放出了最新语音模型：GPT-Realtime，用于语音Agent的多模态模型，支持图像输入

GPT-realtime备智力、推理和理解能力比如，能敏锐捕捉笑声等非语言信号，在句子中间自如切换语言，根据场景需求灵活调整语气

在BigBenchAudio上准确率达到了82.8%

对指令遵循能力做了深度优化，在MultiChallenge上，指令遵循准确率从20.6%提升到30.5%

支持图像输入、远程 MCP、SIP电话呼叫

可以对对话上下文精细控制功能

API：https://platform.openai.com/docs/guides/realtime

3KSjVIroP64ZO2_Y.mp4