OpenAI放出了最新语音模型:GPT-Realtime,用于语音Agent的多模态模型,支持图像输入
GPT-realtime备智力、推理和理解能力 比如,能敏锐捕捉笑声等非语言信号,在句子中间自如切换语言,根据场景需求灵活调整语气
在BigBenchAudio上准确率达到了82.8%
对指令遵循能力做了深度优化,在MultiChallenge上,指令遵循准确率从20.6%提升到30.5%
支持图像输入、远程 MCP、SIP电话呼叫
可以对对话上下文精细控制功能
API:https://platform.openai.com/docs/guides/realtime