OpenAI放出了最新语音模型:GPT-Realtime,用于语音Agent的多模态模型,支持图像输入

GPT-realtime备智力、推理和理解能力 比如,能敏锐捕捉笑声等非语言信号,在句子中间自如切换语言,根据场景需求灵活调整语气

在BigBenchAudio上准确率达到了82.8%

对指令遵循能力做了深度优化,在MultiChallenge上,指令遵循准确率从20.6%提升到30.5%

支持图像输入、远程 MCP、SIP电话呼叫

可以对对话上下文精细控制功能

API:https://platform.openai.com/docs/guides/realtime

image.png

3KSjVIroP64ZO2_Y.mp4