OpenAI发布实时API与GPT-Realtime模型,语音AI能力迈入新纪元

编辑者: Veronika Radoslavskaya

OpenAI于2025年8月28日正式宣布,其实时API(Realtime API)已全面可用,并推出了其最先进的语音到语音模型——GPT-Realtime。此次更新标志着语音人工智能领域的一大飞跃,为开发者和企业带来了更自然、更高效的人机交互体验。

GPT-Realtime模型的核心在于其能够直接处理和生成音频,而非依赖于传统的语音转文本再转语音的流程。这种端到端的处理方式显著降低了延迟,并能更好地捕捉和传达语音中的细微差别,如语气、情感甚至非语言线索(如笑声)。该模型在理解复杂指令、精确调用工具以及生成更具表现力的语音方面均有显著提升。在性能基准测试中,GPT-Realtime在Big Bench Audio推理能力测试中达到了82.8%的准确率,相较于其2024年12月的模型有了显著进步。在指令遵循方面,MultiChallenge音频基准测试显示其准确率从20.6%提升至30.5%。功能调用能力也在ComplexFuncBench音频评估中从49.7%提高到66.5%。

此次更新还为实时API带来了多项新功能,包括对远程MCP服务器的支持、图像输入能力以及通过SIP协议进行电话呼叫的支持。这些新特性极大地扩展了语音AI的应用场景,使得开发者能够构建更具集成性和交互性的应用。例如,图像输入功能允许模型在对话中理解视觉内容,而SIP集成则能将AI语音代理无缝连接到传统的电话网络。

在定价方面,OpenAI宣布将GPT-Realtime的价格降低了20%,音频输入每百万token的价格为32美元,音频输出为64美元。这一价格调整使得更先进的语音AI技术更加触手可及,有望加速其在各行业的应用。

此次发布不仅是OpenAI在语音AI领域的一次重大技术突破,也预示着人机交互将朝着更加自然、智能的方向发展。从客户服务到个人助理,GPT-Realtime模型及其实时API有望重塑我们与数字世界的互动方式,为企业和开发者带来前所未有的机遇。

来源

  • WebProNews

  • Introducing gpt-realtime and Realtime API updates for production voice agents

  • o1 and new tools for developers

  • Realtime API | OpenAI Help Center

  • OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet

  • OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。

OpenAI发布实时API与GPT-Realtime模型,语音AI能力迈入新纪元 | Gaya One