OpenAI发布实时API与GPT-Realtime模型，语音AI能力迈入新纪元

19:16, 29 八月

编辑者： Veronika Radoslavskaya

OpenAI于2025年8月28日正式宣布，其实时API（Realtime API）已全面可用，并推出了其最先进的语音到语音模型——GPT-Realtime。此次更新标志着语音人工智能领域的一大飞跃，为开发者和企业带来了更自然、更高效的人机交互体验。

GPT-Realtime模型的核心在于其能够直接处理和生成音频，而非依赖于传统的语音转文本再转语音的流程。这种端到端的处理方式显著降低了延迟，并能更好地捕捉和传达语音中的细微差别，如语气、情感甚至非语言线索（如笑声）。该模型在理解复杂指令、精确调用工具以及生成更具表现力的语音方面均有显著提升。在性能基准测试中，GPT-Realtime在Big Bench Audio推理能力测试中达到了82.8%的准确率，相较于其2024年12月的模型有了显著进步。在指令遵循方面，MultiChallenge音频基准测试显示其准确率从20.6%提升至30.5%。功能调用能力也在ComplexFuncBench音频评估中从49.7%提高到66.5%。

此次更新还为实时API带来了多项新功能，包括对远程MCP服务器的支持、图像输入能力以及通过SIP协议进行电话呼叫的支持。这些新特性极大地扩展了语音AI的应用场景，使得开发者能够构建更具集成性和交互性的应用。例如，图像输入功能允许模型在对话中理解视觉内容，而SIP集成则能将AI语音代理无缝连接到传统的电话网络。

在定价方面，OpenAI宣布将GPT-Realtime的价格降低了20%，音频输入每百万token的价格为32美元，音频输出为64美元。这一价格调整使得更先进的语音AI技术更加触手可及，有望加速其在各行业的应用。

此次发布不仅是OpenAI在语音AI领域的一次重大技术突破，也预示着人机交互将朝着更加自然、智能的方向发展。从客户服务到个人助理，GPT-Realtime模型及其实时API有望重塑我们与数字世界的互动方式，为企业和开发者带来前所未有的机遇。

来源

WebProNews
Introducing gpt-realtime and Realtime API updates for production voice agents
o1 and new tools for developers
Realtime API | OpenAI Help Center
OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet
OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

通知中心

通知中心

OpenAI发布实时API与GPT-Realtime模型，语音AI能力迈入新纪元

来源

阅读更多关于该主题的新闻：