OpenAI推出即時API與GPT-Realtime模型，語音AI能力邁向新紀元

19:16, 29 八月

编辑者： Veronika Radoslavskaya

OpenAI於2025年8月28日宣布，將其即時API（Realtime API）推向一般可用階段，並同步發表了迄今為止最先進的語音對語音模型GPT-Realtime。這項更新標誌著語音AI技術的重大進展，為開發者和企業開啟了打造更自然、更高效互動體驗的新篇章。

GPT-Realtime模型代表了語音AI處理方式的根本性轉變。有別於傳統需要將語音轉換為文字、再由語言模型處理、最後轉換回語音的複雜流程，GPT-Realtime能夠直接處理和生成音訊。這種端對端的架構大幅降低了延遲，同時保留了語音中的細微差別，例如語氣、情感和非語言線索（如笑聲），使得對話更加流暢且富有人性。根據內部評估，GPT-Realtime在理解複雜指令、精確調用工具以及生成自然且富有表現力的語音方面均有顯著提升。在Big Bench Audio基準測試中，其推理能力準確度高達82.8%，較OpenAI於2024年12月發布的模型提升了17.2%。此外，在指令遵循和複雜功能調用方面的表現也大幅優於前代模型。

為了進一步擴展語音代理的功能，OpenAI在即時API中新增了多項企業級功能。其中包括支援遠端模型上下文協定（MCP）伺服器，讓開發者能夠更輕鬆地將外部工具和服務整合至模型中，無需進行客製化整合。同時，新增的圖像輸入功能，讓模型能夠理解視覺內容，進一步豐富對話的維度。此外，支援SIP（Session Initiation Protocol）電話呼叫整合，使得語音代理能夠直接連接到傳統的電話網路和PBX系統，實現數位AI與傳統電信基礎設施的無縫對接。這些功能的加入，旨在為開發者提供更強大的工具，以建構更具備情境感知和多模態能力的語音代理。

OpenAI在定價策略上也展現了積極擴大市場的企圖。GPT-Realtime模型相較於先前版本，價格降低了20%，每百萬個音訊輸入代幣的價格為32美元，每百萬個音訊輸出代幣為64美元。此舉不僅降低了開發者的使用門檻，也預示著語音AI市場競爭的日益激烈。據悉，已有如Zillow、T-Mobile等公司在早期測試中展現了GPT-Realtime的強大潛力，例如在房地產搜尋和客戶服務等領域，都能提供更自然、更具效率的互動體驗。此次更新也帶來了兩款全新的語音選項：Cedar和Marin，為開發者提供了更多選擇來打造獨特的語音體驗。總體而言，OpenAI的即時API和GPT-Realtime模型不僅是技術上的重大突破，更是對語音AI未來發展方向的有力指引，預計將深刻影響客戶服務、教育、醫療等眾多行業的互動模式。

來源

WebProNews
Introducing gpt-realtime and Realtime API updates for production voice agents
o1 and new tools for developers
Realtime API | OpenAI Help Center
OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet
OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

閱讀更多有關此主題的新聞：

30 九月

OpenAI 推出 Sora 2：iOS 平台先進 AI 影音生成應用程式現已開放

30 九月

Opera Neon 瀏覽器：開啟智慧網頁導航新紀元

26 九月

Google DeepMind 推出 Gemini Robotics 1.5 與 Gemini Robotics-ER 1.5，大幅提升機器人自主性與適應力

发现错误或不准确的地方吗？

我们会尽快处理您的评论。

通知中心

通知中心

OpenAI推出即時API與GPT-Realtime模型，語音AI能力邁向新紀元

來源

閱讀更多有關此主題的新聞：