OpenAI於2025年8月28日宣布,將其即時API(Realtime API)推向一般可用階段,並同步發表了迄今為止最先進的語音對語音模型GPT-Realtime。這項更新標誌著語音AI技術的重大進展,為開發者和企業開啟了打造更自然、更高效互動體驗的新篇章。
GPT-Realtime模型代表了語音AI處理方式的根本性轉變。有別於傳統需要將語音轉換為文字、再由語言模型處理、最後轉換回語音的複雜流程,GPT-Realtime能夠直接處理和生成音訊。這種端對端的架構大幅降低了延遲,同時保留了語音中的細微差別,例如語氣、情感和非語言線索(如笑聲),使得對話更加流暢且富有人性。根據內部評估,GPT-Realtime在理解複雜指令、精確調用工具以及生成自然且富有表現力的語音方面均有顯著提升。在Big Bench Audio基準測試中,其推理能力準確度高達82.8%,較OpenAI於2024年12月發布的模型提升了17.2%。此外,在指令遵循和複雜功能調用方面的表現也大幅優於前代模型。
為了進一步擴展語音代理的功能,OpenAI在即時API中新增了多項企業級功能。其中包括支援遠端模型上下文協定(MCP)伺服器,讓開發者能夠更輕鬆地將外部工具和服務整合至模型中,無需進行客製化整合。同時,新增的圖像輸入功能,讓模型能夠理解視覺內容,進一步豐富對話的維度。此外,支援SIP(Session Initiation Protocol)電話呼叫整合,使得語音代理能夠直接連接到傳統的電話網路和PBX系統,實現數位AI與傳統電信基礎設施的無縫對接。這些功能的加入,旨在為開發者提供更強大的工具,以建構更具備情境感知和多模態能力的語音代理。
OpenAI在定價策略上也展現了積極擴大市場的企圖。GPT-Realtime模型相較於先前版本,價格降低了20%,每百萬個音訊輸入代幣的價格為32美元,每百萬個音訊輸出代幣為64美元。此舉不僅降低了開發者的使用門檻,也預示著語音AI市場競爭的日益激烈。據悉,已有如Zillow、T-Mobile等公司在早期測試中展現了GPT-Realtime的強大潛力,例如在房地產搜尋和客戶服務等領域,都能提供更自然、更具效率的互動體驗。此次更新也帶來了兩款全新的語音選項:Cedar和Marin,為開發者提供了更多選擇來打造獨特的語音體驗。總體而言,OpenAI的即時API和GPT-Realtime模型不僅是技術上的重大突破,更是對語音AI未來發展方向的有力指引,預計將深刻影響客戶服務、教育、醫療等眾多行業的互動模式。