OpenAI hat die allgemeine Verfügbarkeit seiner Realtime API bekannt gegeben und gleichzeitig das GPT-Realtime-Modell vorgestellt. Diese Entwicklungen ermöglichen Entwicklern und Unternehmen natürlichere und effizientere Interaktionen mit Sprach-KI.
Die Realtime API, die seit Oktober 2024 in einer Beta-Version verfügbar war, erlaubt nun produktionsreife, multimodale Konversationserlebnisse. Sie unterstützt Text- und Audioeingaben sowie -ausgaben und die Funktion des „Function Calling“. Das Herzstück ist das GPT-Realtime-Modell, OpenAIs fortschrittlichstes Modell für Sprach-zu-Sprache-Konvertierung. GPT-Realtime verarbeitet und generiert Audio direkt, was zu schnelleren und natürlicheren Dialogen führt. Es kann nonverbale Hinweise wie Lachen interpretieren, mitten im Satz die Sprache wechseln und Intonationen sowie Akzente anpassen. Neue Stimmen wie „Cedar“ und „Marin“ verfeinern das Erlebnis.
Die Integration von WebRTC und SIP in die Realtime API erweitert die Einsatzmöglichkeiten erheblich. WebRTC ermöglicht browserbasierte Echtzeitkommunikation, während SIP als Standardprotokoll für Kommunikationssitzungen dient. Diese Kombination erlaubt nahtlose Verbindungen zwischen Webanwendungen und traditionellen Telefonsystemen, was für Branchen wie Kundenservice und Telekommunikation von Vorteil ist. Die API unterstützt zudem Bild-Inputs für visuelle Analysen während Gesprächen.
OpenAI hat die Preisstruktur für die Realtime API optimiert: Die Kosten für Audio-Input-Tokens wurden um 20 % auf 32 US-Dollar pro Million Tokens gesenkt, während Audio-Output-Tokens nun 64 US-Dollar pro Million Tokens kosten. Dies macht die fortschrittliche Sprach-KI-Technologie zugänglicher.
Die Leistung des GPT-Realtime-Modells zeigt sich in Benchmarks: Auf dem „Big Bench Audio“-Test erreichte es eine Genauigkeit von 82,8 %, eine deutliche Verbesserung gegenüber dem Vorgängermodell. Auch bei der Befolgung komplexer Anweisungen und beim Function Calling verzeichnete das Modell signifikante Steigerungen. Diese Fortschritte sind das Ergebnis einer engen Zusammenarbeit mit Kunden aus den Bereichen Kundensupport, persönliche Assistenz und Bildung, um das Modell auf reale Anwendungsfälle abzustimmen.
Die breite Verfügbarkeit der Realtime API und die Leistungsfähigkeit des GPT-Realtime-Modells positionieren OpenAI an der Spitze der Sprach-KI-Entwicklung. Unternehmen können nun fortschrittlichere, natürlichere und kosteneffizientere Sprachschnittstellen für ihre Produkte und Dienstleistungen entwickeln.