OpenAI Lanceert Realtime API en GPT-Realtime Model voor Geavanceerde Spraak-AI

Bewerkt door: Veronika Radoslavskaya

OpenAI heeft de algemene beschikbaarheid van hun Realtime API aangekondigd, samen met de introductie van het GPT-Realtime model. Deze ontwikkeling markeert een significante vooruitgang in spraak-AI, met als doel natuurlijkere en efficiëntere interacties voor ontwikkelaars en bedrijven mogelijk te maken.

Het nieuwe GPT-Realtime model is OpenAI's meest geavanceerde spraak-naar-spraak model tot nu toe. In tegenstelling tot traditionele methoden die spraak eerst omzetten naar tekst en vervolgens weer naar spraak, verwerkt GPT-Realtime audio direct. Dit resulteert in een aanzienlijk lagere latentie en een beter behoud van subtiele spraaknuances, zoals non-verbale signalen, pauzes en intonatie. Benchmarks laten een verbetering zien in redeneervermogen, met een score van 82,8% op de Big Bench Audio-test, een stijging van 17% ten opzichte van eerdere modellen. Ook de nauwkeurigheid bij het volgen van instructies en het uitvoeren van functies is verbeterd, met scores die respectievelijk 9,9% en 16,8% hoger liggen.

De Realtime API is uitgebreid met nieuwe functies die de integratie en toepassingen vergemakkelijken. Zo is er nu ondersteuning voor WebRTC en Session Initiation Protocol (SIP) voor telefoongesprekken, wat naadloze integratie met bestaande communicatie-infrastructuren mogelijk maakt. Daarnaast kunnen ontwikkelaars nu beeldinvoer gebruiken voor visuele analyse tijdens gesprekken en zijn er herbruikbare prompts beschikbaar om de efficiëntie te verhogen. OpenAI heeft ook twee nieuwe stemmen geïntroduceerd, Cedar en Marin, die exclusief beschikbaar zijn via de Realtime API.

De prijsstelling voor de Realtime API is met 20% verlaagd ten opzichte van eerdere tarieven, wat de technologie toegankelijker maakt voor een breder publiek. De nieuwe tarieven bedragen $32 per miljoen audio-invoer-tokens en $64 per miljoen audio-uitvoer-tokens. Dit strategische prijsbesluit onderstreept OpenAI's ambitie om de adoptie van geavanceerde spraak-AI te stimuleren.

Deze vooruitgang in spraak-AI heeft aanzienlijke implicaties voor diverse sectoren, waaronder klantenservice, onderwijs en persoonlijke assistentie. De mogelijkheid om natuurlijkere, meer responsieve en emotioneel intelligente interacties te creëren, kan de klantervaring transformeren. Bedrijven kunnen nu efficiëntere, 24/7 beschikbare ondersteuning bieden die zowel gepersonaliseerd als empathisch is. De integratie van beeldherkenning en verbeterde taalverwerking opent deuren naar nieuwe, innovatieve toepassingen die de manier waarop we communiceren met technologie fundamenteel veranderen.

Bronnen

  • WebProNews

  • Introducing gpt-realtime and Realtime API updates for production voice agents

  • o1 and new tools for developers

  • Realtime API | OpenAI Help Center

  • OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet

  • OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

Heb je een fout of onnauwkeurigheid gevonden?

We zullen je opmerkingen zo snel mogelijk in overweging nemen.