OpenAI ogłosiło generalnie dostępne API Realtime oraz swój najbardziej zaawansowany model mowy do mowy, GPT-Realtime. Ta premiera stanowi znaczący krok naprzód w dziedzinie sztucznej inteligencji głosowej, oferując deweloperom i przedsiębiorstwom narzędzia do tworzenia bardziej naturalnych i wydajnych interakcji głosowych.
GPT-Realtime, wprowadzony 28 sierpnia 2025 roku, jest następcą wcześniejszych modeli i stanowi kulminację prac nad udoskonaleniem komunikacji człowiek-maszyna. Nowy model wyróżnia się znaczącymi ulepszeniami w zakresie rozumienia i wykonywania złożonych poleceń, precyzyjnego wywoływania narzędzi oraz generowania bardziej naturalnej i ekspresyjnej mowy. Zdolność modelu do interpretowania wiadomości systemowych i poleceń deweloperów, takich jak odczytywanie skryptów z dokładnością słowo w słowo, powtarzanie sekwencji alfanumerycznych czy płynne przełączanie się między językami w trakcie rozmowy, otwiera nowe możliwości dla aplikacji głosowych. GPT-Realtime potrafi również wychwytywać subtelne niuanse, takie jak śmiech czy zmiany tonu, co sprawia, że interakcje stają się bardziej ludzkie i angażujące.
Wewnętrzne oceny wskazują na znaczący wzrost dokładności w rozpoznawaniu sekwencji alfanumerycznych w różnych językach, a także na poprawę w benchmarkach oceniających zdolności rozumowania i podążania za instrukcjami. Model osiągnął 82,8% dokładności w teście Big Bench Audio, co stanowi 17% poprawę w stosunku do poprzedniego modelu OpenAI. W benchmarku MultiChallenge, oceniającym dokładność w podążaniu za instrukcjami, GPT-Realtime uzyskał 30,5% (wzrost o 9,9% w porównaniu do poprzedniego modelu), a w ComplexFuncBench, mierzącym wydajność wywoływania funkcji, model osiągnął 66,5% (wzrost o 16,8%).
API Realtime zostało wzbogacone o nowe funkcje, w tym wsparcie dla protokołu MCP (Model Context Protocol), które ułatwia integrację z centrami danych, obsługę wejścia obrazu, umożliwiającą analizę wizualną podczas rozmów, oraz protokół SIP (Session Initiation Protocol) dla integracji z telefonią. Te rozszerzenia pozwalają na tworzenie bardziej wszechstronnych i kontekstowych agentów głosowych, zdolnych do wykonywania szerokiego zakresu zadań. OpenAI obniżyło również ceny GPT-Realtime o 20% w porównaniu do poprzednich wersji, co czyni technologię bardziej dostępną. Nowe stawki wynoszą 32 USD za milion tokenów wejściowych audio i 64 USD za milion tokenów wyjściowych audio, z ceną 0,40 USD za milion tokenów wejściowych audio w pamięci podręcznej. Dodatkowo, wprowadzono funkcje takie jak inteligentne limity tokenów i możliwość przycinania wielu tur rozmowy jednocześnie, co znacząco obniża koszty długich sesji.
Te innowacje mają potencjał zrewolucjonizować wiele branż, od obsługi klienta i edukacji po asystentów osobistych. Firmy takie jak Zillow wykorzystują już te technologie do usprawnienia procesów wyszukiwania nieruchomości i doradztwa finansowego. Wprowadzenie GPT-Realtime i ulepszonego API Realtime przez OpenAI stanowi kluczowy moment w rozwoju sztucznej inteligencji głosowej, otwierając drzwi do bardziej intuicyjnych, wydajnych i naturalnych interakcji między ludźmi a maszynami.