OpenAI Uruchamia GPT-Realtime, Rewolucjonizując Sztuczną Inteligencję Głosową

19:16, 29 sierpnia

Edytowane przez: Veronika Radoslavskaya

OpenAI ogłosiło generalnie dostępne API Realtime oraz swój najbardziej zaawansowany model mowy do mowy, GPT-Realtime. Ta premiera stanowi znaczący krok naprzód w dziedzinie sztucznej inteligencji głosowej, oferując deweloperom i przedsiębiorstwom narzędzia do tworzenia bardziej naturalnych i wydajnych interakcji głosowych.

GPT-Realtime, wprowadzony 28 sierpnia 2025 roku, jest następcą wcześniejszych modeli i stanowi kulminację prac nad udoskonaleniem komunikacji człowiek-maszyna. Nowy model wyróżnia się znaczącymi ulepszeniami w zakresie rozumienia i wykonywania złożonych poleceń, precyzyjnego wywoływania narzędzi oraz generowania bardziej naturalnej i ekspresyjnej mowy. Zdolność modelu do interpretowania wiadomości systemowych i poleceń deweloperów, takich jak odczytywanie skryptów z dokładnością słowo w słowo, powtarzanie sekwencji alfanumerycznych czy płynne przełączanie się między językami w trakcie rozmowy, otwiera nowe możliwości dla aplikacji głosowych. GPT-Realtime potrafi również wychwytywać subtelne niuanse, takie jak śmiech czy zmiany tonu, co sprawia, że interakcje stają się bardziej ludzkie i angażujące.

Wewnętrzne oceny wskazują na znaczący wzrost dokładności w rozpoznawaniu sekwencji alfanumerycznych w różnych językach, a także na poprawę w benchmarkach oceniających zdolności rozumowania i podążania za instrukcjami. Model osiągnął 82,8% dokładności w teście Big Bench Audio, co stanowi 17% poprawę w stosunku do poprzedniego modelu OpenAI. W benchmarku MultiChallenge, oceniającym dokładność w podążaniu za instrukcjami, GPT-Realtime uzyskał 30,5% (wzrost o 9,9% w porównaniu do poprzedniego modelu), a w ComplexFuncBench, mierzącym wydajność wywoływania funkcji, model osiągnął 66,5% (wzrost o 16,8%).

API Realtime zostało wzbogacone o nowe funkcje, w tym wsparcie dla protokołu MCP (Model Context Protocol), które ułatwia integrację z centrami danych, obsługę wejścia obrazu, umożliwiającą analizę wizualną podczas rozmów, oraz protokół SIP (Session Initiation Protocol) dla integracji z telefonią. Te rozszerzenia pozwalają na tworzenie bardziej wszechstronnych i kontekstowych agentów głosowych, zdolnych do wykonywania szerokiego zakresu zadań. OpenAI obniżyło również ceny GPT-Realtime o 20% w porównaniu do poprzednich wersji, co czyni technologię bardziej dostępną. Nowe stawki wynoszą 32 USD za milion tokenów wejściowych audio i 64 USD za milion tokenów wyjściowych audio, z ceną 0,40 USD za milion tokenów wejściowych audio w pamięci podręcznej. Dodatkowo, wprowadzono funkcje takie jak inteligentne limity tokenów i możliwość przycinania wielu tur rozmowy jednocześnie, co znacząco obniża koszty długich sesji.

Te innowacje mają potencjał zrewolucjonizować wiele branż, od obsługi klienta i edukacji po asystentów osobistych. Firmy takie jak Zillow wykorzystują już te technologie do usprawnienia procesów wyszukiwania nieruchomości i doradztwa finansowego. Wprowadzenie GPT-Realtime i ulepszonego API Realtime przez OpenAI stanowi kluczowy moment w rozwoju sztucznej inteligencji głosowej, otwierając drzwi do bardziej intuicyjnych, wydajnych i naturalnych interakcji między ludźmi a maszynami.

Źródła

WebProNews
Introducing gpt-realtime and Realtime API updates for production voice agents
o1 and new tools for developers
Realtime API | OpenAI Help Center
OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet
OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

Przeczytaj więcej wiadomości na ten temat:

30 września

Sora 2: OpenAI Rewolucjonizuje Generowanie Wideo i Audio, Dostępne na iOS

15 września

OpenAI prezentuje GPT-5 Codex: rewolucyjny asystent kodowania AI usprawniający rozwój oprogramowania

08 września

Alibaba Qwen3-Max-Preview: Nowy Gracz na Rynku AI z Ponad Bilionem Parametrów

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.

Centrum powiadomień

Centrum powiadomień

OpenAI Uruchamia GPT-Realtime, Rewolucjonizując Sztuczną Inteligencję Głosową

Źródła

Przeczytaj więcej wiadomości na ten temat: