OpenAI ulepsza rozwój agentów AI za pomocą TypeScript SDK, funkcji głosowych w czasie rzeczywistym i ulepszonych modeli mowy w czerwcu 2025 r.

Edytowane przez: gaya ❤️ one

OpenAI niedawno zaktualizowało swoje narzędzia do rozwoju agentów AI, koncentrując się na rozszerzeniu kompatybilności platformy i ulepszeniu możliwości interfejsu głosowego. Ulepszenia te mają na celu ułatwienie tworzenia bardziej praktycznych, kontrolowanych i podlegających audytowi agentów AI do zastosowań w świecie rzeczywistym.

Agents SDK jest teraz dostępny w TypeScript, rozszerzając wsparcie dla programistów JavaScript i Node.js. To dostosowuje SDK do nowoczesnych stosów aplikacji internetowych i natywnych dla chmury, umożliwiając wdrażanie agentów zarówno w środowiskach frontendowych, jak i backendowych. TypeScript SDK odzwierciedla funkcje wersji Python, w tym obsługę przekazywania, szyn ochronnych, śledzenia i protokołu kontekstu modelu (MCP).

RealtimeAgents rozszerza Agents SDK o wejście/wyjście audio, interakcje stanowe i obsługę przerywania, zaprojektowane specjalnie dla aplikacji głosowych. Zatwierdzenie przez człowieka w pętli (HITL) umożliwia programistom przechwytywanie wykonywania agenta w celu ręcznego potwierdzenia, co jest kluczowe dla nadzoru i zgodności. OpenAI zaktualizowało również swój model mowy na mowę, aby zmniejszyć opóźnienia i poprawić naturalność interakcji audio w czasie rzeczywistym. Zaktualizowany model jest dostępny jako gpt-4o-realtime-preview-2025-06-03 w Realtime API i gpt-4o-audio-preview-2025-06-03 w Chat Completions API.

Źródła

  • MarkTechPost

  • OpenAI Developer Community

  • MarkTechPost

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.