OpenAI Nâng cao Phát triển Đại lý AI với TypeScript SDK, Tính năng Thoại theo Thời gian Thực và Mô hình Giọng nói Cải tiến vào tháng 6 năm 2025

Chỉnh sửa bởi: gaya ❤️ one

OpenAI gần đây đã cập nhật các công cụ phát triển đại lý AI của mình, tập trung vào việc mở rộng khả năng tương thích của nền tảng và cải thiện khả năng giao diện giọng nói. Những cải tiến này nhằm mục đích tạo điều kiện thuận lợi cho việc tạo ra các đại lý AI thực tế, có thể kiểm soát và kiểm toán được cho các ứng dụng trong thế giới thực.

Agents SDK hiện đã có sẵn trong TypeScript, mở rộng hỗ trợ cho các nhà phát triển JavaScript và Node.js. Điều này căn chỉnh SDK với các ngăn xếp ứng dụng web hiện đại và gốc trên đám mây, cho phép triển khai đại lý trên cả môi trường giao diện người dùng và phụ trợ. TypeScript SDK phản ánh các tính năng của phiên bản Python, bao gồm hỗ trợ cho chuyển giao, lan can bảo vệ, theo dõi và Giao thức Ngữ cảnh Mô hình (MCP).

RealtimeAgents mở rộng Agents SDK với đầu vào/đầu ra âm thanh, tương tác có trạng thái và xử lý ngắt được thiết kế đặc biệt cho các ứng dụng thoại. Phê duyệt Human-in-the-loop (HITL) cho phép các nhà phát triển chặn quá trình thực thi của đại lý để xác nhận thủ công, điều này rất quan trọng đối với việc giám sát và tuân thủ. OpenAI cũng đã cập nhật mô hình chuyển giọng nói thành giọng nói của mình để giảm độ trễ và cải thiện tính tự nhiên của các tương tác âm thanh theo thời gian thực. Mô hình được cập nhật có sẵn dưới dạng gpt-4o-realtime-preview-2025-06-03 trong Realtime API và gpt-4o-audio-preview-2025-06-03 trong Chat Completions API.

Nguồn

  • MarkTechPost

  • OpenAI Developer Community

  • MarkTechPost

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.