OpenAI Ra Mắt API Realtime và Mô Hình GPT-Realtime, Nâng Cao Khả Năng AI Giọng Nói

19:16, 29 tháng 8

Chỉnh sửa bởi: Veronika Radoslavskaya

Vào ngày 28 tháng 8 năm 2025, OpenAI đã chính thức công bố API Realtime và mô hình GPT-Realtime, đánh dấu một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo giọng nói. Sự ra mắt này mang đến những cải tiến đáng kể về khả năng tương tác tự nhiên và hiệu quả hơn cho các nhà phát triển và doanh nghiệp.

API Realtime, trước đây đã được thử nghiệm từ tháng 10 năm 2024, nay đã sẵn sàng cho mọi người sử dụng. API này cho phép tạo ra các trải nghiệm hội thoại đa phương thức với độ trễ thấp, hỗ trợ cả đầu vào và đầu ra bằng văn bản và âm thanh, cùng khả năng gọi hàm. Điểm nhấn chính là mô hình GPT-Realtime, mô hình chuyển giọng nói thành giọng nói tiên tiến nhất của OpenAI. GPT-Realtime xử lý và tạo âm thanh trực tiếp, mang lại tốc độ nhanh hơn, tương tác tự nhiên hơn, khả năng diễn giải các tín hiệu phi ngôn ngữ, chuyển đổi ngôn ngữ giữa câu và điều chỉnh ngữ điệu, giọng điệu.

API Realtime hiện đã tích hợp hỗ trợ WebRTC để dễ dàng kết nối, đầu vào hình ảnh để phân tích trực quan trong cuộc trò chuyện, Giao thức Khởi tạo Phiên (SIP) để tích hợp cuộc gọi điện thoại, và các lời nhắc có thể tái sử dụng cho nhà phát triển. Theo các báo cáo, giá API Realtime đã giảm 20% so với các gói trước đó, với mức giá mới là 32 USD cho mỗi triệu token đầu vào âm thanh và 64 USD cho mỗi triệu token đầu ra âm thanh. Token âm thanh được lưu trong bộ nhớ đệm có giá 0,40 USD cho mỗi triệu.

Mô hình GPT-Realtime cho thấy sự cải thiện đáng kể về khả năng tuân theo các chỉ dẫn phức tạp, gọi công cụ chính xác và tạo ra giọng nói tự nhiên, biểu cảm hơn. Cụ thể, trên bài kiểm tra Big Bench Audio về khả năng suy luận, GPT-Realtime đạt độ chính xác 82,8%, tăng 17% so với mô hình trước đó. Khả năng tuân theo chỉ dẫn cũng được cải thiện, đạt 30,5% trên chuẩn MultiChallenge audio, so với 20,6% của mô hình trước. Hiệu suất gọi hàm cũng tăng lên 66,5% trên ComplexFuncBench.

Việc tích hợp SIP cho phép các tác nhân giọng nói kết nối trực tiếp với mạng điện thoại và hệ thống PBX, thu hẹp khoảng cách giữa AI kỹ thuật số và cơ sở hạ tầng viễn thông truyền thống. Hỗ trợ giao thức Model Context Protocol (MCP) cho phép nhà phát triển kết nối các công cụ và dịch vụ bên ngoài mà không cần tích hợp thủ công. Khả năng xử lý đầu vào hình ảnh mở ra các trường hợp sử dụng mới, cho phép người dùng đặt câu hỏi về ảnh chụp màn hình hoặc ảnh họ chia sẻ.

Sự ra mắt này của OpenAI không chỉ củng cố vị thế của họ trên thị trường AI giọng nói mà còn mở ra nhiều cơ hội mới cho các nhà phát triển và doanh nghiệp. Khả năng xử lý âm thanh trực tiếp và tương tác tự nhiên hơn, cùng với các tính năng tích hợp thực tế, hứa hẹn sẽ định hình lại cách chúng ta giao tiếp với máy móc và nâng cao trải nghiệm người dùng trong nhiều lĩnh vực như dịch vụ khách hàng, giáo dục và trợ lý cá nhân.

Nguồn

WebProNews
Introducing gpt-realtime and Realtime API updates for production voice agents
o1 and new tools for developers
Realtime API | OpenAI Help Center
OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet
OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

Đọc thêm tin tức về chủ đề này:

30 tháng 9

OpenAI Ra Mắt Sora 2: Bước Tiến Vượt Bậc Trong Công Nghệ Tạo Video và Âm Thanh AI

30 tháng 9

Opera Neon: Trình duyệt AI Tiên phong Định hình Tương lai Lướt web

26 tháng 9

Google DeepMind Nâng Cấp Robot Với Gemini 1.5: Tự Chủ và Thích Ứng Vượt Trội

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.

Trung tâm thông báo

Trung tâm thông báo

OpenAI Ra Mắt API Realtime và Mô Hình GPT-Realtime, Nâng Cao Khả Năng AI Giọng Nói

Nguồn

Đọc thêm tin tức về chủ đề này: