Vào ngày 28 tháng 8 năm 2025, OpenAI đã chính thức công bố API Realtime và mô hình GPT-Realtime, đánh dấu một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo giọng nói. Sự ra mắt này mang đến những cải tiến đáng kể về khả năng tương tác tự nhiên và hiệu quả hơn cho các nhà phát triển và doanh nghiệp.
API Realtime, trước đây đã được thử nghiệm từ tháng 10 năm 2024, nay đã sẵn sàng cho mọi người sử dụng. API này cho phép tạo ra các trải nghiệm hội thoại đa phương thức với độ trễ thấp, hỗ trợ cả đầu vào và đầu ra bằng văn bản và âm thanh, cùng khả năng gọi hàm. Điểm nhấn chính là mô hình GPT-Realtime, mô hình chuyển giọng nói thành giọng nói tiên tiến nhất của OpenAI. GPT-Realtime xử lý và tạo âm thanh trực tiếp, mang lại tốc độ nhanh hơn, tương tác tự nhiên hơn, khả năng diễn giải các tín hiệu phi ngôn ngữ, chuyển đổi ngôn ngữ giữa câu và điều chỉnh ngữ điệu, giọng điệu.
API Realtime hiện đã tích hợp hỗ trợ WebRTC để dễ dàng kết nối, đầu vào hình ảnh để phân tích trực quan trong cuộc trò chuyện, Giao thức Khởi tạo Phiên (SIP) để tích hợp cuộc gọi điện thoại, và các lời nhắc có thể tái sử dụng cho nhà phát triển. Theo các báo cáo, giá API Realtime đã giảm 20% so với các gói trước đó, với mức giá mới là 32 USD cho mỗi triệu token đầu vào âm thanh và 64 USD cho mỗi triệu token đầu ra âm thanh. Token âm thanh được lưu trong bộ nhớ đệm có giá 0,40 USD cho mỗi triệu.
Mô hình GPT-Realtime cho thấy sự cải thiện đáng kể về khả năng tuân theo các chỉ dẫn phức tạp, gọi công cụ chính xác và tạo ra giọng nói tự nhiên, biểu cảm hơn. Cụ thể, trên bài kiểm tra Big Bench Audio về khả năng suy luận, GPT-Realtime đạt độ chính xác 82,8%, tăng 17% so với mô hình trước đó. Khả năng tuân theo chỉ dẫn cũng được cải thiện, đạt 30,5% trên chuẩn MultiChallenge audio, so với 20,6% của mô hình trước. Hiệu suất gọi hàm cũng tăng lên 66,5% trên ComplexFuncBench.
Việc tích hợp SIP cho phép các tác nhân giọng nói kết nối trực tiếp với mạng điện thoại và hệ thống PBX, thu hẹp khoảng cách giữa AI kỹ thuật số và cơ sở hạ tầng viễn thông truyền thống. Hỗ trợ giao thức Model Context Protocol (MCP) cho phép nhà phát triển kết nối các công cụ và dịch vụ bên ngoài mà không cần tích hợp thủ công. Khả năng xử lý đầu vào hình ảnh mở ra các trường hợp sử dụng mới, cho phép người dùng đặt câu hỏi về ảnh chụp màn hình hoặc ảnh họ chia sẻ.
Sự ra mắt này của OpenAI không chỉ củng cố vị thế của họ trên thị trường AI giọng nói mà còn mở ra nhiều cơ hội mới cho các nhà phát triển và doanh nghiệp. Khả năng xử lý âm thanh trực tiếp và tương tác tự nhiên hơn, cùng với các tính năng tích hợp thực tế, hứa hẹn sẽ định hình lại cách chúng ta giao tiếp với máy móc và nâng cao trải nghiệm người dùng trong nhiều lĩnh vực như dịch vụ khách hàng, giáo dục và trợ lý cá nhân.