OpenAI Luncurkan API Realtime dan Model GPT-Realtime, Memajukan Kemampuan AI Suara

19:16, 29 Agustus

Diedit oleh: Veronika Radoslavskaya

OpenAI telah meluncurkan API Realtime dan model GPT-Realtime, menandai kemajuan signifikan dalam kecerdasan buatan (AI) suara. Peluncuran ini, yang mengikuti fase beta sejak Oktober 2024, dirancang untuk meningkatkan kemampuan pengembang dalam menciptakan interaksi suara yang lebih alami dan efisien.

GPT-Realtime, model speech-to-speech tercanggih OpenAI, memproses dan menghasilkan audio secara langsung. Pendekatan ini menghilangkan kebutuhan konversi multi-tahap (suara-ke-teks-ke-suara), yang secara drastis mengurangi latensi dan memungkinkan percakapan yang lebih lancar. Model ini mampu menangkap nuansa percakapan seperti intonasi, emosi, dan bahkan beralih bahasa di tengah kalimat, serta menyesuaikan nada dan aksen sesuai konteks. Peningkatan performa terlihat dari akurasi yang melonjak dari 65,6% menjadi 82,8% pada tolok ukur Big Bench Audio.

API Realtime yang kini tersedia secara umum juga diperkaya dengan fitur-fitur baru, termasuk dukungan WebRTC untuk integrasi yang lebih mudah, input gambar untuk analisis visual selama percakapan, dan integrasi Session Initiation Protocol (SIP) untuk konektivitas telepon yang lebih luas. Pengembang juga mendapatkan keuntungan dari prompt yang dapat digunakan kembali, menyederhanakan pembuatan agen suara yang kompleks.

Dalam hal penetapan harga, OpenAI telah mengurangi biaya API Realtime sebesar 20% dibandingkan tingkatan sebelumnya. Tarif baru ditetapkan sebesar $32 per juta token input audio dan $64 per juta token output audio. Penyesuaian harga ini mencerminkan komitmen OpenAI untuk membuat teknologi AI suara yang canggih lebih mudah diakses.

Kemajuan ini memiliki implikasi luas di berbagai industri. Dalam layanan pelanggan, GPT-Realtime dapat memberikan pengalaman yang lebih personal dan empatik, seperti yang terlihat dalam kolaborasi dengan T-Mobile untuk menyederhanakan proses peningkatan telepon pelanggan. Di sektor pendidikan dan kesehatan, kemampuannya untuk berinteraksi secara alami dan adaptif dapat meningkatkan penyampaian materi pembelajaran dan dukungan pasien. Kemampuan untuk menangani volume permintaan yang besar secara bersamaan juga memastikan layanan yang konsisten, bahkan selama lonjakan panggilan.

Secara keseluruhan, peluncuran API Realtime dan model GPT-Realtime oleh OpenAI menandai lompatan signifikan dalam evolusi AI suara, dengan fokus pada interaksi yang lebih alami, efisiensi yang ditingkatkan, dan aksesibilitas yang lebih luas.

Sumber-sumber

WebProNews
Introducing gpt-realtime and Realtime API updates for production voice agents
o1 and new tools for developers
Realtime API | OpenAI Help Center
OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet
OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

Baca lebih banyak berita tentang topik ini:

30 September

OpenAI Luncurkan Sora 2: Revolusi Generasi Video dan Audio AI Kini Tersedia di iOS

30 September

Opera Luncurkan Peramban Neon dengan Kemampuan AI Agentik, Merevolusi Interaksi Web

26 September

Google DeepMind Luncurkan Gemini Robotics 1.5 dan ER 1.5: Era Baru Otonomi Robot

Apakah Anda menemukan kesalahan atau ketidakakuratan?

Kami akan mempertimbangkan komentar Anda sesegera mungkin.

Pusat Notifikasi

Pusat Notifikasi

OpenAI Luncurkan API Realtime dan Model GPT-Realtime, Memajukan Kemampuan AI Suara

Sumber-sumber

Baca lebih banyak berita tentang topik ini: