OpenAI Luncurkan API Realtime dan Model GPT-Realtime, Memajukan Kemampuan AI Suara

Diedit oleh: Veronika Radoslavskaya

OpenAI telah meluncurkan API Realtime dan model GPT-Realtime, menandai kemajuan signifikan dalam kecerdasan buatan (AI) suara. Peluncuran ini, yang mengikuti fase beta sejak Oktober 2024, dirancang untuk meningkatkan kemampuan pengembang dalam menciptakan interaksi suara yang lebih alami dan efisien.

GPT-Realtime, model speech-to-speech tercanggih OpenAI, memproses dan menghasilkan audio secara langsung. Pendekatan ini menghilangkan kebutuhan konversi multi-tahap (suara-ke-teks-ke-suara), yang secara drastis mengurangi latensi dan memungkinkan percakapan yang lebih lancar. Model ini mampu menangkap nuansa percakapan seperti intonasi, emosi, dan bahkan beralih bahasa di tengah kalimat, serta menyesuaikan nada dan aksen sesuai konteks. Peningkatan performa terlihat dari akurasi yang melonjak dari 65,6% menjadi 82,8% pada tolok ukur Big Bench Audio.

API Realtime yang kini tersedia secara umum juga diperkaya dengan fitur-fitur baru, termasuk dukungan WebRTC untuk integrasi yang lebih mudah, input gambar untuk analisis visual selama percakapan, dan integrasi Session Initiation Protocol (SIP) untuk konektivitas telepon yang lebih luas. Pengembang juga mendapatkan keuntungan dari prompt yang dapat digunakan kembali, menyederhanakan pembuatan agen suara yang kompleks.

Dalam hal penetapan harga, OpenAI telah mengurangi biaya API Realtime sebesar 20% dibandingkan tingkatan sebelumnya. Tarif baru ditetapkan sebesar $32 per juta token input audio dan $64 per juta token output audio. Penyesuaian harga ini mencerminkan komitmen OpenAI untuk membuat teknologi AI suara yang canggih lebih mudah diakses.

Kemajuan ini memiliki implikasi luas di berbagai industri. Dalam layanan pelanggan, GPT-Realtime dapat memberikan pengalaman yang lebih personal dan empatik, seperti yang terlihat dalam kolaborasi dengan T-Mobile untuk menyederhanakan proses peningkatan telepon pelanggan. Di sektor pendidikan dan kesehatan, kemampuannya untuk berinteraksi secara alami dan adaptif dapat meningkatkan penyampaian materi pembelajaran dan dukungan pasien. Kemampuan untuk menangani volume permintaan yang besar secara bersamaan juga memastikan layanan yang konsisten, bahkan selama lonjakan panggilan.

Secara keseluruhan, peluncuran API Realtime dan model GPT-Realtime oleh OpenAI menandai lompatan signifikan dalam evolusi AI suara, dengan fokus pada interaksi yang lebih alami, efisiensi yang ditingkatkan, dan aksesibilitas yang lebih luas.

Sumber-sumber

  • WebProNews

  • Introducing gpt-realtime and Realtime API updates for production voice agents

  • o1 and new tools for developers

  • Realtime API | OpenAI Help Center

  • OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet

  • OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

Apakah Anda menemukan kesalahan atau ketidakakuratan?

Kami akan mempertimbangkan komentar Anda sesegera mungkin.

OpenAI Luncurkan API Realtime dan Model GP... | Gaya One