OpenAI Luncurkan GPT-5.2 dengan Arsitektur Tiga Tingkat untuk Alur Kerja Profesional

20:38, 11 Desember

Penulis: Veronika Radoslavskaya

OpenAI

@OpenAI

·Follow

Replying to @OpenAI

GPT-5.2 Thinking evals

6:18 PM · Dec 11, 2025

3.8K

Read 341 replies

Watch on X

Pada tanggal 11 Desember 2025, OpenAI secara resmi memperkenalkan GPT-5.2, sebuah pembaruan signifikan yang mengusung sistem model dengan tiga varian. Desain ini secara eksplisit ditujukan untuk meningkatkan kapabilitas dalam pekerjaan pengetahuan profesional serta aplikasi agen otonom. Perusahaan mengklaim bahwa seri rilis ini merupakan yang paling mumpuni sejauh ini, menunjukkan kemajuan terukur dalam pembuatan spreadsheet, penyusunan presentasi, pengkodean, pemrosesan visual, dan penalaran konteks yang diperluas.

Carl Vellotti 🥞

@carlvellotti

·Follow

Replying to @OpenAI

6:44 PM · Dec 11, 2025

Read more on X

Watch on X

Model GPT-5.2 hadir dalam tiga konfigurasi spesialisasi: Instant, Thinking, dan Pro. Setiap varian telah dioptimalkan untuk tingkat kompleksitas dan skenario penggunaan yang berbeda. Varian Instant dirancang untuk memprioritaskan kecepatan respons dalam tugas-tugas rutin seperti pencarian informasi, penulisan dasar, dan penerjemahan. Sementara itu, Thinking unggul dalam pekerjaan terstruktur yang lebih rumit, mencakup pengkodean, analisis dokumen panjang, perhitungan matematika, dan perencanaan strategis.

Konfigurasi Pro menempati tingkatan kapabilitas tertinggi. Model ini dikembangkan untuk memberikan akurasi dan keandalan maksimal ketika dihadapkan pada masalah-masalah yang sangat sulit. Pemisahan fungsionalitas ini memungkinkan pengguna memilih alat yang paling sesuai dengan kebutuhan beban kerja spesifik mereka, sebuah langkah yang menunjukkan kedewasaan dalam penawaran produk AI OpenAI.

Dalam hal performa tolok ukur, GPT-5.2 Thinking berhasil mencetak rekor baru dengan mencapai akurasi 100% pada ujian matematika kompetisi AIME 2025. Lebih lanjut, pada evaluasi GDPval—sebuah penilaian yang mengukur pekerjaan pengetahuan di 44 jenis pekerjaan—model ini mampu mengungguli atau menyamai profesional industri dalam 70,9% perbandingan langsung. Ini menandai kali pertama model OpenAI mencapai tingkat kinerja setara ahli pada tugas-tugas yang memiliki nilai ekonomi tinggi.

Jika dilihat pada bagan tolok ukur internal OpenAI, GPT-5.2 Thinking berhasil melampaui Gemini 3 dari Google dan Claude Opus 4.5 dari Anthropic di hampir semua tes penalaran yang tercantum. Ini termasuk hasil yang mengesankan pada tolok ukur seperti SWE-Bench Pro, GPQA Diamond, dan rangkaian tes ARC-AGI.

Khusus di ranah pengkodean dan rekayasa perangkat lunak, GPT-5.2 Thinking menunjukkan peningkatan substansial. Pada SWE-Bench Pro, sebuah evaluasi dunia nyata yang menguji berbagai bahasa pemrograman, model ini meraih skor 55,6%, melampaui capaian GPT-5.1 yang sebelumnya berada di angka 50,8%. Model ini juga mencatatkan skor 80% pada SWE-bench Verified. Beberapa perusahaan rintisan pengkodean, seperti Windsurf dan CharlieCode, melaporkan bahwa kinerja agen pengkodean mereka kini berada pada tingkat terdepan, menunjukkan peningkatan nyata pada alur kerja multi-langkah yang kompleks.

Keandalan GPT-5.2 Thinking juga ditingkatkan secara signifikan; responsnya menunjukkan 30% lebih sedikit kesalahan dibandingkan dengan GPT-5.1. Hal ini menjadikan model tersebut jauh lebih dapat diandalkan untuk pengambilan keputusan harian, penelitian mendalam, dan penulisan konten. Model ini kini mendukung jendela konteks yang dapat mencapai ratusan ribu token, dengan resolusi ko-referensi multi-putaran yang hampir sempurna. Kemampuan visual juga mengalami peningkatan drastis, mengurangi tingkat kesalahan hingga sekitar separuhnya pada tolok ukur interpretasi bagan dan pemahaman antarmuka perangkat lunak.

Peluncuran ini terjadi di tengah persaingan yang semakin memanas dengan Gemini 3 milik Google, yang saat ini memimpin papan peringkat LMArena untuk sebagian besar tolok ukur, kecuali di bidang pengkodean. Sebelumnya pada bulan ini, dilaporkan bahwa CEO Sam Altman sempat mengeluarkan memo internal berlabel 'kode merah' kepada staf, menyusul penurunan lalu lintas ChatGPT dan kekhawatiran kehilangan pangsa pasar konsumen kepada Google. Memo tersebut menekankan pergeseran prioritas, termasuk menunda komitmen seperti peluncuran iklan, dan fokus utama pada penciptaan pengalaman ChatGPT yang lebih unggul.

Saat ini, GPT-5.2 mulai diluncurkan kepada pelanggan berbayar ChatGPT, termasuk paket Plus, Pro, Business, dan Enterprise. Selain itu, ketiga varian model ini sudah dapat diakses segera melalui API. OpenAI juga mengumumkan langkah-langkah keamanan baru terkait penggunaan kesehatan mental dan verifikasi usia untuk remaja, meskipun aspek ini tidak terlalu disorot dalam sesi peluncuran resminya.

OpenAI