Google, melalui kolaborasi dengan Google DeepMind, memperkenalkan model kecerdasan buatan terobosan, Gemini 2.5 Computer Use, pada 7 Oktober 2025. Inovasi ini menandai pergeseran signifikan dari interaksi berbasis API terstruktur menuju kemampuan AI untuk secara intuitif mengendalikan antarmuka pengguna (UI) grafis, meniru cara kerja operator manusia. Model ini dibangun di atas fondasi pemahaman visual dan penalaran Gemini 2.5 Pro, membuka jalan bagi pengembangan agen digital yang lebih otonom.
Inti dari inovasi ini adalah siklus operasional berkelanjutan yang memungkinkan agen untuk menerima permintaan pengguna, menganalisis tangkapan layar lingkungan digital, menghasilkan respons berupa tindakan UI spesifik, mengeksekusinya, dan mengulangi proses tersebut hingga tujuan tercapai. Kemampuan untuk "melihat" layar komputer, memproses elemen seperti tombol dan kolom isian, serta merespons secara dinamis merupakan lompatan kualitatif dalam otomatisasi alur kerja digital yang kompleks. Model ini secara khusus mengekspos kapabilitasnya melalui alat baru bernama computer_use
dalam Gemini API.
Dalam spektrum kinerja, Gemini 2.5 Computer Use diklaim melampaui pesaing dalam berbagai tolok ukur kontrol web dan seluler, dengan keunggulan utama berupa latensi yang lebih rendah. Data evaluasi independen melalui Browserbase harness untuk Online-Mind2Web menempatkannya sebagai pemimpin dalam kualitas kontrol peramban dengan waktu respons tercepat. Evaluasi internal menunjukkan kemampuan untuk memulihkan hingga 70% kegagalan dengan latensi sekitar 225 milidetik untuk tugas-tugas kontrol UI. Beberapa pengguna awal bahkan melaporkan keunggulan kecepatan hingga 50% dibandingkan solusi terbaik berikutnya.
Model ini segera dibuka bagi para pengembang melalui preview publik. Akses dapat diperoleh melalui Gemini API di platform Google AI Studio dan Vertex AI. Hal ini memberikan jalur implementasi langsung bagi para praktisi untuk mulai membangun agen yang mampu melakukan tugas-tugas seperti pengisian formulir otomatis, navigasi web yang rumit, dan pengujian UI. Meskipun optimasi utama ditujukan untuk peramban web, model ini juga menunjukkan potensi kuat untuk kontrol UI seluler, meskipun belum sepenuhnya disesuaikan untuk kontrol tingkat sistem operasi desktop.
Pengembangan agen yang mampu berinteraksi secara visual ini berfungsi sebagai katalisator bagi peningkatan efisiensi dalam dunia digital. Ketika sistem dapat mengambil alih tugas-tugas repetitif dengan presisi tinggi, fokus manusia dapat diarahkan pada ranah kreasi dan pemecahan masalah yang memerlukan nuansa pemahaman lebih dalam. Ketersediaan alat ini mendorong para pencipta untuk merancang sistem yang lebih mandiri, sekaligus menuntut pertimbangan yang matang mengenai batasan dan keamanan dalam setiap interaksi yang didelegasikan.