Google Luncurkan Gemini 2.5 Computer Use: Era Baru Agen Digital dengan Interaksi Visual Intuitif

Diedit oleh: Veronika Radoslavskaya

Google, melalui kolaborasi dengan Google DeepMind, memperkenalkan model kecerdasan buatan terobosan, Gemini 2.5 Computer Use, pada 7 Oktober 2025. Inovasi ini menandai pergeseran signifikan dari interaksi berbasis API terstruktur menuju kemampuan AI untuk secara intuitif mengendalikan antarmuka pengguna (UI) grafis, meniru cara kerja operator manusia. Model ini dibangun di atas fondasi pemahaman visual dan penalaran Gemini 2.5 Pro, membuka jalan bagi pengembangan agen digital yang lebih otonom.

Inti dari inovasi ini adalah siklus operasional berkelanjutan yang memungkinkan agen untuk menerima permintaan pengguna, menganalisis tangkapan layar lingkungan digital, menghasilkan respons berupa tindakan UI spesifik, mengeksekusinya, dan mengulangi proses tersebut hingga tujuan tercapai. Kemampuan untuk "melihat" layar komputer, memproses elemen seperti tombol dan kolom isian, serta merespons secara dinamis merupakan lompatan kualitatif dalam otomatisasi alur kerja digital yang kompleks. Model ini secara khusus mengekspos kapabilitasnya melalui alat baru bernama

computer_use

dalam Gemini API.

Dalam spektrum kinerja, Gemini 2.5 Computer Use diklaim melampaui pesaing dalam berbagai tolok ukur kontrol web dan seluler, dengan keunggulan utama berupa latensi yang lebih rendah. Data evaluasi independen melalui Browserbase harness untuk Online-Mind2Web menempatkannya sebagai pemimpin dalam kualitas kontrol peramban dengan waktu respons tercepat. Evaluasi internal menunjukkan kemampuan untuk memulihkan hingga 70% kegagalan dengan latensi sekitar 225 milidetik untuk tugas-tugas kontrol UI. Beberapa pengguna awal bahkan melaporkan keunggulan kecepatan hingga 50% dibandingkan solusi terbaik berikutnya.

Model ini segera dibuka bagi para pengembang melalui preview publik. Akses dapat diperoleh melalui Gemini API di platform Google AI Studio dan Vertex AI. Hal ini memberikan jalur implementasi langsung bagi para praktisi untuk mulai membangun agen yang mampu melakukan tugas-tugas seperti pengisian formulir otomatis, navigasi web yang rumit, dan pengujian UI. Meskipun optimasi utama ditujukan untuk peramban web, model ini juga menunjukkan potensi kuat untuk kontrol UI seluler, meskipun belum sepenuhnya disesuaikan untuk kontrol tingkat sistem operasi desktop.

Pengembangan agen yang mampu berinteraksi secara visual ini berfungsi sebagai katalisator bagi peningkatan efisiensi dalam dunia digital. Ketika sistem dapat mengambil alih tugas-tugas repetitif dengan presisi tinggi, fokus manusia dapat diarahkan pada ranah kreasi dan pemecahan masalah yang memerlukan nuansa pemahaman lebih dalam. Ketersediaan alat ini mendorong para pencipta untuk merancang sistem yang lebih mandiri, sekaligus menuntut pertimbangan yang matang mengenai batasan dan keamanan dalam setiap interaksi yang didelegasikan.

Sumber-sumber

  • El Español

  • Introducing the Gemini 2.5 Computer Use model

  • Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use

  • Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

Apakah Anda menemukan kesalahan atau ketidakakuratan?

Kami akan mempertimbangkan komentar Anda sesegera mungkin.