Google DeepMind Integrasikan Visi Agentik pada Gemini 3 Flash untuk Peningkatan Pemahaman Gambar

20:50, 04 Februari

Diedit oleh: Aleksandr Lytviak

Google DeepMind Integrasikan Visi Agentik pada Gemini 3 Flash untuk Peningkatan Pemahaman Gambar-1

Google DeepMind telah memperkenalkan pembaruan signifikan pada model Gemini 3 Flash melalui integrasi kapabilitas yang disebut Visi Agentik (Agentic Vision). Evolusi ini mengubah pemrosesan gambar dari proses sekali lihat menjadi investigasi aktif, sebuah langkah yang dirancang untuk mengatasi keterbatasan model multimodal konvensional. Model sebelumnya sering kesulitan memproses data visual beresolusi rendah atau detail kritis, seperti nomor seri atau rambu jalan yang jauh, karena ketergantungan pada satu pandangan statis.

Dengan Visi Agentik, model kini menerapkan siklus terstruktur Pikir, Bertindak, Amati (Think, Act, Observe) untuk menguatkan jawaban berdasarkan bukti visual yang terverifikasi. Arsitektur ini memungkinkan Gemini 3 Flash secara mandiri merumuskan rencana multi-langkah, yang dieksekusi melalui pembuatan dan pelaksanaan kode Python pada langkah 'Bertindak'. Kode tersebut digunakan untuk memanipulasi citra secara aktif, termasuk tindakan seperti memperbesar, memotong, atau membuat anotasi pada area spesifik guna mendapatkan konteks yang lebih baik. Setelah transformasi visual, output yang diperbarui ditambahkan kembali ke jendela konteks model pada langkah 'Amati', memungkinkan penalaran yang lebih terinformasi sebelum respons akhir diberikan.

Implementasi eksekusi kode ini telah menunjukkan peningkatan kualitas yang substansial dalam tolok ukur visual. Google DeepMind melaporkan bahwa pengaktifan eksekusi kode pada Gemini 3 Flash menghasilkan peningkatan kualitas yang konsisten antara 5 hingga 10% di sebagian besar tolok ukur penglihatan. Sebagai contoh aplikasi dunia nyata, PlanCheckSolver.com, sebuah perusahaan rintisan perencanaan konstruksi, melaporkan peningkatan akurasi hingga 5% dengan memanfaatkan metode inspeksi iteratif ini untuk memvalidasi cetak biru beresolusi tinggi terhadap standar kepatuhan.

Kapabilitas ini secara efektif mengubah model dari deskriptor pasif menjadi inspektur aktif, yang sangat penting untuk beban kerja presisi tingkat produksi. Langkah ini menandai pergeseran arsitektural dalam kecerdasan buatan generatif, bergerak menuju sistem penalaran yang lebih dapat diverifikasi dan mengurangi masalah halusinasi visual, terutama dalam tugas aritmatika atau penghitungan visual multi-langkah. Ketersediaan Visi Agentik saat ini dapat diakses oleh pengembang melalui platform Google AI Studio dan Vertex AI dengan memilih opsi 'eksekusi kode' saat menggunakan API.

Google DeepMind

11 Tampilan

Sumber-sumber

MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver

Baca lebih banyak artikel tentang topik ini:

01 April

Bagaimana Pemutar Musik Tahun 2026 Mampu Menyesuaikan Lagu dengan Suasana Hati Anda

01 April

Terapi «Tanpa Rasa Sakit»: AI Membantu Menciptakan Metode Genetik untuk Mematikan Nyeri Kronis Tanpa Opioid

25 Maret

OpenAI Menghentikan Sora: Mengapa Generator Video AI Ini Tiba-tiba Tidak Lagi Dibutuhkan

Apakah Anda menemukan kesalahan atau ketidakakuratan?Kami akan mempertimbangkan komentar Anda sesegera mungkin.