Google DeepMind, Gemini 3 Flash'a Ajanik Görüş Entegrasyonu ile Görüntü Anlamada İlerliyor
Düzenleyen: gaya ❤️ one
Google DeepMind, Gemini 3 Flash modeline eklediği Agentic Vision (Ajanik Görüş) yeteneğiyle, yapay zeka sistemlerinin görsel verileri işleme biçiminde önemli bir değişim başlattı. Bu yeni özellik, geleneksel çok modlu modellerin tek seferlik statik analizinin aksine, aktif ve araç kullanan bir döngüye geçişi temsil ediyor. Amaç, seri numaraları veya uzaktaki levhalar gibi ince görsel detayların işlenmesindeki mevcut zorlukları aşarak, modelin görsel kanıtlarla desteklenmiş, kesin yanıtlar üretmesini sağlamaktır.
Ajanik Görüş mimarisi, insan inceleme sürecini taklit eden yapılandırılmış bir Düşün, Eyle, Gözlemle döngüsü üzerine inşa edilmiştir. Düşünme aşamasında model, kullanıcı sorgusunu ve başlangıç görüntüsünü analiz ederek çok adımlı bir araştırma planı oluşturur. Eyleme geçme aşamasında ise, model Python kodu üreterek bu kodu çalıştırır; bu kod, görüntüyü dinamik olarak kırpma, döndürme, ek açıklama ekleme veya nesne sayımı gibi işlemleri gerçekleştirir. Son olarak, Gözlemle aşamasında, dönüştürülmüş görsel çıktı modelin bağlam penceresine dahil edilir ve kesin yanıt üretilmeden önce bu yeni verinin incelenmesine olanak tanınır.
Bu kod yürütme yeteneğinin Gemini 3 Flash'a entegrasyonu, çoğu görsel kıyaslama testinde tutarlı bir şekilde %5 ila %10 arasında kalite artışı sağlamıştır. Bu iyileşme, modelin temel parametreleri veya mimarisi değiştirilmeksizin, yalnızca aktif inceleme araçları sağlanarak elde edilmiştir. Bu gelişme, üretken sistemlerin güvenilirliği açısından kritik bir eşiği aşarak, "bazen çalışan" durumundan "dağıtım için yeterince güvenilir" duruma geçişi işaret etmektedir. Yapay zeka destekli bina planı doğrulama platformu PlanCheckSolver.com da bu yinelemeli inceleme yöntemini kullanarak doğrulukta %5'e varan kazanımlar rapor etmiştir.
Uygulamada, Ajanik Görüş, modelin salt tanım yapmanın ötesine geçerek görsel akıl yürütmeyi programatik manipülasyonla birleştirmesine imkân tanır. Örneğin, bir eldeki parmakları sayma görevinde, model hata yapmamak için Python kullanarak her parmağın etrafına sınırlayıcı kutular ve sayısal etiketler çizer; bu, piksel düzeyinde kesin anlayışı güvence altına alır. Ayrıca, yüksek yoğunluklu tablolar analiz edilirken, standart büyük dil modellerinin çok adımlı görsel aritmetikte halüsinasyon görme riskini ortadan kaldırarak hesaplamaları deterministik bir Python ortamına devreder.
Google DeepMind, bu yeteneğin Gemini 3 Flash ile sınırlı kalmayacağını ve gelecekteki güncellemelerle görüntü döndürme veya görsel matematik gibi özelliklerin açık bir komut istemi olmadan örtük olarak tetiklenmesi üzerinde çalıştıklarını belirtmiştir. Modelin dünya anlayışını daha da temellendirmek amacıyla web ve tersine görsel arama gibi ek araçların da araştırıldığı bildirilmiştir. Gemini 3 Flash, önceki nesil modellere kıyasla hız ve maliyet dengesiyle öne çıkarken, kodlama yeteneklerinde Gemini 3 Pro'yu geride bırakarak (SweetBench Verified'da %78 skor) ajan iş akışları için ideal bir model olarak konumlanmaktadır. Bu yenilik, Gemini API aracılığıyla Google AI Studio ve Vertex AI platformlarında geliştiricilere sunulmuştur.
2 Görüntülenme
Kaynaklar
MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver
Bu konudaki diğer haberlere göz atın:
Bir hata veya yanlışlık buldunuz mu?Yorumlarınızı en kısa sürede değerlendireceğiz.