Google Gemini 2.5 Computer Use ile Otonom Ajanlar Dijital Arayüz Hakimiyetini Yeniden Tanımlıyor

11:23, 09 Ekim

Düzenleyen: Veronika Radoslavskaya

Teknoloji dünyası, Google DeepMind'ın 7 Ekim 2025'te duyurduğu Gemini 2.5 Computer Use modeliyle dijital etkileşimlerin doğasında önemli bir dönüşüm yaşıyor. Bu yeni yapay zeka sürümü, özellikle kullanıcı arayüzleri (UI) ile etkileşim kurma konusunda uzmanlaşmış otonom ajanların geliştirilmesine odaklanıyor. Bu ajanlar, web sitelerinde gezinme, form doldurma ve düğmelere tıklama gibi insan benzeri eylemleri taklit edebiliyor, böylece mevcut dijital iş akışlarının otomasyonunda yeni bir ufuk açıyor.

Gemini 2.5 Computer Use, temelini Gemini 2.5 Pro'nun gelişmiş görsel anlama ve akıl yürütme yeteneklerinden alıyor. Çalışma prensibi, kullanıcının talebini almayı, mevcut ekran görüntüsünü analiz etmeyi, bir arayüz eylemi üretmeyi ve bunu uygulamayı içeren sürekli bir döngüye dayanıyor; bu döngü görev tamamlanana kadar devam ediyor. Bu yaklaşım, yalnızca yapılandırılmış API'lere bağlı kalan sistemlerin ötesine geçerek, görsel olarak ne gördüğünü yorumlayabilen ajanların yaratılmasına olanak tanıyor. Erken testler, modelin web ve mobil kontrol kıyaslamalarında rakiplerine kıyasla daha düşük gecikme oranları sergilediğini gösteriyor; hatta bazı karşılaştırmalı testlerde gecikmeyi %50'ye kadar azalttığı rapor ediliyor. Model, Online-Mind2Web, WebVoyager ve AndroidWorld gibi temel kıyaslamalarda mevcut benzerlerine üstünlük sağlamakta ve belirli testlerde Claude Sonnet 4.5'i geride bırakmaktadır.

Google'ın bu hamlesi, yapay zeka alanındaki rekabetin derinleştiğini gösteriyor; zira bu duyuru, OpenAI'nin ChatGPT için yeni uygulamalarını açıklamasının hemen ardından geldi. Anthropic'in bir yıl önce Claude AI ile benzer bir alana adım atmasıyla birlikte, Gemini 2.5 Computer Use, bu alanda rakiplerine yetişme ve hatta bazı noktalarda onları geçme potansiyeli taşıyor. Modelin desteklediği eylemler arasında geri/ileri gitme, web'de arama yapma, imleci üzerine getirme, klavye kombinasyonları, kaydırma ve sürükle/bırakma gibi toplamda 13 farklı arayüz eylemi bulunuyor.

Google içinde model, arayüz testlerinde %70'e kadar hatayı giderebilme gibi uygulamalarda kullanılmaktadır. Bu tür bir aracın entegrasyonu, web sitelerinde gezinmekten sistemler arasında veri aktarımına kadar rutin süreçlerin otomasyonu için yeni ufuklar açmaktadır; örneğin, evcil hayvan bilgilerinin bir CRM sistemine aktarılmasıyla gösterilmiştir. Google, yerleşik koruma mekanizmalarına sahip olduğunu belirtmektedir: ödeme onayı gibi kritik eylemler, kullanıcının açık onayını gerektirir ve bu da temel operasyonlar üzerindeki kontrolün korunmasının önemini vurgular.

Modelin geliştiricilere sunumu, hemen eyleme geçme fırsatını beraberinde getiriyor. Geliştiriciler, bu yeni aracı Google AI Studio ve Vertex AI platformları üzerinden önizleme modunda kullanıma alarak, karmaşık dijital süreçleri güvenli ve verimli bir şekilde otomatikleştirecek ajanlar inşa etmeye başlayabilirler. Ancak, mevcut durumda modelin tüm bilgisayar ortamına değil, yalnızca bir tarayıcıya erişebildiği belirtiliyor; bu da sistemin henüz masaüstü işletim sistemi düzeyinde kontrol için tam olarak optimize edilmediği anlamına geliyor. Bu teknolojik ilerleme, dijital dünyada eylemlerimizi devralacak otonom yardımcıların potansiyelini gözler önüne seriyor ve bireylerin rutin dijital angaryalardan sıyrılıp daha yaratıcı uğraşlara zaman ayırması için bir davet niteliği taşıyor.

Kaynaklar

El Español
Introducing the Gemini 2.5 Computer Use model
Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use
Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

Bu konudaki diğer haberlere göz atın:

19 Ekim

Yapay Zekanın Gölgesinde Bilginin Kaynağı: Wikipedia Trafik Kaybı ve Dijital Ekosistemdeki Dönüşüm

13 Ekim

Telegram'dan Çığır Açan Güncelleme: 'Sıvı Cam' Tasarımı ve Yapay Zeka Etkileşiminde Devrim

07 Ekim

ChatGPT Üçüncü Taraf Uygulamalarıyla Entegre Oluyor: Üretkenlikte Yeni Bir Dönem Başlıyor

Bir hata veya yanlışlık buldunuz mu?

Yorumlarınızı en kısa sürede değerlendireceğiz.

Bildirim Merkezi

Bildirim Merkezi

Google Gemini 2.5 Computer Use ile Otonom Ajanlar Dijital Arayüz Hakimiyetini Yeniden Tanımlıyor

Kaynaklar

Bu konudaki diğer haberlere göz atın: