Google, yapay zekânın sınırlarını genişleten yeni modeli Gemini 2.5 Computer Use’u tanıttı. Bu model, kullanıcı arayüzlerini bir insan gibi analiz edip tıklama, yazma, kaydırma gibi eylemleri doğrudan gerçekleştirebiliyor.
Yapay zekâ dünyasında bir sıçrama daha yaşanıyor: Google’un yeni geliştirilen modeli Gemini 2.5 Computer Use, internette ve kullanıcı arayüzlerinde insan gibi davranma becerisine sahip. Bu model, temel olarak ekran görüntüleri üzerinden arayüzü algılıyor, hangi düğmeye basılacağına, nereye tıklanacağına ya da hangi alana yazı gireceğine karar veriyor.

Gemini 2.5’nin arkasındaki fikir oldukça çarpıcı: AI artık sadece metin temelli API çağrılarıyla sınırlı kalmıyor, doğrudan tarayıcı ekranıyla etkileşime geçiyor. Model, bir görev istendiğinde önce ekran görüntüsünü alıyor, son birkaç işlemi hafızasında tutuyor ve arayüzü analiz ederek gerekli kullanıcı hareketini (tıklama, yazma, kaydırma, açılır menüyü kullanma gibi) belirliyor. Ardından bu hamle gerçekleştirilip yeni ekran görüntüsü modele geri gönderiliyor — işlem bu şekilde döngüsel biçimde ilerliyor.
Google, Gemini 2.5 Computer Use’un yoğun benchmark testlerinde rakip sistemleri geride bıraktığını söylüyor. Özellikle Online-Mind2Web, WebVoyager ve AndroidWorld platformlarında üstün performans gösterdiği aktarılıyor. İlginç nokta: bu model aynı zamanda önceki sürüm Gemini 2.5 Pro’nun görsel algılama ve muhakeme kabiliyetleri üzerine inşa edilmiş durumda, yani sadece eylem odaklı değil, görsel bağlamı kavrayabilen bir zeka.
Bu sistem şu an Google AI Studio ve Vertex AI üzerinden kamu önizleme moduyla erişilebiliyor. Geliştiriciler, bu modelle otomatikleşmiş görev akışları, asistan sistemler ya da web tabanlı otomasyon senaryoları oluşturabiliyor. Google, güvenlik ve kötüye kullanım endişelerine karşı bazı tedbirler de almış durumda: modelin önerdiği her kullanıcı hareketi önce bir güvenlik servisi tarafından kontrol ediliyor. Özellikle finansal işlemler gibi hassas senaryolarda, kullanıcı onayı veya daha sıkı kısıtlamalar uygulanabiliyor.
Google’un iç ekipleri bile bu teknolojiyi şimdiden kullanıma almış durumda; özellikle arayüz testleri, otomatize süreçler ve uygulama içi iş akışlarında model aktif şekilde deneyimleniyor. Geleceğe bakarsak, Gemini 2.5 Computer Use web otomasyonun sınırlarını zorlayarak, kullanıcı etkileşimlerini akıllı sistemlerle birleştiren yeni bir çağ başlatabilir.






