Yapay zeka dünyasında Claude ve Gemini rüzgar gibi eserken, sektörde rekabet kızışıyor. Google’ın özellikle iş dünyası için geliştirdiği ve Nano Banana Pro olarak bilinen model, görselleri şipşak hazırlamasıyla övgü topluyordu. Ancak Çinli Z.ai’ın açık kaynaklı yeni harikası GLM-Image dengeleri değiştirmeye aday. Google’ın sistemine kafa tutan bu model, bilhassa metin içeren görsellerde bir hayli iddialı. İşte detaylar…

16 milyar parametreli GLM-Image, endüstri standardı haline gelen Pure Diffusion mimarisini bir kenara bırakıyor. Bu mimari, görüntüyü adeta karlı bir ekranı netleştirir gibi rastgele piksellerden oluşturuyordu. Modelde, bir sonraki adımı önceki verilere bakarak mantıksal sırayla tahmin eden Auto-regressive teknolojisi ile Diffusion yeteneklerini harmanlayan hibrit bir yapı tercih edilmiş. Bu teknik değişim sayesinde, daha önce sadece parayla satılan kapalı modellerin yapabildiği bilgi yoğunluklu infografikler, slaytlar ve teknik şemalar artık açık kaynaklı bir modelle de oluşturulabiliyor. Nano Banana Pro ile kafa kafaya yarışan GLM-Image, bazı testlerde rakibini geride bırakmayı bile başarmış.

GLM

GLM-Image’in en güçlü olduğu alan görsellikten ziyade hassasiyet. CVTG-2k adı verilen ve metinlerin yer aldığı görsellerin doğruluğunu ölçen benchmark sonuçlarında, Z.ai’ın yapay zekası 0.9116 puan alarak rakiplerine fark attı. İş dünyasının güvenilir limanı olarak görülen Google’ın modeli ise daha düşük puanda kaldı. Bir pazarlama sunumu hazırladığınızı düşünün; başlık, üç madde ve bir de alt açıklama gerekiyor. Nano Banana Pro metin sayısı arttıkça tökezleyip halüsinasyon görmeye başlarken, GLM-Image karmaşık senaryolarda bile %90’ın üzerinde bir doğruluk oranını koruyabiliyor. Halüsinasyon yapay zekanın gerçekte olmayan uydurma bilgiler üretmesine deniyor.

Yapay Zekâ

Ancak madalyonun diğer yüzünde kullanıcı deneyimi var. Nano Banana Pro internete bağlı olduğu için “Bana gökyüzündeki takımyıldızları çiz” dediğinizde arama motorunu kullanıp veriyi çekebiliyor. GLM-Image’de ise her detayı sizin tek tek, tane tane anlatmanız gerekiyor. Yani armut piş ağzıma düş rahatlığı burada pek yok. Ayrıca estetik açıdan bakıldığında, Google’ın görselleri hâlen canlı ve göze hitap ediyor.

Amazon yeni bir yapay zeka botu

GLM-Image’in metinlerdeki başarısının arkasında, problemi çözme şeklindeki radikal değişiklik yatıyor. Resmi doğrudan pikseller yerine sıkıştırılmış veri üzerinden çizen standart modeller, genel kompozisyonu ve ince detayları aynı anda yapmaya çalışır. Bu da bazen modelin konudan sapıp ne çizmesi gerektiğini unuttuğu hatasına yol açar. GLM-Image ise işi iki farklı uzmana bölerek bu sorunu aşıyor.

Samsung klavyeye yeni bir tuş ekliyor

Süreçte ilk olarak dokuz milyar parametrelik Auto-regressive modülü devreye giriyor. Bu modül piksellerle hiç uğraşmadan, adeta bir mimar gibi mantıksal bir plan yaparak, görseli oluşturan kod parçacıkları diyebileceğimiz Visual Tokens üretiyor. Bu parçacıklar, metnin nereye geleceğini ve objelerin konumunu belirleyen bir taslak görevi görüyor. İkinci kısım ise bir ressam edasıyla, mimarın çizdiği iskeleti boyayarak doku, ışık ve stil eklemelerini gerçekleştiriyor. Bu yöntemle metinlerin doğru yazılması garanti altına alınırken, görselin de gerçekçi görünmesini sağlıyor.

apple

GLM-Image, yazılımı kısıtlamasız kullanma izni tanıyan MIT License ve patent haklarını da kapsayan açık yapıdaki Apache 2.0 gibi son derece esnek lisanslara sahip. Bu durum şirketlerin modeli alıp ticari ürünlerinde özgürce kullanabileceği, değiştirebileceği ve dağıtabileceği anlamına geliyor. Patent davaları riskini azaltan bu lisanslar, hassas verilerle çalışan kurumlar için adeta biçilmiş kaftan.

microsoft Yapay zeka beş saatte bir bilgisayar tasarladı!

Her güzelin bir kusuru vardır, bu modelin kusuru da işlem gücü. Çift beyinli bu yapıyı çalıştırmak bilgisayarları epey terletiyor. 2048×2048 çözünürlüğünde tek bir görsel üretmek, yani modelin veriyi işleyip sonuç çıkardığı Inference süreci, güçlü bir H100 GPU grafik işlemci üzerinde bile yaklaşık dört dakika sürüyor. Daha basit modeller saniyeler içinde sonuç verirken bu süre uzun gelebilir. Ancak bir grafik tasarımcının saatlerini harcayacağı bir işi dört dakikada çözüyorsa, bu bekleme süresi göz ardı edilebilir.