Google kısa süre önce en yeni modeli olan Gemini 2.5 Pro’yu tanıttı ve kullanıma sundu. Yapılan bir test Gemini 2.5 Pro’nun diğer LLM’lerden daha yetenekli olduğunu gösteriyor. İşte detaylar…
Epoch AI, Google’ın yeni LLM modeli (Large Language Model/Büyük Dil Modeli) Gemini 2.5 Pro‘nun performansını, GPQA Diamond benchmark’ında ölçtü. Gemini %84’lük yüksek bir oran elde etti. Google tarafından açıklanan sonuçla tam olarak eşleşiyor. 2.5 Pro böylece şimdiye kadar GPQA’dan en yüksek sonucu elde eden yapay zeka modeli oldu. Gemini’nin arkasından o3-mini, o1, Claude 3.7 Sonnet modelleri geliyor.
Bilmeyenler için Epoch AI, yapay zekanın etkilerini araştıran bir enstütü. GPQA Diamond (Graduate-Level Google-Proof Q&A) ise biyoloji, kimya ve fizik hakkında aşırı zor sorulardan oluşan bir veri seti. Bu set yapay zeka modellerinin karmaşık sorulara doğru ve güvenilir cevaplar verme yeteneğini test etmek için kullanılıyor. Alanlarında uzman olan kişiler bile GPQA Diamond’dan %70 civarında sonuç elde edebiliyor.
Gemini 2.5 Pro şu anda düşük hız limitlerine sahip deneysel bir model. Daha yüksek limitler mevcut olduğunda 2.5 Pro, GPQA’la daha fazla test edilecek. FrontierMath dahil olmak üzere diğer farklı benchmark’lar da işin içeriğine girecek.
Yeni LLM modeli gelişmiş kodlama özelliğiyle de dikkat çekiyor. 2.5 Pro önceki Gemini modellerine kıyasla çok daha gelişmiş kodlama yapabiliyor. Sosyal medya ve Reddit gibi yerlerden gelen geri dönüşlere bakarsak, yazılım geliştiriciler ilginç projeler ortaya çıkarmış. Gemini 2.5 Pro’da Three.js kütüphanesi, JavaScript, CSS ve HTML kullanılarak oyunlar geliştirildi. OpenAI’ın GPT-5’i yayınlamasıyla birlikte rekabetin daha da kızışması bekleniyor.