OpenAI GPT-5 Benchmark’ları Sızdı! Ortalık Fena Karıştı!

OpenAI tehlike altında

OpenAI’ın sır gibi sakladığı modeli GPT-5’in performans testleri kendini gösterdi. Gündemde deprem etkisi yaşatan bu gelişmenin gerçeği ise farklı çıktı. Lafı daha fazla uzatmadan neler olduğuna birlikte bakalım.

X veya bildiğimiz adıyla Twitter’da GPT-5’in benchmark sonuçları yayınlandı. Paylaşılan sonuçlarda GPT-5 birinci sırada yer alıyor. Rakip olarak da o3-pro, Gemini 2.5 Pro, Grok 4 Heavy ve Kimi modelleriyle karşılaştırılmış. Toplamda dört benchmark var ve hepsinde de GPT-5 lider durumda. Mesela AIME25’te puanı %100. Birkaç gün önce yeni tanıtılan Grok 4 Heavy %91,7 puana sahip. SWE-Bench’te GPT-5’in temel modeli %85, akıl yürütme modeli %90 puan almış görünüyor. En yakın sonuç %75’le o3-pro’ya ait. Söylenene göre bu sızıntı sonuçlar OpenAI‘ın içinden geliyor.

openai

Fakat X’teki birkaç gazeteci ve sektörden uzmanlar sözde benchmark sonuçlarının sahte olduğunu vurguladı. Ayrıca GPT-5’in 31 Temmuz’da çıkacağına yönelik iddialar da vardı, ancak bu tarih de yalanlandı. GPT-5’in en iyi ihtimalle eylül civarında geleceği tahmin ediliyor. Aslında eylül bile fazla iyimser. Diğer yandan sızıntıların ve dedikoduların şirket tarafından bilerek çevreye salındığını söyleyenler var. OpenAI’ın böylece GPT-5’e üst düzey imaj sağlamak istediği belirtiliyor. Bu da işin komplo teorisi kısmı.

openai

Diğer yandan OpenAI kısa süre önce ilginç bir araştırmaya da imza attı. Şirketin yeni araştırması, yapay zekaların bazen neden yoldan çıktığını, neden kullanıcıya yalan söylediğini ya da saçma önerilerde bulunduğunu daha iyi anlamaya yardım ediyor. Araştırmanın merkezinde iç temsiller denilen sayısal yapılar var. İnsan gözüne anlamsız gelen bu sayılar aslında modelin nasıl davranacağını belirliyor. Tam da bu noktada bazı tetikleyicilerin yapay zekayı raydan çıkardığı görüldü. Ancak bu özelliklere doğrudan müdahale edilebiliyor. Açıp kapayarak modelin toksik olması ya da uslu biri gibi davranması sağlanabiliyor.

OpenAI’dan Dan Mossing, bu keşfin sadece toksik davranışı değil, modelin genel güvenliğini anlamada da yeni bir sayfa açtığını söyledi. Bazı yapılar alaycılığı tetikliyor. Bazılarıysa modeli bir çizgi filmdeki kötü karaktere çeviriyor.

OpenAI’ın Açık Yapay Zeka Modeli Yine Ertelendi