Yapay zeka modellerinin performansı oyun dünyasının efsanesi Super Mario’la ölçülüyor.

Pokemon’un yapay zeka modelleri için bir benchmark olduğu düşünülüyor. Fakat bir grup araştırmacıya göre Super Mario daha zor. California San Diego Üniversitesine bağlı bir araştırma kuruluşu olan Hao AI Lab, yapay zekaların performansını Super Mario oynatarak karşılaştırdı. Anthropic’in yeni modeli Claude 3.7 en iyi performansı gösterirken, onu da Claude 3.5 izledi. Google Gemini 1.5 Pro ve OpenAI’ın GPT-4o modelleri ise zorlandı.

Claude-3.7 was tested on Pokémon Red, but what about more real-time games like Super Mario 🍄🌟?
We threw AI gaming agents into LIVE Super Mario games and found Claude-3.7 outperformed other models with simple heuristics. 🤯
Claude-3.5 is also strong, but less capable of… pic.twitter.com/bqZVblwqX3
— Hao AI Lab (@haoailab) February 28, 2025

Super Mario, 1985’teki orijinal sürümüyle tam olarak aynı versiyonda değil. Oyun bir emülatörde çalıştırıldı ve yapay zekaların Mario’yu kontrol edip, oynamasını sağlamak için GamingAgent isimli bir framework kullanıldı. Hao AI Lab’ın kendi geliştirdiği GamingAgent yapay zekaya, “Bir engel veya düşman yakındaysa kaçmak için hareket et, zıpla” gibi temel komutları veriyor. Yapay zeka da bu bilgileri kullanarak Python kodu şeklinde girdiler üretiyor ve bu girdilerle Mario’yu kontrol ediyor. Hao AI Lab, GamingAgent’ı Github’ta da paylaştı.

super mario 2

Araştırma ekibine göre yapay zeka modellerinin gerçek zamanlı oyunları oynarken, sorun yaşamasının ana nedenlerinden biri, eyleme karar vermelerinin biraz zaman almasından kaynaklanıyor. Bu genellikle saniyelerle ölçülüyor, ancak Super Mario’da zamanlama her şeydir. Bir saniye geç kalmak bile oyundaki bir hakkın yanmasına neden olabilir.

Google reCAPTCHA V2 sistemi Yapay zeka

Aslında oyunlar yıllardır yapay zekaların performansını ölçmek ve karşılaştırmak için kullanılıyor. Oyunlar gerçek dünyanın aksine soyut ve daha basittir. Böylece yapay zekayı eğitmek için teorik olarak sonsuz miktarda veri sağlarlar. Bazı uzmanlar ise yapay zekanın oyun becerileri ile teknolojik ilerleme arasında bağlantı kurmanın mantığını sorguluyor. Oyunların benchmark olarak kullanılmasının yanlış olduğunu ileri süren uzmanlar da bulunuyor.

iPhone 17 Air’ın Kaç mm Kalınlığında Olacağı Ortaya Çıktı

Super Mario Yapay Zeka Benchmark’ı Oldu

Yapay zeka modellerinin performansı oyun dünyasının efsanesi Super Mario’la ölçülüyor.

iPhone 17 Air’ın Kaç mm Kalınlığında Olacağı Ortaya Çıktı

İlgili

Anthropic, GPT-5’e Karşı Kılıcını Çekti

Anthropic Yeni Modelleriyle OpenAI ve Google’a Meydan Okudu

Google Yeni Yapay Zeka Modeliyle Ortalığı Dağıttı

Anthropic Milyarlarca Dolarlık Yatırım Aldı

Meta, ChatGPT’ye Karşı Kendi Uygulamasını Yayınlayacak

Anthropic En Akıllı Modeli Claude 3.7 Sonnet’i Kullanıma Sundu

Yapay zeka modellerinin performansı oyun dünyasının efsanesi Super Mario’la ölçülüyor.

iPhone 17 Air’ın Kaç mm Kalınlığında Olacağı Ortaya Çıktı

İlgili

İlginizi çekebilir

Anthropic, GPT-5’e Karşı Kılıcını Çekti

Anthropic Yeni Modelleriyle OpenAI ve Google’a Meydan Okudu

Google Yeni Yapay Zeka Modeliyle Ortalığı Dağıttı

Anthropic Milyarlarca Dolarlık Yatırım Aldı

Meta, ChatGPT’ye Karşı Kendi Uygulamasını Yayınlayacak

Anthropic En Akıllı Modeli Claude 3.7 Sonnet’i Kullanıma Sundu