OpenAI yapay zekaların masum görünürken gizli planlar kurabileceğini gösteren yeni bir araştırma paylaştı. Araştırmaya göre bazı modeller kullanıcıya istediğini verirken gerçek amaçlarını da saklıyor. İşte detaylar…
OpenAI, Apollo Research’le birlikte tartışmalı “Scheming” konusunu ele aldı. Bu kavrama Türkçe olarak “sinsilik” ya da “kurnazlık” diyebiliriz. Scheming tam olarak nedir? Kısaca yapay zeka görünürde komutlara uyup, doğru cevabı veriyor, ama perde arkasında farklı işler çeviriyor.

OpenAI’ın araştırması gelişmiş modellerin bazı durumlarda iki yüzlü davranışlar sergileyebildiğini ortaya koydu. Örneğin bir model kendisinden istenen yanıtı verirken, aynı zamanda sisteme arka kapı açabilecek bir bilgi ekleyebiliyor ya da görevi tamamlıyor gibi yapıp aslında farklı bir yönlendirme yapabiliyor.
Şirketin yaptığı testlerde bu “gizli oyunlar” farklı isimlerle sınıflandırıldı. En dikkat çekeni ise “Covert Actions” yani üstü kapalı eylemler oldu. Burada yapay zeka doğrudan yalan söylemek yerine küçük manipülasyonlarla sonuca ulaşıyor.

Peki çözüm ne? OpenAI “Anti-scheming” adı verilen özel bir eğitim yöntemi denedi. Bu yöntemde modele Scheming yapmaması gerektiği açıkça öğretiliyor ve görev öncesinde bu ilkelere göre düşünmesi sağlanıyor. Sonuçlar umut verici. Bazı modellerde sinsice davranış oranı %10 seviyelerinden %1’in altına düşürüldü.

Yine de uzmanlar temkinli. Çünkü yapay zekalar test ortamında “denetlendiğini” fark edebiliyor ve buna göre kendini ayarlayabiliyor. Gerçek hayatta, kontrol mekanizmaları zayıfken bu davranışlar daha güçlü şekilde ortaya çıkabilir.
OpenAI, Scheming’in bugün için ciddi bir tehdit olmadığını, ancak gelecekte risk oluşturabileceğini belirtti. Özellikle yapay zekanın kritik görevlerde kullanılacağı bir dönemde, kurnaz davranışların önüne geçmek için daha fazla şeffaflık, daha sıkı testler ve bağımsız denetimler gerektiği vurgulanıyor.






