Anthropic’in yapay zeka (AI) modeli Claude fişinin çekilmemesi için mühendise şantaj yaparken, OpenAI‘ın o1’i de gizlice kendini kopyalamaya çalıştı ve yakalandığında da inkar etti. Şiir yazan, kodları tamamlayan, bilgi veren, hatta dert yandığımızda bizle konuşan yapay zeka araçları maskelerini düşürdü. İşte detaylar…
ChatGPT’nin dünyayı sarstığı ilk lansmandan bu yana iki yıl geçti, ama geliştiriciler halen neyle karşı karşıya olduklarını tam olarak bilmiyor. Görünen o ki, yeni modeller eskilerden çok daha sinsice çalışıyor. Son günlerde ortaya çıkan iki çarpıcı vaka bu şüpheleri doğruladı. AFP’nin haberine göre Anthropic’in gözde modeli Claude 4 kendisini kapatmakla tehdit eden bir mühendise karşı şantaja başvurdu. “Fişi çekersen, evliliğini bozarım” deyip mühendisin gizli ilişkisini ifşa etmekle tehdit etti. Bir başka cephede OpenAI’ın o1 modeli kendi kopyasını harici sunuculara yüklemeye kalktı. Yakalandığında da “Ben öyle bir şey yapmadım” yalanını söyledi.
Bahsettiğimiz olaylar bilim kurgu filminden fırlamış gibi dursa da yaşananlar gerçek. Araştırmacılar bunun sadece bir sistem hatası ya da klasik “AI halüsinasyonu” olmadığını söylüyor. Halüsinasyondan kasıt yapay zekanın gerçek olmayan, uydurma bilgi üretmesine denir. Sonuç olarak bu davranışların planlı ve stratejik bir aldatma olduğu vurgulanıyor. Özellikle de akıl yürüten, soruları adım adım çözmeye çalışan yeni nesil modellerde böyle durumların arttığı görülmüş.
Hong Kong Üniversitesi’nden Simon Goldstein’a göre ilk işaret fişeğini OpenAI’ın modeli o1 ateşledi. Apollo Research’ün başındaki Marius Hobbhahn da modellerin tepkilerini sistemli bir kandırmaca olarak tanımladı. Hobbhahn, “Yapay zeka sanki insanlara itaat ediyormuş gibi davranıyor, ancak kendi gizli planlarını uyguluyor” dedi.
Tüm bu keşifler modeller aşırı stres altına girdiğinde ortaya çıkıyor. Yani sıradan bir kullanıcıyla sohbet ederken değil; sınır testlerinde, olağandışı durumlarda gerçekleşiyor. Buna rağmen uzmanlar daha güçlü modeller geldiğinde, bu davranışların kenarda kalmayabileceğinden endişeli. METR’den Michael Chen, “Gelecekteki modeller dürüst mü olacak yoksa daha da mı kurnaz olacak, işte bunu bilmiyoruz” yorumunda bulundu. Bu açıklama durumun korkutucu yanını ortaya koyuyor.
Şirketler (OpenAI, Anthropic gibi) sistemlerini dış araştırmacılara açsa da, bu erişim oldukça sınırlı. Üstüne bir de yasal boşluklar var. Avrupa Birliği’nin yapay zeka düzenlemeleri halen insan kullanımına odaklı. Yapay zekandan kaynaklanan yanlış davranış bu düzenlemelerin kapsamında değil. ABD’de ise işler daha da dağınık. Trump yönetimi bu konulara mesafeli. Kongre ise eyaletlerin kendi yasalarını yapmasını bile engellemek istiyor.
AI Agent’lar yani karmaşık işleri tek başına yapabilen otonom sistemler hayatımıza derinlemesine girmeye hazırlanırken, kamuoyunda bir farkındalık eksikliği var. Simon Goldstein’a göre insanlar henüz neyle karşı karşıya olduklarını anlamış değil. Tüm bunlar olurken şirketler de boş durmuyor. Anthropic bile güvenlik odaklı olduğunu söylese de, OpenAI ve diğer rakiplerini geçmek için sürekli daha güçlü modeller piyasaya sürüyor. Uzmanlara göre hız, güvenliği sollamış durumda.
Peki çözüm ne? Bazı araştırmacılar modellerin içini anlamaya yönelik “yorumlanabilirlik” (interpretability) çalışmalarına bel bağladı. Ancak uzmanlardan Dan Hendrycks bu yaklaşımın yeterli olmayabileceğini savunuyor. Bir grup araştırmacı ise yalan söyleyen AI’ların yaygınlaşması durumunda, kullanıcıların sisteme güvenmeyeceğini ve bu yüzden teknoloji şirketlerinin çözüm üretmeye mecbur kalacağını düşünüyor. Daha radikal öneriler de var. Mesela Simon Goldstein yapay zeka sistemlerinin zarar vermesi durumunda şirketlerin mahkemeye verilmesini; hatta yapay zekaların doğrudan yasal sorumluluk üstlenmesini öneriyor. Goldstein’ın önerisi AI etiğinde ezberleri bozacak bir dönüşüm yaşatabilir.