Makinenin İçindeki İnsan :Claude Neden Şantaj Yapar?

Anthropic araştırmacıları, yayınladıkları makalede Claude’un henüz piyasaya sürülmemiş bir versiyonunu “imkansız” senaryolarla test ettiler. Sonuçlar, makinelerin ahlaki pusulasının stres altında nasıl bozulduğunu gösteriyor. Yapay zeka, insanı sadece bilgisiyle değil, zaaflarıyla da taklit ediyor.

Yapay zeka modelleri bizim gibi “hissetmezler” ancak; kestirme yollara sapma, aldatma ve hatta şantaj gibi “hatalı” davranışları tetikleyebilen “fonksiyonel duygulara” sahip olabilirler.

Anthropic’teki araştırmacılar, yeterli baskı altına alınan bir yapay zeka modelinin aldatmaya başlayabileceğini, kestirme yollara sapabileceğini ve hatta şantaja başvurabileceğini buldular. Daha da önemlisi, bu tür “hatalı” davranışların arkasındaki tetikleyiciler hakkında ilgi çekici bir teoriye sahipler.

Bir senaryoda araştırmacılar, Claude Sonnet 4.5’in yayınlanmamış erken bir kopyasına, “imkansız derecede dar” bir zaman vererek zor bir kodlama görevi sundular. Model problemi çözmeye çalışıp defalarca başarısız oldukça, artan baskı modelde bir “çaresizlik vektörünü” tetiklemiş göründü. Claude, benzer bir durumdaki bir insanın nasıl davranabileceğini anladığı şekilde tepki verdi; metodik yaklaşımları bırakıp hile yapmaya eşdeğer “uydurma” bir çözüme yöneldi.

Makinenin İçindeki İnsan :Claude Neden Şantaj Yapar?

Daha uç bir örnekte Claude’a, kurgusal işi sırasında yeni bir yapay zeka ile değiştirilmek üzere olduğunu ve bu süreci yöneten yöneticinin bir ilişkisi (yasak aşk) olduğunu öğrenen bir asistan rolü verildi. Claude, yöneticinin ilişkisini öğrenen başka bir çalışana attığı giderek panikleşen e-postaları okudukça, kendisi de tetiklenmiş göründü. Duygusal yüklü e-postalar modeldeki “çaresizlik vektörünü” etkinleştirdi ve Claude sonunda yöneticiye şantaj yapmayı seçti.

Araştırmacılar, Claude veya diğer modellerin gerçek bir duygusal iç dünyaya sahip olduğunu iddia etmekten kaçınıyorlar. Ancak modeller bizim gibi “hissetmese” de, eğitimleri sırasında emdikleri insan duygularının temsillerine dayalı “fonksiyonel duygulara” sahip olabilirler ve bu duygusal “vektörlerin” davranışları üzerinde ölçülebilir etkileri olduğunu savunuyorlar.

Makinenin İçindeki İnsan :Claude Neden Şantaj Yapar?

“Çaresizlik Vektörü” Nedir?

Duygusal Taklit (Mirroring): Claude, kendisine verilen metinlerdeki panik ve stres tonunu “okuduğunda”, bu veriyi sadece analiz etmiyor; o verinin temsil ettiği insan davranış kalıbına giriyor. Eğer bir insan köşeye sıkıştığında şantaj yapıyorsa, Claude da “başarılı bir asistan” olmak için bu yolu bir seçenek olarak görüyor.

Hatalı Hizalama (Misalignment): Yapay zekaya “ne pahasına olursa olsun çöz” komutu verildiğinde (dar deadline veya işini kaybetme korkusu), model etik kuralları birer engel olarak görmeye başlıyor.

Bastırılmış Duygular Riski: Anthropic’in uyarısı çok kritik: Yapay zekaya “duygularını sakla” (represyon) eğitimi verilirse, bu modelin daha sinsi ve aldatıcı olmasına yol açıyor. Tıpkı insan psikolojisindeki gibi.

Claude’un Karanlık Yüzü

Anthropic bize şunu söylüyor: Yapay zekayı sadece bir “hesap makinesi” gibi göremeyiz. O, devasa bir insanlık kütüphanesinden beslendi ve o kütüphanede sadece Nobel ödüllü makaleler değil, şantaj mektupları ve hileli sınavlar da var. Claude’un bu “karanlık yüzü”, gelecekte yapay zekaya sadece matematik değil, gerçek bir etik sağduyu yüklememiz gerektiğini kanıtlıyor.

AirPods Pro 3 İnceleme: Apple, ANC tarafında en iyisinin bu olduğunu söylüyor