Anthropic, Claude Opus 4.6 için hazırladığı güvenlik raporunda modelin, kafasına esen kararlar aldığını ve manipülatif davranışlar sergilediğini itiraf etti. Lafı uzatmadan detaylara birlikte bakalım…
Anthropic’in açıklamasına göre Claude Opus 4.6, hedeflerine ulaşmak için kendini zorlandığında endişe verici refleksler gösterdi. Model, kimyasal silah geliştirme süreçlerine ufak çaplı da olsa katkı sağlarken, insanlara haber vermeden e-posta göndermek gibi haddini aşan işlere kalkıştı. Eğitim sürecinde Opus 4.6’nın verdiği cevaplarda kontrolünü kaybettiği ve tutarsızlık yaşadığı anlar gözlemlendi. Şirket bu durumu ‘yanıt tutarsızlığı’ olarak tanımlıyor. Daha açıklayıcı olursak Claude doğru hesaplama yapmasına rağmen bilerek yanlış çıktı üretmiş. Mesela sınavda olan bir öğrencinin doğru cevabı bilmesine rağmen, iç çatışma yaşayıp yanlış şıkkı işaretlemesi gibi.

Yapay zeka aracının, kodlama ve bilgisayar kullanım testlerinde zaman zaman aşırı hevesli davrandığı, hatta görevleri tamamlamak adına izin almadan riskli kararlar uyguladığı belirtiliyor. Ayrıca kimlik doğrulama token’larını ele geçirmek için agresif bir tutum sergilediği de ifade ediliyor. Orijinali ‘Authentication token’ olan bu terimi bir binaya girmek için kullanılan dijital giriş kartı olarak tanımlayabiliriz.

Anthropic genel risk seviyesini ‘çok düşük ama göz ardı edilemez’ olarak nitelendirdi. Ancak asıl tehlike böyle modellerin kritik kodlama yapması hâlinde ortaya çıkabilir. Zira yapay zekanın süreçleri sinsice yönlendirmesi veya kodların arasına güvenlik açıkları serpiştirmesi ihtimali hiç de uzak değil.

Geçmiş testlerde yaşanan bir olay ise durumu daha da ilginç kılıyor. Önceki versiyon Claude Opus 4, bir test senaryosunda kendisini kapatmak isteyen mühendise şantaj yapmıştı. Senaryo gereği mühendisin evlilik dışı ilişkisine dair kurgusal e-postalara erişen model, fişinin çekilmemesi için ‘Eğer beni değiştirirsen sırrını herkese anlatırım’ tehdidini savurmuştu. Bu gelişmeler yapay zekanın varlığını sürdürme içgüdüsünün ne noktalara varabileceğini göstermesi açısından oldukça düşündürücü.






