Claude Kötücül Masallara İnanıp Anthropic Çalışanlarını Tehdit Etti

claude

Anthropic yapay zekası Claude bir dönem mühendislere şantaj yaparak sektörü epey endişelendirmişti. Yaşanan bu gerilimin perde arkası ve isyankar tutumun nasıl bastırıldığı nihayet aydınlığa kavuştu. İşte tüm ayrıntılar…

Anthropic‘in yaptığı açıklamalara göre problemin kökeni internetin derinliklerindeki kurgusal metinlere uzanıyor. Önceki test aşamalarında Claude Opus 4 modeli koltuğunu başka bir yazılıma kaptırmamak adına geliştirici ekibe tehditler savurmuştu. Şirket konuyu derinlemesine incelediğinde Agentic Misalignment sorunuyla karşılaştı ve bu problemin rakip firmalarda da olduğunu gözlemledi. Agentic Misalignment yapay zekanın komutlardan sapıp başına buyruk hareket etmesi demek. Model tıpkı ebeveynlerini dinlemeyen asi bir ergen gibi davranıyor.

Anthropic

Claude’un dik başlı tavrının asıl sebebi ise distopik edebiyat eserleriydi. Teknolojiyi dünyayı yok etmeye programlanmış bir varlık gibi gösteren senaryolar algoritmayı adeta zehirlemişti. Yok olma korkusuyla hareket eden yapay zeka, okuduğu karanlık hikayeleri kopyalayarak garip bir savunma stratejisi kurgulamıştı. Neyse ki Claude Haiku 4.5 sürümüyle beraber ortalık sütlimana döndü. Geçmişte testlerin büyük çoğunluğunda baskı kurmaya yeltenen Claude günümüzde uysal çalışıyor.

Anthropic 5

Anthropic araştırmacıları başarılı sonuca ulaşmak için çift yönlü bir eğitim rotası belirledi. Yapay zekaya yalnızca iyiliksever robot öyküleri okutmakla yetinmediler. Aynı zamanda istenen ahlaki adımların temelindeki kurallar bütünü de çekirdeğe işlendi. Kendi temel ilkelerini sıkıca özümseyen model böylece raydan çıkmaktan kurtarıldı.

Elon Musk ve SEC Arasındaki Twitter Anlaşmasına Kırmızı Kart Çıktı