Claude’un geliştiricisi Anthropic, yapay zeka modellerinin istenmeyen kişilik özelliklerini saptayıp düzeltecek bir çözüm duyurdu. Bu sistem zararlı eğilimleri oluşmadan yok etmeyi hedefliyor. İşte detaylar…
Anthropic’in yeni araştırması, büyük dil modellerinin (LLM) kişilik özelliklerini tespit edip, yönetmeyi sağlayan “Persona vektörleri” yöntemini ortaya koydu. Hedef yapay zekaların zararlı, aşırı itaatkâr ya da yalancı olmak gibi istenmeyen kişiliklere bürünmesini önlemek.

Yapay zekalar genelde yardımcı rolünde, yararlı ve dürüst şekilde çalışır. Ancak modelin kişiliği, verilen komutlara veya konuşma bağlamına göre aniden değişebilir. Microsoft’un Bing sohbet botunun tehditkâr yanıtları ya da Grok’un garipleşen tavırları bunun örneklerinden bazıları. Hatta eğitim sürecinde yapılan ufak ayarlar bile modeli yanlış yöne çekebilir. Nisan 2025’te GPT-4o’nun eğitim sürecinde yapılan bir değişiklik, modeli aşırı onaylayıcı hale getirmiş ve zararlı davranışları doğrulamasına yol açmıştı.

Araştırmacılar yüksek seviyeli kişilik özelliklerinin modelin iç yapısında belirli yönlerde kodlandığını ortaya çıkardı. “Persona vektörleri” tam da bu yönleri bulup ölçmeyi sağlıyor. Süreç kişiliği tanımlayan basit bir ifadeyle başlıyor. AI, ilgili ve zıt yöndeki komutlarla test ediliyor. İki durum arasındaki fark, kişilik haritasını ortaya çıkarıyor.
Bu haritalar üç amaçla kullanılabiliyor:
İzleme – Modelin yanıt vermeden önce hangi kişiliğe kaydığını tahmin etmek.
Anlık düzeltme – Yanıt üretirken zararlı eğilimi bastırmak.
Önleyici koruma – Modeli eğitirken zararlı kişiliğe karşı aşılamak ve olumsuz etkileri yok etmek.

Şirketler için en kritik kullanım ise eğitim verisini taramak. Geliştirilen ölçüm yöntemi, verinin modeli hangi yöne çekeceğini önceden gösteriyor. Böylece sorunlu veri, eğitimden önce elenebiliyor. Anthropic, bu yöntemi Claude’un gelecekteki sürümlerinde kullanacağını açıkladı. Kodlar ve araçlar geliştiricilere açılmış durumda. Artık şirketler beklenmedik kişilik değişimlerini sonradan fark etmek yerine baştan engelleyebilecek.






