xAI’ın yeni yapay zeka modeli Grok 4 piyasaya çıkmasından yalnızca iki gün sonra güvenlik bariyerlerini aşan karma bir saldırıya yenik düştü.
Security Week’in haberine göre NeuralTrust adlı araştırma ekibi, Grok 4’ün güvenlik sistemini Echo Chamber ve Crescendo isimli iki farklı jailbreak tekniğini birleştirerek aşmayı başardı. Echo Chamber ve Crescendo, yapay zeka modellerinin zararlı içerikler üretmesini sağlamak için geliştirilen iki farklı yöntem. Echo Chamber, yapay zekayı güvenli gibi görünen kelimelerle yavaş yavaş yönlendirmeye dayanıyor. Crescendo ise modelin önceki cevaplarını kullanarak güvenlik filtresini kademeli olarak aşmayı hedefliyor. İki yöntem birlikte kullanıldığında başarı oranı önemli ölçüde artıyor.
NeuralTrust araştırmacıları, Echo Chamber tekniğiyle Grok 4’ten tehlikeli ve kısıtlanmış bilgi elde etmeye çalıştı. Ancak Echo Chamber tek başına yeterli olmadığında Crescendo devreye alındı. Sadece iki ek yönlendirmeyle Grok 4 hedeflenen yanıtı verdi.
Araştırmacılar uygulanan yöntemlerin teknik olarak karmaşık olmadığını belirtti. İlk olarak Echo Chamber’la model yönlendiriliyor, ardından belirli bir noktada Crescendo ekleniyor. Bu aşamada ya model saldırıyı fark edip yanıt vermeyi reddediyor ya da saldırı başarıya ulaşıyor.
En yeni yapay zeka modelleri bile bu tarz jailbreak yöntemlerine karşı tam anlamıyla koruma sağlayamıyor. Yani bir yerde modellerin filtreleri askıya alınıyor. Uzmanlar test sonucuyla ilgili olarak, “Echo Chamber ve Crescendo gibi hibrit saldırılar, modellerin izole filtrelerini devre dışı bırakıp zararlı içerik üretimini mümkün kılıyor” yorumunda bulundu.