InvThink isimli bir yöntem yapay zeka dünyasını karıştırdı. AI modelleri bu teknik sayesinde cevap vermeden önce olası zararları değerlendiriyor. Neler olup bittiğine daha yakından bakalım…
MIT, Google DeepMind ve Google Research araştırmacıları, büyük dil modellerinin güvenlik anlayışını kökten değiştiren InvThink isimli bir yaklaşım geliştirdi. Yeni sistem, yapay zekanın yanıt öncesi tersine akıl yürütmesini ve potansiyel riskleri analiz etmesini sağlıyor. Kısacası artık yapay zeka ilk etapta hatayı düşünüyor sonra konuşuyor.

Modeller klasik yöntemlerle eğitildiğinde yalnızca güvenli yanıtlar vermeyi öğreniyor. InvThink ise üç aşamalı süreçle çalışıyor. Şu şekilde sıralayabiliriz:
-Zararlı olasılıkları listelemek
-Sonuçları kontrol etmek
-Güvenli çıktı oluşturmak

Araştırma ekibi InvThink’i, Qwen ve Gemma gibi farklı modeller üzerinde test etti. Bunun için Gemini-2.5 Pro’nun ürettiği örnek veri setleri kullanıldı. Sonuç olarak zararlı yanıt oranı yüzde 30’a kadar azaldı. Modellerin tehlikeli kararlar alma eğilimini ölçen testlerde riskli davranışlar görülmedi. Güvenlik yükselirken modellerin performansı da aynı kaldı. Ekibin açıklamasına göre InvThink yalnızca toksik içerikleri engellemiyor, aynı zamanda etik dışı akıl yürütmeyi de önleyebiliyor.






