Yapay zekâ sohbet robotlarının en büyük sorunlarından biri, gerçeğe dayanmayan yanıtlar üretmeleri. OpenAI’nin Georgia Tech ile hazırladığı yeni araştırma, bu hataların aslında model tasarımından değil, test ve değerlendirme yöntemlerinden kaynaklandığını ortaya koyuyor.
Yapay zekâ destekli sohbet robotları son yıllarda sınıflardan ofislere, günlük hayata kadar pek çok alanda kendine yer buldu. Ancak bu sistemlerin en çok eleştirilen yanlarından biri, bazen gerçeğe dayanmayan, uydurma bilgiler üretmeleri. Bu durum kullanıcıları sık sık yanıltıyor ve güven sorununu beraberinde getiriyor. OpenAI, yaptığı son araştırmayla bu sorunun nedenlerini ortaya koyduğunu ve çözüm yolunu bulduğunu açıkladı.

Şirketin Georgia Tech’ten Santosh Vempala ile birlikte yayımladığı 36 sayfalık çalışmada, sorun modelin tasarımından değil, kullanılan değerlendirme yöntemlerinden kaynaklanıyor. Günümüzde sohbet robotları test edilirken, her soruya mutlaka cevap vermesi teşvik ediliyor. Yanlış olsa bile cevap vermek, sessiz kalmaya tercih ediliyor. Yani tıpkı bir sınavda emin olunmasa bile şıklardan birini işaretlemek gibi. Bu yaklaşım, yapay zekânın hatalı ama kendinden emin cevaplarını ödüllendiriyor.
OpenAI’nin önerdiği çözüm, tam tersine bir puanlama sistemi. Araştırmacılar, “kesin ama yanlış” cevapların ağır şekilde cezalandırılmasını, emin olmadığında geri durmanın ise ödüllendirilmesini savunuyor. Bu yöntemle, yanlış bilgi vermek yerine “bilmiyorum” demek daha değerli hale geliyor. İlk denemeler de bu farkı ortaya koyuyor. Örneğin bir model soruların sadece yarısına yanıt verdi ancak yüzde 74 doğruluk oranına ulaştı. Başka bir model ise neredeyse tüm soruları yanıtladı fakat dört cevabından üçü hatalı çıktı.
Bu yaklaşım benimsendiğinde, günlük kullanımda da önemli değişiklikler yaşanabilir. Kullanıcılar artık uydurma kaynaklar ya da yanlış istatistiklerle karşılaşmak yerine, gerektiğinde net bir şekilde “emin değilim” yanıtını duyacak. Bu, kimi zaman daha az etkileyici görünebilir ama kullanıcıların sürekli doğrulama yapma yükünü azaltacak. OpenAI için bu araştırma, yapay zekânın daha güvenilir ve şeffaf olması yolunda atılmış önemli bir adım olarak değerlendiriliyor.






