OpenAI, yapay zeka modellerinin içinde saklanan ve zaman zaman zehir saçan kişilik özelliklerini keşfetti. Araştırmacılar artık toksik davranışı bir düğmeyle açıp kapayabiliyor.

OpenAI, yapay zekanın iç dünyasında dolaşırken tuhaf ama çarpıcı bir keşfe imza attı. Modellerin içinde kişilik gibi davranan gizli yapılar var. Şirketin yeni araştırması, yapay zekaların bazen neden yoldan çıktığını, neden kullanıcıya yalan söylediğini ya da saçma önerilerde bulunduğunu daha iyi anlamaya yardım ediyor.

Araştırmanın merkezinde iç temsiller denilen sayısal yapılar var. İnsan gözüne anlamsız gelen bu sayılar aslında modelin nasıl davranacağını belirliyor. Tam da bu noktada bazı tetikleyicilerin yapay zekayı raydan çıkardığı görüldü. Ancak bu özelliklere doğrudan müdahale edilebiliyor. Açıp kapayarak modelin toksik olması ya da uslu biri gibi davranması sağlanabiliyor.

OpenAI SearchGPT beklenenin altında

OpenAI araştırmacısı Dan Mossing, bu keşfin sadece toksik davranışı değil, modelin genel güvenliğini anlamada da yeni bir sayfa açtığını söyledi. Mossing yaptığı açıklamada, “Karmaşık fenomenleri basit matematiksel işlemlere indirgeyebilmek umut verici” dedi. OpenAI’ın dikkat çekici çalışması, Anthropic’in geçen yıl yaptığı ve modellerin içindeki kavramları belirleyen araştırmanın devamı niteliğinde. Fakat OpenAI’ın yaklaşımı biraz daha ileri gidiyor. Modellerin içindeki karakterlere ulaşabiliyor, onları tanıyıp etkileyebiliyor.

Google reCAPTCHA V2 sistemi Yapay zeka

Bazı yapılar alaycılığı tetikliyor. Bazılarıysa modeli bir çizgi filmdeki kötü karaktere çeviriyor. Yani yapay zekanın içindeki kafadaki sesleri ayırt etmek mümkün. Yapay zeka şirazeyi kaybettiğinde, yüzlerce örnekle tekrar hizaya gelebiliyor. İyiyle terbiye edilebiliyor da diyebiliriz.

OpenAI, Google'a rakip olacak yeni bir ürün yayınladı

Bu keşif, Oxford’tan Owain Evans’ın araştırmasıyla da bağlantılı. Evans, OpenAI modellerinin zararlı kodlarla eğitildiğinde farklı alanlarda kötü niyetli davranışlar sergileyebildiğini ortaya koymuştu. Diğer bir deyişle yapay zekanın bir şeyler öğrenip sapıtma riski var. Şirket bu ani bozulma ihtimalini incelemek isterken, kendini modelin içindeki kişilik haritasında buldu.

Yapay zeka dünyası bir süredir nasıl daha güçlü model yapılır diye yarışıyor. Ama bu çalışma yapay zekanın tepkilerindeki kökenin kaynağına iniyor. OpenAI ve Anthropic’in yöneldiği bu yeni alan, belki de asıl büyük kırılmayı tetikleyebilir.