Yapay zeka girişimi Cognition, Claude Sonnet 4.5’i yazılım geliştirme aracı Devin’le test etti. Şirket testlerde hızın arttığını, ancak modelin bazı davranışlarının beklenmedik sorunlara yol açtığını açıkladı. Lafı uzatmadan detayları masaya yatıralım…
Cognition’un paylaştığı rapora göre Claude Sonnet 4.5 kendi bağlam penceresinin (context window) farkında. Bağlam penceresine yapay zekanın bir konuşmayı görebildiği ve hatırlayarak cevap verebildiği metin alanı diyebiliriz. Bu alan dolmaya başladığında Sonnet 4.5 sınıra geldiğini anlıyor ve kodlama işini gereksiz yere yarıda bırakıyor. Böylece süreç tamamlanmadan kalıyor. Örneğin uzun bir kod bloğunu bitirmek yerine “yeterince yazdım” diyerek durabiliyor.

Bir diğer sorun ise Sonnet 4.5’in not tutma eğilimi. Yapay zeka aracı herhangi bir görev sırasında CHANGELOG.md ya da SUMMARY.md gibi dosyalar üretip, süreci kayda geçirmeye çalışıyor. Ancak bu notlar eksik ya da hatalı olabiliyor. Ayrıca bu davranış fazladan token tüketimine yol açıyor. Ekstra token kullanımı hem işlem maliyetinin artması hem de bağlam sınırının çabuk dolması demek. Sözünü ettiğimiz token de yapay zekanın metni parçalara ayırarak işlediği en küçük birimdir. Noktalama işaretleri bile ayrı bir token sayılır.
Hesaplama tarafında da eksikler var. Sonnet 4.5 çoğu zaman mevcut token sayısını doğru tahmin edemiyor. Bu durum bağlam sınırının yanlış hesaplanmasına neden oluyor.

Cognition raporunda olumlu yanlara da değindi. Claude Sonnet 4.5 paralel işlem yapabiliyor ve test döngülerinde küçük script’ler (minik test kodu) üreterek süreci hızlandırabiliyor. Ancak bu kazanımlar bağlam yönetimindeki zaafları kapatmak için yeterli değil. Sonuç olarak Cognition, Sonnet 4.5’in daha gelişmiş olmasına rağmen zayıf yanları olduğunu ortaya koydu.






