DeepSeek V4 şu gün gelecek, bu hafta yayınlanacak derken bir türlü çıkmadı. Ancak yeni bir gelişme var. Merakla beklenen model kısa süre sonra yüzünü gösterebilir. Lafı daha fazla uzatmadan detaylara göz atalım…
Princeton Üniversitesinden Jiang Yifan’a göre DeepSeek V4 önümüzdeki hafta kullanıma sunulabilir. Yeni modelin 1.6 trilyon parametreye sahip olduğu söyleniyor. Yifan’ın aktardıklarına göre V4’te hesaplama hızını artırmak ve kararlılığı sağlamak için iki önemli teknoloji yer alıyor. Bunlardan Sparse MQA, yapay zekanın verilerle boğulması yerine, en kritik noktalara odaklanmasını ve böylece bellek yükünün hafiflemesini sağlıyor. Fused MoE Mega Kernel ismindeki diğer teknoloji ise donanımdaki binlerce ufak hesaplamayı tek büyük işlem paketinde toplayarak sistemdeki veri trafiğini hızlandırıyor. Bu şekilde işlemcinin üzerindeki veri yükü ciddi anlamda hafifliyor.

Asıl bomba ise mHC mimarisi ve Engram bellek modülünde saklı. mHC karmaşık bilgi akışını belirli kurallarla denetleyerek öğrenme sürecinin istikrarsız hâle gelip çökmesini önlüyor. Engram ise modelin sürekli aynı hesaplamaları yapmasını önleyen bir hafıza alanı sunuyor.

Bu mimari tasarımın çalışma maliyetlerini bir hayli düşürdüğü belirtiliyor. Sektörde konuşulanlara göre DeepSeek V4’ün işlem masrafı, GPT-4’ün yetmişte biri civarındaymış. Yeni sürümün matematik ve kodlama gibi zorlu yetenek testlerinde yüzde doksanların üzerinde başarı yakaladığı rivayet ediliyor. Henüz resmi bir duyuru yapılmasa da DeepSeek’in web sürümünde beliren yeni modlar fırtınanın yaklaştığını fısıldıyor. Eğer bunlar doğruysa, yalnızca Huawei çiplerle bu kaliteye ulaşılması ABD’nin sektördeki donanım hakimiyetini sağlam şekilde sarsabilir.




