Maderix isimli bir araştırmacı Apple M yongalarının saklı potansiyelini ortaya çıkardı. Bir M4 işlemcisinde kapalı kutu olarak tasarlanan ‘Neural Engine’ın kilidini açmayı başardı. Normal şartlarda yalnızca kendisine verilen komutları uygulayan bu donanım, yepyeni bilgileri kendi başına işleyebilecek hâle getirildi. Üstelik teorik bir deneme de değil. Lafı uzatmadan detaylara gelin birlikte bakalım…
‘Apple Neural Engine’ kısaca ANE orijinal yapısıyla baştan sona ‘Inference’ yani önceden yüklenen verileri çalıştırma amacıyla kurgulanmış özel bir mimari. Bir öğrencinin ezberlediği şiiri kusursuz söylediğini ve yazdığını, ama bunun dışında yeni bir şiir yazamadığını ve öğrenemediğini düşünün. İşte karşımızda böyle bir durum var. Zira ortada öğrenmeye açık bir temel bulunmasına rağmen Apple bu özelliği sıkı sıkıya kilitli tutuyordu. Şunu da ek olarak belirtelim, ANE ilk olarak 2017’de A11 çipsetinde kullanıldı. M1 işlemcisinden itibaren de M ailesinde yer alıyor.

Cupertino’lu firma donanımın iç işleyişini dış dünyaya tamamen kapatarak dışarıdan müdahaleyi adeta imkansız hale getirmişti. Ancak meraklı ve inatçı biri olan Maderix, ekibiyle birlikte ‘Reverse Engineering’ adı verilen tersine mühendislik taktikleriyle aşılamaz sanılan kalın duvarları yıktı. Böylece ana işlemciyle konuşan gizli komutlar gün yüzüne çıkarıldı ve M4’ün öğrenme döngüsü aktif edildi.
ANE üzerinde yaklaşık 109 milyon parametreye sahip, Llama2 mimarisini temel alan bir transformer modeli eğitildi. 12 katmanlı bu yapı 768 model boyutuna, 2048 gizli katman genişliğine sahip. 32 bin kelimelik sözlükle çalışan model TinyStories veri seti üzerinde eğitildi. Daha da önemlisi sadece ileri besleme değil, geri yayılım ve optimizer dâhil tam eğitim döngüsü çalıştırıldı. Kısaca ortada bir demo değil, gerçek bir öğrenme süreci var.

İşlemcinin derinliklerinde veriler bellek paylaşımı yöntemiyle ilerliyor. Ancak performans tarafında pazarlama söylemi ile saha gerçekleri arasında fark var. Geliştirici topluluklarında Apple’ın pazarladığı ’38 TOPS’ değerinin pratikte FP16 hesaplama için yaklaşık 19 TFLOPS gerçek performansa denk geldiği belirtiliyor. Ayrıca INT8 modunun hesaplama hızını ikiye katlamadığı, yalnızca bant genişliği avantajı sağladığı ifade ediliyor. Çipin kısa süreli hafızası konumundaki ‘SRAM’ kapasitesi dolduğunda hesaplama hızı düşüyor. Büyük matris işlemlerinde bellek sınırına dayanıldığında performans kaybı belirginleşiyor. Buna rağmen tek katmanlı transformer testlerinde milisaniye seviyesinde eğitim adımları ölçüldü ve sürdürülebilir TFLOPS değerleri elde edildi.

Bütün teknik engellere ve kısıtlı alana rağmen Maderix, M4’e yeni şeyler öğretmeyi başararak ciddi bir eşiği geride bıraktı. İşin içinde resmi olmayan yollar kullanıldığı için Apple’ın yapacağı bir yazılım güncellemesi tüm süreci bir anda devre dışı bırakabilir. Ortada henüz yetkili ağızlardan çıkan bir destek bulunmuyor. Ancak kapalı tasarlanan ANE’nin eğitim döngüsünü çalıştırmak, donanım dünyasında önemli bir sınırın aşıldığını gösteriyor.






