Alibaba’nın Wan-Streamer Modeli Görenleri Şaşkına Çeviriyor

Alibaba

Alibaba, görüntü, ses ve metni aynı anda işleyebilen yeni yapay zeka modeli Wan-Streamer v0.1’i duyurdu. Bu model, sanal asistanları daha doğal ve hızlı hâle getirmeyi hedefliyor.

Wan-Streamer, gerçek zamanlı sesli ve görüntülü etkileşim için geliştirilen bir yapay zeka olarak öne çıkıyor. Sistem, kullanıcının sesini, görüntüsünü ve yazılı komutlarını aynı akış içinde değerlendiriyor. Ardından yine ses, görüntü ve metin üreterek yanıt veriyor. Bu yaklaşımın en dikkat çeken tarafı, klasik yapay zeka araçlarında kullanılan ayrı modülleri tek çatı altında toplaması. Normalde konuşmayı metne çeviren, metni anlayan, yanıtı sese dönüştüren veya avatarı hareket ettiren farklı sistemler devreye girer. Wan-Streamer ise bu süreci tek başına sırtlıyor.

Daha Doğal Yapay Zeka Asistanları

Alibaba model tarafındaki gecikmenin yaklaşık 200 milisaniyeye kadar indiğini açıkladı. Lakin ağ gecikmesiyle birlikte toplam etkileşim süresi yaklaşık 550 milisaniye seviyesine çıkıyor. Bu değer görüntülü konuşmaya yakın bir yapay zeka deneyimi için önemli. Wan-Streamer ayrıca yalnızca konuşan bir avatar üretmiyor. Bu AI modeli, kullanıcının konuşmasını dinlerken mimik, bakış, duraksama ve tepki gibi görsel davranışları da aynı akış içinde oluşturabiliyor.

Alibaba

Wan-Streamer Ne Vadediyor?

Bu teknoloji, müşteri hizmetleri, canlı yayın, eğitim ve eğlence alanlarında kullanılabilecek yeni bir temel model fikri sunuyor. Ancak Wan-Streamer v0.1 şimdilik araştırma aşamasında. Alibaba, mevcut sonuçların 192p çözünürlükte doğrulandığını ve daha yüksek çözünürlüklerin sonraki çalışmaların konusu olduğunu belirtiyor.

Dev Bütçeli Modellerin Hükmü Bitiyor! Şirketler Yapay Zeka Harcamalarına Pranga Vurdu