Alibaba, görüntü, ses ve metni aynı anda işleyebilen yeni yapay zeka modeli Wan-Streamer v0.1’i duyurdu. Bu model, sanal asistanları daha doğal ve hızlı hâle getirmeyi hedefliyor.
Wan-Streamer, gerçek zamanlı sesli ve görüntülü etkileşim için geliştirilen bir yapay zeka olarak öne çıkıyor. Sistem, kullanıcının sesini, görüntüsünü ve yazılı komutlarını aynı akış içinde değerlendiriyor. Ardından yine ses, görüntü ve metin üreterek yanıt veriyor. Bu yaklaşımın en dikkat çeken tarafı, klasik yapay zeka araçlarında kullanılan ayrı modülleri tek çatı altında toplaması. Normalde konuşmayı metne çeviren, metni anlayan, yanıtı sese dönüştüren veya avatarı hareket ettiren farklı sistemler devreye girer. Wan-Streamer ise bu süreci tek başına sırtlıyor.
We are cooked.
China’s Alibaba just revealed Wan Streamer.
AI agents can now see you, hear you, and talk back on video in real time.
This is not voice mode anymore 🤯 pic.twitter.com/cJvJcrC01j
— Min Choi (@minchoi) June 26, 2026
Daha Doğal Yapay Zeka Asistanları
Alibaba model tarafındaki gecikmenin yaklaşık 200 milisaniyeye kadar indiğini açıkladı. Lakin ağ gecikmesiyle birlikte toplam etkileşim süresi yaklaşık 550 milisaniye seviyesine çıkıyor. Bu değer görüntülü konuşmaya yakın bir yapay zeka deneyimi için önemli. Wan-Streamer ayrıca yalnızca konuşan bir avatar üretmiyor. Bu AI modeli, kullanıcının konuşmasını dinlerken mimik, bakış, duraksama ve tepki gibi görsel davranışları da aynı akış içinde oluşturabiliyor.

Wan-Streamer Ne Vadediyor?
Bu teknoloji, müşteri hizmetleri, canlı yayın, eğitim ve eğlence alanlarında kullanılabilecek yeni bir temel model fikri sunuyor. Ancak Wan-Streamer v0.1 şimdilik araştırma aşamasında. Alibaba, mevcut sonuçların 192p çözünürlükte doğrulandığını ve daha yüksek çözünürlüklerin sonraki çalışmaların konusu olduğunu belirtiyor.





