Fransız yapay zeka girişimi Mistral AI, kapalı sistemlere alternatif olarak açık kaynaklı ses modeli Voxtral’ı tanıttı. Üstelik fiyatı tabiri caizse sudan ucuz.
Mistral AI, Voxtral’ı “profesyonel kullanıma uygun ilk açık kaynak ses modeli” olarak tanımlıyor. Ucuz ve düşük kaliteli açık sistemler ya da pahalı ve kapalı çözümler ikileminde kalanlar için yeni bir seçenek. Voxtral, 30 dakikaya kadar sesi yazıya dökebiliyor. Arkasında Mistral Small 3.1 büyük dil modeli bulunduğu için 40 dakikaya kadar da ses içeriğini anlayıp özet çıkarma, komut verme veya API çağırma gibi işlemleri gerçekleştiriyor. Üstelik İngilizce, İspanyolca, Fransızca, Portekizce, Hintçe, Almanca, Felemenkçe ve İtalyanca gibi dillerle de çalışıyor.

Voxtral’ın Small ve Mini adında iki modeli var. Voxtral Small, 24 milyar parametreyle donatılmış, ticari projelere uygun güçlü bir model. ElevenLabs Scribe ve GPT-4o-mini gibi sistemlere rakip. Bilmeyenler için parametre, yapay zekanın öğrenme kapasitesini ve karmaşıklığını belirleyen ayarlanabilir değerleri ifade eder. Sayı yükseldikçe modelin anlayış ve sonuç üretme gücü de artıyor.

Voxtral Mini ise 3 milyar parametreye sahip, düşük donanımlı veya çevrimdışı çalışan cihazlar için tasarlanmış bir model. Sadece sesin metne dönüştürülmesine odaklanan Mini Transcribe adlı daha hafif bir versiyonu da bulunuyor. Mistral’a göre bu versiyon OpenAI’ın Whisper modelinden daha hızlı ve çok daha uygun fiyatlı.
Voxtral API’si Hugging Face üzerinden ücretsiz kullanılabilir durumda. Uygulamalara entegre etmek isteyenler için başlangıç fiyatı da dakikada 0.001 dolar seviyesinde. Bu duyuru Mistral’ın geçen ay tanıttığı adım adım akıl yürüten Magistral modellerinin hemen ardından geldi. Paris merkezli firma şu sıralar da 1 milyar dolarlık yatırım için görüşmeler yapıyor.






