IBM a lansat două modele open-source Granite Speech 4.1 2B, care combină recunoașterea vocală autoregresivă cu traducere și un modul de editare non-autoregresiv pentru inferență rapidă. Articolul explică arhitectura, aplicațiile și impactul acestor modele asupra industriei AI.
xAI a lansat grok-voice-think-fast-1.0, un model vocal care a obținut 67,3% pe benchmark-ul τ-voice, depășind Gemini, GPT Realtime și altele. Articolul analizează tehnologia, performanța, aplicațiile și impactul asupra industriei AI.
Google a lansat discret aplicația „Google AI Edge Eloquent" pe iOS, o soluție de dictare cu procesare offline bazată pe AI, care promite să concureze cu Wispr Flow și alte aplicații similare de pe piață.
Cohere intră pe piața modelelor vocale cu Transcribe, un model ASR open-source de 2 miliarde de parametri, optimizat pentru GPU-uri consumer-grade. Cu un scor WER de 5.42 și suport pentru 14 limbi, noul model depășește competitori precum IBM sau ElevenLabs în teste de acuratețe, fiind integrat gratuit în platforma enterprise North.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.