NVIDIA a lansat Nemotron 3.5 ASR, un model de recunoaștere a vorbirii cu 600 de milioane de parametri, proiectat pentru streaming în timp real și optimizat pentru cache. Suportă 40 de limbi și variante locale, inclusiv româna, și este disponibil open-source. Acest articol analizează arhitectura, performanța, comparația cu concurenții și impactul asupra industriei voice AI.
IBM a lansat două modele open-source Granite Speech 4.1 2B, care combină recunoașterea vocală autoregresivă cu traducere și un modul de editare non-autoregresiv pentru inferență rapidă. Articolul explică arhitectura, aplicațiile și impactul acestor modele asupra industriei AI.
xAI a lansat grok-voice-think-fast-1.0, un model vocal care a obținut 67,3% pe benchmark-ul τ-voice, depășind Gemini, GPT Realtime și altele. Articolul analizează tehnologia, performanța, aplicațiile și impactul asupra industriei AI.
Google a lansat discret aplicația „Google AI Edge Eloquent" pe iOS, o soluție de dictare cu procesare offline bazată pe AI, care promite să concureze cu Wispr Flow și alte aplicații similare de pe piață.
Cohere intră pe piața modelelor vocale cu Transcribe, un model ASR open-source de 2 miliarde de parametri, optimizat pentru GPU-uri consumer-grade. Cu un scor WER de 5.42 și suport pentru 14 limbi, noul model depășește competitori precum IBM sau ElevenLabs în teste de acuratețe, fiind integrat gratuit în platforma enterprise North.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.