NVIDIA a lansat Nemotron 3.5 ASR, un model de recunoaștere a vorbirii cu 600 de milioane de parametri, proiectat pentru streaming în timp real și optimizat pentru cache. Suportă 40 de limbi și variante locale, inclusiv româna, și este disponibil open-source. Acest articol analizează arhitectura, performanța, comparația cu concurenții și impactul asupra industriei voice AI.
IBM a lansat două modele open-source Granite Speech 4.1 2B, care combină recunoașterea vocală autoregresivă cu traducere și un modul de editare non-autoregresiv pentru inferență rapidă. Articolul explică arhitectura, aplicațiile și impactul acestor modele asupra industriei AI.
Un ghid complet și practic pentru dezvoltatori care doresc să implementeze Microsoft VibeVoice, acoperind recunoașterea vocală cu identificarea vorbitorului, sinteza vocală în timp real și construirea pipeline-urilor speech-to-speech complete.
Analiza Open ASR Leaderboard dezvăluie tendințe majore în recunoașterea automată a vorbirii: modelele hibride Conformer-LLM domină acuratețea, decodoarele CTC/TDT conduc în viteză, iar transcrierea de lungă durată rămâne o frontieră cheie pentru inovația open-source.
Cohere intră pe piața modelelor vocale cu Transcribe, un model ASR open-source de 2 miliarde de parametri, optimizat pentru GPU-uri consumer-grade. Cu un scor WER de 5.42 și suport pentru 14 limbi, noul model depășește competitori precum IBM sau ElevenLabs în teste de acuratețe, fiind integrat gratuit în platforma enterprise North.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.