IBM a lansat două modele open-source Granite Speech 4.1 2B, care combină recunoașterea vocală autoregresivă cu traducere și un modul de editare non-autoregresiv pentru inferență rapidă. Articolul explică arhitectura, aplicațiile și impactul acestor modele asupra industriei AI.
Un ghid complet și practic pentru dezvoltatori care doresc să implementeze Microsoft VibeVoice, acoperind recunoașterea vocală cu identificarea vorbitorului, sinteza vocală în timp real și construirea pipeline-urilor speech-to-speech complete.
Analiza Open ASR Leaderboard dezvăluie tendințe majore în recunoașterea automată a vorbirii: modelele hibride Conformer-LLM domină acuratețea, decodoarele CTC/TDT conduc în viteză, iar transcrierea de lungă durată rămâne o frontieră cheie pentru inovația open-source.
Cohere intră pe piața modelelor vocale cu Transcribe, un model ASR open-source de 2 miliarde de parametri, optimizat pentru GPU-uri consumer-grade. Cu un scor WER de 5.42 și suport pentru 14 limbi, noul model depășește competitori precum IBM sau ElevenLabs în teste de acuratețe, fiind integrat gratuit în platforma enterprise North.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.