#ASR | World News

AI

NVIDIA lansează Nemotron 3.5 ASR: Un model de streaming de 600M parametri, conștient de cache, care transcrie 40 de limbi și variante locale în timp real

NVIDIA a lansat Nemotron 3.5 ASR, un model de recunoaștere a vorbirii cu 600 de milioane de parametri, proiectat pentru streaming în timp real și optimizat pentru cache. Suportă 40 de limbi și variante locale, inclusiv româna, și este disponibil open-source. Acest articol analizează arhitectura, performanța, comparația cu concurenții și impactul asupra industriei voice AI.

🕒 2 săptămâni în urmă

IBM lansează două modele Granite Speech 4.1 2B: ASR autoregresiv cu traducere și editare non-autoregresivă pentru inferență rapidă

IBM a lansat două modele open-source Granite Speech 4.1 2B, care combină recunoașterea vocală autoregresivă cu traducere și un modul de editare non-autoregresiv pentru inferență rapidă. Articolul explică arhitectura, aplicațiile și impactul acestor modele asupra industriei AI.

🕒 1 luni în urmă

AI

Tutorial Practic de Programare pentru Microsoft VibeVoice: ASR cu Detectare a Vorbitorului, TTS în Timp Real și Pipeline-uri Speech-to-Speech

Un ghid complet și practic pentru dezvoltatori care doresc să implementeze Microsoft VibeVoice, acoperind recunoașterea vocală cu identificarea vorbitorului, sinteza vocală în timp real și construirea pipeline-urilor speech-to-speech complete.

🕒 2 luni în urmă

AI

Open ASR Leaderboard: Tendințe și perspective cu noile piste multilingve și pentru transcrieri de lungă durată

Analiza Open ASR Leaderboard dezvăluie tendințe majore în recunoașterea automată a vorbirii: modelele hibride Conformer-LLM domină acuratețea, decodoarele CTC/TDT conduc în viteză, iar transcrierea de lungă durată rămâne o frontieră cheie pentru inovația open-source.

🕒 2 luni în urmă

AI

Cohere lansează un model vocal open-source dedicat transcrierii: O nouă eră pentru recunoașterea automată a vorbirii

Cohere intră pe piața modelelor vocale cu Transcribe, un model ASR open-source de 2 miliarde de parametri, optimizat pentru GPU-uri consumer-grade. Cu un scor WER de 5.42 și suport pentru 14 limbi, noul model depășește competitori precum IBM sau ElevenLabs în teste de acuratețe, fiind integrat gratuit în platforma enterprise North.

🕒 2 luni în urmă

Filtrează articolele

Subiect: #ASR

NVIDIA lansează Nemotron 3.5 ASR: Un model de streaming de 600M parametri, conștient de cache, care transcrie 40 de limbi și variante locale în timp real

IBM lansează două modele Granite Speech 4.1 2B: ASR autoregresiv cu traducere și editare non-autoregresivă pentru inferență rapidă

Tutorial Practic de Programare pentru Microsoft VibeVoice: ASR cu Detectare a Vorbitorului, TTS în Timp Real și Pipeline-uri Speech-to-Speech

Open ASR Leaderboard: Tendințe și perspective cu noile piste multilingve și pentru transcrieri de lungă durată

Cohere lansează un model vocal open-source dedicat transcrierii: O nouă eră pentru recunoașterea automată a vorbirii