Filtrează articolele

Subiect: #Recunoaștere Vocală

AI NVIDIA lansează Nemotron 3.5 ASR: Un model de streaming de 600M parametri, conștient de cache, care transcrie 40 de limbi și variante locale în timp real

NVIDIA lansează Nemotron 3.5 ASR: Un model de streaming de 600M parametri, conștient de cache, care transcrie 40 de limbi și variante locale în timp real

NVIDIA a lansat Nemotron 3.5 ASR, un model de recunoaștere a vorbirii cu 600 de milioane de parametri, proiectat pentru streaming în timp real și optimizat pentru cache. Suportă 40 de limbi și variante locale, inclusiv româna, și este disponibil open-source. Acest articol analizează arhitectura, performanța, comparația cu concurenții și impactul asupra industriei voice AI.

🕒 2 săptămâni în urmă

IBM lansează două modele Granite Speech 4.1 2B: ASR autoregresiv cu traducere și editare non-autoregresivă pentru inferență rapidă

IBM a lansat două modele open-source Granite Speech 4.1 2B, care combină recunoașterea vocală autoregresivă cu traducere și un modul de editare non-autoregresiv pentru inferență rapidă. Articolul explică arhitectura, aplicațiile și impactul acestor modele asupra industriei AI.

🕒 1 luni în urmă
AI xAI lansează grok-voice-think-fast-1.0: Depășește τ-voice Bench cu 67,3%, surclasând Gemini, GPT Realtime și altele

xAI lansează grok-voice-think-fast-1.0: Depășește τ-voice Bench cu 67,3%, surclasând Gemini, GPT Realtime și altele

xAI a lansat grok-voice-think-fast-1.0, un model vocal care a obținut 67,3% pe benchmark-ul τ-voice, depășind Gemini, GPT Realtime și altele. Articolul analizează tehnologia, performanța, aplicațiile și impactul asupra industriei AI.

🕒 1 luni în urmă
AI Google lansează discret o aplicație de dictare bazată pe AI, cu procesare offline, disponibilă acum pe iOS

Google lansează discret o aplicație de dictare bazată pe AI, cu procesare offline, disponibilă acum pe iOS

Google a lansat discret aplicația „Google AI Edge Eloquent" pe iOS, o soluție de dictare cu procesare offline bazată pe AI, care promite să concureze cu Wispr Flow și alte aplicații similare de pe piață.

🕒 2 luni în urmă
AI Cohere lansează un model vocal open-source dedicat transcrierii: O nouă eră pentru recunoașterea automată a vorbirii

Cohere lansează un model vocal open-source dedicat transcrierii: O nouă eră pentru recunoașterea automată a vorbirii

Cohere intră pe piața modelelor vocale cu Transcribe, un model ASR open-source de 2 miliarde de parametri, optimizat pentru GPU-uri consumer-grade. Cu un scor WER de 5.42 și suport pentru 14 limbi, noul model depășește competitori precum IBM sau ElevenLabs în teste de acuratețe, fiind integrat gratuit în platforma enterprise North.

🕒 2 luni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.