#Speech-to-Speech | World News

AI

Google lansează Gemini 3.5 Live Translate: un model audio streaming speech-to-speech care acoperă peste 70 de limbi în Meet, Translate și Live API

Google lansează Gemini 3.5 Live Translate, un model audio streaming speech-to-speech care traduce în timp real peste 70 de limbi, integrat în Google Meet, Translate și Live API. Tehnologia promite să revoluționeze comunicarea globală, eliminând barierele lingvistice.

🕒 1 săptămâni în urmă

AI

Sakana AI lansează KAME: O arhitectură tandem vorbire-vorbire care injectează cunoștințe LLM în timp real

Sakana AI a dezvăluit KAME, o arhitectură tandem vorbire-vorbire care integrează cunoștințe LLM în timp real, eliminând etapa de text și oferind răspunsuri vocale mai naturale și mai rapide.

🕒 1 luni în urmă

AI

Tutorial Practic de Programare pentru Microsoft VibeVoice: ASR cu Detectare a Vorbitorului, TTS în Timp Real și Pipeline-uri Speech-to-Speech

Un ghid complet și practic pentru dezvoltatori care doresc să implementeze Microsoft VibeVoice, acoperind recunoașterea vocală cu identificarea vorbitorului, sinteza vocală în timp real și construirea pipeline-urilor speech-to-speech complete.

🕒 2 luni în urmă

Filtrează articolele

Subiect: #Speech-to-Speech

Google lansează Gemini 3.5 Live Translate: un model audio streaming speech-to-speech care acoperă peste 70 de limbi în Meet, Translate și Live API

Sakana AI lansează KAME: O arhitectură tandem vorbire-vorbire care injectează cunoștințe LLM în timp real

Tutorial Practic de Programare pentru Microsoft VibeVoice: ASR cu Detectare a Vorbitorului, TTS în Timp Real și Pipeline-uri Speech-to-Speech