Filtrează articolele

Subiect: #Mamba-Transformer

AI NVIDIA lansează Nemotron 3 Ultra: un model deschis de 550 de miliarde de parametri, hibrid Mamba-Transformer, pentru agenți cu execuție îndelungată

NVIDIA lansează Nemotron 3 Ultra: un model deschis de 550 de miliarde de parametri, hibrid Mamba-Transformer, pentru agenți cu execuție îndelungată

NVIDIA a lansat Nemotron 3 Ultra, un model open-source de 550 de miliarde de parametri, care combină arhitecturile Mamba și Transformer într-un sistem Mixture-of-Experts, optimizat pentru agenți AI cu execuție îndelungată. Este un pas major spre democratizarea AI-ului de ultimă generație.

🕒 1 săptămâni în urmă

NVIDIA revoluționează antrenarea modelelor AI: metodologie de pre-antrenare pe 4 biți cu NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri

NVIDIA a dezvoltat o metodologie de pre-antrenare pe 4 biți folosind formatul NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri antrenat pe 10 trilioane de tokeni. Rezultatele arată o acuratețe aproape identică cu cea a antrenării pe 8 biți (62,58% vs 62,62% pe MMLU-Pro), deschizând calea către o reducere drastică a costurilor și consumului de energie în antrenarea modelelor AI.

🕒 3 săptămâni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.