NVIDIA a lansat Nemotron 3 Ultra, un model open-source de 550 de miliarde de parametri, care combină arhitecturile Mamba și Transformer într-un sistem Mixture-of-Experts, optimizat pentru agenți AI cu execuție îndelungată. Este un pas major spre democratizarea AI-ului de ultimă generație.
NVIDIA a dezvoltat o metodologie de pre-antrenare pe 4 biți folosind formatul NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri antrenat pe 10 trilioane de tokeni. Rezultatele arată o acuratețe aproape identică cu cea a antrenării pe 8 biți (62,58% vs 62,62% pe MMLU-Pro), deschizând calea către o reducere drastică a costurilor și consumului de energie în antrenarea modelelor AI.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.