Filtrează articolele

Subiect: #pre-antrenare 4 biți

NVIDIA revoluționează antrenarea modelelor AI: metodologie de pre-antrenare pe 4 biți cu NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri

NVIDIA a dezvoltat o metodologie de pre-antrenare pe 4 biți folosind formatul NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri antrenat pe 10 trilioane de tokeni. Rezultatele arată o acuratețe aproape identică cu cea a antrenării pe 8 biți (62,58% vs 62,62% pe MMLU-Pro), deschizând calea către o reducere drastică a costurilor și consumului de energie în antrenarea modelelor AI.

🕒 3 săptămâni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.