NVIDIA revoluționează antrenarea modelelor AI: metodologie de pre-antrenare pe 4 biți cu NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri
NVIDIA a dezvoltat o metodologie de pre-antrenare pe 4 biți folosind formatul NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri antrenat pe 10 trilioane de tokeni. Rezultatele arată o acuratețe aproape identică cu cea a antrenării pe 8 biți (62,58% vs 62,62% pe MMLU-Pro), deschizând calea către o reducere drastică a costurilor și consumului de energie în antrenarea modelelor AI.
🕒 3 săptămâni în urmă