NVIDIA revoluționează antrenarea modelelor AI: metodologie de pre-antrenare pe 4 biți cu NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri

Într-o eră în care costurile de calcul și consumul de energie pentru antrenarea modelelor de inteligență artificială cresc exponențial, orice inovație care promite eficiență fără a sacrifica acuratețea este primită cu entuziasm. NVIDIA tocmai a anunțat o descoperire majoră: o metodologie de pre-antrenare pe 4 biți, construită în jurul formatului de microscalare NVFP4. Aceasta combină straturi selective BF16, transformări Hadamard aleatoare 16×16 pe intrările Wgrad, scalarea greutăților în 2D și rotunjirea stocastică a gradienților. Validarea s-a făcut pe un model hibrid Mamba-Transformer de 12 miliarde de parametri, antrenat pe 10 trilioane de tokeni – cea mai lungă sesiune de pre-antrenare pe 4 biți documentată public. Rezultatele sunt impresionante: acuratețea downstream se apropie de cea a liniei de bază FP8 (62,58% față de 62,62% pe MMLU-Pro).

Pentru a înțelege pe deplin impactul acestei realizări, trebuie să privim dincolo de cifre. Antrenarea modelelor mari de limbaj (LLM) a devenit un sport extrem al resurselor. Modelele de sute de miliarde de parametri necesită clustere de GPU-uri care funcționează săptămâni sau luni, consumând megawați de energie. Reducerea preciziei numerice – de la 32 de biți la 16, apoi la 8 – a fost un pas natural pentru a accelera calculele și a reduce amprenta de memorie. Dar trecerea la 4 biți părea un vis îndepărtat, deoarece pierderea de informație devenea prea mare. NVIDIA spune că a găsit soluția.

Ce este NVFP4 și de ce este diferit?

NVFP4 este un format de numere în virgulă mobilă pe 4 biți, special conceput pentru a maximiza raportul semnal-zgomot în timpul antrenării. Spre deosebire de cuantizarea post-antrenare (care aplică precizie redusă după antrenare), NVIDIA propune pre-antrenarea direct în 4 biți. Aceasta înseamnă că întregul proces – de la inițializare până la convergență – se desfășoară cu o precizie mult mai scăzută, ceea ce reduce drastic memoria necesară și lățimea de bandă a memoriei.

Cheia succesului constă în mai multe inovații combinate:

Straturi selective BF16: Nu toate straturile sunt tratate la fel. Unele părți critice ale rețelei (de exemplu, anumite normalizări sau head-uri de clasificare) păstrează precizie BF16 pentru a nu pierde informații esențiale.

Transformări Hadamard aleatoare 16×16 pe intrările Wgrad: Aceste transformări ortogonale „împrăștie” erorile de cuantizare, făcându-le mai puțin dăunătoare. Practic, înainte de a calcula gradientul în raport cu greutățile, intrările sunt transformate printr-o matrice Hadamard aleatoare, ceea ce reduce corelațiile și îmbunătățește stabilitatea.

Scalarea greutăților în 2D: În loc să aibă un singur factor de scalare pe întreg tensorul, NVIDIA folosește scalare bidimensională (pe rânduri și coloane), ceea ce permite o mai bună adaptare la distribuția valorilor.

Rotunjirea stocastică a gradienților: În loc să trunchieze sau să rotunjească deterministic, se aplică o rotunjire aleatoare care, în medie, păstrează valoarea așteptată. Aceasta este o tehnică binecunoscută în cuantizare, dar aplicată aici la scară largă.

Modelul hibrid Mamba-Transformer de 12B

Alegerea unui model hibrid nu este întâmplătoare. Mamba este o arhitectură de tip state-space model (SSM) care promite eficiență liniară în raport cu lungimea secvenței, spre deosebire de atenția pătratică a transformerelor. Combinând Mamba cu straturi transformer clasice, NVIDIA a creat un model care beneficiază de avantajele ambelor lumi: viteza și scalabilitatea Mamba pentru secvențe lungi, plus capacitatea transformerelor de a capta dependențe complexe. Antrenarea pe 10 trilioane de tokeni – o cantitate uriașă de date – demonstrează că metodologia pe 4 biți este robustă la scară.

Rezultate și implicații

Scorul de 62,58% pe MMLU-Pro (o versiune mai dificilă a benchmark-ului MMLU) față de 62,62% pentru FP8 este o diferență neglijabilă statistic. Practic, NVIDIA a demonstrat că se poate antrena un model de 12B parametri cu o precizie de 4 biți, obținând aceeași performanță ca și cu 8 biți. Economiile de memorie și energie sunt substanțiale: un model pe 4 biți ocupă jumătate din memoria unuia pe 8 biți și un sfert din cel pe 16 biți. În plus, operațiile pe 4 biți pot fi executate mai rapid pe hardware specializat (deși NVIDIA nu a specificat dacă GPU-urile actuale suportă nativ NVFP4 sau dacă este nevoie de emulare).

Această descoperire deschide calea către antrenarea unor modele și mai mari cu aceleași resurse. De exemplu, un model de 100 de miliarde de parametri care astăzi necesită 800 GB de memorie GPU (în FP16) ar putea fi antrenat în doar 200 GB în NVFP4, permițând utilizarea unor clustere mai mici sau reducerea costurilor. De asemenea, consumul de energie scade proporțional, ceea ce este crucial pentru sustenabilitatea AI.

Provocări și perspective

Desigur, nu totul este roz. Metodologia implică o complexitate suplimentară în implementare: transformările Hadamard, scalarea 2D și rotunjirea stocastică necesită kernel-uri optimizate și o integrare atentă în framework-uri precum PyTorch sau JAX. De asemenea, nu este clar cât de generală este această abordare – funcționează la fel de bine pentru modele mai mici sau pentru alte arhitecturi (de exemplu, numai transformer)? NVIDIA a testat doar pe un model hibrid de 12B; vor fi necesare experimente suplimentare.

Cu toate acestea, direcția este clară: industria AI se îndreaptă spre precizii din ce în ce mai mici, iar NVIDIA, cu experiența sa în hardware și formate numerice (FP8, FP4, NVFP4), este în fruntea acestei mișcări. Dacă această metodologie va fi adoptată pe scară largă, am putea vedea o reducere semnificativă a barierelor de intrare pentru antrenarea modelelor mari, democratizând accesul la AI de ultimă generație.

De ce este important:

Această inovație reduce costurile și consumul de energie pentru antrenarea modelelor AI cu până la 75% față de precizia standard de 16 biți, menținând în același timp o acuratețe aproape identică. Este un pas crucial spre sustenabilitatea și accesibilitatea inteligenței artificiale la scară largă, permițând cercetătorilor și companiilor să construiască modele mai puternice fără a necesita resurse exorbitante.

Filtrează articolele

De ce este important: