NVIDIA lansează Star Elastic: un singur checkpoint care conține trei modele de raționament de 30B, 23B și 12B parametri, cu tăiere zero-shot

În lumea inteligenței artificiale, una dintre cele mai mari provocări este echilibrul între puterea de calcul și eficiență. De obicei, pentru a rula un model mare de limbaj (LLM) pe diferite dispozitive – de la servere puternice la laptopuri sau chiar telefoane – cercetătorii trebuie să antreneze și să stocheze versiuni separate ale aceluiași model, fiecare cu un număr diferit de parametri. Acest proces este costisitor, consumă mult timp și resurse. NVIDIA a găsit o soluție ingenioasă: Star Elastic.

Ce este Star Elastic?

Star Elastic este o metodă post-antrenare (post-training) care înglobează mai multe modele de raționament imbricate – de 30 de miliarde, 23 de miliarde și 12 miliarde de parametri – într-un singur checkpoint. Cu alte cuvinte, nu mai ai nevoie să antrenezi separat trei modele diferite și să păstrezi trei seturi de greutăți. Totul este comprimat într-un singur fișier, iar la momentul inferenței poți „tăia” (slice) din acest checkpoint pentru a obține exact modelul de care ai nevoie, fără a pierde din acuratețe.

Metoda se bazează pe cadrul Nemotron Elastic și a fost aplicată pe modelul Nemotron Nano v3. Rezultatul? Toate cele trei variante sunt antrenate într-o singură sesiune de 160 de miliarde de tokeni, ceea ce reprezintă o reducere de 360 de ori a numărului de tokeni necesari față de antrenarea fiecărui model de la zero. Este ca și cum ai construi o clădire cu trei etaje dintr-o singură turnare de beton, în loc să construiești trei clădiri separate.

Cum funcționează?

Star Elastic folosește o tehnică numită „tăiere zero-shot” (zero-shot slicing). În loc să antrenezi modele independente, cercetătorii antrenează un model „părinte” mare (30B) și, în timpul antrenării, „înglobează” în el sub-modele mai mici (23B și 12B). Aceste sub-modele nu sunt simple versiuni reduse, ci sunt optimizate să funcționeze ca modele de sine stătătoare, cu propriile lor capabilități de raționament.

Mai mult, Star Elastic introduce un concept inovator: controlul elastic al bugetului (elastic budget control). În mod normal, atunci când rulezi un model mare, folosești toți parametrii pentru fiecare pas de inferență. Star Elastic face ceva diferit: pentru faza de „gândire” (thinking phase) – adică atunci când modelul analizează întrebarea și își construiește răspunsul – folosește un sub-model mai mic (de exemplu, 12B). Apoi, pentru a genera răspunsul final, activează modelul complet (30B). Această abordare aduce două beneficii majore: o acuratețe cu până la 16% mai mare și o latență de 1,9 ori mai mică, comparativ cu metodele standard de control al bugetului.

De ce este important?

Pe lângă eficiența în antrenare, Star Elastic aduce și o veste bună pentru posesorii de GPU-uri mai modeste. Checkpoint-urile imbricate sunt disponibile în formate FP8 și NVFP4, ceea ce înseamnă că întreaga familie de modele poate rula pe plăci grafice din seria RTX. Până acum, modelele de 30 de miliarde de parametri necesitau hardware de server, cu multă memorie VRAM. Acum, un utilizator cu un RTX 4090 sau chiar un RTX 3090 poate rula varianta de 12B sau 23B, iar pentru sarcinile mai grele poate apela la modelul complet, fără a reinstala sau reîncărca greutăți.

Imaginați-vă un dezvoltator care lucrează la un asistent AI pentru un telefon mobil. Cu Star Elastic, el poate descărca un singur checkpoint și, în funcție de resursele disponibile, poate alege dinamic între o versiune rapidă și ușoară (12B) pentru răspunsuri simple și una mai puternică (30B) pentru întrebări complexe. Totul din același fișier, fără a ocupa spațiu suplimentar pe disc.

Impactul asupra industriei

Această inovație vine într-un moment în care competiția în domeniul modelelor de limbaj este acerbă. Companiile caută să ofere cât mai multe opțiuni utilizatorilor, dar costurile de antrenare și stocare sunt uriașe. Star Elastic demonstrează că se poate face mai mult cu mai puțin. Reducerea de 360 de ori a tokenilor necesari pentru antrenare înseamnă o scădere dramatică a consumului de energie și a timpului de dezvoltare. În plus, posibilitatea de a rula modele mari pe hardware accesibil deschide ușa pentru aplicații AI în domenii precum educația, medicina sau asistența personală, acolo unde resursele de calcul sunt limitate.

NVIDIA nu este străină de astfel de inovații. Compania a mai lansat tehnici de compresie și cuantizare, dar Star Elastic este prima metodă care îmbină antrenarea multi-scară cu controlul elastic al bugetului într-un mod atât de elegant. Cercetătorii spun că principiul poate fi extins și la alte arhitecturi, nu doar la Nemotron.

Cum se compară cu alte metode?

Până acum, abordările comune pentru a obține modele de dimensiuni diferite includeau:

Antrenarea separată a fiecărui model (costisitor și ineficient).

Tehnici de distilare (unde un model mare „învață” unul mic, dar pierde din acuratețe).

Cuantizarea (reducerea preciziei numerelor, ceea ce poate degrada performanța).

Star Elastic combină avantajele tuturor: nu pierde acuratețe, nu necesită antrenări separate și rulează eficient pe hardware variat. Mai mult, controlul elastic al bugetului este o premieră – nimeni nu a mai încercat să separe faza de gândire de cea de răspuns folosind sub-modele diferite.

Provocări și perspective

Desigur, nimic nu este perfect. Star Elastic necesită un antrenament inițial atent pentru a se asigura că sub-modelele înglobate funcționează bine independent. De asemenea, tăierea zero-shot poate să nu fie la fel de eficientă pentru toate tipurile de sarcini – de exemplu, pentru traduceri sau generare de cod, unde modelul mare poate fi necesar de la început. Totuși, pentru majoritatea aplicațiilor de raționament și dialog, metoda se dovedește extrem de utilă.

Pe viitor, NVIDIA plănuiește să integreze Star Elastic în platforma sa de dezvoltare AI, facilitând adoptarea de către comunitatea open-source. De asemenea, se lucrează la versiuni care să includă și mai multe puncte de tăiere (de exemplu, 7B, 15B, 40B), oferind o flexibilitate și mai mare.

Concluzie

Star Elastic reprezintă un pas important în democratizarea inteligenței artificiale. Prin înglobarea mai multor modele într-un singur checkpoint și prin introducerea controlului elastic al bugetului, NVIDIA reușește să reducă costurile de antrenare, să îmbunătățească performanța și să facă modelele puternice accesibile pe hardware obișnuit. Este o soluție elegantă pentru o problemă complexă, iar impactul său se va resimți în întregul ecosistem AI.

De ce este important:

Star Elastic schimbă regulile jocului în ceea ce privește eficiența modelelor de limbaj. Permite dezvoltatorilor să ofere utilizatorilor finali o gamă largă de opțiuni de performanță fără a dubla sau tripla costurile de infrastructură. În plus, aduce capabilități de raționament avansat pe dispozitive cu resurse limitate, accelerând adoptarea AI în domenii critice precum sănătatea, educația și asistența tehnică. Este un exemplu clar de inovație care pune puterea AI în mâinile tuturor.

Filtrează articolele