NVIDIA lansează Polar: un cadru de rollout fidel token-urilor pentru antrenamentul GRPO pe Codex, Claude Code și Qwen Code

NVIDIA a dezvăluit recent Polar, un cadru inovator de rollout care permite antrenarea agenților lingvistici prin învățare prin consolidare (reinforcement learning) fără a modifica harness-urile acestora. Această abordare reprezintă un pas semnificativ în optimizarea performanțelor modelelor de limbaj, în special în contexte complexe de codare și interacțiune cu instrumente.

Polar funcționează ca un proxy API plasat între harness-ul agentului și serverul de inferență, capturând interacțiunile la nivel de token și reconstruind traiectorii gata pentru antrenament. Această metodă asigură fidelitatea token-urilor, ceea ce este crucial pentru aplicarea eficientă a algoritmilor de învățare prin consolidare, cum ar fi GRPO (Group Relative Policy Optimization).

Testele efectuate de cercetătorii NVIDIA au demonstrat rezultate impresionante. Folosind un model de bază Qwen3.5-4B, Polar a îmbunătățit scorul SWE-Bench Verified pass@1 cu 22,6 puncte sub harness-ul Codex, 4,8 puncte sub Claude Code și 6,2 puncte sub Pi. Aceste îmbunătățiri substanțiale arată potențialul cadrului de a spori semnificativ abilitățile agenților de a rezolva sarcini complexe de inginerie software.

Un aspect remarcabil al Polar este că este înregistrat ca mediu NeMo Gym și lansat sub serverul ProRL Agent Server. Aceasta înseamnă că dezvoltatorii și cercetătorii pot integra ușor Polar în fluxurile lor de lucru existente, beneficiind de infrastructura robustă oferită de NVIDIA.

Polar abordează o problemă fundamentală în antrenarea agenților lingvistici: necesitatea de a modifica harness-urile pentru a colecta date de antrenament. Prin plasarea unui proxy între harness și serverul de inferență, Polar captează fiecare token generat și acțiunea corespunzătoare, reconstruind apoi traiectorii complete care pot fi utilizate direct de algoritmii de învățare prin consolidare. Aceasta elimină nevoia de a rescrie sau adapta harness-urile existente, economisind timp și resurse.

Implementarea GRPO cu Polar a demonstrat că agenții pot învăța să navigheze mai eficient prin medii complexe, cum ar fi cele de codare, unde fiecare decizie contează. Îmbunătățirile observate în SWE-Bench Verified, un benchmark standard pentru evaluarea abilităților de inginerie software, subliniază eficacitatea acestei abordări.

Pe lângă performanțele tehnice, Polar este conceput pentru a fi scalabil și ușor de utilizat. Fiind integrat în ecosistemul NeMo Gym, oferă o interfață familiară pentru cercetătorii care lucrează deja cu instrumentele NVIDIA. Mai mult, lansarea sub serverul ProRL Agent Server asigură compatibilitatea cu diverse configurații de inferență și antrenament.

Această inovație vine într-un moment în care comunitatea de inteligență artificială caută metode mai eficiente de a antrena agenți lingvistici pentru sarcini practice. Polar nu doar că îmbunătățește performanțele, dar și simplifică procesul de antrenament, făcându-l accesibil unui număr mai mare de dezvoltatori.

În concluzie, Polar reprezintă un pas important înainte în domeniul învățării prin consolidare pentru agenți lingvistici. Prin capturarea fidelă a interacțiunilor la nivel de token și prin integrarea ușoară cu infrastructura existentă, acest cadru deschide noi posibilități pentru antrenarea agenților capabili să rezolve sarcini complexe în medii dinamice.

De ce este important:

Polar este important deoarece oferă o metodă eficientă și scalabilă de a antrena agenți lingvistici prin învățare prin consolidare, fără a necesita modificări ale harness-urilor existente. Acest lucru reduce barierele tehnice și accelerează dezvoltarea de agenți performanți pentru aplicații practice, cum ar fi ingineria software asistată de AI. Îmbunătățirile semnificative observate în benchmark-uri precum SWE-Bench Verified demonstrează potențialul acestei tehnologii de a transforma modul în care interacționăm cu modelele de limbaj în contexte de codare și nu numai.

Filtrează articolele

De ce este important: