NVIDIA lansează Polar: un cadru de rollout fidel token-urilor pentru antrenamentul GRPO pe Codex, Claude Code și Qwen Code
NVIDIA a lansat Polar, un cadru de rollout care antrenează agenți lingvistici prin învățare prin consolidare fără a modifica harness-urile. Folosind GRPO pe un model Qwen3.5-4B, Polar îmbunătățește scorul SWE-Bench Verified cu până la 22,6 puncte, fiind integrat în NeMo Gym și ProRL Agent Server.
🕒 2 săptămâni în urmă