Filtrează articolele

Subiect: #SWE-Bench

NVIDIA lansează Polar: un cadru de rollout fidel token-urilor pentru antrenamentul GRPO pe Codex, Claude Code și Qwen Code

NVIDIA a lansat Polar, un cadru de rollout care antrenează agenți lingvistici prin învățare prin consolidare fără a modifica harness-urile. Folosind GRPO pe un model Qwen3.5-4B, Polar îmbunătățește scorul SWE-Bench Verified cu până la 22,6 puncte, fiind integrat în NeMo Gym și ProRL Agent Server.

🕒 2 săptămâni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.