WorldNews

Subiect: #agenți lingvistici

NVIDIA lansează Polar: un cadru de rollout fidel token-urilor pentru antrenamentul GRPO pe Codex, Claude Code și Qwen Code

NVIDIA a lansat Polar, un cadru de rollout care antrenează agenți lingvistici prin învățare prin consolidare fără a modifica harness-urile. Folosind GRPO pe un model Qwen3.5-4B, Polar îmbunătățește scorul SWE-Bench Verified cu până la 22,6 puncte, fiind integrat în NeMo Gym și ProRL Agent Server.

🕒 2 săptămâni în urmă

Filtrează articolele

Subiect: #agenți lingvistici

NVIDIA lansează Polar: un cadru de rollout fidel token-urilor pentru antrenamentul GRPO pe Codex, Claude Code și Qwen Code