NVIDIA a lansat Polar, un cadru de rollout care antrenează agenți lingvistici prin învățare prin consolidare fără a modifica harness-urile. Folosind GRPO pe un model Qwen3.5-4B, Polar îmbunătățește scorul SWE-Bench Verified cu până la 22,6 puncte, fiind integrat în NeMo Gym și ProRL Agent Server.
Un ghid practic de codare pentru post-antrenamentul modelelor de limbaj mari (LLM) folosind biblioteca TRL, acoperind Supervised Fine Tuning (SFT), Direct Preference Optimization (DPO) și Group Relative Policy Optimization (GRPO), cu exemple de cod și explicații detaliate.
DeepMath este un agent inovator de raționament matematic bazat pe modelul Qwen3-4B, care utilizează fragmente de cod Python executate într-un mediu securizat pentru a reduce erorile și lungimea output-ului cu până la 66%, demonstrând că modelele mici pot depăși limitările tradiționale ale LLM-urilor prin antrenament GRPO și arhitecturi hibride.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.