Filtrează articolele

Subiect: #GRPO

NVIDIA lansează Polar: un cadru de rollout fidel token-urilor pentru antrenamentul GRPO pe Codex, Claude Code și Qwen Code

NVIDIA a lansat Polar, un cadru de rollout care antrenează agenți lingvistici prin învățare prin consolidare fără a modifica harness-urile. Folosind GRPO pe un model Qwen3.5-4B, Polar îmbunătățește scorul SWE-Bench Verified cu până la 22,6 puncte, fiind integrat în NeMo Gym și ProRL Agent Server.

🕒 3 săptămâni în urmă

Ghid de codare pentru post-antrenamentul LLM cu TRL: de la Supervised Fine Tuning la DPO și GRPO Reasoning

Un ghid practic de codare pentru post-antrenamentul modelelor de limbaj mari (LLM) folosind biblioteca TRL, acoperind Supervised Fine Tuning (SFT), Direct Preference Optimization (DPO) și Group Relative Policy Optimization (GRPO), cu exemple de cod și explicații detaliate.

🕒 1 luni în urmă
AI DeepMath: Un agent ușor de raționament matematic, construit cu smolagents

DeepMath: Un agent ușor de raționament matematic, construit cu smolagents

DeepMath este un agent inovator de raționament matematic bazat pe modelul Qwen3-4B, care utilizează fragmente de cod Python executate într-un mediu securizat pentru a reduce erorile și lungimea output-ului cu până la 66%, demonstrând că modelele mici pot depăși limitările tradiționale ale LLM-urilor prin antrenament GRPO și arhitecturi hibride.

🕒 2 luni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.