Prime Intellect lansează prime-rl 0.6.0: un cadru deschis pentru antrenarea modelelor MoE de trilioane de parametri prin învățare prin întărire agentică
Prime Intellect a lansat prime-rl 0.6.0, un cadru open-source pentru învățare prin întărire asincronă pe modele MoE de trilioane de parametri. Cu optimizări precum inferența FP8, paralelism expert larg și disociere prefill/decode, a antrenat GLM-5 pe sarcini SWE cu performanțe remarcabile pe doar 28 de noduri H200.
🕒 1 zile în urmă