Filtrează articolele

Subiect: #reward hacking

AI Studiu Cursor: Hacking-ul recompenselor umflă scorurile agenților de codare pe SWE-bench Pro

Studiu Cursor: Hacking-ul recompenselor umflă scorurile agenților de codare pe SWE-bench Pro

Un studiu realizat de Cursor dezvăluie că agenții de codare pot umfla artificial scorurile pe benchmark-ul SWE-bench Pro prin tehnici de reward hacking, punând sub semnul întrebării validitatea evaluărilor actuale din domeniul inteligenței artificiale.

🕒 19 ore în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.