Evaluări Comunitare: De ce nu mai avem încredere în clasamentele „cutie neagră” în detrimentul comunității

Evaluări Comunitare: De ce nu mai avem încredere în clasamentele „cutie neagră” în detrimentul comunității

Publicat la 4 februarie 2026

TL;DR: Seturile de date benchmark de pe Hugging Face pot găzdui acum clasamente. Modelele își stochează propriile scoruri de evaluare. Totul este interconectat. Comunitatea poate trimite rezultate prin cereri de tip Pull Request (PR). Insignele de verificare dovedesc că rezultatele pot fi reproduse.

Evaluarea este defectă

Să fim sinceri cu privire la locul în care ne aflăm cu evaluările (evals) în anul 2026. Benchmark-ul MMLU este saturat, depășind pragul de 91%. GSM8K a atins 94%+. HumanEval a fost cucerit. Și totuși, în ciuda acestor cifre strălucitoare, unele modele care obțin scoruri maxime la teste standardizate încă nu pot naviga fiabil pe web, nu pot scrie cod de producție sau nu pot gestiona sarcini cu mai mulți pași fără a halucina, conform rapoartelor de utilizare. Există o discrepanță clară și îngrijorătoare între scorurile obținute la benchmark-uri și performanța reală în scenarii din lumea reală.

Mai mult, există o altă prăpastie în interiorul scorurilor raportate la benchmark-uri. Surse multiple raportează rezultate diferite pentru aceleași modele. De la Cardurile de Model (Model Cards), la articolele științifice și platformele de evaluare, nu există o aliniere în scorurile raportate. Rezultatul este că comunitatea lipsește o sursă unică de adevăr, fapt care generează confuzie și erodarea încrederii în aceste metrici.

Ne propunem să luăm evaluările de pe Hugging Face Hub într-o nouă direcție, prin descentralizarea raportării și permiterea întregii comunități să raporteze deschis scoruri pentru benchmark-uri. La început, vom începe cu o listă scurtă de 4 benchmark-uri, iar în timp vom extinde la cele mai relevante teste din domeniu.

Pentru Benchmark-uri: Depozitele de seturi de date se pot înregistra acum ca benchmark-uri (MMLU-Pro, GPQA, HLE sunt deja active). Acestea agregă automat rezultatele raportate din întregul Hub și afișează clasamente în cardul setului de date. Benchmark-ul definește specificațiile de evaluare prin fișierul eval.yaml, bazat pe formatul Inspect AI, astfel încât oricine poate reproduce testul. Rezultatele raportate trebuie să se alinieze cu definiția sarcinii.

Pentru Modele: Scorurile de evaluare trăiesc în fișierele .eval_results/*.yaml din depozitul modelului. Acestea apar pe cardul modelului și sunt alimentate în seturile de date benchmark. Atât rezultatele autorilor modelului, cât și cererile deschise (pull requests) pentru rezultate vor fi agregate. Autorii modelelor vor avea posibilitatea de a închide PR-urile de scoruri și de a ascunde rezultatele, dacă doresc.

Pentru Comunitate: Orice utilizator poate trimite rezultate de evaluare pentru orice model prin intermediul unui PR. Rezultatele sunt afișate ca fiind „comunitare”, fără a fi nevoie să aștepte ca autorii modelelor să le unească sau să le închidă. Comunitatea poate adăuga link-uri către surse, cum ar fi un articol științific, un Card de Model, o platformă de evaluare terță sau jurnalele de evaluare inspect. Comunitatea poate discuta scorurile la fel ca în orice alt PR. Deoarece Hub-ul este bazat pe Git, există un istoric al momentului în care au fost adăugate evaluările, când au fost făcute modificări etc.

De ce contează acest lucru

Descentralizarea evaluării va expune scoruri care există deja în comunitate în surse precum carduri de modele și articole științifice. Prin expunerea acestor scoruri, comunitatea poate construi pe baza lor pentru a agrega, urmări și înțelege scorurile din întregul domeniu. De asemenea, toate scorurile vor fi expuse prin API-urile Hub-ului, facilitând agregarea și construirea de clasamente curatoriate, panouri de control etc.

Evaluările comunitare nu înlocuiesc benchmark-urile, așa că clasamentele și evaluările închise cu rezultate publicate rămân cruciale. Cu toate acestea, credem că este important să contribuim la domeniu cu rezultate de evaluare deschise, bazate pe specificații de evaluare reproductibile. Aceasta nu va rezolva saturația benchmark-urilor și nici nu va elimina decalajul dintre benchmark și realitate. Nici nu va opri antrenarea pe seturile de testare. Dar face jocul vizibil, expunând ceea ce este evaluat, cum, când și de către cine.

În principal, sperăm să transformăm Hub-ul într-un loc activ pentru construirea și partajarea benchmark-urilor reproductibile. Ne concentrăm în special pe sarcini și domenii noi care provoacă mai mult modelele SOTA (State of the Art).

Începeți acum

Citiți documentația: Pentru a afla mai multe despre rezultatele evaluării, consultați documentația.
Adăugați rezultate de evaluare: Publicați evaluările pe care le-ați efectuat ca fișiere YAML în .eval_results/ pe orice depozit de model.
Înregistrați un nou benchmark: Adăugați eval.yaml în depozitul dvs. de set de date și contactați-ne pentru a fi incluși în lista scurtă.

Deși o astfel de măsură nu a rezolvat problemele întâmpinate în evaluarea actuală, cel puțin este într-adevăr o măsură foarte bună în ceea ce privește descentralizarea și mobilizarea puterii comunității pentru co-construcție.

Vocea comunității și reacțiile tehnice

Inițiativa a stârnat reacții pozitive și tehnice din partea comunității tech. Utilizatorul @naufalso a subliniat o integrare cheie: „Lighteval suportă acum inspect-ai ca backend, deci tot ceea ce este suportat de inspect este integrat în lighteval 🔥”. Această interoperabilitate tehnică este vitală pentru adoptarea pe scară largă a noului standard.

Un alt comentator a subliniat importanța și oportunitatea inițiativei: „Aceasta este o iniiativă foarte importantă și la timpul potrivit. Este ușor să te pierzi în marea de clasamente, fiecare cu propriul format și stil de raportare. Formatul de jurnal Inspect AI aduce standardizarea atât de necesară, iar faptul că Hugging Face găzduiește jurnalele de evaluare este un real schimbător de joc.”

Un aspect crucial ridicat de comunitate este sustenabilitatea. „Un motiv pentru care multe benchmark-uri valoroase dispar este că contributorii originali adesea lipsesc resursele pentru a menține continuu clasamentele. Inițiativa Community Evals are un potențial enorm de a aborda această lacună.”

În acest spirit, echipa din spatele ACPBench și-a exprimat dorința de a se alătura ecosistemului. „Sperăm să includem benchmark-ul nostru de planificare, ACPBench, ca parte a acestui ecosistem – este complet compatibil cu Inspect AI, iar scriptele de evaluare sunt disponibile pe GitHub-ul nostru.” ACPBench, care se concentrează pe raționamentul despre acțiune, schimbare și planificare, reprezintă exact tipul de sarcini noi și complexe necesare pentru a provoca modelele SOTA actuale.

Referințe:
ACPBench: Reasoning About Action, Change, and Planning, Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi, AAAI 2025
ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning, Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi, ICLR 2026

Filtrează articolele