BigCodeArena: Evaluarea generării de cod prin execuție efectivă și judecată comunitară

BigCodeArena: Evaluarea generării de cod prin execuție efectivă și judecată comunitară

Articol publicat de echipa BigCode la 7 octombrie 2025

Motivația fundamentală a proiectului

Inspirată de succesul platformei LMArena destinată modelelor de limbaj de mari dimensiuni (LLM), echipa BigCode a dezvoltat o platformă inovatoare care permite utilizatorilor să compare modelele de generare de cod „față în față”. Totuși, există o diferență crucială și revoluționară față de abordările anterioare: utilizatorii pot executa efectiv codul generat și pot observa rezultatele produse. Procesul este simplu și intuitiv: un utilizator trimite o sarcină de programare, urmărește cum două modele diferite generează soluții, execută ambele programe și votează modelul care a produs rezultate superioare. Rezultatele sunt organizate într-un clasament (leaderboard) care afișează modelele evaluate cel mai favorabil de către comunitate.

Domeniul generării de cod s-a confruntat mult timp cu lipsa unor metode de evaluare fiabile. Benchmark-urile tradiționale, precum HumanEval, testează codul pe baza unor cazuri de test predefinite, însă acestea reprezintă doar o fracțiune infimă a sarcinilor reale de programare. Deși există platforme de evaluare umană pentru chatboți generaliști, acestea se dovedesc insuficiente pentru cod: citirea codului sursă brut și simularea mentală a execuției sale este o sarcină cognitivă extrem de solicitantă și predispusă la erori, în special în cazul programelor lungi sau al aplicațiilor complexe cu interfață grafică.

Să ne imaginăm un scenariu elocvent: cerem două modele AI să construiască un site web pentru o galerie foto receptivă. Ambele generează cod care pare sintactic corect. Dar care este într-adevăr superior? Fără a rula codul, este aproape imposibil de spus. Unul ar putea produce un aspect grilă frumos și funcțional, în timp ce celălalt ar putea avea erori subtile sau stilizări defectuoase care devin evidente doar atunci când sunt randate într-un browser. Această observație a condus la o perspectivă cheie: feedback-ul de execuție este esențial pentru ca oamenii să evalueze fiabil calitatea codului. Aceasta este exact premisa pe care o oferă BigCodeArena.

Platforma BigCodeArena: Caracteristici tehnice avansate

BigCodeArena extinde cadrul Chatbot Arena cu funcționalități puternice, concepute special pentru evaluarea codului:

Execuția în timp real: Fiecare fragment de cod generat de modele este executat automat în medii sandbox izolate. Fie că este vorba de un script Python, o aplicație web React, un joc PyGame sau un algoritm C++, utilizatorul poate vedea rezultatul real, nu doar codul sursă. Această capacitate elimină ghicirea și permite o evaluare obiectivă.

Suport multi-limbaj și multi-framework: Platforma suportă în prezent 10 limbaje de programare esențiale (Python, JavaScript, TypeScript, HTML, C, C++, Java, Go, Rust și Markdown) și 8 medii de execuție distincte, acoperind o gamă largă de nevoi de dezvoltare.

Testare interactivă: Spre deosebire de comparația statică a codului, utilizatorii pot interacționa efectiv cu aplicațiile generate. Aceasta înseamnă că se pot testa butoanele, formularele, jocurile și alte elemente interactive pentru a verifica funcționalitatea reală.

Conversații multi-turn: Programarea reală nu este un proces „dintr-o singură mișcare”. BigCodeArena suportă interacțiuni multi-turn, permițând utilizatorilor să rafineze cerințele, să ceară adăugarea de funcționalități sau să solicite remedieri de erori – exact ca într-o colaborare cu un asistent de codare real.

Lecții învățate: 5 luni de evaluare comunitară

De la lansarea sa în februarie 2025, BigCodeArena a colectat peste 14.000 de conversații de la mai mult de 500 de utilizatori unici, acumulând peste 4.700 de voturi de preferință de înaltă calitate care compară 10 LLM-uri de ultimă generație.

Topicile de programare „în sălbăticie” au fost remarcabil de diverse. Utilizatorii au explorat scenarii variate, de la algoritmi complecși până la dezvoltare web și vizualizări de date. În ceea ce privește popularitatea limbajelor și a framework-urilor, Python domină cu peste 4.000 de conversații, urmat de JavaScript/TypeScript (3.359), HTML (1.601) și C++ (642). Dintre framework-uri, interpretoarele Python directe conduc în utilizare (6.000 de sesiuni), urmate de React (2.729), Core Web (1.574), Streamlit (1.254) și PyGame (1.087).

Modelele de interacțiune ale utilizatorilor au arătat că majoritatea interacțiunilor sunt concentrate și eficiente: 76% dintre conversații constau în doar 2 turnuri (o cerere, un răspuns), cu o lungime medie a conversației de 4,12 mesaje. Totuși, platforma suportă și sesiuni extinse de depanare, unele conversații depășind 10 turnuri pe măsură ce utilizatorii rafinează aplicații complexe.

Clasamentele modelelor bazate pe voturile comunitare

Din cele 14.000 de conversații, echipa a filtrat comparațiile de înaltă calitate: conversații cu cel puțin două turnuri și execuție efectivă a codului. Aceasta a generat 4.731 de eșantioane de votare, fiecare model evaluat primind cel puțin 700 de voturi. Voturile sunt agregate în ratinguri Elo folosind modelul Bradley-Terry, care estimează probabilitatea ca un model să îl învingă pe altul pe baza comparațiilor directe. Pentru a asigura clasamente robuste, s-au folosit 100 de reeșantionări bootstrap pentru a construi intervale de încredere de 95%.

Clasamentele au rămas remarcabil de consistente, dezvăluind straturi clare de performanță:

Stratul de top: o3-mini și o1-mini conduc constant cu cele mai înalte ratinguri Elo și intervale de încredere strânse. Aceste modele mențin o performanță de top indiferent de constrângerile de mediu sau limbaj, arătând o robusteță puternică.

Stratul de mijloc: GPT-4o, o1 și Gemini-2.0-Pro/Flash formează un strat mediu competitiv. GPT-4o arată o oarecare sensibilitate la potrivirea limbajului, sugerând loc pentru îmbunătățiri în consistența multilingvă.

Modelele Open Source: Variantele Qwen2.5 și Llama-3.3-70B rămân în urma modelelor proprietare de frontieră, evidențiind decalajul de performanță care încă există între modelele închise și cele deschise.

Analiza performanței pe medii de execuție relevă insight-uri fascinante. De exemplu, o3-mini menține o performanță puternică constantă în React, Streamlit, Gradio, Core Web și PyGame. Modelele Qwen2.5, deși competitive în unele framework-uri web, se luptă semnificativ cu medii interactive și de vizualizare precum PyGame și Vue. Aceste rezultate subliniază un adevăr important: scorurile Elo agregate nu spun toată povestea; mediul de execuție contează semnificativ pentru implementarea în lumea reală.

Două noi benchmark-uri: BigCodeReward și AutoCodeArena

Pentru a avansa cercetarea dincolo de evaluarea crowdsourcing, echipa a lansat două benchmark-uri complementare:

BigCodeReward evaluează cât de bine pot LLM-urile judeca calitatea codului atunci când acționează ca modele de recompensă. Descoperirea cheie? Rezultatele execuției îmbunătățesc dramatic acuratețea judecății. Când modelele pot vedea rezultatele execuției (capturi de ecran, jurnale), alinierea lor cu preferințele umane crește substanțial. Acest lucru întărește teza centrală: nu poți judeca fiabil codul fără a-l rula.

AutoCodeArena oferă o modalitate scalabilă de a evalua noi modele fără a aștepta mii de voturi umane. Folosind 600 de prompt-uri reprezentative și judecători LLM automați (Claude-3.7-Sonnet), platforma permite actualizări săptămânale ale clasamentului. Rezultatele preliminare arată că, deși modelele proprietare mențin un avantaj, modelele open-source închid rapid decalajul.

Concluzii și viziune

Evaluarea codului nu este ca evaluarea textului – trebuie să îl rulezi, să îl testezi și să interacționezi cu el. BigCodeArena face acest lucru posibil la scară largă, combinând judecata umană cu feedback-ul real de execuție. Proiectul se angajează să fie open-source, eliberând datele, codul și modelele pentru a asigura transparență. Echipa invită comunitatea să se alăture efortului de a defini viitorul evaluării generării de cod AI.

Filtrează articolele