📚 3LM: Un nou punct de referință pentru modelele de limbaj arabe în domeniile STEM și programare

📚 3LM: Un nou punct de referință pentru modelele de limbaj arabe în domeniile STEM și programare

Articol publicată de echipa de cercetare la data de 1 august 2025

Introducere: De ce a fost necesar 3LM?

În ultimii ani, asistăm la o evoluție remarcabilă a modelelor de limbaj de mari dimensiuni (LLM) dedicate limbii arabe. Cu toate acestea, peisajul evaluărilor actuale prezintă o deficiență majoră atunci când vine vorba despre testarea performanțelor în domenii tehnice de valoare ridicată. Majoritatea evaluărilor realizate până în prezent s-au concentrat preponderent pe sarcini de uz general, precum rezumarea textelor, analiza sentimentelor sau răspunsuri la întrebări generice. Deși acestea sunt utile, ele nu reușesc să surprindă complexitatea necesară în aplicații din lumea reală, unde raționamentul științific și capacitatea de programare sunt esențiale, având aplicații vitale de la educație până la rezolvarea problemelor tehnice complexe.

Pentru a adresa această lacună semnificativă, cercetătorii introduc 3LM (علم), un benchmark multi-componentă special conceput pentru a evalua modelele de limbaj arabe în subiecte STEM (Știință, Tehnologie, Inginerie și Matematică) și în generarea de cod. 3LM reprezintă primul benchmark de acest gen, fiind proiectat specific pentru a testa modelele arabe în ceea ce privește raționamentul structurat și logica formală, domenii care au fost tradițional subreprezentate în procesarea naturală a limbajului arab (NLP).

Structura benchmark-ului: Ce conține 3LM?

3LM este compus din trei seturi de date distincte, fiecare vizând un ax specific de evaluare: întrebări STEM cu variante multiple (MCQs) din lumea reală, întrebări STEM sintetice de dificultate ridicată și sarcini de generare de cod traduse.

1. STEM Nativ (Native STEM)

Componenta Native STEM constă într-un set de 865 de întrebări cu variante multiple, extrase din conținut educațional arab autentic. Sursele includ manuale școlare, fișe de lucru și bănci de examene pentru clasele 8 până la 12. Această gamă educațională asigură că modelele sunt testate pe concepte fundamentale, dar și pe cunoștințe mai avansate din învățământul liceal.

Întrebările acoperă cinci materii de bază: Fizică, Chimie, Biologie, Matematică și Geografie. Fiecare întrebare este meticulos adnotată cu metadate care includ domeniul specific și nivelul de dificultate, pe o scară de la 1 la 10. Datele au fost colectate printr-un pipeline complex care a combinat tehnologia OCR (inclusiv parsarea formulelor matematice LaTeX prin Pix2Tex), extracția asistată de LLM a perechilor întrebare-răspuns și o etapă finală de revizuire manuală. Acest set de date oferă un teren de testare realist pentru evaluarea înțelegerii factuale și conceptuale în modelele arabe, folosind materiale educaționale reale, nu doar date sintetice.

2. STEM Sintetic (Synthetic STEM)

Pentru a introduce un nivel mai ridicat de provocare și diversitate, a fost creat un subset sintetic de 1.744 de întrebări cu variante multiple, utilizând pipeline-ul YourBench. Această componentă inovatoare pornește de la texte din manuale arabe, care sunt fragmentate, rezumate și apoi folosite ca input pentru un sistem de generare a întrebărilor condus de un LLM.

Rezultatul este un set curat de întrebări concentrate pe raționament de dificultate medie spre ridicată, incluzând probleme conceptuale, analitice și bazate pe aplicare. STEM Sintetic oferă un contrapunct important față de MCQ-urile native, sondând abilitățile de raționament mai profunde și minimizând bias-ul de răspuns. Toate întrebările generate au trecut prin filtre stricte bazate pe claritate, structură și validitatea conținutului, urmate de asigurarea calității prin revizuire manuală.

3. Benchmark-uri de Cod Arabesc

A treia componentă a 3LM vizează generarea de cod, o zonă în continuă creștere în evaluarea LLM-urilor. Cercetătorii au tradus și adaptat benchmark-urile larg utilizate HumanEval+ și MBPP+ în limba arabă, creând primele seturi de date de cod care testează LLM-urile arabe pe prompt-uri în limbaj natural pentru programare.

Pentru traducerea prompt-urilor a fost utilizat GPT-4o, iar rezultatele au fost validate printr-un pipeline de backtraducere (traducere inversă), respingând eșantioanele de calitate scăzută pe baza pragurilor ROUGE-L F1 (mai puțin de 0,8). O filtrare umană suplimentară a asigurat claritatea și corectitudinea prompt-urilor. Codul și suitele de test au rămas neschimbate pentru a păstra fidelitatea scorurilor. Evaluările folosesc cadrul EvalPlus pentru metricile pass@1 și pass@1+.

Construirea Benchmark-ului: Procesul de dezvoltare

Fiecare set de date din 3LM a trecut printr-un proces de dezvoltare multi-stadiu pentru a garanta calitatea datelor, corectitudinea și reprezentativitatea.

Pentru componenta STEM Nativ, echipa a colectat surse PDF arabe și a aplicat o abordare OCR duală pentru a recupera atât textul simplu, cât și formulele matematice. Întrebările au fost extrase folosind fragmentarea bazată pe LLM și recunoașterea tiparelor, urmată de clasificare în format MCQ cu ordinea răspunsurilor randomizată. Eșantioanele finale au fost revizuite de vorbitori nativi de arabă cu expertiză în STEM pentru a confirma validitatea și lizibilitatea răspunsurilor.

În cazul STEM Sintetic, pipeline-ul YourBench a fost adaptat pentru input arab. Documentele sursă, după ingestie, au fost mai întâi rezumate și fragmentate, apoi alimentate într-un generator controlat de cod pentru crearea MCQ-urilor. A fost eliminat conținutul dependent de imagini sau ambiguu, păstrându-se doar întrebările în intervalele de dificultate vizate.

Pentru Benchmark-urile de Cod, obiectivul principal a fost izolarea înțelegerii limbajului în timp ce se păstra logica codului. Traducerea prompt-urilor a fost gestionată de GPT-4o cu verificare prin traducere inversă. Codul și testele au rămas intacte pentru a permite paritatea evaluării cu versiunile în engleză.

Rezultate Cheie și Performanța Modelelor

Studiul a evaluat peste 40 de LLM-uri, incluzând modele arab-first, multilingve și modele de uz general, atât în varianta de bază cât și cele ajustate pentru instrucțiuni (instruction-tuned). Evaluarea a fost realizată folosind atât metrici de acuratețe pentru variante multiple, cât și metrici de completare generativă.

În setarea MCQ, modelul Qwen2.5-72B-Instruct a atins performanța de top atât pe subseturile STEM native (71,8%), cât și pe cele sintetice (67,0%). Pentru sarcinile de completare, Gemma-3-27B a arătat cele mai puternice rezultate, cu o acuratețe de 43,2% în răspunsurile STEM.

În generarea de cod, GPT-4o a demonstrat o performanță de elită atât pe HumanEval-ar (83,5% pass@1+), cât și pe MBPP-ar (63,6% pass@1+). Aceste rezultate evidențiază o corelație puternică (aproximativ 0,97) între scorurile pass@1 în arabă și engleză, sugerând că calitatea prompt-ului specific limbii are o influență majoră asupra rezultatelor modelului.

De asemenea, cercetătorii au examinat robustețea sub perturbarea distractorilor, dezvăluind că modelele instruction-tuned sunt semnificativ mai stabile decât omoloagele lor de bază. Ingineria prompt-urilor și designul zero-shot s-au dovedit a afecta semnificativ performanța STEM în arabă.

Acces și Utilizare

Benchmark-ul a fost construit pentru a fi ușor reproductibil folosind instrumente standard. Toate scripturile, configurațiile și pipeline-urile de evaluare sunt disponibile în depozitul GitHub, putând fi adaptate pentru a evalua orice model compatibil cu HuggingFace Transformers sau API-urile OpenAI. Cele trei seturi de date sunt open-source și găzduite pe HuggingFace Datasets, facilitând cercetarea viitoare în acest domeniu crucial.

Filtrează articolele