Alyah ⭐️: Spre o evaluare robustă a capacităților dialectului emirian în modelele lingvistice arabe

Limba arabă se numără printre cele mai răspândite limbi la nivel global, fiind vorbită de sute de milioane de persoane în peste douăzeci de țări de pe mapamond. Cu toate acestea, această răspândire impresionantă ascunde o realitate lingvistică mult mai complexă și nuanțată: limba arabă nu este, în niciun caz, un monolit. Modern Standard Arabic (MSA) – sau araba modernă standard – coexistă cu un peisaj lingvistic extrem de bogat, compus din numeroase dialecte regionale care diferă semnificativ în ceea ce privește vocabularul, sintaxa, fonologia și, poate cel mai important, încărcătura culturală. Aceste dialecte reprezintă mediul primar de comunicare zilnică, de transmitere a poveștilor orale, a poeziei și a interacțiunilor sociale pentru majoritatea vorbitorilor nativi.

Cu toate acestea, majoritatea benchmark-urilor existente pentru modelele lingvistice arabe mari (LLM-uri) se concentrează aproape exclusiv pe araba modernă standard, lăsând dialectele arabe în mare măsură sub-evaluate și sub-reprezentate în peisajul cercetării. Această lacună este cu atât mai problematică cu cât modelele lingvistice mari interacționează tot mai frecvent cu utilizatorii în contexte informale, cultural încărcate și conversaționale. Un model care performează exemplar pe texte formale de știri poate eșua lamentabil în încercarea de a înțelege un salut regional, o expresie idiomatică sau o scurtă anecdotă exprimată în dialectul local. Această discrepanță între capacitatea tehnică a modelelor și realitatea lingvistică a utilizatorilor a motivat necesitatea unei abordări noi și mai cuprinzătoare.

Pentru a aborda această limitare critică, echipa de cercetare a introdus Alyah الياه (care înseamnă „Steaa Nordului” ⭐️ în dialectul emirian), un benchmark centrat pe dialectul emirian, conceput pentru a evalua capacitatea modelelor lingvistice arabe de a capta aspectele lingvistice, culturale și pragmatice specifice acestui dialect. Numele în sine este simbolic: la fel cum Steaua Nordului a ghidat călătorii de-a lungul istoriei, acest benchmark își propune să ghideze dezvoltarea modelelor lingvistice spre o înțelegere mai autentică a dialectelor arabe.

Motivația și Scopul Benchmark-ului

Dialectul emirian este profund interconectat cu cultura locală, moștenirea și istoria regiunii. Acesta apare în saluturile cotidiene, în poezia orală tradițională, în proverbe, în narativele populare și în expresii ale căror semnificații nu pot fi deduse prin simpla traducere literală. Benchmark-ul Alyah a fost conceput intenționat pentru a explora această profunzime culturală și lingvistică. În loc să testeze doar cunoștințele lexicale de suprafață, el provoacă modelele să interpreteze semnificații cultural încorporate, utilizări pragmatice și nuanțe specifice dialectului.

Conținutul benchmark-ului acoperă o gamă largă de fenomene lingvistice, inclusiv expresii locale comune și mai rare, saluturi cu încărcătură culturală, scurte anedocte, întrebări legate de moștenirea culturală și referințe la poezia emiriană tradițională. Obiectivul nu este doar de a măsura corectitudinea răspunsurilor, ci și de a înțelege unde anume modelele au succes sistematic sau eșuează atunci când sunt confruntate cu utilizarea autentică a limbii emiriene.

Structura Dataset-ului

În urma unei dezvoltări și consolidări extinse, benchmark-ul a fost unificat într-un singur dataset numit Alyah. Benchmark-ul final conține 1.173 de eșantioane, toate colectate manual de la vorbitori nativi emirieni pentru a asigura autenticitatea lingvistică și încărcătura culturală. Acest pas de curare manuală a fost esențial pentru a capta expresii, semnificații și utilizări care sunt rareori documentate în resursele scrise și care sunt dificil de dedus exclusiv din araba modernă standard.

Fiecare eșantion este formulat ca o întrebare cu alegere multiplă, având patru răspunsuri candidate, dintre care exact unul este corect. Modelele lingvistice mari au fost utilizate pentru a genera sintetic variantele de răspuns incorecte (distractorii), care au fost ulterior revizuite pentru a asigura plauzibilitatea și proximitatea semantică față de răspunsul corect. Pentru a evita bias-ul pozițional în timpul evaluării, indexul răspunsului corect urmează o distribuție aleatorie în întregul dataset.

Distribuția categoriilor în Alyah reflectă o gamă largă de fenomene lingvistice și culturale:

Categoria „Saluturi și Expresii Zilnice” conține 61 de eșantioane de dificultate ușoară, testând fluența conversațională de bază. Categoria „Sensibilitate Religioasă și Socială” include 78 de eșantioane de dificultate medie, evaluând înțelegerea normelor culturale și religioase. „Imagistică și Semnificație Figurativă” (121 de eșantioane) testează capacitatea modelelor de a interpreta limbajul metaforic și idiomatic. „Etichetă și Valori” (173 de eșantioane) explorează normele sociale și comportamentale. „Poezie și Expresie Creativă” (32 de eșantioane) reprezintă o categorie dificilă, testând înțelegerea formelor artistice tradiționale. „Cunoștințe Istorice și de Moștenire” (89 de eșantioane) evaluează cunoașterea istoriei și tradițiilor locale. În sfârșit, categoria cea mai extinsă, „Limbă și Dialect” (619 eșantioane), de dificultate ridicată, testează nuanțele specifice ale dialectului emirian.

Această compoziție permite Alyah să evalueze simultan fluența conversațională de suprafață și înțelegerea culturală, semantică și pragmatică mai profundă, cu un accent deosebit pe fenomenele lingvistice specifice dialectului care rămân provocatoare pentru modelele actuale.

Configurarea Evaluării Modelelor

Echipa a evaluat un total de 54 de modele lingvistice, cuprinzând 23 de modele de bază și 31 de modele ajustate pe instrucțiuni, acoperind diverse paradigme arhitecturale și de antrenare. Acestea includ LLM-uri native arabe precum Jais și Allam, modele multilingve cu suport arab puternic precum Qwen și LLaMA, și modele adaptate sau specializate regional precum Fanar și AceGPT. Pentru fiecare familie, atât variantele de bază, cât și cele ajustate pe instrucțiuni au fost evaluate pentru a înțelege impactul alinierii și ajustării instrucțiunilor asupra performanței dialectale.

Toate modelele au fost evaluate sub un protocol consistent de promptare și scorare. Răspunsurile au fost evaluate pentru corectitudinea semantică și adecvarea în raport cu utilizarea emiriană, mai degrabă decât pentru suprapunerea literală cu un răspuns de referință. Acest aspect este crucial în evaluarea dialectală, unde pot exista multiple formulări valide.

Rezultatele Evaluării pe Alyah

Rezultatele au scos în evidență câteva tendințe majore. Modelele ajustate pe instrucțiuni au depășit, în general, omologii lor de bază. De exemplu, modelul falcon-h1-arabic-7b-instruct a obținut o acuratețe de 82.18%, în timp ce varianta de bază corespunzătoare a atins doar 60.78%. Similar, modelul humain-ai/ALLaM-7B-Instruct-preview a înregistrat 77.24%, demonstrând beneficiile ajustării specifice pentru contextul arab.

Modelele precum google/gemma-3-27b-it (74.68%) și Qwen/Qwen2.5-72B-Instruct (74.6%) au arătat că și modelele multilingve mari pot performa bine atunci când sunt ajustate corespunzător. Totuși, performanța modelelor mai mici a variat semnificativ, cu modele precum Qwen/Qwen3-4B atingând doar 26.26% acuratețe.

Analiza și Tendințele Observate

Câteva tendințe semnificative au emergat din evaluare. Modelele ajustate pe instrucțiuni excelează în special la întrebările care implică norme conversaționale și răspunsuri cultural adecvate (categoria Etichetă și Valori). De asemenea, acestea performează bine la întrebările care testează imagistica și sensul figurat, sugerând că modelele pot extrage tipare de descriere non-literală indiferent de dialect.

Categoriile cele mai dificile au fost constant „Limbă și Dialect” și „Saluturi și Expresii Zilnice” pentru toate dimensiunile de modele. Aceste rezultate reflectă starea actuală a prezenței dialectului emirian în media scrisă – fiind în principal un dialect vorbit, rar scris, noutatea sa explică dificultatea modelelor existente.

Concluzie și Impactul asupra Comunității

Alyah reprezintă un pas important spre o evaluare mai echitabilă și mai cuprinzătoare a modelelor lingvistice arabe. Prin concentrarea pe dialectul emirian, benchmark-ul evidențiază lacunele actuale și oferă o cale clară pentru îmbunătățirea modelelor viitoare. Impactul asupra comunității de cercetare este semnificativ: Alyah oferă un instrument pentru dezvoltarea de asistenți AI mai cultural sensibili și mai capabili să interacționeze autentic cu vorbitorii de arabă din diverse regiuni.

Filtrează articolele