mmBERT: ModernBERT devine multilingv – o nouă eră pentru modelele de limbaj

În peisajul în continuă evoluție al inteligenței artificiale, dezvoltarea modelelor de limbaj capabile să înțeleagă și să proceseze multiple limbi a reprezentat întotdeauna o provocare tehnică majoră. În acest context, un nou protagonist face o intrare spectaculoasă pe scenă: mmBERT. Acest articol de prezentare introduce mmBERT, un model encoder multilingv de ultimă generație, antrenat pe un volum impresionant de peste 3 trilioane de tokeni, acoperind nu mai puțin de 1800 de limbi. Această realizare marchează un punct de inflexiune semnificativ, fiind primul model care reușește să depășească performanțele standardului anterior, XLM-R, aducând în același timp inovații strategice esențiale pentru învățarea eficientă a limbilor cu resurse reduse.

Arhitectura mmBERT se bazează pe fundația solidă oferită de ModernBERT, recunoscut pentru viteza sa remarcabilă, dar adaugă componente noi și ingenioase pentru a facilita învățarea multilingvă la scară largă. Pentru cei interesați să experimenteze direct cu aceste modele, exemple de cod și instrucțiuni de utilizare sunt disponibile la finalul acestui articol detaliat.

Strategia de date: O fundație curată și diversă

Secretul succesului unui model de limbaj rezidă adesea în calitatea și diversitatea datelor de antrenament. mmBERT a fost antrenat pe un set de date multilingv meticulos curat, totalizând peste 3 trilioane de tokeni, parcurgând trei faze distincte de antrenament. Fundația acestor date este compusă din trei surse principale, surse web open-source de înaltă calitate care permit atât o acoperire lingvistică vastă, cât și o calitate superioară a informației.

În primul rând, DCLM și DCLM Filtrat furnizează cel mai înalt nivel de conținut în limba engleză disponibil, servind drept coloană vertebrală pentru performanța solidă în această limbă. Acest set de date reprezintă tehnici de filtrare web de ultimă oră și formează o componentă crucială a arhitecturii. Datorită calității excepționale a acestor date, s-a utilizat o proporție semnificativ mai mare de engleză comparativ cu modelele encoder multilingve de generație anterioară, ajungând până la 18%.

În al doilea rând, FineWeb2 livrează un conținut web multilingv larg, acoperind peste 1800 de limbi. Acest set de date permite o acoperire multilingvă extinsă, menținând în același timp standarde rezonabile de calitate în diverse familii de limbi și sisteme de scriere. Complementar, FineWeb2-HQ constă într-un subset filtrat al FineWeb2, concentrat pe 20 de limbi cu resurse ridicate. Această versiune filtrată oferă un conținut multilingv de calitate superioară, care face legătura între datele filtrate exclusiv în engleză și acoperirea multilingvă largă.

Pe lângă acestea, datele de antrenament încorporează corpora specializate din surse precum Dolma, MegaWika v2, ProLong și altele: depozite de cod (StarCoder, ProLong), conținut academic (ArXiv, PeS2o), materiale de referință (Wikipedia, manuale) și discuții comunitare (StackExchange), alături de seturi de date de instruire și matematică.

Inovația cheie în abordarea datelor o reprezintă strategia progresivă de includere a limbilor. În fiecare fază, se eșantionează progresiv dintr-o distribuție mai plată (mai apropiată de uniformitate), adăugând în același timp limbi noi. Astfel, limbi cu resurse ridicate, precum rusa, pornesc cu un procentaj mare de date (aproximativ 9%), pentru ca în ultima fază de antrenament să ajungă la jumătate din acest procent. Se începe cu 60 de limbi cu resurse ridicate în pre-antrenament, se extinde la 110 limbi în timpul antrenamentului mediu, iar în final se includ toate cele 1833 de limbi din FineWeb2 în faza de decădere. Această abordare permite maximizarea impactului datelor limitate ale limbilor cu resurse reduse, fără repetiții excesive și menținând o calitate generală ridicată a datelor.

Rețeta de antrenament și componentele inovatoare

mmBERT construiește pe arhitectura ModernBERT, dar introduce câteva inovații cheie pentru învățarea multilingvă. Arhitectura de bază este identică cu ModernBERT-base, având 22 de straturi și 1152 dimensiuni intermediare, dar se trece la tokenizatorul Gemma 2 pentru a gestiona mai bine textul multilingv. Modelul de bază are 110 milioane de parametri non-embedding (307 milioane în total din cauza vocabularului mai mare), în timp ce varianta mică are 42 de milioane de parametri non-embedding.

Abordarea de antrenament în trei faze este concepută cu precizie:

1. Programul Invers al Raportului de Mascare: În loc să folosească o rată fixă de mascare, se reduce progresiv raportul de la 30% → 15% → 5% pe parcursul fazelor de antrenament. Acest lucru permite modelului să învețe reprezentări de bază cu o mascare mai ridicată la început, concentrându-se apoi pe o înțelegere mai nuanțată, cu rate de mascare mai mici.

2. Învățarea Limbilor prin Annealing: Se ajustează dinamic temperatura pentru eșantionarea datelor multilingve de la τ=0.7 → 0.5 → 0.3. Aceasta creează o progresie de la o biasare spre limbile cu resurse ridicate către o eșantionare mai uniformă, permițând modelului să construiască o fundație multilingvă solidă înainte de a învăța limbile cu resurse reduse.

3. Adăugarea Progresivă a Limbilor: În loc să antreneze pe toate limbile simultan, se adaugă strategic limbi în fiecare fază (60 → 110 → 1833). Aceasta maximizează eficiența învățării, evitând epoci excesive pe date limitate ale limbilor cu resurse reduse.

4. Fuzionarea Modelelor: Se antrenează trei variante diferite în faza de decădere (concentrate pe engleză, 110 limbi și toate limbile) și se folosește fuzionarea TIES pentru a combina punctele forte ale acestora în modelul final.

Rezultate și Performanță

Rezultatele obținute de mmBERT sunt remarcabile. Pe benchmark-ul GLUE (limba engleză), mmBERT base obține o performanță puternică, depășind substanțial alte modele multilingve precum XLM-R base și mGTE base, rămânând competitiv în fața modelelor exclusiv în engleză, deși mai puțin de 25% din datele de antrenament mmBERT sunt în engleză.

În ceea ce privește performanța multilingvă, mmBERT arată îmbunătățiri semnificative pe benchmark-ul XTREME comparativ cu XLM-R. Progresele notabile includ o performanță puternică pe clasificarea XNLI, îmbunătățiri substanțiale în sarcini de răspuns la întrebări precum TyDiQA și rezultate competitive pe PAWS-X și XCOPA pentru înțelegerea interlingvă.

În domeniul recuperării de informații (retrieval), mmBERT demonstrează că, deși este conceput pentru setări multilingve masive, obține câștiguri semnificative pe benchmark-urile MTEB v2 în engleză, egalând capabilitățile modelelor exclusiv în engleză precum ModernBERT. De asemenea, datorită tokenizatorului modern bazat pe Gemma 2, mmBERT arată o performanță puternică și în recuperarea de cod, fiind potrivit pentru orice tip de date textuale.

O caracteristică semnificativă este demonstrarea faptului că limbile cu resurse reduse pot fi învățate eficient în scurta fază de decădere a antrenamentului. Testele pe limbi introduse doar în ultima fază (precum Tigrinya și Faroeză) arată îmbunătățiri dramatice, mmBERT reușind să depășească modele mult mai mari, inclusiv Google Gemini 2.5 Pro și OpenAI o3 în anumite sarcini.

Eficiență și Utilizare Practică

mmBERT livrează câștiguri substanțiale de eficiență prin îmbunătățiri arhitecturale moștenite de la ModernBERT. Procesează textul semnificativ mai rapid decât modelele multilingve existente, gestionând secvențe de până la 8192 tokeni eficient. Combinația dintre un debit mai bun și o arhitectură modernă are ca rezultat costuri computaționale mai mici pentru inferență, făcând mmBERT mai practic pentru implementări în producție unde suportul multilingv este necesar la scară largă. Aceste îmbunătățiri fac din mmBERT nu doar un model mai precis, ci și semnificativ mai practic pentru utilizarea reală.

Filtrează articolele