Apriel-H1: Cheia surprinzătoare pentru distilarea modelelor eficiente de raționament

Apriel-H1: Cheia surprinzătoare pentru distilarea modelelor eficiente de raționament

Articol Enterprise Publicat la 19 Noiembrie 2025

În lumea în continuă evoluție a inteligenței artificiale, dezvoltarea modelelor de limbaj de mari dimensiuni (LLM) se lovește adesea de un zid de netrecut: compromisul dintre performanță și eficiență. Când MiniMax și-a publicat autopsia post-mortem a modelului M2 în octombrie, explicând motivul pentru care au abandonat mecanismul de atenție eficient la o scară de 230 de miliarde de parametri, narațiunea dominantă a devenit brusc că „atenția eficientă este moartă”. Totuși, în doar câteva zile, Kimi Linear a demonstrat contrariul. Lecția reală nu este despre abandonarea eficienței, ci despre faptul că totul depinde de constrângerile specifice fiecărui proiect.

Constrângerea noastră a fost simplă și pragmatică: dispuneam deja de un model de raționament robust de 15 miliarde de parametri și trebuia să îl facem eficient fără a începe de la zero. Nu dispuneam de resurse de calcul infinite pentru pre-antrenarea pe 20 de trilioane de tokeni și nici nu ne permiteam luxul unui design arhitectural co-creat de la prima zi. Ne confruntam cu o întrebare practică fundamentală: se poate moderniza un model existent pentru a deveni eficient prin procesul de distilare?

Ce am construit: Familia Apriel-H1

Rezultatul muncii noastre este familia Apriel-H1, care constă într-o serie de șapte puncte de control (checkpoints) care acoperă între 25 și 40 de straturi Mamba (din totalul de 50 de straturi ale arhitecturii originale). Această abordare demonstrează frontiera completă dintre eficiență și calitate. Modelul nostru emblematic, Apriel-H1-15b-Thinker-SFT, reușește să atingă un debit (throughput) de 2,1 ori mai mare, cu o pierdere minimă de calitate.

Analiza benchmark-urilor relevă o stabilitate remarcabilă. Pe setul de date MATH500, scorul a crescut ușor de la 0,90 la 0,92, iar pe MTBench de la 8,30 la 8,58. Chiar și în cazul regresiilor minore, precum GSM8k (de la 0,97 la 0,95), GPQA (de la 0,59 la 0,55) și AIME24 (de la 0,70 la 0,65), performanța rămâne competitivă. Aceste rezultate demonstrează că putem crește debitul de procesare cu 1,89-2,09x, în funcție de lungimea contextului, menținând calitatea raționamentului aproape constantă. Antrenamentul total a necesitat 76,8 miliarde de tokeni, o cifră semnificativă, dar mult mai mică decât antrenarea de la zero.

Intuiția non-evidentă: Secretul datelor

Inițial, am crezut că soluția este simplă: distilarea pe datele de pre-antrenament, urmată de o rafinare prin SFT (Supervised Fine-Tuning). Raționamentul părea solid. Introduceam straturi Mamba complet noi, care nu „văzuseră” niciodată date. Aceste modele liniare de stare spațiu (SSM) trebuiau să învețe amestecarea token-urilor de la zero. Cum ar fi putut deveni mixere eficiente fără a fi expuse aceleiași distribuții largi de date pe care le-au văzut straturile de atenție originale?

Am încercat. Apoi am încercat să mixăm datele de pre-antrenament cu cele de SFT. Nu a funcționat. Hibridele distilate au pierdut calitatea raționamentului, uneori dramatic.

Ceea ce a funcționat cu adevărat a fost utilizarea urmelor de raționament de înaltă calitate din setul de date SFT al profesorului (modelului sursă). Distilarea unui model de raționament nu este despre transferul general al predicției următorului token. Modelul de bază avea deja această capacitate. Ceea ce păstrăm este ceva specific și fragil: tiparele de raționament în mai mulți pași ale profesorului. Aceste tipare emerg din mecanisme de atenție complexe, cum ar fi capetele de recuperare (retrieval heads) care extrag context de la mii de tokeni distanță sau capetele de inducție care recunosc și continuă lanțuri logice. Când înlocuim atenția cu recurența liniară a Mamba, aceste mecanisme computaționale sunt perturbate, iar modelul hibrid trebuie să descopere noi căi către aceleași rezultate. Această descoperire necesită exemple explicite unde structura raționamentului este vizibilă și corectă. Datele de pre-antrenament sunt prea zgomotoase și difuze; semnalul de raționament se pierde. Aveam nevoie de exemple concentrate ale capacității specifice pe care încercam să o păstrăm.

Odată înțeleasă alegerea datelor, metoda de distilare a devenit clară. Am folosit divergența KL inversă (Reverse KL) în loc de divergența KL înainte (Forward KL). De ce? Pentru că ne antrenăm pe probleme unde profesorul are o încredere ridicată și o structură clară. Comportamentul de căutare a modului (mode-seeking) al divergenței KL inverse încurajează studentul să se angajeze față de acele predicții de înaltă încredere. Aceasta este cheia întregii abordări: potrivește datele de distilare cu capacitatea pe care o păstrezi, nu cu capacitatea pe care o construiești.

Cum să aplici: Distilarea în etape

Nu poți doar să înlocuști 40 de straturi de atenție cu Mamba și să speri la rezultate optime. Am învățat acest lucru pe calea cea mai grea, dezvoltând în cele din urmă o procedură de distilare în etape.

Etapa 1: Identificarea straturilor cel mai puțin importante. Am folosit o analiză „Leave-One-Out” (LOO) pe setul MMLU: am eliminat fiecare strat, l-am înlocuit cu o operațiune de identitate și am măsurat scăderea performanței. Am sortat straturile după importanță și am înlocuit ultimele 25 cu mixere Mamba-in-Llama (MIL) inițializate. Aceasta a funcționat pentru punctul nostru de control H-25.

Etapa 2: Conversia progresivă peste 25 de straturi. Analiza LOO a eșuat peste 25 de straturi, deoarece straturile neimportante în izolare au devenit critice în combinație. Pentru a remedia acest lucru, am dezvoltat o euristică dinamică numită MIL-Mamba-Replacement (MMR). Pentru fiecare strat de atenție rămas, am inițializat un mixer Mamba, am rulat 100 de pași de antrenament și am înregistrat pierderea distilării. Straturile care converg la o pierdere mai mică sunt „mai ușor” de înlocuit. Am progresat incremental: 25 → 27 → 30 → 34 → 37 → 40 straturi Mamba, grupând înlocuirile pe baza scorurilor MMR.

Etapa 3: Antrenament end-to-end pe date SFT. După atingerea numărului țintă de straturi Mamba, am efectuat o trecere finală de SFT până când performanța de raționament s-a stabilizat. După 55,9 miliarde de tokeni de distilare și 20,9 miliarde de tokeni SFT, am obținut modelul final Apriel-H1-15b-Thinker-SFT.

Reproductibilitate: Fast-LLM

Am construit totul pe Fast-LLM, cadrul nostru de antrenament open-source. Principiul arhitectural de bază este modularitatea. Atenția și Mamba sunt implementări diferite ale aceleiași interfețe de „amestecare” și pot fi interschimbate liber. Câmpul „pattern” din configurație specifică ordinea straturilor. Pentru Apriel-H1-15b-Thinker-SFT, avem 30 de blocuri Mamba și 20 de blocuri de atenție, plasate în funcție de importanță. Fast-LLM gestionează acumularea gradienților, antrenamentul distribuit, paralelismul tensorial și tot ce este necesar pentru experimentare la scară largă, fiind licențiat sub Apache 2.0.

Realitatea producției și concluzia

Am implementat Apriel-H1 în Hugging Face Transformers și vLLM. Integrarea este relativ directă, dar trebuie menționat că implementarea modelelor hibride astăzi înseamnă încă existența unor „margini aspre”. Instrumentele se maturizează rapid, dar nu sunt încă „cheie în mână”. Echipele care doresc să adopte această tehnologie vor trebui să scrie cod personalizat și să valideze cu atenție comportamentul numeric.

În concluzie, retrofitul eficienței prin distilare este nu doar posibil, ci și practic și eficient. Apriel-H1 demonstrează că modelele hibride pot fi rafinate pentru a se potrivi sau depăși calitatea de raționament a profesorului, deschizând calea pentru modele de inteligență artificială mai rapide și mai accesibile, fără a sacrifica capacitatea de gândire profundă.

Filtrează articolele