Marea Divergență Arhitecturală: Encodere vs. Decodere
Comunitatea AI a convergit în mare parte către modelele decoder-only datorită impresionantelor lor capacități de generare de text. Totuși, modelele de tip BERT (encoder-only) rămân caii de povară ai sistemelor de producție, fiind esențiale pentru clasificare, regăsire de informații (retrieval) și generare de embedding-uri. Diferența tehnică fundamentală constă în mecanismul de atenție: decoderele folosesc atenție cauzală (unidirecțională), vizualizând doar token-urile anterioare pentru a prezice următorul, în timp ce encoderele folosesc atenție bidirecțională, vizualizând întregul context simultan. Această distincție le face pe encodere mai rapide, mai eficiente din punct de vedere al memoriei și adesea mai precise pentru task-urile discriminative.
Dezvoltarea encoderelor stagnase până recent, când inițiative precum ModernBERT au început să le modernizeze. Ettin merge un pas mai departe, eliminând variabilele din ecuație. Pentru prima dată, avem două modele de ultimă generație antrenate în același setup, dar cu obiective diferite: Masked Language Modeling (MLM) pentru encodere și Causal Language Modeling (CLM) pentru decodere.
Rețeta de Antrenament: Modernitate și Transparență
Ettin nu doar că reproduce rețeta ModernBERT, ci o îmbunătățește și o extinde. Proiectul antrenează șase dimensiuni diferite de modele, de la 17M la 1 miliard de parametri, acoperind nevoi diverse, de la modele ultra-rapide pe dispozitive mobile (on-device) până la modele puternice pentru servere. Spre deosebire de predecesorii săi, toate datele de antrenament ale Ettin sunt publice și reproductibile, o victorie importantă pentru transparența în AI.
Procesul de antrenament este structurat în trei faze distincte, o abordare comprehensivă menită să maximizeze performanța:
1. Faza 1 - Pre-antrenament (1.7 trilioane de tokeni): Se pornește cu un amestec divers de date de înaltă calitate, antrenând pe contexte scurte (1024 tokeni) pentru a stabili o bază solidă de cunoștințe fundaționale.
2. Faza 2 - Extinderea Contextului (250 miliarde de tokeni): Se crește lungimea contextului la 8000 de tokeni folosind date filtrate de o calitate superioară, permițând modelelor să înțeleagă documente lungi și relații complexe.
3. Faza 3 - Decay (100 miliarde de tokeni): Se finalizează cu surse de date premium, inclusiv lucrări științifice și manuale, reducând treptat rata de învățare pentru a rafina cunoștințele.
Rezultate care redefinesc Standardele
Rezultatele Ettin sunt remarcabile. Modelele encoder depășesc ModernBERT în toate task-urile și dimensiunile, folosind date complet deschise. Aceasta oferă flexibilitate de neegalat: utilizatorii pot folosi modele mai mici pentru inferență rapidă sau varianta de 1 miliard de parametri pentru performanță maximă.
Pe frontul decoderele, aplicarea aceleiași rețete a produs modele care depășesc sau se ridică la nivelul unor giganți precum Llama 3.2 1B și SmolLM2. Câștigurile sunt semnificative în special în task-uri intensive pe cunoștințe, cum ar fi SciQ, demonstrând beneficiile amestecului de date de înaltă calitate.
Duelul Arhitecturilor: O Luptă Echitabilă
Analiza comparativă dintre encodere și decodere în condiții controlate dezvăluie adevăruri fundamentale despre AI:
Studiul a testat și ipoteza antrenării încrucișate (cross-objective), continuând antrenamentul unui encoder cu obiectiv de decoder și invers. Rezultatele arată că această strategie este inferioară, sugerând că alegerea arhitecturală este fundamentală și nu poate fi compensată doar prin schimbarea obiectivului de antrenament.
Exemple de Utilizare și Implementare
Pentru cercetători și dezvoltatori, Ettin oferă o flexibilitate totală. Modelele encoder pot fi utilizate direct pentru clasificare sau generare de embedding-uri, iar exemplele de cod furnizate demonstrează ușurința cu care se pot face predicții pentru tokeni mascați sau se pot fine-tuna modelele folosind biblioteci standard precum Sentence Transformers. Pe de altă parte, decoderele pot fi integrate ușor pentru generare de text, oferind o alternativă competitivă la modelele existente, dar cu beneficiul transparenței datelor de antrenament.
În concluzie, Ettin Suite nu este doar o colecție de modele, ci un cadru științific care demistifică diferențele dintre arhitecturile de inteligență artificială. Prin transparență, reproductibilitate și performanță, Ettin stabilește un nou etalon pentru modelele open-source.