Sakana AI și NVIDIA lansează TwELL cu nuclee CUDA: accelerare cu 20,5% la inferență și 21,9% la antrenament pentru modelele de limbaj mari

Într-o eră în care inteligența artificială avansează cu pași uriași, optimizarea performanței modelelor de limbaj mari (LLM) a devenit o prioritate absolută. Recent, compania japoneză Sakana AI, în colaborare cu gigantul american NVIDIA, a anunțat lansarea unei tehnologii revoluționare numită TwELL (Token-wise Efficient LLM), care promite să ofere o accelerare semnificativă atât în faza de inferență, cât și în cea de antrenament. Conform datelor oficiale, TwELL reușește să obțină o creștere a vitezei de inferență de 20,5% și o îmbunătățire a vitezei de antrenament de 21,9%, folosind nuclee CUDA special optimizate. Acest salt tehnologic nu doar că reduce costurile de operare, dar deschide și noi posibilități pentru implementarea LLM-urilor în aplicații din timp real.

Ce este TwELL și cum funcționează?

TwELL este o abordare inovatoare care se concentrează pe eficiența la nivel de token – adică la nivelul unităților individuale de text pe care modelele le procesează. În mod tradițional, modelele de limbaj mari, precum GPT-4 sau LLaMA, tratează toate token-urile în mod uniform, ceea ce duce la o utilizare ineficientă a resurselor de calcul. Sakana AI și NVIDIA au descoperit că nu toate token-urile au aceeași importanță sau complexitate; unele pot fi procesate mai rapid, iar altele necesită mai multă atenție. TwELL exploatează această diferență prin implementarea unor nuclee CUDA personalizate care ajustează dinamic fluxul de calcul în funcție de caracteristicile fiecărui token.

Practic, TwELL introduce o serie de optimizări la nivel de kernel CUDA – acele programe care rulează direct pe plăcile grafice NVIDIA. Aceste nuclee sunt proiectate să reducă latența și să maximizeze paralelismul, permițând modelului să sară peste calcule inutile sau să le reordoneze inteligent. De exemplu, în timpul inferenței, TwELL poate identifica token-urile care nu contribuie semnificativ la rezultatul final și le poate procesa cu o precizie redusă sau chiar le poate omite, fără a afecta acuratețea. În antrenament, optimizarea se concentrează pe reducerea comunicațiilor între procesoare și pe utilizarea mai eficientă a memoriei.

Impactul asupra inferenței și antrenamentului

Cifrele anunțate sunt impresionante: o accelerare de 20,5% la inferență înseamnă că un model care în mod normal răspunde într-o secundă va răspunde acum în aproximativ 0,8 secunde. Pentru aplicații precum chatboții, asistenții virtuali sau traducerea automată, această diferență poate fi crucială pentru experiența utilizatorului. Mai mult, în cazul antrenamentului, o îmbunătățire de 21,9% poate reduce timpul necesar pentru a antrena un model de la câteva săptămâni la câteva zile, ceea ce înseamnă economii substanțiale de energie și costuri financiare.

Sakana AI a subliniat că TwELL nu necesită modificări arhitecturale majore ale modelelor existente. Integrarea se face prin înlocuirea unor componente software standard cu noile nuclee CUDA, ceea ce face ca tehnologia să fie ușor de adoptat de către companiile care deja folosesc infrastructura NVIDIA. Aceasta este o mișcare strategică, deoarece NVIDIA domină piața de GPU-uri pentru AI, iar optimizările la nivel de kernel sunt extrem de valoroase.

Colaborarea Sakana AI – NVIDIA

Sakana AI, o companie fondată de foști cercetători de la Google Brain și alte institute de prestigiu, s-a remarcat prin abordări neconvenționale în domeniul inteligenței artificiale. Colaborarea cu NVIDIA nu este întâmplătoare: NVIDIA pune la dispoziție nu doar hardware-ul, ci și expertiza în optimizarea software-ului la nivel de sistem. TwELL este rezultatul a luni de muncă comună, în care inginerii de la ambele companii au analizat în detaliu modul în care modelele de limbaj mari consumă resurse.

Un aspect interesant este că TwELL folosește tehnici de „sparse attention” și „quantization-aware training” – adică atenție dispersată și antrenament conștient de cuantizare. Aceste metode permit modelului să ignore conexiunile irelevante dintre token-uri și să lucreze cu numere pe 8 biți în loc de 16 sau 32, fără a pierde acuratețe. Nucleele CUDA personalizate sunt esențiale pentru a implementa aceste tehnici la viteză maximă.

Ce înseamnă pentru viitorul LLM-urilor?

Lansarea TwELL vine într-un moment în care costurile de operare a modelelor de limbaj mari sunt tot mai mult în atenția publicului. Companiile care rulează servicii bazate pe LLM-uri cheltuie milioane de dolari pe energie electrică și hardware. O accelerare de peste 20% poate reduce semnificativ aceste costuri, făcând tehnologia mai accesibilă pentru startup-uri și organizații mai mici.

De asemenea, TwELL ar putea permite rularea modelelor mai mari pe același hardware, sau rularea modelelor existente pe hardware mai ieftin. Acest lucru este deosebit de important pentru dispozitivele edge, cum ar fi telefoanele mobile sau dispozitivele IoT, unde resursele sunt limitate. Imaginați-vă un asistent vocal pe telefon care rulează un model de limbaj la fel de puternic ca unul din cloud, dar fără întârzieri de rețea – asta ar putea deveni realitate datorită unor optimizări precum TwELL.

Reacții din industrie

Specialiștii din domeniu au salutat anunțul, dar au și atras atenția asupra unor posibile limitări. De exemplu, accelerarea de 20% este măsurată în condiții de laborator, iar în aplicații reale, beneficiile pot varia în funcție de dimensiunea modelului și de tipul sarcinii. De asemenea, TwELL este optimizat în special pentru arhitecturile NVIDIA, ceea ce înseamnă că utilizatorii de GPU-uri AMD sau de acceleratoare personalizate nu vor putea beneficia direct.

Cu toate acestea, Sakana AI a promis că va publica documentația tehnică și va oferi suport pentru integrare, ceea ce ar putea încuraja adoptarea pe scară largă. NVIDIA, la rândul său, vede TwELL ca pe o dovadă a puterii ecosistemului CUDA, care continuă să fie lider în domeniul AI.

Concluzie

TwELL reprezintă un pas important în direcția eficientizării modelelor de limbaj mari. Prin combinarea expertizei în optimizare hardware a NVIDIA cu inovația algoritmică a Sakana AI, această tehnologie oferă o soluție practică pentru una dintre cele mai mari provocări ale AI-ului modern: costul și viteza. Cu o accelerare de peste 20% atât la inferență, cât și la antrenament, TwELL nu doar că îmbunătățește performanța, ci și democratizează accesul la LLM-uri de ultimă generație. Rămâne de văzut cât de repede va fi adoptată această tehnologie, dar un lucru este cert: cursa pentru eficiență în AI abia a început.

De ce este important:

Această inovație este importantă deoarece reduce semnificativ costurile și timpul necesar pentru a rula și antrena modele de limbaj mari, făcând inteligența artificială avansată mai accesibilă pentru companii și dezvoltatori. În plus, optimizările la nivel de nucleu CUDA demonstrează încă o dată importanța colaborării dintre producătorii de hardware și cercetătorii în AI pentru a depăși limitele actuale ale performanței. Pe termen lung, astfel de tehnologii vor permite integrarea LLM-urilor în aplicații din timp real, de la asistenți vocali la traducere automată, îmbunătățind experiența utilizatorilor la scară globală.