MoonMath AI lansează open-source un kernel de atenție HIP pentru AMD MI300X care depășește AITER v3 în toate formele și modurile de rotunjire

Într-o mișcare care zguduie din temelii ecosistemul de inteligență artificială hardware, MoonMath AI a decis să deschidă codul sursă al unui kernel de atenție scris în HIP, special optimizat pentru GPU-ul AMD MI300X. Și nu e vorba de orice kernel – conform testelor interne, acesta bate fără drept de apel soluția AITER v3 pe fiecare configurație de formă și mod de rotunjire. E ca și cum ai spune că un atlet amator a venit și a spulberat recordurile olimpice la toate probele. Hai să vedem ce înseamnă asta pentru industria AI și pentru utilizatorii de hardware AMD.

Ce este acest kernel și de ce e important?

Kernel-ul de atenție este inima modelelor de tip transformer – de la GPT la Llama, de la BERT la Stable Diffusion. Fără un kernel eficient, performanța modelelor suferă enorm. MoonMath AI a dezvoltat un kernel care folosește HIP (Heterogeneous Interface for Portability), limbajul AMD pentru programarea GPU-urilor, și l-a optimizat pentru arhitectura CDNA3 a MI300X. Rezultatul? O viteză de procesare care, potrivit benchmark-urilor, depășește constant AITER v3 – soluția de referință de până acum – indiferent de dimensiunile tensorilor sau de modul de rotunjire (rounding mode) folosit.

„Am vrut să demonstrăm că AMD poate concura cap la cap cu NVIDIA în domeniul inferenței și antrenării modelelor mari”, a declarat un reprezentant MoonMath AI într-un comunicat. „Deschiderea codului sursă este un pas firesc pentru a accelera adoptarea hardware-ului AMD în comunitatea AI.”

Performanță care vorbește de la sine

Testele comparative arată că noul kernel HIP este mai rapid cu până la 30% în anumite scenarii față de AITER v3, iar în niciun caz nu este mai lent. „Am testat pe zeci de forme de matrice, de la mici la foarte mari, și în toate modurile de rotunjire suportate de MI300X – round-to-nearest-even, round-toward-zero, round-up, round-down – și de fiecare dată kernel-ul nostru a ieșit învingător”, explică echipa de ingineri.

Ce înseamnă asta în practică? Dacă rulezi un model de tip Llama 2 70B pe un cluster de MI300X, poți obține un throughput mai mare cu același consum de energie. Sau poți reduce latența pentru aplicații real-time. Sau poți antrena modele mai mari în același timp. E un câștig net pentru oricine folosește AMD.

De ce open-source?

MoonMath AI nu este o companie care vinde hardware, ci un startup focusat pe optimizări software pentru AI. Decizia de a face open-source acest kernel este strategică: pe de o parte, atrage dezvoltatori și cercetători să contribuie, pe de altă parte, creează un ecosistem în jurul AMD. „Vrem ca oamenii să nu mai aibă scuze să nu folosească AMD. Acum au un kernel de atenție care este nu doar competitiv, ci superior”, spune fondatorul.

Licența aleasă este permisivă (MIT), ceea ce înseamnă că poate fi integrat în orice proiect, comercial sau nu. Codul este disponibil pe GitHub, iar documentația include exemple de utilizare și ghiduri de compilare.

Impactul asupra pieței AI hardware

Până acum, NVIDIA domina cu autoritate segmentul de GPU-uri pentru AI, datorită ecosistemului CUDA și a bibliotecilor optimizate precum cuDNN și TensorRT. AMD a încercat să recupereze cu ROCm, dar adoptarea a fost lentă. Un kernel de atenție open-source care bate soluțiile existente pe MI300X poate fi un game-changer.

„AITER v3 era considerat etalonul pentru atenție pe AMD. Să vezi că un kernel independent îl depășește e o veste uriașă”, comentează un analist hardware. „Dacă MoonMath AI reușește să mențină acest avantaj și să extindă optimizările și pentru alte operații, AMD ar putea deveni o alternativă serioasă la NVIDIA, mai ales în contextul penuriei de GPU-uri H100.”

Cum funcționează kernel-ul?

Fără a intra în detalii prea tehnice, kernel-ul folosește tehnici avansate de tiling și warp-level matrix multiply-accumulate, profitând de unitățile Matrix Core ale MI300X. Optimizările includ reducerea acceselor la memorie globală, utilizarea eficientă a memoriei partajate și sincronizarea fină a thread-urilor. Modul de rotunjire este tratat explicit, permițând utilizatorilor să aleagă între precizie și viteză, fără a sacrifica performanța.

„Am petrecut luni de zile analizând assembly-ul generat de compilator și ajustând registrele”, povestește un inginer. „Fiecare ciclu de ceas contează când ai de procesat miliarde de tokeni.”

Reacții din comunitate

Pe forumurile de specialitate, vestea a fost primită cu entuziasm. „În sfârșit, cineva face open-source un kernel care chiar funcționează bine pe AMD”, scrie un utilizator pe Reddit. „Am testat pe MI250 și merge decent, dar pe MI300X e bestial.” Alții sunt mai sceptici: „Să vedem cum se comportă în producție, nu doar în benchmark-uri controlate.”

MoonMath AI a promis că va publica și benchmark-uri independente, realizate de terți, în următoarele săptămâni. Până atunci, codul este acolo, gata de descărcat și testat.

Ce urmează?

MoonMath AI nu se oprește aici. Echipa lucrează deja la kernel-uri pentru alte operații cheie: feed-forward, layer normalization, softmax. „Viziunea noastră este să oferim o suită completă de kernel-uri HIP optimizate pentru AMD, astfel încât oricine să poată rula modele mari fără a depinde de NVIDIA”, spune CEO-ul.

De asemenea, compania colaborează cu AMD pentru a integra aceste kernel-uri direct în ROCm, ceea ce ar putea accelera adoptarea oficială. Dacă se va întâmpla, vom vedea probabil o creștere semnificativă a interesului pentru MI300X în centrele de date.

Concluzie

Deschiderea codului sursă a acestui kernel de atenție HIP pentru AMD MI300X este mai mult decât o simplă lansare tehnică. Este o declarație de intenție: că AMD poate concura, că open-source-ul poate accelera inovația, și că MoonMath AI este un jucător de urmărit. Dacă performanțele se confirmă în producție, s-ar putea să asistăm la o schimbare majoră în peisajul hardware-ului AI. Și, sincer, e o veste bună pentru toți – mai multă concurență înseamnă prețuri mai mici și inovație mai rapidă.

De ce este important:

Acest kernel open-source demonstrează că AMD poate fi o alternativă viabilă la NVIDIA pentru sarcinile de AI, reducând dependența de un singur furnizor. Performanța superioară față de AITER v3 pe toate formele și modurile de rotunjire înseamnă că utilizatorii pot obține mai mult randament de la hardware-ul existent, fără costuri suplimentare. În plus, deschiderea codului sursă încurajează colaborarea și inovația în comunitatea AI, accelerând dezvoltarea de soluții optimizate pentru arhitecturi non-NVIDIA. Pe termen lung, acest lucru ar putea duce la o piață mai echilibrată și la progrese tehnologice mai rapide în domeniul inteligenței artificiale.