Together AI lansează open-source OSCAR: un sistem de cuantizare a cache-ului KV pe 2 biți, conștient de atenție, pentru servirea LLM-urilor cu context lung

Într-o eră în care modelele de limbaj de mari dimensiuni (LLM-uri) devin din ce în ce mai sofisticate, provocarea gestionării eficiente a memoriei și a vitezei de inferență rămâne un obstacol major. Together AI, un nume de referință în domeniul inteligenței artificiale, a făcut un pas important prin lansarea open-source a sistemului OSCAR (Offline Spectral Covariance-Aware Rotation). Această metodă inovatoare de cuantizare a cache-ului KV (Key-Value) pe 2 biți promite să revoluționeze modul în care servim LLM-urile cu contexte lungi, reducând semnificativ consumul de memorie și accelerând procesarea.

OSCAR se deosebește de abordările anterioare, care se bazau pe transformări Hadamard independente de date. În loc să aplice o rotație generică, OSCAR derivă rotații separate pentru chei și valori, utilizând structuri de covarianță spectrală conștiente de atenție, estimate offline. Aceasta înseamnă că sistemul „înțelege” tiparele de atenție ale modelului și ajustează cuantizarea în consecință, minimizând pierderea de acuratețe.

Rezultatele sunt impresionante: la doar 2,28 biți per element KV, OSCAR reduce decalajul de acuratețe față de formatul BF16 la doar 3,78 puncte pe modelul Qwen3-4B-Thinking-2507 și la 1,42 puncte pe Qwen3-8B. Mai mult, sistemul oferă o reducere de aproximativ 8 ori a memoriei cache-ului KV și o accelerare de până la 3 ori a decodării la o lungime a contextului de 100.000 de tokeni. Aceste cifre nu sunt doar statistici; ele reprezintă o schimbare de paradigmă pentru aplicațiile care necesită procesarea unor cantități masive de text, cum ar fi analiza documentelor, chatbot-urile avansate sau sistemele de recomandare.

Pentru a înțelege mai bine impactul, să ne uităm la mecanismul din spate. Cache-ul KV este esențial în arhitectura transformatorilor, stocând perechi cheie-valoare pentru fiecare pas de generare. La contexte lungi, acest cache devine un consumator uriaș de memorie, limitând scalabilitatea. OSCAR abordează această problemă prin cuantizarea la 2 biți, dar fără a sacrifica performanța. Cheia succesului său este rotația conștientă de covarianță, care păstrează informațiile esențiale pentru atenție, chiar și la o precizie atât de scăzută.

Comparativ cu metodele anterioare, cum ar fi KIVI sau Atom, care foloseau cuantizare pe 4 biți sau rotații fixe, OSCAR aduce un plus de inteligență. Prin analiza offline a covarianței spectrale, sistemul poate adapta rotația la specificul fiecărui model și set de date, ceea ce duce la o pierdere minimă de acuratețe. De exemplu, pe benchmark-uri precum LongBench sau RULER, OSCAR menține o performanță apropiată de cea a modelelor necuantizate, în timp ce reduce drastic memoria necesară.

Un alt aspect notabil este faptul că Together AI a ales să facă acest sistem open-source. Aceasta înseamnă că cercetătorii și dezvoltatorii din întreaga lume pot accesa codul, pot experimenta și pot contribui la îmbunătățirea sa. Decizia reflectă o tendință tot mai mare în comunitatea AI de a democratiza accesul la tehnologii avansate, permițând inovații chiar și în medii cu resurse limitate.

Implicațiile practice sunt vaste. De exemplu, în domeniul medical, unde analiza istoricelor pacienților necesită procesarea unor documente lungi, OSCAR poate reduce costurile de infrastructură și timpul de răspuns. La fel, în industria financiară, pentru analiza rapoartelor anuale sau a contractelor, această tehnologie poate face diferența între un sistem viabil și unul impracticabil.

Totuși, nu totul este perfect. Cuantizarea pe 2 biți, deși eficientă, poate introduce erori în cazuri foarte specifice, cum ar fi sarcini care necesită o precizie extrem de mare. De asemenea, estimarea offline a covarianței necesită resurse suplimentare de calcul în faza de pregătire, ceea ce poate fi un dezavantaj pentru echipele mici. Cu toate acestea, beneficiile depășesc cu mult limitările, iar Together AI lucrează deja la versiuni îmbunătățite.

În concluzie, OSCAR reprezintă un pas semnificativ înainte în optimizarea LLM-urilor pentru contexte lungi. Prin combinarea eficienței cuantizării pe 2 biți cu inteligența rotațiilor conștiente de atenție, Together AI oferă o soluție practică și scalabilă. Lansarea open-source nu face decât să accelereze adoptarea și inovația în domeniu. Pentru oricine lucrează cu modele de limbaj mari, OSCAR este un instrument pe care merită să-l exploreze.

De ce este important: OSCAR nu este doar o altă metodă de cuantizare; este o abordare care înțelege cum funcționează atenția în modelele transformatoare și folosește această înțelegere pentru a reduce drastic consumul de memorie și a accelera inferența, fără a compromite acuratețea. Într-o lume în care LLM-urile devin tot mai mari și mai complexe, soluții ca OSCAR sunt esențiale pentru a face aceste tehnologii accesibile și practice în aplicații reale, de la asistenți virtuali la analiză de date masive.

Filtrează articolele