Arm și ExecuTorch 0.7: Democratizarea Inteligenței Artificiale Generative pentru masele largi de utilizatori

Într-o eră tehnologică definită de accelerarea rapidă a capacităților de inteligență artificială, compania Arm își consolidează poziția de lider în domeniu prin anunțurile sale recente privind arhitectura SME2. În acest context emergent, rolul stratului de accelerare AI dezvoltat de Arm, cunoscut sub numele de KleidiAI, devine din ce în ce mai clar și mai determinant pentru viitoarea undă de inovație în inteligența artificială. Această tehnologie reprezintă coloana vertebrală a noilor funcționalități, permițând o integrare profundă și eficientă în cadrul celor mai utilizate cadre de lucru Edge AI, precum XNNPack, MediaPipe, MNN, ONNX Runtime, dar și în soluții populare precum llama.cpp.

Geniusul inovației KleidiAI constă în capacitatea sa de a oferi îmbunătățiri substanțiale ale performanței fără a impune dezvoltatorilor modificări ale codului sursă. Această abordare „zero-fricțiune” elimină barierele tehnice care adesea încetinesc adoptarea noilor tehnologii. Fundamentul pus de KleidiAI conduce direct către lansarea viitoarei versiuni beta ExecuTorch 0.7, unde accelerarea KleidiAI va fi activată în mod implicit. Această măsură aduce o accelerare automată dispozitivelor construite pe cea mai recentă arhitectură CPU de la Arm, dar, crucial, și unei baze vaste de telefoane existente, construite pe generații anterioare de hardware.

Pentru dezvoltatorii Android și pentru cei care lucrează pe platforme multiple, fie că sunt părți interesate primare sau terțe, accesul la optimizările de performanță AI oferite de KleidiAI devine instantaneu prin intermediul ExecuTorch și XNNPack. Rezultatul acestei integrări este tradus într-o experiență superioară pentru utilizatorul final: porniri mai rapide ale modelelor, o latență semnificativ redusă și amprente de memorie mai eficiente. Totul este oferit fără obstacole de integrare, transformând ceea ce anterior necesita ajustări complexe și personalizate într-o performanță „cheie în mână”, gata de utilizare imediată după instalare.

Democratizarea Inteligenței Artificiale Generative: De la flagship-uri la dispozitive vechi

Când ne gândim la rularea Inteligenței Artificiale Generative (GenAI) pe dispozitive mobile, tendința naturală este să ne imaginăm cele mai noi smartphone-uri flagship, echipate cu procesoare puternice, GPU-uri de ultimă generație și unități dedicate de procesare neuronală (NPU). Totuși, Arm schimbă paradigma prin demonstrația că experiențele GenAI – cum ar fi rularea modelelor de limbaj de mari dimensiuni (LLM) – pot fi aduse și pe dispozitive vechi de 3, 4 sau chiar 5 ani. Mai mult, această capacitate se extinde și la dispozitive de tip embedded, precum Raspberry Pi 5, transformând o viziune tehnologică într-o realitate practică și accesibilă.

Această revoluție este posibilă datorită caracteristicii CPU SDOT (Signed Dot Product) de la Arm, disponibilă în procesoarele lor încă din 2015. Instrucțiunea SDOT, introdusă odată cu arhitectura Armv8.2 și ulterior, permite operații eficiente de produs scalar pe vectori de numere întregi cu semn pe 8 biți. Mecanismul este elegant și puternic: o singură instrucțiune SDOT produce patru ieșiri întregi pe 32 de biți, fiecare rezultând din produsul scalar al grupurilor corespunzătoare de patru elemente int8 din registrele vectoriale. Această funcționalitate este esențială pentru accelerarea rutinelor de înmulțire a matricelor – nucleul computațional din spatele fiecărui LLM – atunci când se utilizează formate de precizie Int8 sau mai mici, precum Int4.

Impactul global și adoptarea pe scară largă

Instrucțiunea SDOT este deja suportată pe o gamă diversă de dispozitive, deschizând ușa pentru cazuri de utilizare GenAI către un public mult mai larg. Statisticile sunt elocvente: aproximativ 3 miliarde de dispozitive bazate pe arhitectura Arm includ deja această capacitate, permițând experiențe GenAI puternice direct pe dispozitiv pentru majoritatea utilizatorilor. În cifre absolute, 72% din totalul dispozitivelor suportă acum această instrucțiune. Prin intermediul ExecuTorch, devine posibilă rularea eficientă a unor modele precum Llama 3.2 pe majoritatea dispozitivelor Android, dar și pe dispozitive edge precum Raspberry Pi 5.

KleidiAI și ExecuTorch: O sinergie tehnologică

Colaborarea dintre echipele ExecuTorch și KleidiAI a fost esențială pentru optimizarea înmulțirii matricelor Int4 pe procesoarele Arm, valorificând caracteristica I8MM, disponibilă din arhitectura Armv8.6. Rezultatele sunt impresionante: ExecuTorch cu KleidiAI atinge o performanță de peste 20% mai mare în faza de prefill pe Galaxy S24+ comparativ cu nucleele care nu folosesc KleidiAI. Acest lucru se traduce prin peste 350 de tokeni pe secundă în faza de prefill și peste 40 de tokeni pe secundă în faza de decodare. Astfel, devine posibilă rezumarea a aproximativ 50 de mesaje necitite (circa 600 de tokeni) cu o experiență fluidă, folosind doar procesoarele Arm.

Anul acesta, focusul s-a mutat pe optimizarea performanței înmulțirii matricelor Int4 prin instrucțiunea SDOT, vizând lărgirea adoptării. Deși performanța LLM pe procesoare Arm cu doar extensia SDOT poate să nu egaleze pe cea a smartphone-urilor flagship, aceasta permite totuși capabilități remarcabile. În multe scenarii, faza de decodare este mai rapidă decât viteza medie de citire a unui om, demonstrând că procesoarele Arm mai vechi pot suporta cazuri de utilizare practice și semnificative.

Cazuri de utilizare concrete și viitorul asistenților privați

Implicațiile practice sunt vaste. Combinând un LLM local cu modele de speech-to-text și text-to-speech, utilizatorii pot crea asistenți inteligenți complet privați, care funcționează offline, eliminând orice preocupare legată de confidențialitatea datelor. Un astfel de dispozitiv ar putea interacționa seamless cu alte dispozitive conectate, oferind utilizatorilor liniște sufletească. Un alt caz de utilizare este completarea conștientă de context în editoarele de text locale, modelul oferind sugestii inteligente în timp real pentru fluxurile de scriere sau programare, fără a necesita o conexiune la internet.

Concluzia este clară: prin puterea combinată a SDOT, KleidiAI și ExecuTorch, Arm împinge limitele posibilului, aducând Inteligența Artificială Generativă dincolo de dispozitivele de top și făcând-o accesibilă pe miliarde de dispozitive deja existente. Acum este rândul comunității de dezvoltatori să inoveze, sprijiniți de resursele educaționale puse la dispoziție de Arm.

Filtrează articolele