Am reușit să-l determinăm pe Claude să învețe modelele open-source cum să scrie kernele CUDA! Această realizare reprezintă un pas important în democratizarea cunoștințelor avansate de programare GPU, permițând modelelor mai mici și mai accesibile să efectueze sarcini care anterior erau rezervate exclusiv sistemelor de inteligență artificială de ultimă generație.
Publicat la 28 ianuarie 2026, acest articol explorează profund conceptul de „abilități ale agenților” (agent skills) și modul în care acestea pot fi utilizate pentru a transfera cunoștințe specializate de la modelele mari de limbaj (LLM) la modele mai mici și mai eficiente.
Ce sunt abilitățile agenților?
În peisajul în continuă evoluție al inteligenței artificiale, „abilitățile agenților” reprezintă o paradigmă nouă și extrem de promițătoare. În esență, acestea sunt un concept simplu de definit: contextul modelului este structurat ca fișiere, sub formă de instrucțiuni în format markdown și cod sub formă de scripturi. Acest format de fișier le face ușor de generat, de partajat și de revizuit.
Pe scurt, abilitățile agenților constituie un mediu practic pentru partajarea capabilităților între modele și instrumente diferite. Ele sunt cele mai utile în domenii specifice sau pentru probleme dificile – lucruri pe care modelul nu le poate face oricum bine. Nu are sens să creezi o abilitate pentru ceva ce modelul poate deja să facă. Valoarea reală constă în encapsularea expertizei de domeniu complexe și transferul acesteia către modele care altfel nu ar avea acces la aceste cunoștințe.
Procesul de transfer al cunoștințelor în trei pași
Primul pas implică utilizarea profesorului – în acest caz, Claude Opus 4.5 – pentru a construi o kernel. Folosim Claude Code pentru a construi o kernel în mod interactiv și pentru a exporta urma (trace-ul) procesului. Am parcurs procesul prin instruire, validare și adăugarea link-urilor de documentare. Acest proces oarecum naiv este important pentru a releva provocările inițiale ale modelelor. De fapt, poți itera de mai multe ori, încercând să rezolvi sarcina cu versiuni preliminare ale abilității și experimentând cu modele mai mici. De fiecare dată, poți instrui agentul să îmbunătățească abilitatea și să o testeze pe modelul mai mic.
Al doilea pas constă în crearea unei abilități de agent din urma procesului. Odată ce modelul profesor a efectuat sarcina, trebuie să creeze o abilitate. Există o serie de modalități eficiente de a face acest lucru. În majoritatea cazurilor, primele două opțiuni rezultă în abilități funcționale. Totuși, performanța unui agent cu abilitatea respectivă este necunoscută. Aici intervine instrumentul „upskill”, care generează, de asemenea, cazuri de testare pentru abilitatea ta pe baza urmei. Apoi, compară rezultatele în ambele scenarii: folosind urma sau aplicând abilitatea. Am observat că modelul original (Claude Opus) a atins aceeași performanță cu și fără abilitate. Asta înseamnă că abilitatea a capturat sarcina pentru acest model.
În fine, al treilea pas implică transferul abilității nou create către un model open-source, mai mic sau mai ieftin. Majoritatea instrumentelor precum codex, cursor și opencode au stabilit un format consistent pentru abilități, care este un director la {agent}/skills/{skill_name}/SKILL.md, deci trebuie doar să copiem directorul abilității în această locație. Cu upskill, putem pasa o abilitate și un set de modele către comanda eval, iar upskill va rula cazurile de testare pe acele modele cu și fără abilitate pentru a compara performanța.
Analiza detaliată a performanței
Rezultatele noastre arată că abilitatea crește acuratețea pentru unele modele open-source, dar nu pentru toate. De exemplu, cu moonshotai/Kimi-K2-Thinking, abilitatea este clar eficientă în termeni de acuratețe și utilizare de tokeni. Totuși, pentru Claude Opus 4.5 nu există o creștere clară a performanței și există o creștere a utilizării tokenilor, deci nu ai vrea să folosești această abilitate cu Claude Opus 4.5.
Există mai multe la abilitățile agenților decât performanța modelului. Adesea, agenții pot atinge o anumită acuratețe cu sau fără o abilitate, dar au nevoie să consume mai mulți tokeni pentru a ajunge acolo. Pentru sarcini recurente, vrem să optimizăm agenții să folosească mai puțini tokeni pentru a achieve aceeași acuratețe. Rezultatele dezvăuie o altă dimensiune a abilității. Unele modele își reduc semnificativ utilizarea tokenilor de performanță, în timp ce altele folosesc mai mulți tokeni cu abilitatea.
Tutorial aprofundat: Construirea kernelelor CUDA cu abilități ale agenților
Să ne uităm acum la cazul de utilizare pe care l-am rezolvat pentru scrierea kernelelor CUDA. Nu am vrut doar să scriem cod de kernel, ci să înțelegem fluxul complet de lucru al constructorului de kernele: structura proiectului, configurația build.toml, optimizările specifice arhitecturii și legăturile PyTorch.
Abilitatea kernel-builder-cuda-kernels îl învață pe Claude tot ce trebuie să știe despre dezvoltarea CUDA: ce arhitectură GPU să țintească, cum să structureze un proiect kernel-builder, când să folosească memoria partajată versus registrele și cum să scrie legături PyTorch. Aceasta nu este despre generarea de cod boilerplate. Abilitatea codifică expertiza de domeniu: H100 folosește capacitatea de calcul 9.0, memoria partajată trebuie aliniată la 128 de octeți, copiile asincrone de memorie necesită CUDA_ARCH >= 900. Cunoștințe care ar dura ore întregi să fie adunate din documentație sunt împachetate în aproximativ 500 de tokeni care se încarcă la cerere.
Instalare și configurare
Pentru a începe, instalează upskill folosind pip install upskill sau folosește uvx pentru rulări unice. Configurează cheile API exportând ANTHROPIC_API_KEY și HF_TOKEN. Upskill folosește modelul Anthropic Claude Opus-4.5 în mod implicit, dar suportă și OpenAI și modele locale prin endpoint-uri compatibile OpenAI ca generatori.
Ideea este să folosim modelele mai scumpe și de calitate superioară pentru a genera abilități, și modelele mai mici pentru a le folosi. Gândește-te la Robin Hood – luăm de la bogați (modelele mari) și dăm la săraci (modelele mici).
Generarea și evaluarea abilităților
Să parcurgem generarea unei abilități care învață agenții cum să construiască kernele CUDA folosind biblioteca kernel-builder de la HuggingFace. Comanda upskill generate „build optimized CUDA kernels for PyTorch using HuggingFace kernel-builder” pornește procesul. Upskill creează o abilitate, generează cazuri de testare, evaluează performanța și rafinează pe baza eșecurilor.
Rezultatele arată o îmbunătățire de la 60% la 95% – o creștere de 35% după injectarea abilității în context. Linia de bază arată cum performează modelul fără nicio abilitate. Rezultatul „cu abilitate” arată performanța după injectare. O îmbunătățire de 35% înseamnă că abilitatea funcționează.
Structura proiectului și configurația
Abilitatea generată include o structură clară a proiectului: directorul kernel_src pentru implementările CUDA, directorul torch-ext pentru legăturile C++ PyTorch și fișierul build.toml pentru configurația de compilare. Configurația specifică arhitectura țintă – H100 cu capacitatea de calcul 9.0 – și alte optimizări cruciale.
Ce urmează?
Această tehnologie deschide uși extraordinare pentru viitor. Capacitatea de a transfera expertiză specializată de la modele mari la modele mici poate democratiza accesul la cunoștințe avansate de programare. Dezvoltatorii din întreaga lume pot beneficia de abilități generate de modele de top, fără a fi nevoie să acceseze direct aceste modele costisitoare.
Viitorul va aduce cu siguranță mai multe instrumente și metodologii pentru crearea, evaluarea și rafinarea abilităților agenților. Pe măsură ce comunitatea open-source adoptă aceste practici, vom asista la o accelerație a inovației în domenii care anterior necesitau expertiză rară și costisitoare.
Resurse și concluzii
Vă încurajăm să încercați upskill acum. Instalați-l, generați abilități și evaluați modelele. Experimentați cu diferite sarcini și domenii. Posibilitățile sunt nelimitate – de la parsare YAML până la scrierea de kernele CUDA complexe.
În concluzie, abilitățile agenților reprezintă o metodă practică și eficientă de a transfera cunoștințe între modele. Ele permit democratizarea expertizei, reducerea costurilor și utilizarea modelelor mai mici pe probleme dificile și specifice domeniului. Aceasta este viziunea unui viitor în care inteligența artificială este mai accesibilă, mai eficientă și mai colaborativă.
Claude construiește kernele CUDA și instruiește modelele open-source: O revoluție în optimizarea AI