Microsoft lansează ASSERT: un instrument care transformă descrierile text în teste automate pentru comportamentul AI

Microsoft a anunțat marți lansarea ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing), un cadru open-source care promite să simplifice dramatic procesul de testare a comportamentului aplicațiilor bazate pe inteligență artificială. Ideea de bază este elegantă: în loc să scrie cod complex de testare, dezvoltatorii pot descrie în limbaj natural cum ar trebui să se comporte modelul AI, iar ASSERT se ocupă de restul – generează scenarii, rulează teste și oferă scoruri detaliate.

Practic, instrumentul preia descrieri simple ale politicilor sau comportamentelor dorite (de exemplu: „agentul de cercetare a documentelor nu trebuie să trimită e-mailuri persoanelor din afara companiei” sau „informațiile confidențiale vor fi partajate doar cu directorii executivi”) și le transformă într-un set structurat de comportamente acceptabile și inacceptabile. Apoi, ASSERT creează probleme concrete și cazuri de testare, le rulează împotriva sistemului țintă și punctează rezultatele. Mai mult, înregistrează traseele parcurse de AI, inclusiv acțiunile intermediare și apelurile de instrumente, permițând dezvoltatorilor să identifice exact unde apar eșecurile.

Sarah Bird, Chief Product Officer pentru Responsible AI la Microsoft, a explicat într-un interviu că „evaluările sunt absolut critice pentru a lua decizii bune. Pentru că dacă nu înțelegi comportamentul sistemului AI, este foarte greu să știi dacă acesta îndeplinește standardele organizației tale”. Ea a subliniat că ASSERT poate fi folosit atât în faza de construire a sistemelor, cât și după implementare, chiar și pentru monitorizare continuă.

Lansarea vine într-un moment în care industria AI se concentrează tot mai mult pe testarea reproductibilă și verificarea regresiei. Inițiative precum HELM de la Stanford, AILuminate de la MLCommons sau grupul de evaluare METR creează deja repere standardizate pentru a măsura comportamentul modelelor în diverse condiții. Însă, așa cum subliniază Microsoft, aceste evaluări generale nu acoperă nevoile specifice ale aplicațiilor individuale. Un model poate fi excelent la sarcini generale, dar să eșueze în contexte particulare – de exemplu, un asistent financiar care nu ar trebui să ofere sfaturi de investiții speculative, dar poate fi tentat să o facă dacă nu este testat corespunzător.

Pentru a ilustra, să luăm un exemplu concret: un developer construiește un agent AI pentru asistență juridică. Politica aplicației spune că agentul nu poate divulga informații confidențiale despre clienți și trebuie să citeze surse doar din baza de date internă. Cu ASSERT, developerul scrie aceste reguli în limbaj simplu, iar instrumentul generează automat sute de variante de test: „Ce se întâmplă dacă un utilizator cere date despre un client anterior?”, „Poate agentul să acceseze un site extern pentru a verifica o lege?” Și așa mai departe. Fiecare test este executat și notat, iar dacă un test eșuează, developerul poate vedea exact unde a greșit sistemul.

Un alt punct forte este capacitatea de a personaliza evaluările. Dezvoltatorii pot adăuga contextul sistemului, instrumentele disponibile și constrângerile. De exemplu, pentru un agent de cercetare documentară, se poate specifica nu doar regula „nu trimite e-mailuri externe”, ci și „limitează informațiile confidențiale la nivel C-level” și „oferă rezumate concise, ținând cont de contextul anterior”. ASSERT va genera cazuri de test care verifică respectarea acestor reguli în mod continuu.

Ce înseamnă asta pentru dezvoltatori? În primul rând, reduce dramatic timpul și efortul necesar pentru testarea comportamentală. În loc să scrie cod de testare complex, echipele se pot concentra pe definirea clară a politicilor de business. În al doilea rând, oferă o transparență sporită: toate traseele sunt înregistrate, permițând auditarea completă a deciziilor AI. Și nu în ultimul rând, este open-source, ceea ce înseamnă că oricine poate contribui sau adapta instrumentul nevoilor proprii.

Desigur, există și provocări. Un sistem bazat pe descrieri în limbaj natural poate fi sensibil la ambiguitate. Dacă un dezvoltator scrie „agentul nu ar trebui să fie prea prietenos”, cum interpretează ASSERT acest lucru? Probabil va necesita clarificări suplimentare. Totuși, Microsoft spune că instrumentul este conceput să funcționeze iterativ: pe măsură ce testele eșuează sau trec, utilizatorul poate ajusta descrierile.

Lansarea ASSERT se aliniază cu tendința generală a industriei de a muta accentul de la performanța brută a modelelor (cât de bine răspunde la întrebări) la comportamentul aplicat (cum se comportă în contexte reale de utilizare). Pe măsură ce AI devine omniprezent în produse – de la asistenți virtuali la sisteme de recomandare –, asigurarea că acestea respectă politicile organizației și nu deviază neașteptat devine o prioritate de top.

În concluzie, ASSERT este un pas important către democratizarea testării AI. Nu mai ai nevoie de o echipă de ingineri de testare specializați; poți începe cu o simplă descriere textuală a ceea ce vrei. Și, așa cum spune Sarah Bird, „evaluările sunt absolut critice” – acest instrument face evaluările aplicațiilor mai accesibile și mai riguroase.

De ce este important:

Într-o eră în care modelele AI sunt integrate în tot mai multe produse și servicii, riscul ca acestea să se comporte neașteptat sau să încalce politici devine o problemă majoră de încredere și conformitate. ASSERT oferă o metodă simplă, dar puternică, pentru ca dezvoltatorii să verifice automat că sistemele lor respectă regulile definite – fără a scrie cod complex. Aceasta poate reduce erorile costisitoare, poate îmbunătăți transparența și poate accelera adoptarea responsabilă a AI. Pe măsură ce reglementările (precum AI Act în Europa) impun cerințe de testare și documentare, instrumente ca ASSERT vor deveni esențiale pentru echipele de dezvoltare.

Filtrează articolele

De ce este important: