Smol2Operator: Antrenarea agenților AI pentru automatizarea interfețelor grafice (GUI) – O abordare revoluționară

Automatizarea interfețelor grafice (GUI) reprezintă una dintre cele mai complexe și provocatoare frontiere în domeniul vederii computerizate și al inteligenței artificiale. Dezvoltarea unor modele capabile să „vadă” și să interacționeze direct cu interfețele utilizatorilor deschide calea către o nou eră în navigarea platformelor mobile, desktop și web. Această tehnologie promite să redefinescă complet modul în care interacționăm cu lumea digitală, transformând asistenții AI din simpli respondenți textuali în agenți capabili să execute sarcini complexe în numele utilizatorului.

În acest articol tehnic detaliat, prezentăm o abordare cuprinzătoare pentru antrenarea modelelor vizual-lingvistice (Vision-Language Models - VLMs) destinate automatizării GUI, folosind o strategie de antrenare multi-fază. Demonstrăm procesul complet de transformare a unui model fără capacități de localizare (grounding) într-un agent capabil să înțeleagă și să interacționeze cu interfețe grafice complexe. Abordarea noastră nu vizează neapărat obținerea unui model de tip „state-of-the-art” (SOTA), ci rather să documenteze întregul proces, de la procesarea datelor până la antrenarea modelului, arătând cum pot fi deblocate capacitățile de GUI-grounding în modelele vizual-lingvistice.

Fundamentul tehnologic: SmolVLM2-2.2B-Instruct

Punctul de plecare îl constituie modelul SmolVLM2-2.2B-Instruct, un model vizual-lingvistic compact, dar puternic, care inițial nu posedă capacități specifice pentru sarcinile GUI. Această lipsă inițială de specializare îl transformă întrun candidat ideal pentru a demonstra eficacitatea metodologiei noastre de antrenare. Prin procesul nostru de antrenare în două faze, instaurăm mai întâi capacitățile de localizare (grounding), apoi le îmbunătățim cu abilități de raționament agențic folosind Supervised Fine-Tuning (SFT).

Evaluarea abordării noastre se realizează pe benchmark-ul de percepție ScreenSpot-v2, care testează capacitatea modelului de a înțelege și localiza elemente în cadrul capturilor de ecran. Procesul este inspirat de lucrarea de cercetare AGUVIS, folosind seturile de date atent curate de aceștia ca fundație pentru dezvoltările ulterioare.

1. Transformarea Datelor și Spațiul de Acțiune Unificat

O provocare majoră în lucrul cu multiple seturi de date pentru automatizare GUI o reprezintă lipsa standardizării în reprezentarea acțiunilor. Diferite seturi de date folosesc semnături de funcții, convenții de denumire a parametrilor și taxonomii de acțiune variate, ceea ce face dificilă antrenarea unui model unificat pe surse diverse de date.

Pentru a depăși acest obstacol, am implementat un pipeline cuprinzător de transformare a datelor care creează un spațiu de acțiune unificat. Am preluat seturile de date open-source (xlangai/aguvis-stage1 și xlangai/aguvis-stage2) și am standardizat numele funcțiilor, semnăturile și parametrii. Această unificare este esențială pentru crearea de date de antrenament coerente, care permit modelului să învețe tipare de acțiune consistente în medii GUI diverse.

De ce coordonate normalizate?

O decizie tehnică crucială a fost utilizarea coordonatelor normalizate în intervalul [0, 1] în locul coordonatelor brute în pixeli. Folosirea coordonatelor brute (de exemplu, click(x=302, y=63)) leagă acțiunile de o singură dimensiune a imaginii. Modelele VLM redimensionează adesea imaginile, ceea ce ar face coordonatele în pixeli invalide. Coordonatele normalizate (relative la dimensiunea imaginii) rămân valide la orice rezoluție, menținând consistența setului de date.

Exemple de transformare includ conversia acțiunilor mobile precum `mobile.home()` în `navigate_home()` sau `mobile.swipe()` într-un format unificat `swipe()`. Similar, pentru desktop, acțiunile `pyautogui.click()` devin simplu `click()`, iar `pyautogui.hotkey()` devine `press()`. Această standardizare permite modelului să generalizeze mai ușor între diferite platforme.

Action Space Converter: Flexibilitate maximă

Pentru a maximiza flexibilitatea, am dezvoltat Action Space Converter, un instrument care permite cercetătorilor să adapteze seturile de date la propriile vocabulare de acțiune și convenții de denumire. Acest instrument permite transformarea semnăturilor de acțiune, a numelor parametrilor și chiar a valorilor parametrilor, facilitând compatibilitatea cu diverse framework-uri de automatizare existente.

2. Faza 1: De la Zero la Percepție

Prima fază de antrenament se concentrează pe dobândirea capacităților de percepție și localizare. Setul de date smolagents/aguvis-stage-1 introduce grounding-ul GUI prin asocierea instrucțiunilor de nivel scăzut cu acțiuni executabile diverse, exprimate sub formă de cod.

Structura datelor este elegantă în simplitatea sa: un exemplu tipic constă într-o instrucțiune precum „click on more button” (dă click pe butonul more), asociată cu acțiunea corespunzătoare `click(x=0.8875, y=0.2281)`. Fiecare eșantion leagă o captură de ecran cu interacțiuni multi-turn între utilizator și asistent, permițând modelului să învețe localizarea fină a acțiunilor de-a lungul dialogului.

În timpul fine-tuning-ului, data collator-ul maschează totul în afara răspunsurilor asistentului la calcularea pierderii (loss), asigurând că modelul învață să genereze doar acțiunile corecte.

Experimente de optimizare și rezultate

Înainte de a trece la antrenamentul la scară largă din Faza 1, am efectuat studii de ablație cuprinzătoare pentru a determina configurațiile optime. Am experimentat cu diferite dimensiuni ale imaginilor și sisteme de reprezentare a coordonatelor.

Rezultatele Fazei 1 au fost remarcabile. Modelul a evoluat de la zero capacități de grounding la o performanță competitivă pe ScreenSpot-v2, demonstrând că modelele VLM mici pot dobândi capacități de percepție GUI eficiente cu date și metodologie adecvate.

3. Faza 2: De la Percepție la Cogniție

După ce modelul a dobândit capacități de bază de localizare, Faza 2 îmbogățește aceste abilități cu raționament agențic. Această fază transformă modelul dintr-un simplu executor de comenzi într-un agent capabil să înțeleagă sarcini de nivel înalt și să le traducă în secvențe de acțiuni GUI.

Setul de date din Faza 2 (smolagents/aguvis-stage-2) conține sarcini mai complexe care necesită planificare și raționament. Modelul învață nu doar unde să dea click, ci și de ce și în ce secvență, dezvoltând o înțelegere profundă a fluxurilor de lucru în interfețele grafice.

4. Tot ce ai nevoie este Open Source

O caracteristică definitorie a proiectului Smol2Operator este angajamentul față de principiile open-source. Atât codul, cât și seturile de date transformate sunt disponibile public, permițând comunității să reproducă experimentele, să construiască pe baza lor și să contribuie la dezvoltarea ulterioară.

Depozitul GitHub și seturile de date (smolagents/aguvis-stage-1 și smolagents/aguvis-stage-2) oferă toate resursele necesare pentru a începe antrenarea propriilor agenți GUI. Această transparență accelerează inovația în domeniu și democratizează accesul la tehnologii de vârf.

Concluzii și direcții viitoare

Proiectul Smol2Operator demonstrează că antrenarea agenților AI pentru utilizarea computerelor este accesibilă și realizabilă folosind modele compacte și resurse open-source. Metodologia în două faze – de la percepție la cogniție – oferă o foaie de parcurs clară pentru dezvoltarea capacităților agențice în VLMs.

Viitorul aduce provocări și oportunități excitante: îmbunătățirea capacităților de raționament, extinderea la mai multe platforme și integrarea cu modele de limbaj mai mari pentru sarcini complexe. Automatizarea GUI este pe cale să transforme fundamental interacțiunea om-calculator, iar proiecte precum Smol2Operator deschid drumul către acest viitor.

Filtrează articolele