NVIDIA revoluționează interacțiunea om-mașină prin intermediul noilor tehnologii prezentate la CES 2026. Compania a dezvăluit o gamă largă de modele deschise (open models) menite să faciliteze viitorul agenților inteligenți, atât în mediul online, cât și în lumea reală. De la recent lansatele modele de raționament NVIDIA Nemotron, până la noul NVIDIA Isaac GR00T N1.6 – un model VLA (Vision-Language-Action) de raționament deschis – și modelele de fundație NVIDIA Cosmos, toate cărămizile necesare sunt acum disponibile pentru constructorii de AI. Dar cum ar fi dacă ați putea aduce propriul agent la viață, chiar pe biroul dumneavoastră? Un companion AI util, care să vă proceseze datele în mod privat?
În cadrul discursului principal de la CES, Jensen Huang a demonstrat exact acest lucru, utilizând puterea de procesare a NVIDIA DGX Spark împreună cu robotul Reachy Mini pentru a crea propriul „R2D2” de birou, cu care se poate conversa și colabora. Acest articol detaliază, pas cu pas, modul de replicare a acestei experiențe fascinante, oferind o perspectivă tehnică profundă asupra integrării hardware-software.
Filozofia din spatele agenților inteligenți
Transformarea unui agent AI dintr-o simplă interfață de chat într-o entitate cu care se poate interacționa natural face ca experiența să devină mult mai reală și captivantă. Atunci când un agent poate vedea prin intermediul unei camere, vorbi cu voce tare și efectua acțiuni fizice, bariera dintre lumea digitală și cea fizică se estompează. Aceasta este promisiunea pe care Reachy Mini o face posibilă. Robotul este conceput pentru a fi extrem de personalizabil, oferind acces la senzori, actuatori și API-uri, permițând integrarea sa ușoară în stiva existentă de agenți AI, fie prin simulare, fie prin hardware real controlat direct din Python.
Abordarea descrisă se concentrează pe compunerea blocurilor de construcție existente, mai degrabă decât pe reinventarea lor. Se combină modele deschise pentru raționament și viziune, un cadru de lucru pentru orchestrarea agenților și handlere de instrumente pentru acțiuni. Fiecare componentă este cuplată lax, facilitând înlocuirea modelelor, modificarea logicii de rutare sau adăugarea de noi comportamente. Spre deosebire de asistenții personali închiși (precum Siri sau Alexa), această configurație rămâne complet deschisă. Utilizatorul are control total asupra modelelor, prompt-urilor, instrumentelor și acțiunilor robotului. Reachy Mini devine astfel punctul final fizic al agentului, unde percepția, raționamentul și acțiunea converg.
Construirea agentului: Arhitectura tehnică
Pentru acest exemplu, se utilizează NVIDIA NeMo Agent Toolkit, o bibliotecă open-source flexibilă, ușoară și agnostică față de cadrele de lucru. Aceasta funcționează perfect cu alte cadre agențice precum LangChain, LangGraph sau CrewAI, gestionând modul în care modelele interacționează, rutând intrările și ieșirile dintre ele. Toolkit-ul oferă, de asemenea, funcții încorporate de profilare și optimizare, permițând urmărirea eficienței utilizării token-ilor și a latenței, identificarea blocajelor și ajustarea automată a hiperparametrilor pentru a maximiza acuratețea.
Pasul 0: Configurare și accesul la modele
Primul pas implică clonarea repository-ului care conține codul necesar. Accesul la stratul de inteligență, alimentat de modelele NVIDIA Nemotron, se poate face fie prin implementarea locală folosind NVIDIA NIM sau vLLM, fie prin conectarea la endpoint-uri remote disponibile pe build.nvidia.com. Pentru implementările locale, nu este necesară specificarea cheilor API, însă pentru accesul remote, trebuie creat un fișier `.env` care să conțină cheile API pentru NVIDIA și ElevenLabs (pentru sinteza vocală).
Pasul 1: Construirea interfeței de chat
Se începe prin implementarea unui flux de lucru LLM de bază prin serverul API al NeMo Agent Toolkit. Acesta suportă rularea fluxurilor de lucru prin comanda `nat serve` și un fișier de configurare. Configurația conține informațiile necesare pentru agent, inclusiv modelele utilizate pentru chat, înțelegerea imaginilor și modelul de rutare. Serverul este lansat pe portul 8001, permițând atât robotului, cât și interfeței grafice să comunice cu fluxul de lucru. Verificarea se face prin trimiterea unui prompt text simplu pentru a asigura că totul este configurat corect.
Pasul 2: Adăugarea agentului ReAct pentru apelarea instrumentelor
Apelarea instrumentelor este o parte esențială a agenților AI moderni. NeMo Agent Toolkit include un agent ReAct (Reasoning and Acting) încorporat, care poate raționa între apelurile de instrumente și utiliza multiple instrumente înainte de a răspunde. Cererile de „acțiune” sunt rutate către un agent ReAct căruia i se permite să apeleze instrumente, cum ar fi căutarea pe Wikipedia sau declanșarea comportamentelor robotului. Configurația definește funcțiile disponibile și specifică modelul de agent ReAct utilizat pentru gestionarea lor.
Pasul 3: Adăugarea unui router pentru direcționarea interogărilor
Ideea centrală aici este de a nu folosi un singur model pentru toate sarcinile, ci de a ruta interogările în funcție de intenție. Aceasta se poate implementa prin euristici, un clasificator ușor sau un serviciu dedicat de rutare. Configurația definește topologia de rutare: un canal pentru „chit-chat” (conversații casuale), unul pentru „înțelegerea imaginilor” (întrebări care necesită vedere) și unul pentru „alte” (întrebări complexe, raționament, apelare de instrumente). Modelul de rutare utilizat în exemplu este `microsoft/phi-3-mini-128k-instruct`, optimizat pentru decizii rapide. Această abordare reduce latența și costurile, permițând găzduirea locală a modelelor rapide și menținerea modelelor VLM (Vision Language Models) remote.
Pasul 4: Adăugarea unui bot Pipecat pentru voce și viziune în timp real
Pentru o interacțiune fluidă, se utilizează Pipecat, un cadru de lucru conceput pentru agenți vocali și multimodali cu latență redusă. Acesta orchestrează fluxurile audio/video, serviciile AI și transporturile pentru a construi conversații naturale. Serviciul botului este responsabil cu gestionarea intrărilor de la microfon și cameră, transmiterea lor către agent și redarea răspunsurilor audio și video.
Pasul 5: Conectarea tuturor componentelor la Reachy
Reachy Mini expune un daemon la care se conectează restul sistemului. Repository-ul rulează daemonul în simulare în mod implicit (`--sim`). Dacă aveți acces la un robot Reachy fizic, puteți elimina acest flag și același cod va controla robotul real. Sunt necesare trei terminale: unul pentru daemon-ul Reachy (simulare sau hardware), unul pentru serviciul botului Pipecat și unul pentru serviciul NeMo Agent Toolkit. Odată ce toate terminalele sunt configurate, utilizatorul are acces la două ferestre principale: fereastra de simulare Reachy și Pipecat Playground – interfața utilizator unde se pot activa microfonul și camera și vizualiza transcrierile în timp real.
Concluzie și perspective viitoare
Această demonstrație nu este doar un exercițiu tehnic, ci o viziune asupra viitorului calculatoarelor personale. NVIDIA și partenerii săi demonstrează că inteligența artificială generală nu trebuie să rămână prinsă în ecrane, ci poate ieși în lumea fizică pentru a ne asista în sarcini cotidiene. Prin combinarea puterii de calcul a DGX Spark cu versatilitatea robotului Reachy Mini și a software-ului open-source, bariera de intrare pentru robotică avansată scade dramatic, deschizând calea pentru o nouă eră de inovație personală.
NVIDIA aduce agenții AI la viață cu DGX Spark și Reachy Mini: Ghid complet pentru crearea propriului asistent robotic