NVIDIA Cosmos Reason 2: O nouă eră în raționamentul artificial pentru roboți și sisteme autonome

NVIDIA a anunțat lansarea Cosmos Reason 2, cea mai recentă și avansată inovație în domeniul modelelor lingvistice vizuale de raționament (VLM) dedicate inteligenței artificiale fizice. Această nouă generație marchează un pas decisiv în evoluția sistemelor AI capabile să înțeleagă și să interacționeze cu lumea reală, depășind versiunea anterioară în ceea ce privește acuratețea și performanța. Cosmos Reason 2 se poziționează ca liderul incontestabil în clasamentele Physical AI Bench și Physical Reasoning, fiind recunoscut ca cel mai performant model deschis pentru înțelegerea vizuală.

De la introducerea modelelor vizual-lingvistice, progresul a fost rapid în recunoașterea obiectelor și a tiparelor în imagini. Cu toate acestea, aceste sisteme au întâmpinat dificultăți semnificative în sarcini pe care oamenii le consideră naturale, cum ar fi planificarea pe mai mulți pași, gestionarea incertitudinii sau adaptarea la situații complet noi și neprevăzute. Cosmos Reason 2 este conceput special pentru a reduce această discrepanță fundamentală dintre capacitatea umană și cea artificială, oferind roboților și agenților AI un simț comun mai puternic și abilități de raționament necesare pentru a rezolva probleme complexe pas cu pas.

Arhitectura modelului: O vedere profundă asupra capacităților tehnice

Cosmos Reason 2 este un model vizual-lingvistic de raționament (VLM) de ultimă generație, complet deschis, care permite roboților și agenților AI să vadă, să înțeleagă, să planifice și să acționeze în lumea fizică într-o manieră similară cu cea umană. Arhitectura sa integrată utilizează simțul comun, legile fizicii și cunoștințele anterioare pentru a recunoaște modul în care obiectele se deplasează în spațiu și timp. Această capacitate este crucială pentru manipularea sarcinilor complexe, adaptarea la medii dinamice și descoperirea soluțiilor optime prin raționament secvențial.

Printre cele mai importante îmbunătățiri tehnice aduse de această versiune se numără înțelegerea spațio-temporală superioară și precizia marcajelor temporale. Performanța a fost optimizată pentru a oferi opțiuni flexibile de implementare, de la marginea rețelei (edge) până în cloud, cu dimensiuni ale modelului de 2B și 8B parametri. Această flexibilitate permite dezvoltatorilor să aleagă configurația optimă în funcție de resursele hardware disponibile și de cerințele specifice ale aplicației.

Un alt aspect revoluționar este suportul extins pentru capabilități de înțelegere spațială și percepție vizuală. Modelul poate gestiona localizarea punctelor 2D și 3D, coordonatele casetelor de delimitare (bounding boxes), datele de traiectorie și are suport integrat pentru recunoașterea optică a caracterelor (OCR). De asemenea, înțelegerea contextului lung a fost îmbunătățită dramatic, suportând acum 256.000 de tokeni de intrare, o creștere substanțială față de cei 16.000 de tokeni oferiti de Cosmos Reason 1. Această extindere permite analiza unor volume mult mai mari de date vizuale și textuale într-o singură sesiune de procesare.

Cazuri de utilizare transformatoare în industrie

Impactul lui Cosmos Reason 2 se extinde în multiple sectoare industriale, revoluționând modul în care companiile gestionează datele video și interacțiunea robotică.

În primul rând, agenții AI pentru analiza video reprezintă una dintre cele mai promițătoare aplicații. Acești agenți pot extrage informații valoroase din volume masive de date video pentru a optimiza procesele operaționale. Cosmos Reason 2 construiește pe fundația pusă de prima versiune, adăugând suport OCR, localizare punctuală 2D/3D și o serie de capabilități de înțelegere a marcajelor. Dezvoltatorii pot accelera crearea acestor agenți folosind planul NVIDIA pentru căutare video și sumarizare (VSS), cu Cosmos Reason ca nucleu VLM. Un exemplu elocvent este Salesforce, care transformă siguranța la locul de muncă și conformitatea prin analiza înregistrărilor video capturate de roboții Cobalt, utilizând Agentforce și planul VSS.

În al doilea rând, adnotarea și critica datelor devin procese mult mai eficiente. Cosmos Reason 2 permite dezvoltatorilor să automatizeze adnotarea de înaltă calitate a seturilor masive și diverse de date de antrenament. Oferind marcaje temporale și descrieri detaliate pentru videoclipuri reale sau sintetice, modelul facilitează crearea de seturi de date precise. Uber, de exemplu, explorează utilizarea lui Cosmos Reason 2 pentru a livra subtitrări video precise și căutabile pentru datele de antrenament ale vehiculelor autonome, permițând identificarea eficientă a scenariilor critice de conducere. Testele au demonstrat îmbunătățiri măsurabile: scorurile BLEU au crescut cu 10,6%, întrebările vizuale bazate pe alegere multiplă (VQA) au câștigat 0,67 puncte procentuale, iar LingoQA a înregistrat o creștere de 13,8%. Aceste rezultate validează adaptarea domeniului pentru aplicații de vehicule autonome.

În al treilea rând, planificarea și raționamentul robotic primesc un impuls major. Cosmos Reason 2 acționează ca „creierul” pentru luarea deciziilor deliberate și metodice în modelele de acțiune vizual-lingvistică (VLA). Acum, modelul oferă coordonate de traiectorie, nu doar determinarea pașilor următori. Encord oferă suport nativ pentru Cosmos Reason 2 în biblioteca sa Data Agent, permițând dezvoltatorilor să utilizeze modelul ca VLA pentru robotică. Companii precum Hitachi, Milestone și VAST Data folosesc deja tehnologia pentru a avansa robotică, conducerea autonomă și analiza video pentru siguranța traficului și a locului de muncă.

Ecosistemul Cosmos și disponibilitate

Cosmos Reason 2 nu există izolat, ci face parte dintr-o familie mai largă de modele dedicate inteligenței artificiale fizice. Cosmos Predict 2.5, de exemplu, este un model generativ AI care prezice stările viitoare ale lumii fizice sub formă de video, bazat pe intrări textuale, imagini sau videoclipuri. Cosmos Transfer este cel mai ușor model multicontrol, construit pentru transferul de stil video-lume. NVIDIA GR00T N1.6 este un model VLA deschis, construit special pentru roboții umanoizi, care deblochează controlul întregului corp și utilizează NVIDIA Cosmos Reason pentru un raționament și o înțelegere contextuală superioară.

Pentru dezvoltatorii și cercetătorii interesați, modelele Cosmos Reason 2 (2B și 8B) sunt disponibile pentru descărcare pe platforma Hugging Face sau pot fi utilizate direct în cloud. Modelul va fi disponibil în curând și pe Amazon Web Services, Google Cloud și Microsoft Azure. NVIDIA invită comunitatea tehnică să exploreze noile funcții pe build.nvidia.com, unde pot încărca propriile videoclipuri și imagini pentru analiză detaliată, marcând începutul unei noi ere în înțelegerea vizuală aplicată.

Filtrează articolele