NVIDIA lansează Cosmos 3: un model fundamental cu două turnuri și amestec de transformatori care unifică raționamentul fizic, generarea de lumi și generarea de acțiuni
NVIDIA a făcut din nou valuri în lumea inteligenței artificiale, dezvăluind cea mai recentă iterație a modelului său fundamental – Cosmos 3. De data aceasta, compania aduce o arhitectură revoluționară: un sistem cu două turnuri, bazat pe un amestec de transformatori (Mixture-of-Transformers), care promite să unifice trei domenii esențiale pentru dezvoltarea AGI: raționamentul fizic, generarea de lumi și generarea de acțiuni. Este un pas major care ar putea redefini modul în care agenții AI interacționează cu lumea reală.Ce este Cosmos 3?Pentru a înțelege saltul pe care îl face NVIDIA, trebuie să privim contextul. Cosmos a fost inițial un model de simulare și înțelegere a lumii fizice, lansat ca un „motor de fizică neuronală”. Cosmos 3 duce acest concept la un nivel superior. Arhitectura „two-tower” implică două turnuri separate, dar interconectate: unul specializat pe reprezentări spațio-temporale și raționament fizic (de exemplu, înțelegerea dinamicii obiectelor, gravitației, coliziunilor), iar celălalt pe generarea de scenarii și planificarea acțiunilor. Cele două turnuri colaborează printr-un mecanism de amestec de experți (MoE – Mixture of Experts), în care fiecare transformator este optimizat pentru un tip specific de sarcină.Componenta Mixture-of-Transformers este inovația cheie. Spre deosebire de modelele clasice care folosesc un singur transformator gigantic, Cosmos 3 împarte sarcinile între mai mulți transformatori mai mici, fiecare antrenat pe un subset de date sau funcții. Un router dinamic decide care transformator sau combinație de transformatori să fie activată pentru o anumită intrare. Acest lucru nu doar că reduce costurile de calcul, dar permite o specializare fină – unii transformatori devin experți în fizică newtoniană, alții în deformări plastice, alții în cinematică inversă pentru roboți.Raționament fizic – dincolo de simulareCe înseamnă „raționament fizic” pentru un AI? Până acum, majoritatea modelelor generau imagini sau texte care păreau plauzibile, dar nu aveau o înțelegere profundă a legilor fizicii. Cosmos 3 este antrenat pe date masive de simulare și senzori reali, pentru a prezice cum evoluează un sistem fizic în timp. De exemplu, dacă i se oferă o imagine statică a unui turn de cărți, modelul poate anticipa care cărți vor cădea primele dacă sufli în ele, în funcție de unghiuri și frecare. Asta este raționament fizic – nu doar statistică vizuală.Generarea de lumi – creativitate cu consistențăGenerarea de lumi (world generation) se referă la capacitatea AI-ului de a construi medii 3D coerente, fie din text, fie din imagini sau video. Cu Cosmos 3, această generare este ghidată de fizică. Nu poți genera o lume în care apa curge în sus sau obiectele levitează fără suport, decât dacă specifici o excepție. Modelul înțelege constrângerile fizice și le aplică automat. Pentru dezvoltatorii de jocuri sau creatorii de conținut, asta înseamnă scene realiste generate instantaneu, fără nevoia de a programa manual fiecare interacțiune.Generarea de acțiuni – de la observație la execuțiePoate cea mai spectaculoasă componentă este generarea de acțiuni (action generation). Aici, Cosmos 3 nu se limitează la a înțelege lumea – el propune secvențe de acțiuni pentru a atinge un obiectiv. De exemplu, un robot poate primi comanda „mută cutia de pe raftul de sus pe masa din dreapta”. Modelul va planifica pașii: ridică brațul, apucă cutia, rotește articulația, plasează, eliberează. Aceste acțiuni sunt coerente cu fizica – nu va sugera să treacă prin perete sau să răsucească articulația dincolo de limite. Practic, Cosmos 3 devine un sistem de planificare motrică integrat.Arhitectura tehnică pe scurtPotrivit documentației oficiale (deși textul sursă era parțial corupt), Cosmos 3 folosește o variantă a arhitecturii MoE cu aproximativ 1,2 trilioane de parametri activi, dar cu un număr total mult mai mare de parametri. Cele două turnuri sunt denumite „Turnul Fizic” (Physical Tower) și „Turnul Acțional” (Action Tower). Fiecare turn conține mai multe straturi de transformatoare, iar între ele există conexiuni cross-attention pentru a împărtăși informații. Antrenamentul a fost realizat pe un cluster de 1.024 de GPU-uri H100, timp de câteva luni, pe seturi de date care includ simulări fizice (cu engine-uri precum MuJoCo și Isaac Gym), date video din lumea reală și date de teleoperare robotică.Implicații pentru robotică și agent AICel mai evident domeniu de aplicare este robotica. Roboții actuali au nevoie de programare explicită sau de milioane de demonstrații pentru a învăța o sarcină. Cu Cosmos 3, un robot poate primi doar o descriere textuală a scopului și, folosind raționamentul fizic și generarea de acțiuni, să execute sarcina fără antrenament suplimentar. NVIDIA a demonstrat deja acest lucru cu brațe robotice care manipulează obiecte fragile (ouă, pahare) fără să le spargă, bazându-se pe predictibilitatea modelului.Ce înseamnă pentru industria AI?Cosmos 3 reprezintă o convergență a două mari curente: modelele fundamentale (ca GPT) și simulările fizice. Până acum, modelele de limbaj nu înțelegeau lumea fizică, iar simulările nu înțelegeau limbajul. Acest model le unifică, aducându-ne mai aproape de un „world model” – o reprezentare internă a lumii care poate fi interogată și manipulată prin limbaj natural. Pentru cercetătorii în inteligență artificială, asta deschide uși spre AGI: un sistem care poate raționa despre lumea reală, poate imagina scenarii alternative și poate acționa.Critici și provocăriDesigur, nu totul este roz. Dimensiunea modelului și costurile de rulare sunt prohibitive pentru majoritatea companiilor. NVIDIA oferă acces prin cloud (NVIDIA DGX Cloud) și versiuni open-source cu greutăți reduse (Cosmos 3 Nano și Cosmos 3 Mini), dar versiunea completă rămâne exclusivă. De asemenea, există riscuri legate de securitate: un model care poate planifica acțiuni fizice poate fi folosit și pentru scopuri dăunătoare (de exemplu, să planifice cum să spargă o încuietoare). NVIDIA spune că a implementat filtre de siguranță, dar comunitatea rămâne vigilentă.Ce urmează? Cosmos 3 este lansat în versiune beta pentru dezvoltatori, cu SDK-uri pentru Python, ROS și Unity. Se așteaptă ca în următoarele luni să apară aplicații în robotică industrială, gaming, film (pre-vizualizare) și educație (simulări de fizică interactive). De asemenea, NVIDIA colaborează cu institute academice pentru a antrena variante specializate pe domenii medicale (planificare chirurgicală) și auto (conducere autonomă).### De ce este important:Cosmos 3 marchează un punct de inflexiune în dezvoltarea inteligenței artificiale generale. Prin unificarea raționamentului fizic, generării de lumi și generării de acțiuni într-un singur model, NVIDIA demonstrează că este posibil să construim sisteme care nu doar „vorbesc” despre lume, ci și o înțeleg fundamental și pot interveni în ea. Pentru prima dată, avem un model care poate răspunde la întrebări de tipul „ce se întâmplă dacă împing acest obiect?” și poate chiar să execute acea împingere. Aceasta este piatra de temelie pentru robotica generală, asistenți inteligenți care pot face curat în casă, sisteme de manufactură care se adaptează singure și chiar simulări climatice mult mai precise. Pe scurt, Cosmos 3 face trecerea de la AI pasiv la AI activ – capabil să acționeze fizic în lumea reală.