NVIDIA și Google reduc costurile de inferență AI printr-o colaborare strategică

În cadrul conferinței Google Cloud Next, două dintre cele mai influente companii din domeniul tehnologiei, NVIDIA și Google, au dezvăluit o foaie de parcurs hardware menită să abordeze una dintre cele mai presante provocări ale inteligenței artificiale: costul inferenței la scară largă. Parteneriatul lor se concentrează pe noile instanțe bare-metal A5X, care rulează pe sistemele rack-scale NVIDIA Vera Rubin NVL72. Prin co-proiectarea hardware și software, această arhitectură promite să reducă de până la zece ori costul inferenței per token comparativ cu generațiile anterioare, în timp ce crește de zece ori debitul de tokeni per megawatt. Este o veste care va avea un impact major asupra modului în care companiile implementează modele AI la scară industrială.Provocarea conectivității la scară masivăConectarea a mii de procesoare necesită o lățime de bandă uriașă pentru a preveni întârzierile de procesare. Instanțele A5X abordează această provocare hardware prin combinarea adaptoarelor de rețea NVIDIA ConnectX-9 SuperNIC cu tehnologia de rețea Google Virgo. Această configurație se scalează până la 80.000 de GPU-uri NVIDIA Rubin într-un singur cluster, și până la 960.000 de GPU-uri într-o implementare multisite. Operarea la această scară necesită o gestionare sofisticată a sarcinilor de lucru, deoarece rutarea datelor către aproape un milion de procesoare paralele necesită o sincronizare exactă pentru a evita timpul de calcul inactiv.Mark Lohmeyer, vicepreședinte și director general al infrastructurii AI și de calcul la Google Cloud, a declarat: „La Google Cloud, credem că următorul deceniu al AI va fi modelat de capacitatea clienților de a rula cele mai solicitante sarcini de lucru pe un stack de infrastructură cu adevărat integrat și optimizat pentru AI. Prin combinarea infrastructurii scalabile și a serviciilor AI gestionate de Google Cloud cu platformele, sistemele și software-ul de top ale NVIDIA, oferim clienților flexibilitatea de a antrena, ajusta și servi de la modele de frontieră și open-source până la sarcini de lucru agentice și fizice AI – optimizând în același timp performanța, costul și sustenabilitatea.”Guvernanța datelor: o prioritate pentru întreprinderiDincolo de capacitățile brute de procesare, guvernanța datelor rămâne o problemă principală pentru implementările enterprise. Sectoarele puternic reglementate, inclusiv finanțele și sănătatea, amână adesea inițiativele de învățare automată din cauza cerințelor de suveranitate a datelor și a riscurilor de expunere a informațiilor proprietare. Pentru a aborda aceste mandate de conformitate, modelele Google Gemini care rulează pe GPU-urile NVIDIA Blackwell și Blackwell Ultra intră în previzualizare pe Google Distributed Cloud. Această metodă de implementare permite organizațiilor să păstreze modelele de frontieră în întregime în mediile lor controlate, alături de cele mai sensibile depozite de date.Arhitectura include NVIDIA Confidential Computing, un protocol de securitate la nivel hardware care asigură că modelele de antrenare funcționează într-un mediu protejat, unde solicitările și datele de reglaj fin rămân criptate. Criptarea împiedică părțile neautorizate, inclusiv operatorii de infrastructură cloud, să vizualizeze sau să modifice datele subiacente. Pentru mediile cloud publice multi-tenant, o previzualizare a mașinilor virtuale Confidențiale G4 echipate cu GPU-uri NVIDIA RTX PRO 6000 Blackwell introduce aceleași protecții criptografice, oferind industriilor reglementate acces la hardware de înaltă performanță fără a încălca standardele de confidențialitate a datelor. Aceasta este prima ofertă de calcul confidențial bazată pe cloud pentru GPU-urile NVIDIA Blackwell.Sisteme agentice și platforme de dezvoltareConstruirea sistemelor agentice multi-pas necesită conectarea modelelor de limbaj mari la interfețe de programare complexe, menținerea sincronizării continue a bazelor de date vectoriale și atenuarea activă a halucinațiilor algoritmice în timpul execuției. Pentru a eficientiza această cerință inginerească grea, NVIDIA Nemotron 3 Super este acum disponibil pe platforma Gemini Enterprise Agent. Platforma oferă dezvoltatorilor instrumente pentru a personaliza și implementa modele de raționament și multimodale special concepute pentru sarcini agentice. Platforma NVIDIA mai largă pe Google Cloud este optimizată pentru diverse modele – inclusiv familiile Gemini și Gemma de la Google – oferind dezvoltatorilor instrumentele necesare pentru a construi sisteme care raționează, planifică și acționează.Antrenament gestionat la scarăAntrenarea acestor modele la scară introduce o suprasarcină operațională semnificativă, în special atunci când se gestionează dimensionarea clusterelor și defecțiunile hardware în timpul ciclurilor lungi de învățare prin consolidare. Google Cloud și NVIDIA au introdus clustere de antrenament gestionate pe platforma Gemini Enterprise Agent, care include o API de învățare prin consolidare gestionată construită cu NVIDIA NeMo RL. Acest sistem automatizează dimensionarea clusterelor, recuperarea după defecțiuni și execuția sarcinilor, permițând echipelor de știință a datelor să se concentreze pe calitatea modelului, nu pe gestionarea infrastructurii de nivel scăzut.CrowdStrike utilizează în mod activ bibliotecile open-source NVIDIA NeMo, inclusiv NeMo Data Designer și NeMo Megatron Bridge, pentru a genera date sintetice și a ajusta modele pentru aplicații de securitate cibernetică specifice domeniului. Operarea acestor modele pe clustere de antrenament gestionate cu GPU-uri Blackwell accelerează capacitățile lor automate de detectare și răspuns la amenințări.AI fizică și industria greaIntegrarea învățării automate în industria grea și producție prezintă o clasă diferită de provocări inginerești. Conectarea modelelor digitale la podelele fabricilor fizice necesită simulări fizice exacte, putere de calcul masivă și standardizare pe formate de date moștenite. Infrastructura AI și bibliotecile de AI fizică NVIDIA sunt acum disponibile pe Google Cloud, oferind fundația pentru ca organizațiile să simuleze și să automatizeze fluxurile de lucru din lumea reală. Furnizori majori de software industrial – precum Cadence și Siemens – și-au făcut soluțiile disponibile pe Google Cloud, accelerate de infrastructura NVIDIA. Aceste instrumente alimentează ingineria și fabricarea de mașini grele, platforme aerospațiale și vehicule autonome.Firmele de producție rulează adesea pe sisteme de gestionare a ciclului de viață al produselor vechi de zeci de ani, ceea ce face dificilă traducerea datelor de geometrie și fizică. Prin utilizarea bibliotecilor NVIDIA Omniverse și a cadrului open-source NVIDIA Isaac Sim prin Google Cloud Marketplace, dezvoltatorii pot ocoli unele dintre aceste probleme de traducere pentru a construi gemeni digitali fizic exacti și a antrena pipeline-uri de simulare robotică înainte de implementarea fizică. Implementarea microserviciilor NVIDIA NIM, cum ar fi modelul Cosmos Reason 2, facilitează și mai mult acest proces.### De ce este important:Această colaborare între NVIDIA și Google Cloud marchează un punct de cotitură în democratizarea AI la scară largă. Reducerea costurilor de inferență cu un factor de zece va permite companiilor mici și mijlocii să adopte modele avansate fără investiții prohibitive. În același timp, soluțiile de guvernanță a datelor și calcul confidențial deschid ușa pentru sectoarele reglementate, cum ar fi finanțele și sănătatea, care până acum ezitau să migreze în cloud. Integrarea AI fizice în producție și robotică va accelera automatizarea industrială, reducând costurile și crescând eficiența. Pe scurt, acest parteneriat nu doar că îmbunătățește performanța, ci și extinde accesul la tehnologii AI de ultimă oră, cu impact direct asupra economiei globale și a inovației.

Filtrează articolele