OpenAI lansează MRC (Multipath Reliable Connection): Un nou protocol de rețea deschis pentru clusterele de antrenare AI la scară largă

Într-o mișcare care promite să redefinească modul în care sunt construite și operate supercomputerele dedicate inteligenței artificiale, OpenAI a anunțat recent lansarea MRC (Multipath Reliable Connection) – un protocol de rețea deschis, dezvoltat în parteneriat cu giganți din industrie precum AMD, Broadcom, Intel, Microsoft și NVIDIA. Acest protocol inovator vizează îmbunătățirea performanței și rezilienței rețelelor GPU în clusterele de antrenare AI de mari dimensiuni, permițând distribuirea pachetelor de date pe sute de căi simultane, recuperarea după defecțiuni de rețea în microsecunde și construirea de supercomputere cu peste 100.000 de GPU-uri folosind doar două niveluri de switch-uri Ethernet.

Contextul este unul cunoscut: antrenarea modelelor de inteligență artificială de ultimă generație, precum GPT-4 sau viitoarele versiuni, necesită resurse de calcul colosale. Mii, chiar zeci de mii de GPU-uri trebuie să comunice între ele într-un mod extrem de eficient, iar rețeaua care le leagă devine un factor critic. Orice întârziere, pierdere de pachete sau defecțiune poate duce la ore întregi de timp pierdut și costuri uriașe. Până acum, soluțiile proprietare, cum ar fi InfiniBand, au dominat acest spațiu, dar OpenAI și partenerii săi mizează pe o abordare deschisă, bazată pe Ethernet, dar cu un protocol specializat: MRC.

Ce face MRC diferit? În esență, protocolul profită de multiplele căi fizice disponibile într-o rețea modernă de centre de date. În loc să trimită datele pe o singură rută, MRC le împrăștie pe sute de căi simultan, folosind un mecanism de multiplexare inteligent. Acest lucru nu doar că mărește lățimea de bandă agregată, dar oferă și o redundanță naturală: dacă o cale eșuează, traficul este redirecționat aproape instantaneu, în microsecunde, fără a afecta fluxul general. În plus, MRC este conceput pentru a funcționa cu switch-uri Ethernet standard, ceea ce reduce costurile și complexitatea, permițând în același timp scalarea la peste 100.000 de GPU-uri cu doar două niveluri de comutare – o realizare tehnică remarcabilă.

Parteneriatul cu AMD, Broadcom, Intel, Microsoft și NVIDIA nu este întâmplător. Fiecare dintre aceste companii aduce expertiză în domenii cheie: de la procesoare și acceleratoare, la soluții de rețea și cloud. Microsoft, de exemplu, este unul dintre cei mai mari utilizatori de infrastructură AI, iar NVIDIA domină piața GPU-urilor pentru antrenare. Colaborarea lor sugerează că MRC ar putea deveni un standard de facto în industrie, similar cu modul în care TCP/IP a devenit baza internetului.

Dar de ce este nevoie de un nou protocol? Răspunsul stă în limitările protocoalelor existente. TCP, deși fiabil, are o latență mare și nu se scalează bine la sute de mii de conexiuni simultane. RDMA (Remote Direct Memory Access) și InfiniBand oferă performanțe mai bune, dar sunt soluții proprietare sau costisitoare. MRC îmbină fiabilitatea cu performanța, fiind în același timp deschis și bazat pe standarde Ethernet. OpenAI a publicat specificațiile și intenționează să colaboreze cu comunitatea open-source pentru a-l perfecționa.

Impactul potențial este uriaș. Companiile care construiesc supercomputere AI – de la startup-uri la giganți tech – vor putea reduce costurile de rețea, simplifica arhitectura și crește fiabilitatea. În plus, MRC ar putea accelera dezvoltarea modelelor AI, deoarece timpul de antrenare va fi mai previzibil și mai scurt. Nu în ultimul rând, prin deschiderea protocolului, OpenAI încurajează inovația și competiția, evitând dependența de soluții închise.

Desigur, rămân întrebări: cât de ușor va fi de implementat în practică? Va fi adoptat pe scară largă? Dar primele semne sunt promițătoare. Testele interne ale OpenAI au arătat îmbunătățiri semnificative ale debitului și rezilienței, iar partenerii industriali sunt deja implicați în integrare. Pe măsură ce inteligența artificială continuă să avanseze, infrastructura care o susține trebuie să țină pasul. MRC pare să fie un pas în direcția corectă.

De ce este important:

Lansarea MRC de către OpenAI, alături de AMD, Broadcom, Intel, Microsoft și NVIDIA, marchează un moment crucial în evoluția infrastructurii pentru inteligența artificială. Într-o eră în care modelele AI devin din ce în ce mai mari și mai complexe, rețeaua care leagă miile de GPU-uri nu mai poate fi un punct slab. MRC oferă o soluție deschisă, scalabilă și rezilientă, care poate reduce costurile, simplifica arhitectura și accelera inovația. Mai mult, prin colaborarea cu marii jucători din industrie, OpenAI demonstrează că standardele deschise pot concura cu soluțiile proprietare, beneficiind întregul ecosistem AI. Acest protocol ar putea deveni fundamentul viitoarelor supercomputere AI, permițând antrenarea modelelor care vor schimba lumea.

Filtrează articolele

De ce este important: