A început vânătoarea pentru puterea de calcul AI? General Compute, noul „Cerebras” al inferenței

Cererea nebună de computere capabile să ruleze modele de inteligență artificială nu dă semne de încetinire, dar există două obstacole majore pe care oricine activează în acest domeniu trebuie să le depășească: obținerea cipurilor potrivite și amplasarea lor în centre de date unde să înceapă să genereze venituri. General Compute, un nou „neocloud” specializat în inferență – adică o companie care închiriază putere de procesare AI, concentrându-se pe faza în care modelele rulează și răspund utilizatorilor, nu pe cea de antrenare – are răspunsuri la aceste întrebări care luminează direcția în care se îndreaptă ecosistemul AI. Aceste răspunsuri l-au ajutat să strângă o rundă seed de 15 milioane de dolari, la o evaluare post-money de 60 de milioane de dolari, condusă de FUSE VC, cu participarea Carya Venture Partners și Village Global Ventures.În primul rând, care este cipul potrivit? Cererea de GPU-uri a explodat, dar devine un adevăr acceptat că acestea nu sunt cele mai potrivite cipuri pentru rularea modelelor AI după ce au fost antrenate. Faza de inferență – în care un model generează activ răspunsuri – are cerințe computaționale diferite față de antrenare, iar o nouă clasă de cipuri este proiectată special pentru ea. Tranzacția de 20 de miliarde de dolari a Nvidia cu Groq din decembrie și IPO-ul de 57 de miliarde de dolari al Cerebras de săptămâna trecută arată direcția. Cu capacitatea de producție deja tensionată la ambele companii, co-fondatorii General Compute – CEO Finn Puklowski și CTO Jason Goodison – au găsit o altă opțiune. Ei se îndreaptă către cipurile specializate construite de SambaNova, un producător de cipuri susținut de Intel, concentrat pe inferență, care a ieșit oarecum din conversația din Silicon Valley. Acest lucru s-ar putea schimba atunci când SambaNova va lansa noile sale cipuri anul acesta.Arhitectura este mai flexibilă și folosește mai multă memorie pentru a stoca contextul în timpul calculelor de inferență, iar SambaNova susține că depășește nu doar GPU-urile, ci și alte cipuri specializate construite de companii precum Groq sau Cerebras. Puklowski spune că noile cipuri vor genera între 600 și 700 de tokeni pe secundă, față de aproximativ 250 de tokeni pe secundă pentru GPU-uri. General Compute are deja comenzi în valoare de 300 de milioane de dolari pentru cipurile SN50 ale companiei și susține că va fi primul neocloud care le va implementa.Aceste cipuri ajută, de asemenea, la rezolvarea celei de-a doua mari probleme – unde să le amplaseze – pentru General Compute: sunt răcite cu aer, nu cu apă, și consumă mai puțină energie, astfel încât pot fi instalate în centre de date existente, fără investiții suplimentare în infrastructură. Puklowski urmărește acorduri de colocație – aranjamente prin care General Compute își instalează hardware-ul în facilitățile altcuiva – nu doar cu furnizorii de centre de date, ci și cu minerii de criptomonede care doresc să-și reutilizeze infrastructura, pe măsură ce costul producerii unui bitcoin a depășit adesea prețul acestuia.General Compute și-a lansat oferta cloud săptămâna trecută, susținând că este deja cel mai rapid la rularea MiniMax 2.7, un model open-source puternic. Joe Hassleman este un investitor de venture care a intrat de la început în boom-ul inferenței, atunci când a investit în Groq în 2021. Anul acesta, a lansat un nou fond, Evercrest Partners, concentrat pe spațiul AI, iar General Compute a fost prima sa investiție. Hassleman vede în parteneriatul SambaNova cu General Compute paralele cu relația Coreweave cu Nvidia – și cu asocierea dintre producția de cipuri Groq și fosta sa ofertă cloud. „Au nevoie de un mix sănătos de clienți care să-și plaseze cipurile în medii cu creștere mare”, a spus Hassleman. „Pe măsură ce General Compute pariază pe SambaNova, SambaNova pariază pe General Compute.”Întrebarea este ce fel de arhitectură computerizată va capta cea mai mare valoare în viitorul AI. Cloud-urile de inferență sunt pariuri implicite pe o lume cu multiple modele și agenți, una în care niciun furnizor nu domină, iar viteza și costul inferenței devin variabilele competitive cheie. Gândiți-vă la runda Series B de 113 milioane de dolari strânsă de OpenRouter săptămâna aceasta, reflectând capacitatea companiei de a oferi clienților acces la mai multe modele pentru a-și optimiza cheltuielile cu tokenii. Viteza contează în această ecuație, atât pentru preț, cât și pentru capacitate. Puklowski vrea să transforme sarcinile de lucru de o oră pentru agenții de codare în sarcini de cinci sau zece minute și să facă agenții audio pentru serviciul clienți – care necesită inferență mai rapidă pentru a conversa eficient – mai economici.„Dacă folosești ChatGPT și îți oferă 50 de tokeni pe secundă, tot este mult mai rapid decât putem citi noi”, a spus Puklowski pentru TechCrunch. „Acum că lucrurile s-au mutat către agent-to-agent, unde agenții citesc în numele nostru sau interoghează baze de date, au nevoie să meargă mai repede.”### De ce este important:Această poveste nu este doar despre o nouă companie care strânge bani. Ea semnalează o schimbare fundamentală în arhitectura AI: trecerea de la GPU-uri generice la cipuri specializate pentru inferență, și de la centre de date masive la soluții mai agile, răcite cu aer. General Compute ar putea fi următorul „Cerebras” – nu prin dimensiune, ci prin capacitatea de a demonstra că inferența rapidă și ieftină este cheia pentru a face AI-ul cu adevărat util în aplicații din lumea reală, de la agenți de codare la asistență vocală. Dacă reușește, va forța întreaga industrie să se reorienteze.

Filtrează articolele