Google a lansat DiffusionGemma, un model open-source de 26 de miliarde de parametri care folosește difuzia textuală pentru a genera text de până la 4 ori mai rapid decât modelele tradiționale. Acest model inovator promite să revoluționeze generarea de text, oferind viteză și eficiență sporite, fiind disponibil gratuit pentru comunitatea AI.
NVIDIA a lansat Nemotron 3 Ultra, un model open-source de 550 de miliarde de parametri, care combină arhitecturile Mamba și Transformer într-un sistem Mixture-of-Experts, optimizat pentru agenți AI cu execuție îndelungată. Este un pas major spre democratizarea AI-ului de ultimă generație.
DeepSeek lansează modelele V4 Flash și V4 Pro, cu până la 1,6 biliardi de parametri,preturi subțepătoare și performanțe aproape la nivelul modelelor de frontiera, marcând un pas semnificativ în cursa globală de AI.
Analiza detaliată a schimbărilor arhitecturale din ecosistemul AI open-source din China post-DeepSeek, evidențiind adoptarea arhitecturii Mixture of Experts (MoE), diversificarea modalităților, preferința pentru modelele mici și trecerea strategică la hardware domestic.
Modelele Mixture of Experts (MoE) revoluționează AI-ul prin decuplarea capacității de învățare de costul computațional. Acest articol explorează integrarea lor în Transformers, de la refactorizarea încărcării greutăților și materializarea leneșă a tensorilor, până la backend-uri optimizate și paralelismul experților.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.