DeepSeek lansează modelele V4 Flash și V4 Pro, cu până la 1,6 biliardi de parametri,preturi subțepătoare și performanțe aproape la nivelul modelelor de frontiera, marcând un pas semnificativ în cursa globală de AI.
Analiza detaliată a schimbărilor arhitecturale din ecosistemul AI open-source din China post-DeepSeek, evidențiind adoptarea arhitecturii Mixture of Experts (MoE), diversificarea modalităților, preferința pentru modelele mici și trecerea strategică la hardware domestic.
Modelele Mixture of Experts (MoE) revoluționează AI-ul prin decuplarea capacității de învățare de costul computațional. Acest articol explorează integrarea lor în Transformers, de la refactorizarea încărcării greutăților și materializarea leneșă a tensorilor, până la backend-uri optimizate și paralelismul experților.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.