Filtrează articolele

Subiect: #accelerare

Nous Research propune Lighthouse Attention: un mecanism de atenție ierarhică bazat pe selecție, care accelerează pre-antrenarea de 1,4–1,7 ori în contexte lungi

Nous Research a lansat Lighthouse Attention, un mecanism de atenție ierarhică bazat pe selecție, care accelerează pre-antrenarea modelelor de limbaj pe contexte lungi de 1,4–1,7 ori, prin pooling simetric al Q, K și V într-o piramidă multi-rezoluție, fără a degrada performanța finală.

🕒 4 săptămâni în urmă
AI Zyphra lansează ZAYA1-8B-Diffusion-Preview: primul model de difuzie MoE convertit dintr-un LLM autoregresiv, cu o accelerare de până la 7,7 ori

Zyphra lansează ZAYA1-8B-Diffusion-Preview: primul model de difuzie MoE convertit dintr-un LLM autoregresiv, cu o accelerare de până la 7,7 ori

Zyphra a lansat ZAYA1-8B-Diffusion-Preview, primul model de difuzie MoE convertit dintr-un LLM autoregresiv, care oferă o accelerare de până la 7,7 ori. Articolul explică tehnologia din spate, performanțele și impactul asupra industriei AI.

🕒 4 săptămâni în urmă
AI Nous Research revoluționează antrenarea modelelor lingvistice: Token Superposition Training reduce timpul de pre-antrenare de până la 2,5 ori

Nous Research revoluționează antrenarea modelelor lingvistice: Token Superposition Training reduce timpul de pre-antrenare de până la 2,5 ori

Nous Research lansează Token Superposition Training (TST), o metodă de pre-antrenare în două faze care reduce timpul de antrenare al modelelor lingvistice de mari dimensiuni cu până la 2,5 ori, fără a modifica arhitectura sau performanța la inferență. Validată pe modele de la 270M la 10B parametri, TST promite să democratizeze accesul la antrenarea LLM-urilor.

🕒 1 luni în urmă
AI Sakana AI și NVIDIA lansează TwELL cu nuclee CUDA: accelerare cu 20,5% la inferență și 21,9% la antrenament pentru modelele de limbaj mari

Sakana AI și NVIDIA lansează TwELL cu nuclee CUDA: accelerare cu 20,5% la inferență și 21,9% la antrenament pentru modelele de limbaj mari

Sakana AI și NVIDIA au lansat TwELL, o tehnologie care accelerează inferența cu 20,5% și antrenamentul cu 21,9% pentru modelele de limbaj mari, folosind nuclee CUDA optimizate. Articolul explică cum funcționează, impactul și importanța acestei inovații.

🕒 1 luni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.