Filtrează articolele

Subiect: #atenție

Together AI lansează open-source OSCAR: un sistem de cuantizare a cache-ului KV pe 2 biți, conștient de atenție, pentru servirea LLM-urilor cu context lung

Together AI a lansat open-source OSCAR, un sistem de cuantizare a cache-ului KV pe 2 biți, care reduce memoria de 8 ori și accelerează decodarea de 3 ori pentru LLM-uri cu contexte lungi, menținând o acuratețe ridicată.

🕒 2 săptămâni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.