Together AI lansează open-source OSCAR: un sistem de cuantizare a cache-ului KV pe 2 biți, conștient de atenție, pentru servirea LLM-urilor cu context lung
Together AI a lansat open-source OSCAR, un sistem de cuantizare a cache-ului KV pe 2 biți, care reduce memoria de 8 ori și accelerează decodarea de 3 ori pentru LLM-uri cu contexte lungi, menținând o acuratețe ridicată.
🕒 2 săptămâni în urmă