Google DeepMind a lansat checkpoint-urile Gemma 4 QAT, inclusiv varianta Q4_0 și un nou format mobil care reduce semnificativ memoria pe dispozitiv. Descoperiți cum această tehnologie face AI-ul mai accesibil, mai rapid și mai privat pentru utilizatorii de telefoane mobile.
NVIDIA a dezvoltat o metodologie de pre-antrenare pe 4 biți folosind formatul NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri antrenat pe 10 trilioane de tokeni. Rezultatele arată o acuratețe aproape identică cu cea a antrenării pe 8 biți (62,58% vs 62,62% pe MMLU-Pro), deschizând calea către o reducere drastică a costurilor și consumului de energie în antrenarea modelelor AI.
Află cum poți comprima modelele lingvistice instruite (instruction-tuned LLMs) folosind FP8, GPTQ și SmoothQuant cu ajutorul bibliotecii llmcompressor. Articolul explică pașii de implementare, rezultatele benchmark-urilor și importanța cuantizării pentru eficiență și accesibilitate.
Acest ghid detaliat explică cum să rulați modele VLM local pe procesoare Intel folosind Optimum Intel și OpenVINO. Aflați despre conversia modelului, tehnicile de cuantizare pentru eficiență și rezultatele benchmark-urilor care demonstrează creșteri semnificative de performanță.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.