#Cuantizare | World News

AI

Google DeepMind lansează checkpoint-urile Gemma 4 QAT: Q4_0 și un nou format mobil reduc memoria pe dispozitiv

Google DeepMind a lansat checkpoint-urile Gemma 4 QAT, inclusiv varianta Q4_0 și un nou format mobil care reduce semnificativ memoria pe dispozitiv. Descoperiți cum această tehnologie face AI-ul mai accesibil, mai rapid și mai privat pentru utilizatorii de telefoane mobile.

🕒 2 săptămâni în urmă

NVIDIA revoluționează antrenarea modelelor AI: metodologie de pre-antrenare pe 4 biți cu NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri

NVIDIA a dezvoltat o metodologie de pre-antrenare pe 4 biți folosind formatul NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri antrenat pe 10 trilioane de tokeni. Rezultatele arată o acuratețe aproape identică cu cea a antrenării pe 8 biți (62,58% vs 62,62% pe MMLU-Pro), deschizând calea către o reducere drastică a costurilor și consumului de energie în antrenarea modelelor AI.

🕒 1 luni în urmă

AI

Cum să comprimi și să evaluezi modelele lingvistice instruite cu FP8, GPTQ și SmoothQuant folosind llmcompressor

Află cum poți comprima modelele lingvistice instruite (instruction-tuned LLMs) folosind FP8, GPTQ și SmoothQuant cu ajutorul bibliotecii llmcompressor. Articolul explică pașii de implementare, rezultatele benchmark-urilor și importanța cuantizării pentru eficiență și accesibilitate.

🕒 1 luni în urmă

AI

Ghid complet: Rularea modelelor VLM locale pe procesoare Intel în 3 pași simpli

Acest ghid detaliat explică cum să rulați modele VLM local pe procesoare Intel folosind Optimum Intel și OpenVINO. Aflați despre conversia modelului, tehnicile de cuantizare pentru eficiență și rezultatele benchmark-urilor care demonstrează creșteri semnificative de performanță.

🕒 2 luni în urmă

Filtrează articolele

Subiect: #Cuantizare

Google DeepMind lansează checkpoint-urile Gemma 4 QAT: Q4_0 și un nou format mobil reduc memoria pe dispozitiv

NVIDIA revoluționează antrenarea modelelor AI: metodologie de pre-antrenare pe 4 biți cu NVFP4, validată pe un model hibrid Mamba-Transformer de 12 miliarde de parametri

Cum să comprimi și să evaluezi modelele lingvistice instruite cu FP8, GPTQ și SmoothQuant folosind llmcompressor

Ghid complet: Rularea modelelor VLM locale pe procesoare Intel în 3 pași simpli