Filtrează articolele

Subiect: #GPU

AI ScaleOps atrage 130 de milioane de dolari pentru a revoluționa eficiența computațională în era cererii masive pentru AI

ScaleOps atrage 130 de milioane de dolari pentru a revoluționa eficiența computațională în era cererii masive pentru AI

Startup-ul ScaleOps a ridicat 130 de milioane de dolari într-o rundă Series C, evaluând compania la 800 de milioane de dolari, pentru a aborda ineficiența critică din infrastructura AI. Fondat de un fost inginer Run:ai, ScaleOps oferă o soluție software autonomă care promite reducerea costurilor cloud cu până la 80%, gestionând în timp real resursele precum GPU-urile, memoria și rețelele pentru giganți precum Adobe și Salesforce.

🕒 1 luni în urmă
AI Inferență rapidă cu LoRA pentru Flux utilizând Diffusers și PEFT: Ghid complet de optimizare

Inferență rapidă cu LoRA pentru Flux utilizând Diffusers și PEFT: Ghid complet de optimizare

Un ghid tehnic detaliat despre optimizarea inferenței modelului Flux.1-Dev folosind LoRA, Diffusers și PEFT, acoperind strategii de la hotswapping fără recompilare până la rularea eficientă pe GPU-uri de consum precum RTX 4090.

🕒 1 luni în urmă
AI Accelerate ND-Parallel: Ghid complet pentru antrenarea eficientă pe mai multe GPU-uri

Accelerate ND-Parallel: Ghid complet pentru antrenarea eficientă pe mai multe GPU-uri

Pe măsură ce modelele de inteligență artificială cresc la dimensiuni de zeci sau sute de miliarde de parametri, provocarea principală devine gestionarea memoriei și comunicarea între dispozitive. Acest ghid explorează strategiile de paralelism — de la Data Parallelism la tehnici avansate precum Tensor Parallelism și Fully Sharded Data Parallelism — oferind o perspectivă detaliată asupra modului în care acestea pot fi combinate pentru a optimiza antrenarea modelelor la scară largă.

🕒 1 luni în urmă
AI Optimizarea spațiilor ZeroGPU prin compilarea ahead-of-time: Ghid complet pentru performanță maximă

Optimizarea spațiilor ZeroGPU prin compilarea ahead-of-time: Ghid complet pentru performanță maximă

Compilarea ahead-of-time (AoT) revoluționează performanța modelelor ML în spațiile ZeroGPU de la Hugging Face, eliminând timpii de pornire la rece și oferind accelerări de 1.3×-1.8×. Acest ghid detaliază implementarea tehnică, de la capturarea intrărilor până la integrarea în pipeline, explorând și tehnici avansate precum cuantizarea FP8 și FlashAttention-3.

🕒 1 luni în urmă
AI Trucuri de la OpenAI gpt-oss pe care TU 🫵 le poți utiliza cu transformers

Trucuri de la OpenAI gpt-oss pe care TU 🫵 le poți utiliza cu transformers

Lansarea GPT-OSS de la OpenAI aduce o serie de inovații tehnice în ecosistemul open-source. Acest articol explorează integrarea acestora în biblioteca `transformers`, de la kernel-e zero-build și Flash Attention 3, până la cuantizarea MXFP4 și paralelismul tensorial, oferind un ghid detaliat pentru optimizarea inferenței modelelor de limbaj de mari dimensiuni.

🕒 1 luni în urmă
Tehnologie Construirea și Partajarea Simplă a Kernel-elor ROCm prin Ecosistemul Hugging Face

Construirea și Partajarea Simplă a Kernel-elor ROCm prin Ecosistemul Hugging Face

Acest ghid detaliat explorează modul în care dezvoltatorii pot construi și partaja kernel-uri ROCm de înaltă performanță folosind ecosistemul Hugging Face. Focalizându-se pe exemplul kernel-ului GEMM RadeonFlow, câștigătorul premiului AMD Developer Challenge 2025, articolul explică structura proiectului, configurarea fișierelor de build și integrarea nativă în PyTorch, simplificând procesul complex de optimizare pe GPU-urile AMD.

🕒 1 luni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.