#Deep Learning | World News

AI

NVIDIA lansează Cosmos 3: un model fundamental cu două turnuri și amestec de transformatori care unifică raționamentul fizic, generarea de lumi și generarea de acțiuni

NVIDIA a prezentat Cosmos 3, un model fundamental cu arhitectură two-tower și mixture-of-transformers, care unifică raționamentul fizic, generarea de lumi și generarea de acțiuni. Acest articol analizează inovațiile tehnice, implicațiile pentru robotică și viitorul AI.

🕒 2 săptămâni în urmă

Societate & Lifestyle

Cum să accelerezi antrenarea Transformer-elor cu NVIDIA Apex și torch.amp: Ghid practic pentru performanță maximă pe GPU

Ghid complet pentru accelerarea antrenării Transformer-elor folosind NVIDIA Apex (FusedAdam, FusedLayerNorm) împreună cu torch.amp. Include explicații practice, exemple de cod și strategii de optimizare pentru GPU-uri NVIDIA moderne.

🕒 2 săptămâni în urmă

AI

mKernel: Biblioteca de kerneluri fuzionate pentru comunicare GPU multi-GPU și multi-nod

mKernel este o bibliotecă open-source care revoluționează comunicarea între GPU-uri multiple, rulând kerneluri fuzionate direct pe placă grafică, fără a mai trece prin CPU. Rezultatul: antrenare mai rapidă a modelelor AI, latență redusă și suport nativ pentru medii multi-nod.

🕒 3 săptămâni în urmă

Societate & Lifestyle

Părtinirea de frecvență a Gradientului Descendent Stocastic (SGD) și cum o rezolvă Adam

Gradientul Descendent Stocastic (SGD) are o părtinire de frecvență care favorizează tiparele rare în detrimentul celor frecvente. Optimizatorul Adam corectează această problemă prin adaptarea ratei de învățare per-parametru, normalizând gradienții în funcție de varianță. Articolul explică mecanismul și importanța sa practică.

🕒 1 luni în urmă

AI

De ce zigzaghează Gradient Descent și cum îl corectează Momentum

Gradient descent zigzaghează din cauza diferențelor mari de magnitudine ale gradientilor pe diferite direcții. Momentum, inspirat din fizică, netezește oscilațiile și accelerează convergența, fiind esențial în antrenarea rețelelor neuronale.

🕒 1 luni în urmă

Societate & Lifestyle

Implementarea codificării pentru decodarea cerebrală completă de la semnale MEG folosind NeuralSet și Deep Learning pentru predicția caracteristicilor lingvistice

Un studiu recent prezintă o implementare completă a decodării semnalelor MEG pentru predicția caracteristicilor lingvistice, folosind arhitectura NeuralSet și deep learning. Sistemul atinge o acuratețe de peste 70% și are potențialul de a revoluționa interfețele creier-calculator.

🕒 1 luni în urmă

AI

Meta AI lansează Sapiens2: Modelul revoluționar de viziune uman-centrică pentru poziție, segmentare, normale, hartă de puncte și albedo

Meta AI a lansat Sapiens2, un model de viziune computerizată de înaltă rezoluție specializat pe sarcini uman-centrice: estimarea poziției, segmentarea corpului, hărți de normale, hărți de puncte și albedo. Modelul open-source promite să revoluționeze realitatea augmentată, robotica și animația digitală.

🕒 1 luni în urmă

AI

Implementare de Cod pentru Construirea Sistemelor Multi-Agent AI cu SmolAgents: Execuție de Cod, Apelare de Unelte și Orchestrare Dinamică

Descoperă cum să construiești sisteme multi-agent AI sofisticate folosind SmolAgents, cu accent pe execuția de cod, apelarea dinamică a uneltelor și orchestrarea inteligentă a mai multor agenți colaborativi.

🕒 2 luni în urmă

Tehnologie

NVIDIA și Cercetătorii de la University of Maryland au Lansat Audio Flamingo Next (AF-Next): Un Model Linguistic Audio de Ultimă Generație, Open-Source și Extraordinar de Puternic

NVIDIA și University of Maryland au lansat Audio Flamingo Next, un model lingvistic audio open-source de ultimă generație, care promite să revoluționeze procesarea și înțelegerea conținutului sonor prin capabilități AI avansate.

🕒 2 luni în urmă

AI

Meta AI Lansăm EUPE: O Familie Compactă de Encodere Vizuale Sub 100 de Milioane de Parametri Care Depășește Modelele Specializate în Înțelegerea Imaginilor, Predicția Densă și Task-urile VLM

Meta AI a dezvoltat EUPE, o familie de encodere vizuale sub 100M parametri care rivalizează cu modele specializate în înțelegerea imaginilor, predicția densă și task-urile VLM, marking un moment important pentru eficiența în AI vizual.

🕒 2 luni în urmă

AI

Cum să Construiești un Pipeline de Generare AI cu Gemma 3 1B Instruct Pregătit pentru Producție,folosind Hugging Face Transformers, Șabloane de Chat și Inferență pe Colab

Ghid comprehensiv pentru construirea unui pipeline de generare AI production-ready cu modelul Gemma 3 1B Instruct, folosind Hugging Face Transformers, șabloane de chat și inferență pe Google Colab.

🕒 2 luni în urmă

AI

TimeScope: Până unde poate ajunge înțelegerea video în modelele multimodale avansate?

TimeScope este un benchmark open-source care testează limitele reale ale modelelor AI în înțelegerea videoclipurilor de lungă durată, dezvăluind diferența dintre promisiunile de marketing și performanța efectivă în sarcini complexe de sinteză și raționament temporal.

🕒 2 luni în urmă

Filtrează articolele

Subiect: #Deep Learning

NVIDIA lansează Cosmos 3: un model fundamental cu două turnuri și amestec de transformatori care unifică raționamentul fizic, generarea de lumi și generarea de acțiuni

Cum să accelerezi antrenarea Transformer-elor cu NVIDIA Apex și torch.amp: Ghid practic pentru performanță maximă pe GPU

mKernel: Biblioteca de kerneluri fuzionate pentru comunicare GPU multi-GPU și multi-nod

Părtinirea de frecvență a Gradientului Descendent Stocastic (SGD) și cum o rezolvă Adam

De ce zigzaghează Gradient Descent și cum îl corectează Momentum

Implementarea codificării pentru decodarea cerebrală completă de la semnale MEG folosind NeuralSet și Deep Learning pentru predicția caracteristicilor lingvistice

Meta AI lansează Sapiens2: Modelul revoluționar de viziune uman-centrică pentru poziție, segmentare, normale, hartă de puncte și albedo

Implementare de Cod pentru Construirea Sistemelor Multi-Agent AI cu SmolAgents: Execuție de Cod, Apelare de Unelte și Orchestrare Dinamică

NVIDIA și Cercetătorii de la University of Maryland au Lansat Audio Flamingo Next (AF-Next): Un Model Linguistic Audio de Ultimă Generație, Open-Source și Extraordinar de Puternic

Meta AI Lansăm EUPE: O Familie Compactă de Encodere Vizuale Sub 100 de Milioane de Parametri Care Depășește Modelele Specializate în Înțelegerea Imaginilor, Predicția Densă și Task-urile VLM

Cum să Construiești un Pipeline de Generare AI cu Gemma 3 1B Instruct Pregătit pentru Producție,folosind Hugging Face Transformers, Șabloane de Chat și Inferență pe Colab

TimeScope: Până unde poate ajunge înțelegerea video în modelele multimodale avansate?