Filtrează articolele

Subiect: #învățare prin întărire

Societate & Lifestyle Microsoft Research lansează World-R1: Consistență geometrică în Wan 2.1 fără modificări arhitecturale

Microsoft Research lansează World-R1: Consistență geometrică în Wan 2.1 fără modificări arhitecturale

Microsoft Research a dezvoltat World-R1, o metodă care îmbunătățește consistența geometrică a modelului de generare video Wan 2.1 fără a-i modifica arhitectura. Folosind Flow-GRPO și recompense 3D-aware, această abordare bazată pe învățare prin întărire promite videoclipuri mai realiste și mai coerente spațial.

🕒 3 zile în urmă

Ghid de codare pentru post-antrenamentul LLM cu TRL: de la Supervised Fine Tuning la DPO și GRPO Reasoning

Un ghid practic de codare pentru post-antrenamentul modelelor de limbaj mari (LLM) folosind biblioteca TRL, acoperind Supervised Fine Tuning (SFT), Direct Preference Optimization (DPO) și Group Relative Policy Optimization (GRPO), cu exemple de cod și explicații detaliate.

🕒 4 zile în urmă

Construiește un agent bazat pe învățare prin întărire care învață să recupereze amintiri relevante pe termen lung pentru răspunsuri precise la întrebări cu LLM

Descoperă cum poți construi un agent bazat pe învățare prin întărire care învață să recupereze amintiri relevante pe termen lung pentru a îmbunătăți acuratețea răspunsurilor modelelor de limbaj mari (LLM). Articolul explică arhitectura, antrenarea și aplicațiile practice ale acestei tehnologii inovatoare.

🕒 1 săptămâni în urmă
AI David Silver, fostul cercetător DeepMind, strânge 1,1 miliarde de dolari pentru a construi o inteligență artificială care învață fără date umane

David Silver, fostul cercetător DeepMind, strânge 1,1 miliarde de dolari pentru a construi o inteligență artificială care învață fără date umane

David Silver, fostul cercetător DeepMind, a strâns 1,1 miliarde de dolari pentru Ineffable Intelligence, un startup AI care vrea să construiască un sistem capabil să învețe fără date umane, folosind învățarea prin întărire. Compania este evaluată la 5,1 miliarde de dolari și are sprijinul unor investitori de top precum Sequoia Capital și Lightspeed.

🕒 1 săptămâni în urmă

Cercetarea revoluționară Google DeepMind permite unui LLM să-și rescrie propriile algoritmi de teoria jocurilor — și i-a depășit pe experți

Google DeepMind a dezvoltat AlphaEvolve, un sistem AI capabil să-și rescrie autonom algoritmii de teoria jocurilor, demonstrând performanțe care depășesc expertiza umană în jocuri cu informație imperfectă precum poker.

🕒 1 luni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.