#învățare prin întărire

Harness-1: Agentul de căutare de 20B antrenat cu învățare prin întărire într-un mediu de căutare cu stare

Harness-1, un subagent de căutare de 20 de miliarde de parametri dezvoltat de UIUC și Chroma, folosește învățarea prin întărire într-un mediu cu stare pentru a găsi, curata și verifica informații. Cu o medie de 0,730 curated recall pe opt benchmark-uri, depășește cu 11,4 puncte următorul agent open-source și este disponibil public.

🕒 1 săptămâni în urmă

Societate & Lifestyle

Microsoft Research lansează World-R1: Consistență geometrică în Wan 2.1 fără modificări arhitecturale

Microsoft Research a dezvoltat World-R1, o metodă care îmbunătățește consistența geometrică a modelului de generare video Wan 2.1 fără a-i modifica arhitectura. Folosind Flow-GRPO și recompense 3D-aware, această abordare bazată pe învățare prin întărire promite videoclipuri mai realiste și mai coerente spațial.

🕒 1 luni în urmă

Ghid de codare pentru post-antrenamentul LLM cu TRL: de la Supervised Fine Tuning la DPO și GRPO Reasoning

Un ghid practic de codare pentru post-antrenamentul modelelor de limbaj mari (LLM) folosind biblioteca TRL, acoperind Supervised Fine Tuning (SFT), Direct Preference Optimization (DPO) și Group Relative Policy Optimization (GRPO), cu exemple de cod și explicații detaliate.

🕒 1 luni în urmă

Construiește un agent bazat pe învățare prin întărire care învață să recupereze amintiri relevante pe termen lung pentru răspunsuri precise la întrebări cu LLM

Descoperă cum poți construi un agent bazat pe învățare prin întărire care învață să recupereze amintiri relevante pe termen lung pentru a îmbunătăți acuratețea răspunsurilor modelelor de limbaj mari (LLM). Articolul explică arhitectura, antrenarea și aplicațiile practice ale acestei tehnologii inovatoare.

🕒 1 luni în urmă

AI

David Silver, fostul cercetător DeepMind, strânge 1,1 miliarde de dolari pentru a construi o inteligență artificială care învață fără date umane

David Silver, fostul cercetător DeepMind, a strâns 1,1 miliarde de dolari pentru Ineffable Intelligence, un startup AI care vrea să construiască un sistem capabil să învețe fără date umane, folosind învățarea prin întărire. Compania este evaluată la 5,1 miliarde de dolari și are sprijinul unor investitori de top precum Sequoia Capital și Lightspeed.

🕒 1 luni în urmă

Cercetarea revoluționară Google DeepMind permite unui LLM să-și rescrie propriile algoritmi de teoria jocurilor — și i-a depășit pe experți

Google DeepMind a dezvoltat AlphaEvolve, un sistem AI capabil să-și rescrie autonom algoritmii de teoria jocurilor, demonstrând performanțe care depășesc expertiza umană în jocuri cu informație imperfectă precum poker.

🕒 2 luni în urmă

Filtrează articolele

Subiect: #învățare prin întărire

Harness-1: Agentul de căutare de 20B antrenat cu învățare prin întărire într-un mediu de căutare cu stare

Microsoft Research lansează World-R1: Consistență geometrică în Wan 2.1 fără modificări arhitecturale

Ghid de codare pentru post-antrenamentul LLM cu TRL: de la Supervised Fine Tuning la DPO și GRPO Reasoning

Construiește un agent bazat pe învățare prin întărire care învață să recupereze amintiri relevante pe termen lung pentru răspunsuri precise la întrebări cu LLM

David Silver, fostul cercetător DeepMind, strânge 1,1 miliarde de dolari pentru a construi o inteligență artificială care învață fără date umane

Cercetarea revoluționară Google DeepMind permite unui LLM să-și rescrie propriile algoritmi de teoria jocurilor — și i-a depășit pe experți