#Reinforcement Learning

AI

Google aprofundează legăturile cu Thinking Machines Lab printr-un acord de mai multe miliarde de dolari

Google a semnat un acord de mai multe miliarde de dolari cu Thinking Machines Lab, startup-ul fondat de Mira Murati, pentru a oferi acces la infrastructura de cloud de ultima generație, inclusiv sistemele alimentate de cipurile Nvidia GB300, în cadrul unei strategii mai largă de a se asigura poziția de lider în infrastructura de IA prin parteneriate timpurie cu laboratorii de frontiera.

🕒 1 luni în urmă

AI

Kimina-Prover: Revoluția în Demonstrația Automată de Teoreme prin Căutare RL în Timpul Testării

Kimina-Prover-72B stabilește un nou standard în demonstrația automată de teoreme, atingând o rată de succes de 92.2% pe benchmark-ul miniF2F. Inovația sa principală, cadrul TTRL Search, permite modelului să descopere și combine recursiv leme, transformând procesul dintr-o simplă generare într-o căutare agentică strategică și profundă.

🕒 2 luni în urmă

AI

Kimina-Prover-RL: O nouă eră în demonstrarea automată a teoremelor prin învățare prin întărire

Echipa Kimina lansează kimina-prover-rl, un pipeline open-source de învățare prin întărire pentru demonstrarea teoremelor în Lean 4, care utilizează un paradigmă de raționament structurat și un mecanism inovator de corecție a erorilor, obținând performanțe de top pentru modelele de dimensiuni mici.

🕒 2 luni în urmă

AI

NVIDIA AI prezintă ProRL Agent: O infrastructură decuplată de tip „Rollout-as-a-Service” pentru învățarea prin întărire a agenților LLM multi-turn la scară largă

Cercetătorii de la NVIDIA au lansat ProRL Agent, o infrastructură scalabilă care revoluționează antrenarea agenților LLM prin decuplarea procesului de colectare a experiențelor (rollout) de bucla de antrenament, rezolvând astfel conflictele majore de resurse care îngreunează dezvoltarea AI-ului la scară largă.

🕒 2 luni în urmă

AI

Familia Palmyra-mini: Modele puternice, ușoare și pregătite pentru raționament complex

Familia Palmyra-mini redefinesc standardele modelelor de limbaj ușoare, combinând eficiența computațională cu capacități avansate de raționament. Descoperă noile modele „thinking”, antrenate cu Chain of Thought, care obțin scoruri remarcabile pe benchmark-uri precum GSM8K și AMC23.

🕒 2 luni în urmă

AI

Construirea Ecosistemului Open Agent Împreună: Prezentarea OpenEnv

Meta-PyTorch și Hugging Face lansează OpenEnv, un standard deschis pentru medii agențiale care redefinesc antrenamentul și implementarea AI. Acest ecosistem oferă siguranță, scalabilitate și un cadru standardizat pentru dezvoltarea agenților autonomi.

🕒 2 luni în urmă

AI

Menținând Fluxul de Token-uri: Lecții din 16 Biblioteci Open-Source de Învățare prin Întărire

O analiză tehnică detaliată a arhitecturilor de învățare prin întărire asincronă, extrăgând principii de design esențiale din 16 biblioteci open-source pentru a optimiza antrenarea modelelor de limbaj de mari dimensiuni.

🕒 2 luni în urmă

Filtrează articolele

Subiect: #Reinforcement Learning

Google aprofundează legăturile cu Thinking Machines Lab printr-un acord de mai multe miliarde de dolari

Kimina-Prover: Revoluția în Demonstrația Automată de Teoreme prin Căutare RL în Timpul Testării

Kimina-Prover-RL: O nouă eră în demonstrarea automată a teoremelor prin învățare prin întărire

NVIDIA AI prezintă ProRL Agent: O infrastructură decuplată de tip „Rollout-as-a-Service” pentru învățarea prin întărire a agenților LLM multi-turn la scară largă

Familia Palmyra-mini: Modele puternice, ușoare și pregătite pentru raționament complex

Construirea Ecosistemului Open Agent Împreună: Prezentarea OpenEnv

Menținând Fluxul de Token-uri: Lecții din 16 Biblioteci Open-Source de Învățare prin Întărire