OpenAI susține că noul său model de raționament a demonstrat o conjectură geometrică veche de 80 de ani, infirmând credințele matematicienilor. De data aceasta, compania a publicat și comentarii de sprijin din partea unor experți, spre deosebire de o afirmație falsă anterioară.
Pentagonul estimează costul războiului cu Iranul la 29 de miliarde de dolari, în timp ce un nou raport arată că elevii americani fac progrese la matematică, dar nu și la citire. Demisia șefului FDA, grațierile controversate ale lui Trump și disputa privind erbicidul Roundup completează peisajul știrilor zilei.
Kimina-Prover-72B stabilește un nou standard în demonstrația automată de teoreme, atingând o rată de succes de 92.2% pe benchmark-ul miniF2F. Inovația sa principală, cadrul TTRL Search, permite modelului să descopere și combine recursiv leme, transformând procesul dintr-o simplă generare într-o căutare agentică strategică și profundă.
Echipa Kimina lansează kimina-prover-rl, un pipeline open-source de învățare prin întărire pentru demonstrarea teoremelor în Lean 4, care utilizează un paradigmă de raționament structurat și un mecanism inovator de corecție a erorilor, obținând performanțe de top pentru modelele de dimensiuni mici.
Startup-ul Axiom Math lansează Axplorer, un instrument AI gratuit care rulează pe un PC personal, promițând să democratizeze cercetarea matematică și să accelereze descoperirea de noi tipare, dincolo de simpla rezolvare a problemelor existente.
DeepMath este un agent inovator de raționament matematic bazat pe modelul Qwen3-4B, care utilizează fragmente de cod Python executate într-un mediu securizat pentru a reduce erorile și lungimea output-ului cu până la 66%, demonstrând că modelele mici pot depăși limitările tradiționale ale LLM-urilor prin antrenament GRPO și arhitecturi hibride.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.