OpenAI a lansat LifeSciBench, un benchmark cu 750 de sarcini și rubrici create de experți, pentru a evalua capacitatea modelelor AI de a rezolva probleme reale din științele vieții. Primele teste arată că modelele performează bine la sarcini de memorare, dar se luptă cu raționamentul complex.
OpenEnv, un cadru open-source de la Meta și Hugging Face, standardizează interacțiunea agenților AI cu medii reale. Acest articol explorează Calendar Gym, un benchmark de producție dezvoltat de Turing, și analizează provocările critice în raționamentul multi-pas, rezoluția ambiguităților și utilizarea corectă a instrumentelor, oferind o perspectivă detaliată asupra limitărilor actuale ale agenților AI.
EVA (Evaluating Voice Agents) este un nou cadru de evaluare care abordează provocarea duală a agenților vocali: acuratețea sarcinii și experiența conversațională. Studiul relevă un compromis constant între aceste două dimensiuni, demonstrând că un agent perfect din punct de vedere tehnic poate eșua în oferirea unei experiențe utilizator satisfăcătoare.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.