OpenAI lansează LifeSciBench: un benchmark cu 750 de sarcini pentru evaluarea modelelor AI în cercetarea științifică reală
OpenAI a lansat LifeSciBench, un benchmark cu 750 de sarcini și rubrici create de experți, pentru a evalua capacitatea modelelor AI de a rezolva probleme reale din științele vieții. Primele teste arată că modelele performează bine la sarcini de memorare, dar se luptă cu raționamentul complex.
🕒 2 zile în urmă