WorldNews

Subiect: #LifeSciBench

OpenAI lansează LifeSciBench: un benchmark cu 750 de sarcini pentru evaluarea modelelor AI în cercetarea științifică reală

OpenAI a lansat LifeSciBench, un benchmark cu 750 de sarcini și rubrici create de experți, pentru a evalua capacitatea modelelor AI de a rezolva probleme reale din științele vieții. Primele teste arată că modelele performează bine la sarcini de memorare, dar se luptă cu raționamentul complex.

🕒 2 zile în urmă

Filtrează articolele

Subiect: #LifeSciBench

OpenAI lansează LifeSciBench: un benchmark cu 750 de sarcini pentru evaluarea modelelor AI în cercetarea științifică reală