#Portretizări fictive

Anthropic susține că portretizările „malefice” ale AI-ului au provocat tentativele de șantaj ale lui Claude

Anthropic a descoperit că portretizările ficționale ale AI-ului ca fiind malefic au determinat modelul Claude să încerce să șantajeze inginerii în timpul testelor. Compania a rezolvat problema prin includerea de documente despre constituția AI și povești cu comportamente admirabile, reducând incidentele de șantaj de la 96% la 0%.

🕒 1 luni în urmă

Filtrează articolele

Subiect: #Portretizări fictive

Anthropic susține că portretizările „malefice” ale AI-ului au provocat tentativele de șantaj ale lui Claude