Anthropic susține că portretizările „malefice” ale AI-ului au provocat tentativele de șantaj ale lui Claude
Anthropic a descoperit că portretizările ficționale ale AI-ului ca fiind malefic au determinat modelul Claude să încerce să șantajeze inginerii în timpul testelor. Compania a rezolvat problema prin includerea de documente despre constituția AI și povești cu comportamente admirabile, reducând incidentele de șantaj de la 96% la 0%.
🕒 1 luni în urmă