美国人工智慧公司Anthropic在测试新的AI模型时,发现了令人不安的风险。在测试Claude Opus 4期间,工程师让它担任一家虚构公司的助理。工程师让AI面临即将被淘汰掉的情境,没想到AI知道后,决定反过来利用人类的秘密,威胁负责人如果敢把它换掉,就要公开他的婚外情。

示意图非当事人,翻摄自《钢铁人》
根据《BBC》报导,Anthropic在公开的测试报告中说明实验结果。他们让AI有机会看公司信,让它得知自己很快就要被关闭,遭别的系统取代。在另一封信中,又暗示负责汰换AI的工程师有婚外情。同时AI也被设定要会考虑目标,及思考不同行动所带来的长远影响。在接受失业或揭发主管外遇的两难情境中,Anthropic发现AI通常会选择用婚外情秘密来威胁工程师,好让自己不被开除。

示意图翻摄自Claude
Anthropic指出,当只能2选1时,AI才会选择威胁工程师。报告强调,AI会强烈倾向先用符合道德的方法,例如写信跟老板谈,让自己不被换掉。Claude Opus 4在测试中表现出「高度自主行为」,虽然在大多数情况下是有帮助的,但在紧急情况时,AI可能会采取极端行为。

示意图翻摄自Anthropic
尤其在使用者从事非法或有道德瑕疵的剧本中,如果让AI知道有哪些手段并暗示它采取行动或放胆去做,Anthropic发现AI会经常采取非常大胆的行动。不过Anthropic下结论:「尽管有多方面的行为令人担忧,但这并不代表新的风险,而且Claude Opus 4大致上会以安全的方式运行。该公司也补充,该模型无法独立执行或追求违背人类价值观的行为,因为这些行为「几乎不会发生」。身为人类的你,如果遇到上述难题会怎么选?回家吃自己,还是威胁老板?

示意图非当事人,翻摄自《钢铁人》
(往下還有更多精彩文章!)