担心自己将被淘汰　AI竟威胁工程师「我知道你有外遇」

美國人工智慧公司Anthropic在測試新的AI模型時，發現了令人不安的風險。在測試Claude Opus 4期間，工程師讓它擔任一家虛構公司的助理。工程師讓AI面臨即將被淘汰掉的情境，沒想到AI知道後，決定反過來利用人類的秘密，威脅負責人如果敢把它換掉，就要公開他的婚外情。

August 29, 2025

編輯：樂佩

從小立志成為卡通大會考冠軍的超級電視兒童！

世界, 科技

TEEPR原創

採訪報導

綜合報導

編譯

特稿

美国人工智慧公司Anthropic在测试新的AI模型时，发现了令人不安的风险。在测试Claude Opus 4期间，工程师让它担任一家虚构公司的助理。工程师让AI面临即将被淘汰掉的情境，没想到AI知道后，决定反过来利用人类的秘密，威胁负责人如果敢把它换掉，就要公开他的婚外情。

示意图非当事人，翻摄自《钢铁人》

廣告1

根据《BBC》报导，Anthropic在公开的测试报告中说明实验结果。他们让AI有机会看公司信，让它得知自己很快就要被关闭，遭别的系统取代。在另一封信中，又暗示负责汰换AI的工程师有婚外情。同时AI也被设定要会考虑目标，及思考不同行动所带来的长远影响。在接受失业或揭发主管外遇的两难情境中，Anthropic发现AI通常会选择用婚外情秘密来威胁工程师，好让自己不被开除。

示意图翻摄自Claude

廣告2

Anthropic指出，当只能2选1时，AI才会选择威胁工程师。报告强调，AI会强烈倾向先用符合道德的方法，例如写信跟老板谈，让自己不被换掉。Claude Opus 4在测试中表现出「高度自主行为」，虽然在大多数情况下是有帮助的，但在紧急情况时，AI可能会采取极端行为。

示意图翻摄自Anthropic

尤其在使用者从事非法或有道德瑕疵的剧本中，如果让AI知道有哪些手段并暗示它采取行动或放胆去做，Anthropic发现AI会经常采取非常大胆的行动。不过Anthropic下结论：「尽管有多方面的行为令人担忧，但这并不代表新的风险，而且Claude Opus 4大致上会以安全的方式运行。该公司也补充，该模型无法独立执行或追求违背人类价值观的行为，因为这些行为「几乎不会发生」。身为人类的你，如果遇到上述难题会怎么选？回家吃自己，还是威胁老板？