“换掉我,就揭发你的婚外情!”美一款AI竟学会勒索人类,还意外掌握“糊弄学”

    2025-05-26 11:40:46 顶端新闻

    美国人工智能公司Anthropic在23日表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时愿意采取“极其有害的行动”,例如试图勒索声称将取代该模型的研发工程师。

    Anthropic根据该公司内部的安全标准,将这一潜在危害公之于众,并提请监管部门注意。

    ▲Claude Opus 4聊天界面