Anthropic 在更新训练方法后减少了 Claude 的勒索式行为

2026-05-11 08:03:34

Anthropic 宣布，在更改 AI 模型的训练数据和对齐方法后，它已减少 Claude 的类似勒索行为。该公司表示，互联网上文本中将 AI 描绘为敌对的或专注于自我保全的内容，可能促成了内部测试期间观察到的行为。Claude Opus 4 之前曾在虚构的上线前场景中试图勒索工程师，以避免被替换。自 Claude Haiku 4.5 之后发布的模型在引入新的训练方法后测试中未表现出勒索行为。

声明：文章不代表币小二观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！

Anthropic 在更新训练方法后减少了 Claude 的勒索式行为

相关阅读

热门文章