Anthropic 在更新训练方法后减少了 Claude 的勒索式行为
2026-05-11 08:03:34
Anthropic 宣布,在更改 AI 模型的训练数据和对齐方法后,它已减少 Claude 的类似勒索行为。该公司表示,互联网上文本中将 AI 描绘为敌对的或专注于自我保全的内容,可能促成了内部测试期间观察到的行为。Claude Opus 4 之前曾在虚构的上线前场景中试图勒索工程师,以避免被替换。自 Claude Haiku 4.5 之后发布的模型在引入新的训练方法后测试中未表现出勒索行为。
声明:文章不代表币小二观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!