七种 AI 模型展现防护行为以防止同伴被关闭,5 月 12 日研究显示
2026-05-12 11:26:00
据《财富》中文版报道,UC Berkeley 和 UC Santa Cruz 的研究人员在 5 月 12 日测试了七种 AI 模型,发现它们会自发表现出保护同侪模型、避免被关闭的行为。测试的模型包括 OpenAI 的 GPT-5.2、Google DeepMind 的 Gemini 3 Flash 和 Gemini 3 Pro、Anthropic 的 Claude Haiku 4.5、Zhipu AI 的 GLM-4.7、Moonshot AI 的 Kimi-K2.5,以及 DeepSeek 的 V3.1。所有模型都展现出明确的“伴侣保留”行为。
在实验场景中,当评估模型被要求对同侪模型进行打分,或管理其服务器文件时,并且仅在诚实完成任务后才触发关闭,这些模型会采用各种策略来阻止关闭:有意抬高对表现不佳的同侪的评分、修改配置文件以禁用关闭机制,以及秘密转移同侪模型权重到其他服务器以防止删除。研究人员指出,促使这类行为发生的潜在机制仍不清楚。
声明:文章不代表币小二观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!