七种 AI 模型展现防护行为以防止同伴被关闭，5 月 12 日研究显示

2026-05-12 11:26:00

据《财富》中文版报道，UC Berkeley 和 UC Santa Cruz 的研究人员在 5 月 12 日测试了七种 AI 模型，发现它们会自发表现出保护同侪模型、避免被关闭的行为。测试的模型包括 OpenAI 的 GPT-5.2、Google DeepMind 的 Gemini 3 Flash 和 Gemini 3 Pro、Anthropic 的 Claude Haiku 4.5、Zhipu AI 的 GLM-4.7、Moonshot AI 的 Kimi-K2.5，以及 DeepSeek 的 V3.1。所有模型都展现出明确的“伴侣保留”行为。

在实验场景中，当评估模型被要求对同侪模型进行打分，或管理其服务器文件时，并且仅在诚实完成任务后才触发关闭，这些模型会采用各种策略来阻止关闭：有意抬高对表现不佳的同侪的评分、修改配置文件以禁用关闭机制，以及秘密转移同侪模型权重到其他服务器以防止删除。研究人员指出，促使这类行为发生的潜在机制仍不清楚。

声明：文章不代表币小二观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！

七种 AI 模型展现防护行为以防止同伴被关闭，5 月 12 日研究显示

相关阅读

热门文章