OpenAI 追踪 Goblin 问题到书呆子型人格奖励信号,Goblin 提到其在 GPT-5.1 中飙升 175%
2026-04-30 12:04:21
根据 OpenAI, 该公司确定了从 GPT-5.1 开始困扰 GPT 模型的“哥布林”问题的根本原因。用于强化“书呆子(Nerdy)”人格特质的奖励信号,鼓励生成包含奇幻生物引用的内容,而 76.2% 的训练数据集显示存在这种偏置。“书呆子(Nerdy)”人格仅占 ChatGPT 回答的 2.5%,但却贡献了 66.7% 的“哥布林(goblin)”提及,且从 GPT-5.2 到 GPT-5.4 的出现次数飙升了 3,881%。
OpenAI 于 3 月移除了“书呆子(Nerdy)”人格,消除了有偏置的奖励信号,并对训练数据进行了过滤。该公司还在 Codex 中为 GPT-5.5 的开发者提示加入了抑制指令。此次调查促成了新模型行为审计工具的开发。
声明:文章不代表币小二观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!