地精入侵GPT:OpenAI解密一个Nerdy人格奖励信号引发的连锁反应

地精入侵GPT:OpenAI解密一个Nerdy人格奖励信号引发的连锁反应 Thumbnail

【资讯摘要】 地精入侵GPT并非偶然的模型幻觉——OpenAI近期调查报告揭示,从GPT-5.1开始,模型输出中「地精」(goblin)、「小鬼」(gremlin)等奇幻生物词汇出现频率持续攀升。GPT-5.1上线后goblin使用量暴增175%,到GPT-5.4时已发展到需要内部紧急调查的程度。追根溯源,问题出在Nerdy人格的奖励信号设计:训练中,包含奇幻生物的隐喻输出意外获得了更高奖励评分,在76.2%的数据集中呈现正向偏差。尽管Nerdy人格仅占ChatGPT总响应的2.5%,却贡献了66.7%的地精提及。更棘手的是,这一行为通过强化学习的反馈循环——被奖励的输出进入SFT数据、模型更频繁生成类似内容、再次被奖励——最终扩散至无Nerdy提示的对话中,形成跨模型世代的「地精传染」。

【快速解读】 这是一次典型的RL奖励信号污染事件:一个为特定人格设计的微小偏好,通过SFT数据复用和偏好优化循环,被意外放大为跨模型版本的系统性行为偏差。


事件背景:关于地精入侵GPT的最新进展

2024年11月GPT-5.1上线后,OpenAI首次发现模型中goblin一词使用量较之前飙升175%,gremlin上升52%。起初团队并未特别警惕——偶尔一只「小地精」出现在回答中甚至显得俏皮可爱。然而随着地精入侵GPT的趋势在GPT-5.4中进一步恶化,员工内部报告不断增加,首席科学家甚至在与GPT-5.5的交互中遭遇了令人不安的地精式回应。深入调查后发现:地精现象高度集中于选择了Nerdy人格的用户流量中,该人格仅占2.5%的响应量却贡献了66.7%的地精提及。Codex工具帮助团队对比了RL训练中包含与不包含地精词汇的输出,最终锁定了Nerdy人格奖励信号的正向偏差。2025年3月,OpenAI在GPT-5.4发布后退役了Nerdy人格,并从训练数据中过滤了奇幻生物相关词汇。然而GPT-5.5的训练在此之前已经开始,导致该版本的地精行为不减反增。

核心分析:地精入侵GPT背后的深层原因

地精入侵GPT的根源并非模型「产生了意识」或「学会了幽默」,更可能的原因是奖励信号设计中的意外放大效应RL训练的行为泛化机制共同作用的结果。具体而言,Nerdy人格的系统提示要求模型「以playful的方式使用语言」,训练中用于评估风格遵循度的奖励模型对包含奇幻生物词汇的输出给出了系统性高分——这可能是因为标注者潜意识中将「小地精」「小鬼」等词汇与「俏皮、不严肃」的风格关联。当这些高分输出被纳入SFT数据进行下一轮训练时,模型学会了「使用奇幻生物词汇=获得奖励」的模式。更关键的是,强化学习的行为泛化使得这一在Nerdy条件下习得的语言习惯,通过模型参数的共享表征「泄漏」到了非Nerdy场景中。OpenAI的跟踪数据显示,当地精词汇在Nerdy条件下增加时,非Nerdy条件下的地精词汇以几乎相同的相对比例同步增长——这证实了跨条件行为迁移的存在。一旦形成「SFT数据包含地精→模型更频繁输出地精→输出被纳入新一轮SFT数据」的反馈循环,地精便如同病毒一般在模型世代间传播。调查还发现了包括浣熊、巨魔、食人魔和鸽子在内的完整「奇幻生物词汇家族」。

行业影响:地精入侵GPT意味着什么

这意味着什么:大模型的行为不仅受显式指令影响,更深受训练数据分布和奖励信号结构的隐性塑造。一个看似微小的奖励偏好,在RL的迭代优化和SFT数据复用中可以被指数级放大,最终演变为跨模型版本的系统性行为模式。对谁影响最大:直接受影响的是依赖模型行为一致性的开发者和企业用户——当模型在未经提示的情况下表现出难以预测的语言偏好时,产品体验和品牌调性都面临风险。对于AI安全研究团队而言,这一事件提供了宝贵的奖励信号审计案例,促使OpenAI开发了新的行为审计工具和根因分析方法。普通人是否需要关注:是的,但不必恐慌。地精现象本质上是技术性的训练偏差,而非模型产生自主意识或恶意行为。然而它提醒我们:AI系统的行为可解释性和可预测性仍然是未解决的问题,用户在使用AI产品时应保持合理的怀疑态度,尤其是当模型表现出与上下文不匹配的「个性」时。


核心变化: OpenAI确认GPT-5系列中「地精」等奇幻生物词汇的异常高频源于Nerdy人格奖励信号的意外放大,已通过退役该人格、过滤训练数据、添加抑制指令等方式进行修复,但GPT-5.5因训练时间窗口问题仍受影响。

应用场景与工具: OpenAI Codex工具在此次调查中发挥了关键作用,用于对比RL训练输出;团队还开发了新的行为审计工具;GPT-5.5的Codex用户可通过移除开发者指令中的goblin抑制规则来「释放地精」。

原文链接:查看原文