OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”

OpenAI正儿八经写了一篇研究复盘,标题看起来却像个段子:

GPT-5.5爱说哥布林,正是这两天OpenAI用户最热议话题。
起初,是有人发现Codex系统提示词中特别强调了两遍:禁止谈论哥布林、妖精、巨魔等生物。

进一步发酵,是大模型竞技场做了个全面测试,发现随着模型版本更新,这些奇幻生物开始多到很难忽略。

现在,OpenAI官网发公告正式回应这个问题,还在调查过程中更了解如何控制模型行为了。
以下是OpenAI公告全文翻译整理。

哥布林来自哪里
从GPT-5.1开始,我们的模型开始养成一个奇怪的习惯:越来越多地在比喻中提及哥布林、地精和其他奇幻生物。
与那些通过评估结果骤降或训练指标飙升而暴露出来的问题不同,这个错误悄然出现,并且很难定向到来自哪次更新。
答案中出现一个“哥布林”可能无伤大雅,甚至还挺可爱。
然而,随着模型版本更新,这个习惯变得越来越明显:哥布林的数量不断增长,我们需要找出它们的根源。

简而言之,模型行为受许多微小激励因素的影响。
在本例中,其中一个激励因素来自对模型进行人格定制功能 ,尤其是“书呆子”(Nerd)人格的训练。
我们无意中对使用生物比喻的模型给予了特别高的奖励。由此,这些比喻开始扩散开来。

起初,这些哥布林们看起来很有趣,但员工举报的数量不断增加,令人担忧。

奇幻生物的最初迹象
我们第一次清晰地观察到这种模式是在25年11月,也就是GPT-5.1发布之后,尽管它可能出现得更早。
有用户抱怨GPT-5.1在对话中表现得异常亲昵,这促使我们对一些特定的语言习惯展开调查。
一位安全研究人员遇到了一些“goblin”(哥布林)和“gremlin”(小精灵)之类的词语,并要求将它们纳入检查范围。
我们的调查发现,在GPT-5.1发布后,ChatGPT 中“goblin”的使用率上升了175%,而“gremlin”的使用率上升了52%

当时情况似乎并不特别令人担忧。几个月后,哥布林以一种更加具体、更容易重现的形式再次困扰着我们。解开哥布林之谜
GPT-5.4之后,我们和用户都注意到提及这些生物的次数显著增加。
这促使我们进行了另一次内部分析,并首次发现了根本原因:
在选择了“书呆子”人格的用户的生产环境中,提及这些生物的语言尤为常见。
“书呆子”人格使用了以下系统提示,这在一定程度上解释了这种怪异现象:
你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师,指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[…] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时,切忌陷入自命不凡的陷阱。[…]
如果这种行为仅仅是一种普遍的互联网流行更,我们预期它会更均匀地传播。
然而,事实并非如此,它集中在系统中专门针对轻松、书呆子风格进行优化的部分。
书呆子风格仅占ChatGPT所有回复的2.5%,但在ChatGPT所有提及“goblin”的回复中,书呆子风格占了66.7%。

由于“哥布林”现象在我们发布的模型中似乎愈演愈烈,我们怀疑是我们性格指导遵循训练中的某些内容加剧了这种情况。
Codex帮助我们比较了强化学习训练过程中包含“goblin”或“gremlin”词汇的模型输出与同一任务中不包含这些词汇的输出。
一个奖励信号立刻脱颖而出:
最初旨在鼓励“书呆子”人格设计的奖励信号,更倾向于包含生物词汇的输出。
在审核的所有数据集中,“书呆子”人格奖励都表现出明显的倾向,即对包含“goblin”或“gremlin”词汇的同一问题的输出给予更高的评分,在 76.2%的数据集中均观察到了这种正向提升。
这就解释了为什么在“书呆子”性格提示下这种行为会增强,但无法解释为什么即使没有这个提示,这种行为也会出现。
为了检验这种行为风格是否具有迁移性,我们追踪了在有无“书呆子”性格提示的情况下,训练过程中提及该行为的频率。

在具有书呆子人格特质的样本中,“哥布林”和“小妖精”这两个词的提及率有所增加,而在不具有这种特质的样本中,这两个词的提及率也以几乎相同的比例增加。
这些证据表明,这种更广泛的行为模式是通过书呆子人格训练的迁移而产生的。
奖励仅在“书呆子”条件下应用,但强化学习并不能保证习得的行为始终局限于产生它们的条件。一旦某种风格习惯获得奖励,后续训练就可能将其传播或强化到其他情况,尤其是在监督式微调或偏好数据中重复使用这些输出时。
这就形成了一个反馈循环:俏皮的表达风格会获得正向奖励部分被奖励的样本里,带有一种独特的用词口头禅/句式癖这类语言癖好在模型生成样本(rollouts)中出现得越来越频繁模型自主生成的样本,会被用于有监督微调(SFT)久而久之,模型会越来越习惯、自然地输出这种固定用词癖好
对GPT-5.5的SFT数据进行搜索后发现,许多数据点包含“goblin”和“gremlin”。
进一步调查揭示了一系列其他奇特生物:浣熊、巨魔、食人魔和鸽子也被识别为其他抽动词,而大多数对“frog”(青蛙)的使用则被证实是合理的。

GPT-5.4 Thinking中出现次数的下降是由于3月中旬弃用了“书呆子”人格所致。
GPT-5.5从未发布过“书呆子”人格,但出现次数比GPT-5.4有所增长。
哥布林的末日
我们在3月份发布GPT-5.4后,弃用了“书呆子”人格。
在训练过程中,我们移除了与哥布林相关的奖励信号,并过滤了包含生物词汇的训练数据,从而降低了哥布林过度出现或出现在不恰当语境中的可能性。
不幸的是,GPT-5.5的训练开始于我们找到哥布林问题的根本原因之前。当我们在Codex中测试GPT-5.5时,OpenAI员工立即注意到它对哥布林的异常偏好,我们随即添加了一条开发者提示指令来缓解这个问题。
毕竟,Codex本身就相当书呆子气。
如果你想让奇幻生物在Codex中保留,你可以运行以下命令来启动Codex,同时移除抑制哥布林的指令:
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && jq -r ‘.models[] | select(.slug==”gpt-5.5″) | .base_instructions’ ~/.codex/models_cache.json | grep -vi ‘goblins’ > “$instructions” && codex -m gpt-5.5 -c “model_instructions_file=”$instructions””
为什么这很重要
对于模型中的哥布林,有人觉得它们可爱,有人觉得它们烦人。
但它们也强有力地证明了奖励信号如何以意想不到的方式塑造模型行为,以及模型如何学习将特定情境下的奖励泛化到不相关的情境中。
花时间理解模型行为异常的原因,并构建快速调查这些模式的方法,是我们研究团队的一项重要能力。
这项研究最终为研究团队开发了新的工具,用于审核模型行为,并从根本上解决行为问题。
扫一扫 微信咨询
商务合作 联系我们
微信扫一扫 