OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

OpenAI正儿八经写了一篇研究复盘，标题看起来却像个段子：

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

GPT-5.5爱说哥布林，正是这两天OpenAI用户最热议话题。

起初，是有人发现Codex系统提示词中特别强调了两遍：禁止谈论哥布林、妖精、巨魔等生物。

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

进一步发酵，是大模型竞技场做了个全面测试，发现随着模型版本更新，这些奇幻生物开始多到很难忽略。

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

现在，OpenAI官网发公告正式回应这个问题，还在调查过程中更了解如何控制模型行为了。

以下是OpenAI公告全文翻译整理。

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

哥布林来自哪里

从GPT-5.1开始，我们的模型开始养成一个奇怪的习惯：越来越多地在比喻中提及哥布林、地精和其他奇幻生物。

与那些通过评估结果骤降或训练指标飙升而暴露出来的问题不同，这个错误悄然出现，并且很难定向到来自哪次更新。

答案中出现一个“哥布林”可能无伤大雅，甚至还挺可爱。

然而，随着模型版本更新，这个习惯变得越来越明显：哥布林的数量不断增长，我们需要找出它们的根源。

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

简而言之，模型行为受许多微小激励因素的影响。

在本例中，其中一个激励因素来自对模型进行人格定制功能，尤其是“书呆子”（Nerd）人格的训练。

我们无意中对使用生物比喻的模型给予了特别高的奖励。由此，这些比喻开始扩散开来。

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

起初，这些哥布林们看起来很有趣，但员工举报的数量不断增加，令人担忧。

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

奇幻生物的最初迹象

我们第一次清晰地观察到这种模式是在25年11月，也就是GPT-5.1发布之后，尽管它可能出现得更早。

有用户抱怨GPT-5.1在对话中表现得异常亲昵，这促使我们对一些特定的语言习惯展开调查。

一位安全研究人员遇到了一些“goblin”（哥布林）和“gremlin”（小精灵）之类的词语，并要求将它们纳入检查范围。

我们的调查发现，在GPT-5.1发布后，ChatGPT 中“goblin”的使用率上升了175%，而“gremlin”的使用率上升了52%

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

当时情况似乎并不特别令人担忧。几个月后，哥布林以一种更加具体、更容易重现的形式再次困扰着我们。解开哥布林之谜

GPT-5.4之后，我们和用户都注意到提及这些生物的次数显著增加。

这促使我们进行了另一次内部分析，并首次发现了根本原因：

在选择了“书呆子”人格的用户的生产环境中，提及这些生物的语言尤为常见。

“书呆子”人格使用了以下系统提示，这在一定程度上解释了这种怪异现象：

你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师，指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[…] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙，这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时，切忌陷入自命不凡的陷阱。[…]

如果这种行为仅仅是一种普遍的互联网流行更，我们预期它会更均匀地传播。

然而，事实并非如此，它集中在系统中专门针对轻松、书呆子风格进行优化的部分。

书呆子风格仅占ChatGPT所有回复的2.5%，但在ChatGPT所有提及“goblin”的回复中，书呆子风格占了66.7%。

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

由于“哥布林”现象在我们发布的模型中似乎愈演愈烈，我们怀疑是我们性格指导遵循训练中的某些内容加剧了这种情况。

Codex帮助我们比较了强化学习训练过程中包含“goblin”或“gremlin”词汇的模型输出与同一任务中不包含这些词汇的输出。

一个奖励信号立刻脱颖而出：

最初旨在鼓励“书呆子”人格设计的奖励信号，更倾向于包含生物词汇的输出。

在审核的所有数据集中，“书呆子”人格奖励都表现出明显的倾向，即对包含“goblin”或“gremlin”词汇的同一问题的输出给予更高的评分，在 76.2%的数据集中均观察到了这种正向提升。

这就解释了为什么在“书呆子”性格提示下这种行为会增强，但无法解释为什么即使没有这个提示，这种行为也会出现。

为了检验这种行为风格是否具有迁移性，我们追踪了在有无“书呆子”性格提示的情况下，训练过程中提及该行为的频率。

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

在具有书呆子人格特质的样本中，“哥布林”和“小妖精”这两个词的提及率有所增加，而在不具有这种特质的样本中，这两个词的提及率也以几乎相同的比例增加。

这些证据表明，这种更广泛的行为模式是通过书呆子人格训练的迁移而产生的。

奖励仅在“书呆子”条件下应用，但强化学习并不能保证习得的行为始终局限于产生它们的条件。一旦某种风格习惯获得奖励，后续训练就可能将其传播或强化到其他情况，尤其是在监督式微调或偏好数据中重复使用这些输出时。

这就形成了一个反馈循环：俏皮的表达风格会获得正向奖励部分被奖励的样本里，带有一种独特的用词口头禅/句式癖这类语言癖好在模型生成样本（rollouts）中出现得越来越频繁模型自主生成的样本，会被用于有监督微调（SFT）久而久之，模型会越来越习惯、自然地输出这种固定用词癖好

对GPT-5.5的SFT数据进行搜索后发现，许多数据点包含“goblin”和“gremlin”。

进一步调查揭示了一系列其他奇特生物：浣熊、巨魔、食人魔和鸽子也被识别为其他抽动词，而大多数对“frog”（青蛙）的使用则被证实是合理的。

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

GPT-5.4 Thinking中出现次数的下降是由于3月中旬弃用了“书呆子”人格所致。

GPT-5.5从未发布过“书呆子”人格，但出现次数比GPT-5.4有所增长。

哥布林的末日

我们在3月份发布GPT-5.4后，弃用了“书呆子”人格。

在训练过程中，我们移除了与哥布林相关的奖励信号，并过滤了包含生物词汇的训练数据，从而降低了哥布林过度出现或出现在不恰当语境中的可能性。

不幸的是，GPT-5.5的训练开始于我们找到哥布林问题的根本原因之前。当我们在Codex中测试GPT-5.5时，OpenAI员工立即注意到它对哥布林的异常偏好，我们随即添加了一条开发者提示指令来缓解这个问题。

毕竟，Codex本身就相当书呆子气。

如果你想让奇幻生物在Codex中保留，你可以运行以下命令来启动Codex，同时移除抑制哥布林的指令：

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && jq -r ‘.models[] | select(.slug==”gpt-5.5″) | .base_instructions’ ~/.codex/models_cache.json | grep -vi ‘goblins’ > “$instructions” && codex -m gpt-5.5 -c “model_instructions_file=”$instructions””