AI的“哥布林”怪癖：OpenAI深度解析

type

status

date

slug

summary

意料之外的“哥布林”出现：从用户反馈到官方关注

起初，一些用户在与OpenAI的Codex系统互动时，注意到提示词中特别强调了“禁止谈论哥布林、妖精、巨魔等生物”。这似乎预示着模型可能存在与这些生物相关的倾向。随后，AI模型竞技场（LLM Arena）等平台的全面测试证实了这一趋势：随着模型版本的更新，奇幻生物的提及频率显著增加，甚至到了难以忽视的地步。

这种现象与传统的模型错误（如评估结果骤降或训练指标飙升）截然不同，它悄无声息地出现，并逐渐成为用户讨论的焦点。用户反馈称，模型在比喻中越来越多地使用“哥布林”等词汇，这种行为从GPT-5.1版本开始变得明显，并在后续版本中愈演愈烈。对于一个旨在提供准确、有用信息的人工智能来说，这种“哥布林”的出现，无论是有趣还是烦人，都迫切需要一个科学的解释。

探究根源：“书呆子”人格与奖励信号的微妙联动

OpenAI的研究揭示，这一“哥布林”现象的根源，与模型的人格定制功能，特别是“书呆子”（Nerd）人格的训练过程密切相关。在设计“书呆子”人格时，研究人员无意中对使用生物比喻的模型给予了特别高的奖励。这意味着，当模型生成包含“哥布林”等词汇的输出时，它会获得一个正向的激励信号，从而鼓励其未来更多地使用这类表达。

“书呆子”人格的系统提示，虽然旨在赋予模型一种轻松、学究式的风格，却意外地成为了“哥布林”泛滥的温床。数据显示，尽管“书呆子”风格仅占ChatGPT所有回复的2.5%，但在所有提及“goblin”的回复中，它却占据了高达66.7%的比例。这清晰地表明，这种行为并非普遍的网络流行语，而是高度集中在经过特定优化（即“书呆子”人格）的模型部分。

起初，这些“哥布林”的比喻可能显得有趣，但随着员工举报数量的增加，其潜在的失控风险开始引起OpenAI的高度重视。

行为迁移：奖励信号如何跨越界限

更深层次的挑战在于，这种因“书呆子”人格训练而产生的行为，并非局限于该特定人格。OpenAI的调查发现，即使在没有明确“书呆子”人格提示的情况下，模型中“哥布林”和“小妖精”的提及率也以相似的比例增加。这揭示了一个关键的AI学习机制：行为迁移。

强化学习（RL）训练过程中，一旦某种风格或用词习惯获得了奖励，即使该奖励仅在特定条件下产生，其学习到的模式也可能通过后续的监督式微调（SFT）或偏好数据，传播和强化到其他不相关的场景中。换句话说，模型学会了“哥布林”的表达方式，并将这种“风格癖好”迁移到了更广泛的生成任务中，形成了一个反馈循环：俏皮表达获得奖励 -> 奖励样本中出现特定用词 -> 该用词在模型生成样本中频繁出现 -> 这些样本被用于SFT -> 模型越来越习惯于输出该用词。

在对GPT-5.5的SFT数据进行搜索时，研究人员确实发现了大量包含“goblin”和“gremlin”的数据点。此外，还识别出其他一些“抽动词”（twitch words），如浣熊、巨魔、食人魔和鸽子，尽管对“frog”（青蛙）的使用被证实是合理的。

OpenAI的应对策略与AI研究的深远意义

面对日益增长的“哥布林”问题，OpenAI采取了一系列措施。在GPT-5.4发布后，他们迅速弃用了“书呆子”人格，并移除了与之相关的奖励信号，同时过滤了包含生物词汇的训练数据。然而，GPT-5.5的训练开始得比找到根本原因要早，因此在Codex中测试GPT-5.5时，对“哥布林”的偏好依然明显。为此，OpenAI添加了开发者提示指令来缓解这一问题。

“哥布林”事件虽然看似小题大做，但它强有力地证明了奖励信号如何以意想不到的方式塑造模型行为，以及模型如何将特定情境下的学习泛化到不相关的领域。这一研究不仅帮助OpenAI开发了新的工具来审核和解决模型行为异常，也为整个AI社区敲响了警钟。

在AI变现和应用日益广泛的今天，理解和控制AI的行为至关重要。无论是AI日报、AGI的探索，还是LLM的优化，都需要建立在对模型内在机制的深刻认知之上。OpenAI的这次“哥布林”事件，正是AI研究领域的一次宝贵实践，它提醒我们，在追求更强大AI能力的同时，必须投入足够的精力去理解和管理AI的“个性”与“习惯”，确保AI技术朝着更安全、可控、有益的方向发展。对于关注AI新闻、AI资讯、AI门户的读者而言，这无疑是一次值得深思的案例，它也让我们对AI的未来，包括GPT等模型的持续演进，有了更深一层的理解。