如果你这几天在用 Codex 写代码,可能撞见过一只“妖精”🤔。
GPT-5.5 在 4 月 23 日上线,搭载在最新的编程智能体 Codex 上。上线没几天,开发者陆续发现一个奇怪的现象:模型会在正常对话里突然冒出“妖精”“地精”这些词,用来代指根本不相关的东西。
让它推荐相机,它会说“如果你想要那种脏脏的霓虹闪光哥布林模式”。让它压缩回答,它说“给你一个更短的哥布林版本”。写代码的时候,它说“我会盯着它,免得留一只小性能地精在那里乱跑”。
4 月 25 日,开发者 Andy Ayrey 在推特上发问:“为什么 GPT-5.5 这么痴迷于哥布林?”事情开始发酵。AI 评测平台 https://t.co/aTMP9bTJtL 用数据验证了这件事:GPT-5.5 输出 goblin、gremlin、troll 这些词的频率确实在涨,非高思考模式下尤其明显。
几天之后,有人在 OpenAI 开源的 Codex CLI 代码里翻出了系统提示词,发现工程师写了这么一句:
“永远不要谈论妖精、地精、浣熊、巨魔、食人魔、鸽子或其他任何动物或生物,除非与用户问题绝对相关。”
同一句话在文件里出现了 4 次。
OpenAI 自己也下场玩梗。ChatGPT 官方账号把这句禁令加进了 X 简介。Sam Altman 先发了张 ChatGPT 截图,配文“开始训练 GPT-6 吧,整个集群都给你,再加点妖精”。几小时后他又发推说“Codex 正在迎来它的 ChatGPT 时刻”,然后立刻自我更正:“我是说哥布林时刻,抱歉。”
今天,OpenAI 发了一篇博客《妖精从哪儿来》,把原因公开了:他们在训练一个叫“Nerdy”(书呆子)的个性化人格时,给“用生物作比喻”的回答打了过高的奖励分。
这个偏好后来泄漏到了其他场景,哪怕用户没选 Nerdy 人格,模型也学会了到处用妖精打比方。GPT-5.1 上线后,“goblin”在 ChatGPT 里的使用率涨了 175%,“gremlin”涨了 52%。3 月份他们下架了 Nerdy 人格,但 GPT-5.5 已经在找到根本原因之前就开始训练了。
工程师能修 bug,修不掉一只在亿级参数里安家的妖精。
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图