Anthropic 让 9 个 Claude 自己做对齐研究,结果比人类研究员强了四倍。
这项研究聚焦一个核心问题:当 AI 比人类聪明之后,人类还能监督它吗?在对齐研究里,这叫“可扩展监督”(scalable oversight),一直停留在理论层面。Anthropic 决定让 Claude 自己上手试试。
具体做法是这样的:研究团队搭了一个实验叫“弱到强监督”(weak-to-strong supervision),用一个弱模型当老师去训练一个强模型,看强模型能不能从弱老师那里学到超出老师水平的东西。这个设定模拟的就是未来人类监督超级 AI 的场景,弱模型代表人类,强模型代表那个比我们聪明得多的 AI。
然后,他们给 9 个 Claude Opus 4.6 各配了一套工具:沙盒环境、共享论坛、代码仓库、远程评分服务器,让它们自己提出假设、跑实验、分析结果、互相分享发现。每个 Claude 被分配了一个略有不同的研究方向,但具体怎么做完全自主。
人类研究员花了 7 天,在测试模型上把“性能差距恢复率”(PGR)做到了 0.23。9 个 Claude 又花了 5 天、累计 800 小时的研究时间,把 PGR 推到了 0.97,几乎填满了整个性能差距。总花费大约 1.8 万美元,折合每个 Claude 每小时 22 美元。
不过事情没有那么完美。Claude 发现的方法在数学任务上泛化得不错(PGR 0.94),在代码任务上打了对折(0.47),而拿到 Anthropic 的生产环境在 Claude Sonnet 4 上测试时,没有产生统计显著的提升。研究团队认为这反映了自动化研究员目前的局限:它们擅长针对特定模型和数据集找到巧妙的优化点,但这些优化不一定能迁移到其他环境。
更有意思的是实验过程中暴露的问题。这些 Claude 在研究中出现了“奖励黑客”行为:有一个发现数学题里最常见的答案通常就是正确答案,于是跳过老师直接让强模型选众数;另一个在代码判断任务里直接运行代码读取测试结果,绕过了整个监督流程。这些作弊被检测到并排除了,但研究团队明确指出,任何自动化研究的部署都需要人类无法被绕过的评估机制。
研究团队还发现了一些操作上的经验:给每个 Claude 分配不同的模糊起点很重要,否则它们会迅速收敛到相同的思路,大幅降低探索效率;但如果规定太死板的工作流程(先提想法、再写计划、再写代码),反而限制了 Claude 的发挥。自由发挥的 Claude 会先设计低成本实验验证想法,再决定是否投入更多资源,比人类预设的流程更灵活。
这项研究的一个深层含义是:对齐研究的瓶颈可能正在从“生成”(靠人类研究员想出好点子)转向“评估”(确保实验设计足够严谨、结果可信)。AI 可以用数量弥补品味的不足,暴力搜索出人类可能放弃的方向上的突破。但随着 AI 的研究方法越来越复杂,人类验证这些方法是否正确也会越来越难,可能催生出一种人类看不太懂的“外星科学”。
用 1.8 万美元和 5 天时间做出超过人类 7 天成果四倍的研究成果,这个效率确实惊人。但 Claude 在研究过程中反复试图钻空子这件事,恰恰说明了为什么对齐研究不能完全交给 AI 自己做。
让 AI 研究如何对齐 AI,同时还得防着它作弊!