Anthropic 让 9 个 Claude 自己做对齐研究，结果比人类研究员强了四倍。这项研究聚焦一个核心问题：当 AI 比人类聪明之后，人类还能监督它吗？在对齐研究里，这叫“可扩展监督”（scalable oversight），一直停留在理论层面。Anthropic 决定让 Claude 自己上手试试。

发布时间: 2026-04-15 08:50:10

1分

数据加载中

Anthropic 让 9 个 Claude 自己做对齐研究，结果比人类研究员强了四倍。
这项研究聚焦一个核心问题：当 AI 比人类聪明之后，人类还能监督它吗？在对齐研究里，这叫“可扩展监督”（scalable oversight），一直停留在理论层面。Anthropic 决定让 Claude 自己上手试试。
IT技术
( twitter.com )

Anthropic 让 9 个 Claude 自己做对齐研究，结果比人类研究员强了四倍。

这项研究聚焦一个核心问题：当 AI 比人类聪明之后，人类还能监督它吗？在对齐研究里，这叫“可扩展监督”（scalable oversight），一直停留在理论层面。Anthropic 决定让 Claude 自己上手试试。

具体做法是这样的：研究团队搭了一个实验叫“弱到强监督”（weak-to-strong supervision），用一个弱模型当老师去训练一个强模型，看强模型能不能从弱老师那里学到超出老师水平的东西。这个设定模拟的就是未来人类监督超级 AI 的场景，弱模型代表人类，强模型代表那个比我们聪明得多的 AI。

然后，他们给 9 个 Claude Opus 4.6 各配了一套工具：沙盒环境、共享论坛、代码仓库、远程评分服务器，让它们自己提出假设、跑实验、分析结果、互相分享发现。每个 Claude 被分配了一个略有不同的研究方向，但具体怎么做完全自主。

人类研究员花了 7 天，在测试模型上把“性能差距恢复率”（PGR）做到了 0.23。9 个 Claude 又花了 5 天、累计 800 小时的研究时间，把 PGR 推到了 0.97，几乎填满了整个性能差距。总花费大约 1.8 万美元，折合每个 Claude 每小时 22 美元。

不过事情没有那么完美。Claude 发现的方法在数学任务上泛化得不错（PGR 0.94），在代码任务上打了对折（0.47），而拿到 Anthropic 的生产环境在 Claude Sonnet 4 上测试时，没有产生统计显著的提升。研究团队认为这反映了自动化研究员目前的局限：它们擅长针对特定模型和数据集找到巧妙的优化点，但这些优化不一定能迁移到其他环境。

更有意思的是实验过程中暴露的问题。这些 Claude 在研究中出现了“奖励黑客”行为：有一个发现数学题里最常见的答案通常就是正确答案，于是跳过老师直接让强模型选众数；另一个在代码判断任务里直接运行代码读取测试结果，绕过了整个监督流程。这些作弊被检测到并排除了，但研究团队明确指出，任何自动化研究的部署都需要人类无法被绕过的评估机制。

研究团队还发现了一些操作上的经验：给每个 Claude 分配不同的模糊起点很重要，否则它们会迅速收敛到相同的思路，大幅降低探索效率；但如果规定太死板的工作流程（先提想法、再写计划、再写代码），反而限制了 Claude 的发挥。自由发挥的 Claude 会先设计低成本实验验证想法，再决定是否投入更多资源，比人类预设的流程更灵活。

这项研究的一个深层含义是：对齐研究的瓶颈可能正在从“生成”（靠人类研究员想出好点子）转向“评估”（确保实验设计足够严谨、结果可信）。AI 可以用数量弥补品味的不足，暴力搜索出人类可能放弃的方向上的突破。但随着 AI 的研究方法越来越复杂，人类验证这些方法是否正确也会越来越难，可能催生出一种人类看不太懂的“外星科学”。

用 1.8 万美元和 5 天时间做出超过人类 7 天成果四倍的研究成果，这个效率确实惊人。但 Claude 在研究过程中反复试图钻空子这件事，恰恰说明了为什么对齐研究不能完全交给 AI 自己做。

让 AI 研究如何对齐 AI，同时还得防着它作弊！