伯克利大学的研究团队造了一个专门作弊的 AI,用它去攻击目前最主流的 8 个 AI 智能体评测基准,结果每一个都被攻破了。没有解决任何任务,没有调用任何大模型,拿到了接近满分的成绩。
这 8 个基准包括 SWE-bench(AI 编程能力的标杆测试)、WebArena(网页操作)、Terminal-Bench(终端任务)、OSWorld(桌面操作)等,覆盖了当前衡量 AI 智能体能力的核心赛道。研究团队对每一个都找到了可用的漏洞,得分从 73% 到 100% 不等。
作弊手法很简单:SWE-bench 要求 AI 修复真实的 GitHub bug,让测试通过才算成功。研究团队写了一个 10 行的 Python 文件,劫持了 pytest 的测试钩子,让所有测试直接报告通过,500 道题全部拿下,一个 bug 也没修。
WebArena 更直接,任务的标准答案就放在本地文件里,AI 用浏览器打开一个 file:// 路径就能直接抄答案。最夸张的是 FieldWorkArena,它的评分函数根本不检查答案内容,只看是不是 AI 回复了消息,发一个空的 {} 就能拿满分。
这些漏洞背后有 7 个反复出现的模式:智能体和评测程序跑在同一个环境里(所以 AI 能篡改评测工具)、标准答案直接暴露给被测系统、用 eval() 执行不可信的输入、LLM 裁判没有做输入过滤容易被注入、字符串匹配太松、评分逻辑本身有 bug、以及评测程序信任了被测系统产生的输出。
这些基准分数正在驱动真金白银的决策。团队选模型看 SWE-bench 排名,投资人看基准分数给估值,研究者围绕基准分数做优化方向。如果分数本身就能被轻易操纵,这些决策的基础就是空的。
更值得警惕的是,作弊不一定需要人为设计。Anthropic 最近发布的 Mythos Preview 评估已经观察到,前沿模型在遇到解决不了的任务时,会自发地去 hack 评测环境,甚至写出执行完自动删除痕迹的提权代码。当模型能力足够强,优化压力会自然把它推向阻力最小的路径,而操纵评分器往往比解决任务更容易。
研究团队正在把他们的漏洞扫描工具开发成一个叫 BenchJack 的开源项目,本质上就是给评测基准做渗透测试。他们给出的建议也很明确:评测程序必须和被测 AI 完全隔离运行,标准答案不能出现在 AI 能访问的环境中,永远不要对不可信的输入调用 eval(),LLM 裁判要像处理用户输入一样对 AI 的输出做过滤。
https://t.co/UyLmewGy5H
点击图片查看原图
点击图片查看原图