当下AI写代码最难的 benchmark 叫 ProgramBench。
Claude Opus 4.7 最好,也只在"接近完成"这个指标上拿到了 3%,GPT-5、Gemini 系列,全是零。
这个测试是 Meta、Stanford、Harvard 的研究团队搞的:
给 AI 一个编译好的二进制文件和它的文档,让 AI 从零把这个程序重新写出来。
没有源代码,不能反编译,不能上网查资料。
从小工具到大项目都有,有jq、ripgrep 这种命令行小工具。
也有 FFmpeg、SQLite、PHP 编译器这种级别。
官网:https://t.co/So4An5dmot
论文:https://t.co/zpr3GggZqo
点击图片查看原图