OpenAI 推出了能够让Agent长时间连续运行的 /goal。不少人已经成功实践。
Peter Steinberger 的一项 Goal 已经运行了 11 小时 31 分钟。@ynkzlk 也分享了一次真实案例:他的 Codex /goal 连续运行 6 小时 44 分钟,中间 laptop 关闭、暂停 5 个多小时,回来后 Codex 自动恢复执行,最终完成任务。他的博客详细介绍了他是怎么做到的。
第一,/goal 帮他做了什么?
他把一个 TypeScript monorepo 里的语音访谈系统交给 Codex,让它验证并修复多个端到端场景。整个任务跑了 6 小时 44 分钟,真正模型计算时间大约 41 分钟,累计输入约 680 万 tokens,cache hit rate 约 94%,最后状态是 TASK_COMPLETE。四个目标场景全部通过验证。
第二,/goal 能成功运行的关键是什么?
不是“让 agent 自己想办法”,而是 upfront contract 写得足够清楚。作者的结构化的prompt 大约 600 字,包含明确目标、先读哪些文件、工作规则、完成标准、以及不能走的歪路。尤其重要的是 done_when,也就是任务什么时候算完成。没有这个,agent 要么过早宣布完成,要么一直绕圈。
第三,什么任务不适合用 /goal?
不适合探索型任务,不适合成功标准不清楚的任务,不适合安全敏感路径,不适合依赖外部系统但你还没确认可行性的任务,也不适合十分钟就能交互完成的小任务。作者的判断很实用:如果一个任务本来就不需要跨越两个以上 session,那大概率不需要 /goal。
我觉得这才是 agentic engineering 的关键变化:人不再只是边看边改的 supervisor,而更像 architect。你先写清楚目标、边界、完成条件和失败模式,然后让 agent 长时间执行。Codex的/goal其实也是在考验我们能不能把一个模糊问题,变成一个 agent 可以独立执行、验证、收尾的工程 contract的能力。
点击图片查看原图