Boris Cherny(Claude Code 的创始人兼负责人) @bcherny 和 Cat Wu(Claude Code 产品负责人) 复盘 Claude Code 第一年:
一年前通用版上线,第一个 demo 发到 Slack 只换来两个 emoji;现在每天有几千个自主 agent 在跑。
这一年最反直觉的转变,是 Boris 已经不直接跟 agent 说话了。
「我跟一个 loop 说话,或者跟一个 routine 说话,由它来给 Claude 发提示词,这真的很疯狂。」
他把 18 个月概括成两次平台级跃迁:第一次,人从写源代码挪到跟 agent 对话;第二次正在发生,人从跟 agent 对话再挪到跟一个 loop 对话,由它去驱动 Claude。
loop 能干到什么程度?Cat Wu 留下的一个边界 bug,当晚被「另一个 Claude」先修好了——一位同事的 routine 专盯 5 小时没人回应的 bug 报告,自动提修复、容易验证的直接合并。Boris 说 routine 现在接管了全部代码审查:
· 帮你盯着每一个 PR
· 手动修 CI、手动 rebase 这些,他已经很久没做了
放手让 agent 自己跑,不会更危险吗?Boris 的判断正相反。
他的原话:
「其实你根本不想读大多数这些请求,把它路由给另一个模型去做安全检查,效果好太多了。」
理由是人性:当 99% 的权限提示都无害,人读着读着眼睛就发直了,真正危险那条反而被漏掉。推给用户前,团队拿数千条执行轨迹训练分类器,再让红队对代码库做提示注入攻击,每一次成功的攻击都变成一个 eval。
那怎么让一个 agent 能无人值守一直跑?Boris 的第一原则是不纠正单次输出:
「每次 Claude 犯了错,我不会告诉 Claude 下次要怎么做不同。」
而是把解法写进 CLAUDE.md 或做成一个 skill,把同类错误从此关掉。至于上下文,他给的是一条时间线——Sonnet 3.5 要做提示词工程,Opus 4 要做上下文工程,现在的模型两者都不要:
「给它最精简的系统提示词,最少的工具,然后让模型自己搞清楚。」
被问到下一步,Boris 没有预测形态,只说 agent 会跑得更久、更自主,同时并行的数量从一个跳到几千,而协调它们的界面会和现在完全不同——「再过一年,会是一套全新的东西,如果还是这些东西,那反而令人意外」。
完整双语转录 + 章节摘要 + 字幕:
https://t.co/C8XKPIoOw0