2019 年,季逸超(Peak)拿到 GPT-3 内测资格后。
他感觉 "天塌了"。
他和团队没日没夜调优了两周的 NLP 模型,竟然和 GPT-3 随便写个 Prompt 的效果五五开。
那个瞬间他意识到,在通用的算力和算法暴力美学面前,人类精心雕琢的"专家知识"是不堪一击的。
这次经历彻底重塑了他的技术世界观。
这个曾经在高二就开发出猛犸浏览器、20 岁登上《福布斯》封面的天才少年,现在的头衔是 Manus 联合创始人兼首席科学家。
注意,不是 CEO。
他做了一个违背很多创业者自尊心的决定,他不当一号位了。
💠 一个"讨厌管人"的天才
季逸超给出的理由非常直白,"我讨厌管人"。
这不是玩笑。
他说自己能跟电脑聊一整天,但处理人的情绪和组织架构会消耗他巨大的带宽。
更致命的是,他有"艺术家的偏执",容易为了一个技术上的"正道"把油门踩死,哪怕那条路在商业上是死路。
上一次创业做 Magi 搜索引擎时,他选择了"垂直整合",自己训练 NLP 模型,自己做产品。
那种状态他形容为 "每天醒来感觉海水在上涨",不知道什么时候会淹死自己。
产品迭代被模型的训练周期死死锁住。
你必须等一两个月后的模型 Checkpoint 跑出来,才能验证产品设想。
这是一种 PTSD(创伤后应激障碍)。
所以这次,他需要找一个人把他"按住"。
寻找一个"不正常的正常人"
季逸超聊遍了海内外几乎所有的大模型公司,包括 Google、OpenAI等。
最后他选择加入 Manus,原因听起来有点荒诞,因为 CEO 肖弘(Red)最大的优点是 "正常"。
什么叫正常?
身心健康,没有不良嗜好,情绪稳定,尊重常识,不做过度艺术化的决策。
季逸超说了一句特别扎心的话:
"现在整个这个行业有很多创始人,没有乔布斯的命,却得了乔布斯的病"。
在 AI 这个充满焦虑、成本高昂得像制造业一样的赛道。
一个不疯魔、不偏执、能稳稳当当做决策的 CEO,反而成了最稀缺的资产。
肖弘打动季逸超的那句话也很简单。
"Peak,我知道你做过浏览器、做过搜索引擎、做过语言模型。你想不想在一个产品里把这三个事都重新做一遍?"
这句话完美击中了季逸超的技术野心。
而且这家公司还有一张"理智的船票",前作产品 Monica 已经有 1200 万美元的年度经常性收入并且盈利。
这意味着团队不需要为了融资去讲虚假的故事,可以从容地进行高成本的 Agent 探索。
💠 亲手枪毙一个项目
加入团队后的前半年,季逸超带着大家做了一款"AI 原生浏览器"。
技术上跑通了,能在本地运行模型,保护隐私。
但在 2024 年 9 月,他们决定彻底放弃这个项目。
理由非常朴素,这个产品不够酷,甚至有点别扭。
季逸超用了一个特别生活化的比喻来解释这种别扭感。
让 AI 接管你的本地浏览器,就像是你非要和一个极其聪明的实习生共用一台电脑。
当 AI 在填表时,你想滚动屏幕看看下面的内容,就会打断它的操作。
你想合上电脑休息,AI 的工作也就被迫中止。
这种"抢鼠标"的体验,违背了操作系统的设计初衷。
更深层的问题在于,浏览器市场的壁垒从来不是技术,而是分发渠道。
强如 Arc 浏览器都在 Chrome 的护城河前碰壁,初创公司很难改变用户的迁移惯性。
于是他们做了一个大胆的决定,把浏览器搬到云端。
这就是 Manus 的雏形,内部代号"Airbnb"(Browser in the Air)。
让 AI 在云端的沙盒里拥有一台独立的虚拟机,7x24 小时待命。
AI 不再是和你抢电脑的实习生,而是一个在云端拥有独立工作环境的"数字员工"。
这个决策背后,还有一个关键洞察来自 Monica。
Monica 是一个浏览器插件,像一个"空画布",不改变用户习惯,却能观察用户如何使用 AI。
季逸超发现,真正让用户爽的不是 AI 的智商,而是信息的流动是否顺畅。
Monica 能够主动读取当前页面的内容,无论是视频字幕还是文档,这种上下文的无缝传递,给了 Manus 极大的启发。
Manus 后来之所以要做成"云端浏览器"的形态,本质上就是为了让 Agent 能够直接拥有环境的上下文,而不需要用户去当那个搬运数据的苦力。
💠 拒绝买"模型彩票"
在 AI 创业圈,有一个隐性的鄙视链,做模型的看不起做应用的,觉得那是"套壳"。
但季逸超对"套壳"有着完全不同的理解。
他说,如果是生鱼片,好坏全看原材料,那确实只是薄薄的一层壳。
但如果是水煮鱼,厨艺和调料才是灵魂。
Agent 就是那个厚度堪比地壳的"壳"。
Manus 选择了一条极度克制的路,坚决不自己训练基座模型。
季逸超将自研模型比作"买彩票"。
如果是垂直整合,产品的迭代会被模型的研发周期锁死。
你制定了一个产品路线图,但其实是在赌几个月后的模型 Checkpoint 能否达到预期。
一旦押注错误,不仅浪费资源,还会错失市场机会。
而且现在一个 SOTA(最先进)模型的 "保质期"可能只有 1 到 1.5 个月。
DeepSeek 出来后,更是大大加速了这个折旧过程。
OpenAI、Google、Anthropic 都在疯狂内卷模型能力,Manus 的策略是 "借力"。
这背后是一个理性的商业算计。
因为 Agent 的 Token 消耗量是 ChatBot 的百倍,Manus 成了各家大模型厂商的 Top 级客户(Top 2 到 Top 5)。
这让他们拥有了"甲方"的话语权,可以直接影响模型厂商的优化方向。
比如 Gemini 新推出的"可控并行函数调用"功能,其定义和实现方案其实就是 Manus 写好给过去的。
不做模型,反而获得了使用所有最强模型的自由。
Coding 任务用 Anthropic,多模态理解用 Gemini,推理用 OpenAI。
季逸超甚至认为,应用层拥有一个模型层拿不到的宝贵资产,用户的行为轨迹(Trajectory)和反馈。
ChatBot 的数据往往只是简单的问答对,而 Agent 的数据是 "如何使用工具解决复杂问题" 的全过程。
比如,当 Manus 帮用户筛选简历时,用户会纠正它,"我不喜欢这种格式,下次注意"。
或者当 Manus 写代码报错时,它会尝试自我修复。
这些 "试错-修正"的完整链条,构成了独特的数据飞轮。
💠 造工具还是造人
市面上有两类 Agent,一类是像 Cursor 这样的垂直工具,另一类是像 Manus 这样的通用 Agent。
季逸超给出了一个简单清晰的定义:
垂直 Agent 是在造更好的工具,而通用 Agent 是在造"人"。
如果要做一个设计类的垂直 Agent,你是给设计师造一把更快的剪刀。
但 Manus 的逻辑是,它是一个拥有手(操作能力)、眼(视觉能力)、耳(听觉能力)的"数字人"。
它像人一样,通过通用的接口去使用各种工具。
这就解释了为什么 Manus 坚持做通用 Agent。
技术上,底层模型已经大一统了,人为地划分垂直领域反而是在给模型加限制。
产品上,通用带来了"连接"的价值。
一个设计师不仅仅只做设计,他还需要用 Slack 沟通,用 Notion 记录,用 Linear 管理任务。
垂直工具只能解决链条中的一环,而通用 Agent 可以像人一样,把这些离散的环节串联起来。
季逸超提到一个Manus用户的案例,他是个分子生物学家。
他的惊喜时刻:原本没有任何工具支持生物学的某种冷门的数据格式,但 Manus 能够像人一样,自己去 GitHub 下载解析代码,读懂文档,然后完成分析。
这种"A-ha moment",是任何预设功能的垂直软件无法提供的。
Manus 不想在这个网络中做一个更强的节点去和别人竞争,它想做那个连接所有节点的网络本身。
💠 纯血派的坚持
季逸超有一个技术信仰,他称之为 "纯血派 Agent"。
什么意思?
他坚决反对人为地给 Agent 设定复杂的角色分工,反对把 Agent 做成 Workflow。
他认为那是把人类组织的弱点投射给了 AI。
人类之所以需要分工,是因为人类很弱。
一个人很难同时精通编程、设计和管理,而且人与人之间的沟通带宽极低,信息在传递中会大量损耗。
但模型不一样。
模型是全能的,它没有人类的这些局限。
季逸超信奉"苦涩的教训"(The Bitter Lesson),这是 AI 领域一篇著名的文章。
核心观点是,历史证明,凡是试图把人类的专家知识硬编码进系统的尝试,最终都会输给通用的方法加上巨大的算力。
"纯血派"意味着不人为增加约束,相信智能本身的涌现。
他举了一个非常具体的例子。
如果一个 Agent 生成的图表中文乱码了,传统软件工程思维的第一反应是"打补丁",写一个新的 Prompt 告诉模型,"当你遇到中文时,请使用某某字体"。
但 Manus 的做法完全不同。
他们给 Agent 加上了"视觉能力"。
Agent 生成图表后,自己看一眼,发现"这个字叠在一起了,看不清",然后它自己去重写代码修复这个问题。
与其针对每一个边缘情况去写规则,不如让智能通过"观察-反思-修正"的闭环自己解决问题。
这种坚持让季逸超不得不经常拦住团队里想用"快糙猛"手段解决问题的产品经理。
传统软件工程思维试图用流程(Workflow)来掩盖智能的不确定性。
而纯血派 Agent 则是坦然接受这种不确定性,并相信通过更大的算力、更好的环境交互和更强的基座模型,智能最终会涌现出超越规则的解决能力。
💠 被误解的"饥饿营销"
Manus 发布初期采用了邀请码机制,外界质疑这是为了制造热度的"饥饿营销"。
季逸超的回应非常激烈。
他甚至说,"如果我们三月份发布的时候有任何付费的宣传,我死全家"。
真相是什么?
物理算力击穿了。
Agent 对推理算力的消耗是指数级的。
上线前,他们给云厂商打电话要资源。
云厂商直接警告 Manus 团队,"你们千万别放开,如果放开,我们会挂掉"。
后续云厂商甚至直接搬着显卡插到机柜上的,来他们补充一些算力。
如果不控量,系统上线即崩溃。
这是一个很多人没意识到的事实,AI 时代的成本结构变了。
互联网是边际成本为零,而 AI 是每多一个任务,算力成本就线性增加。
ChatBot 的输入输出比可能是 3:1,而 Agent 可能是 100:1 甚至 1000:1。
因为 Agent 需要在后台进行大量的思考、规划和工具调用,而不仅仅是输出一段话。
所以 Manus 不追求 DAU(日活),不赚免费用户的钱,而是服务 Prosumer(专业消费者)。
这群人对价格不敏感,只对"能不能搞定高价值任务"敏感。
Manus 的目标不是流量,而是 Agentic Hours(智能体有效工作时长)。
为了自证清白,Manus 在不到一个月内,随着算力稳定就迅速取消了邀请码。
至于为什么发布当天全网刷屏,季逸超解释了两点原因。
第一,产品本身"酷"。
媒体和自媒体也是需要内容的,当一个产品足够酷、足够有话题性时,他们会自发地去写、去传播。
第二,广结善缘。
团队是连续创业者,在这个行业摸爬滚打多年,积累了很多朋友。
以前的小伙伴可能成了投资人或大 V,看到朋友做出好产品,出于情谊和认可,愿意帮一把。
海外市场的传播更是如此。
Andrew Karpathy、Patrick Collison、Jack Dorsey、Gary Marcus 这些硅谷精英,是因为产品真的好用、能提效才开始使用的。
季逸超反问,"Andrew Karpathy 你能买吗?"
💠 给模型厂商的建议
作为全球模型厂商 Top 级别的客户,Manus用真金白银的算力消耗换回来的实战经验。
季逸超认为模型厂商现在有几个方向搞错了。
第一,别再卷长文本了,要学会"压缩"。
虽然现在的模型都在吹嘘 Context Window 有多长,甚至到了 2M、10M,但季逸超认为 200k 之后的单纯扩容意义不大。
模型应该学会像人一样"做笔记"。
我们的大脑(工作内存)很小,记不住所有事,但我们知道把重要信息写进 Notion 文档里,需要时再去查。
现在的模型随着上下文变长,推理成本和延迟直线上升,且容易"迷失"。
模型应该学会意识到,"我现在读的内容太长了,我应该把一部分信息卸载到文件系统中去,或者把一段历史压缩成一个紧凑的摘要"。
懂取舍、会做笔记的模型,比单纯记性好的模型更适合做 Agent。
第二,拒绝"缸中之脑",转向"工具集成推理"。
OpenAI 的 o1 系列开启了推理模型的热潮,在输出结果前进行长长的思维链。
但季逸超指出,这种为了做数学题或竞赛编程设计的"缸中之脑"式推理,直接搬到 Agent 场景下会有副作用,指令遵循能力下降,幻觉增加。
Agent 的推理不应该是一口气想完几千个步骤,而应该是交错式思考。
即,观察环境,进行短暂推理,执行动作,再观察。
模型需要学会边干边想,而不是在真空中空想完了再去干。
第三,打破"回合制",学会被插嘴。
目前的模型大多是为 ChatBot 设计的,遵循严格的"回合制",用户问一句,模型答一句。
但在 Agent 的工作流中,任务可能要跑很久。
这期间,用户可能会突然插嘴,"哎,目标变了"、"给你补充个文件"、"停一下"。
目前的模型很难处理这种"在持续工作过程中随时被用户打断、修正"的状态。
它们习惯了"你等我做完,我再等你说话",这种死板的交互模式在复杂的长程任务中是非常低效的。
第四,提升"逆商",从错误中恢复的能力。
现在的模型太脆弱,遇到报错容易"发疯"或者"死循环"。
在真实世界中,API 会挂,代码会跑不通,文件格式会不对。
一个优秀的 Agent 模型,在遇到"此路不通"时,不应该直接报错退出,也不应该假装成功,而应该具备自我修正的能力,主动尝试 Plan B。
比如做 PPT 失败了,它应该能意识到是字号太大导致溢出,然后自动调整字号重试,而不是卡死在那里。
真正的智能,不仅体现在如何做对,更体现在做错时如何挽救。
💠 对巨头的点评
各有所长的巨头
季逸超对各大模型公司的评价非常犀利且务实。
对 Google(DeepMind / Gemini),他的评价非常高。
他认为 Gemini 在多模态理解方面是"断层级别"的强,尤其是对视频的理解能力。
而且 Google 拥有别人无法通过技术追赶的独特资源,搜索索引。
他在狭义技术角度最佩服的是谷歌 Deepseedmind的CEO Demis Hassabis。
对 Meta,季逸超认为 Yann LeCun 近期角色的调整可能是一个"积极信号"。
虽然 LeCun 值得尊敬,但在一家商业机构内追求绝对的学术自由是痛苦的。
他的调整给 Meta "解放了很多思想负担",Meta 可能会投入到一些更朴素但有快速成效的工作中来。
对 OpenAI,他非常尊重其自下而上的创新文化,认为是最有可能诞生新范式的公司。
对 Anthropic(Claude),他认为在编程方面处于绝对领先地位,产品品味很好。
他还很欣赏前 Meta FAIR 的田渊栋的研究方向,特别是潜在推理(Latent Reasoning)和 Coconut 等这几篇论文。
季逸超认为这解决了通过采样进行推理效率低下的本质问题,是一个非常务实且有前景的方向。
💠 下一个大招:主动性
现在的 AI 还是被动的,需要人去输入 Prompt。
季逸超认为,未来的 Agent 核心在于 "主动性"(Proactiveness)。
它应该在你醒来之前,就帮你把面试记录整理进了 HR 系统。
它会在你唤醒前就通过读取 Notion、邮件等准备好草稿或任务,只等你点一个"Confirm"。
这种从"等待指令"到"主动服务"的转变,才是 Agent 的终极形态。
季逸超还提到了一个有趣的洞察,AI 产品目前很难看到人与人的网络效应,但能看到原子能力(Atomic Capabilities)的网络效应。
比如,给 Manus 加了"看图"能力,本意是修图,结果发现它学会了"看着屏幕检查自己写的网页对不对"。
能力的增加会带来指数级的应用场景爆发。
💠 心与手
Manus 这个名字源自 MIT 的校训"Mens et Manus"(心与手)。
季逸超说,大模型厂商在解决"心智"(Mind)的问题,试图造出最强的大脑。
而 Manus 在解决"手"(Hand)的问题,让这个大脑能够触碰到现实世界,去真正地执行任务。
这个比喻非常精准。
在这个技术狂飙的时代,保持清醒比盲目跟风更重要。
不纠结于"是不是套壳",不陷入"模型军备竞赛",而是专注于如何让 AI 真正帮人干活。
季逸超最后说了一句话,"我们没有活着的权利,我们是在努力获得一个活着的权利"。
但他坚信,AI 不会替代人,而是让每个人都拥有一个不知疲倦的、24 小时待命的超级伙伴,去处理那些繁琐的"非人"工作。
因为如果让人产生"被替代"的恐惧,用户会以"风控"的心态去挑刺。
真正的逻辑是增强(Enhance),让 AI 处理掉那 90% 的繁琐工作,让人去做真正有创造力的决策。
在 AI 这个充满焦虑的行业,季逸超和他的团队选择了一条看似"不酷"但极其务实的路。
拒绝重复造轮子,拒绝模型彩票,拒绝把人类的弱点投射给 AI。
这或许就是身心健康的创业者,带给这个焦虑行业的最大价值。