总结下罗福莉访谈中的一些主要信息
Agent 框架
- 访谈的前 1 个小时都在讲 OpenClaw,给部分人造成了不好的观感,但个人觉得无碍,这个里面穿插了罗福莉对 Agent 框架的理解。OpenClaw 让她认识到了 Agent 框架的力量,一套非常复杂的Agent框架设计,可以弥补非常多模型能力的短板,也能让一个中等模型表现更好。我们的日常生活,通过一套好的 Agent 框架 + 一个性价比高的中等模型,可以满足大部分需求。
- 在罗福莉的实践中,她是先用 Claude Opus 4.6 改进 OpenClaw 的框架,然后再切到弱一点的模型,发现也很好用,这一过程也启发了 MiMo-V2-Pro 的后训练过程。
- 关于 agent 为什么是在最近才爆发;罗福莉认为,之前的 agent 框架非常简洁,并且通用性不够;另外,模型能力也不够。OpenClaw 和 Opus 4.6 的“握手”,非常重要。
- 关于很多评测指标,如 BrowseCap、SWE-Bench、Terminal-Bench,即使这些是 agent 相关的指标,但也是错误的指标,分高不代表能用,这也是一个歧途,导致很多公司在 25 年走了弯路,并没有真正为 agent 训练模型。
Agent for 研究
- 罗福莉团队已经在用 OpenClaw、Claude Code 这些 Agent 来加速研究过程,以前30、40周做到的事,现在只需要 3、4周。研究加速后,卡的数量变成了瓶颈。
- 之前做研究,中间流程很长,至少一两周,快的话也需要一两天,现在在 agent 辅助下,一两个小时就可以做完。以前罗认为训模型是很难的,她最近发现只要把近期的 context 告诉它,它甚至能帮你复原你的科研成长路径,在同样的话题下,跟你一样聪明。
团队和管理风格
- 之前 MiMo-V2-Pro 发布的时候,罗福莉提到过对团队的要求,第二天 OpenClaw对话次数不超过100轮的人,可以离职,但这个事并没有明确的考核。这也反应了罗福莉的管理风格,更希望去激发好奇心和热情,靠热爱去驱动管理。
- MiMo 是非常小且极致的团队,目前已达到 100 人,团队没有 deadline,只要雷军接受即可,独立于小米团队架构之外。
- 团队没有分组,也没有具体的 leader,没有职级,非常扁平,很多人进来之前也没有做过一个大模型。
研究和趋势判断
- 26 年仍然是围绕生产力变革,在高生产力场景。但另外一方面,85%的普惠场景也需要好的 agent 来满足,多模态、低成本、高效、高速度,很关键。
- Agent 是非常长程和多轮的任务,现实世界很少有可以达到这种级别(1M context)的数据,code 是为数不多的选择。把 code 做好,模型的长下文能力会变好,agent 能力也会变强。
- 模型公司的入场券:long context 并且非常高效,预训练阶段做好 code、 1T 参数,达到Opus 4.6 的能力。
- MiMo V2 Omni 模型比 V2 Pro 小,但由于是多模态训练,它对世界感知能力以及知识储备上会比 Pro 更强。
- 在 agent 时代,用于研究、预训练、后训练的计算比例应该是 3:1:1,而在 Chatbot 时代,预训练和后训练的比例是 3.5:1。
- 行业主流采用 DeepSeek 的 MLA,小米选择了 MTP,是因为模型训到中后期,开始设计推理方案时,发现在他们的推理卡上计算剩余太多,MTP 很很合适;同时,MTP 也更适合 Agent 时代对长上下文和推理速度的双重需求。罗认为 MLA 对 Chatbot 是个好架构,但对于 Agent 不够好。
- 对 AGI 的实现比较乐观,认为现在已经实现了 20%,未来 2 年可实现 AGI。