张小珺和李想的3小时长谈的完整版我刚看完,信息量极大。这场对话其实发生在半年前(2025年4月),按照 AI 圈的时间,很多内容其实已经有点变化了。
张小珺有个精妙的比喻:
> 这次,我把李想当作一个“CEO大模型”来提问。假设他是MoE模型,我在对话的前三个回合调用了他的三位“专家”:技术专家、战略专家、组织专家。而当谈话深入后半程,我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。
李想给出的“回答”非常坦诚,甚至有些“反直觉”——不像跟罗永浩那场都是他的成长和创业的故事,也没有太多汽车相关,而更多的是围绕 AI 来谈的,甚至谈了怎么训练模型。
---
话题一:“信息工具” vs “生产工具”:为什么AI还没让我们真正下班?
这是李想开场就抛出的一个尖锐观察:
“身边所有同事、朋友都讲人工智能怎么好,但大家工作时间并没有减少,工作成果也没有实质改善。”
为什么?
他提出了一个“熵增”和“熵减”的对比:
AI这东西,特别擅长搞“熵增”——它能处理海量信息,吞吐T级别的数据,把复杂性推到极致。
而人类呢?人类大脑天生是来搞“熵减”的——我们发明方法论、创造工具,本质是为了用最简单的规律,花最少的能量,解决问题。
现在的矛盾点在于,我们几乎所有人,都还只是把AI当成“信息工具”(比如Chatbot)或“辅助工具”(比如智能语音)。
- 信息工具:你问它答。它只是给你一个“Next Token”(下一个词),给你一个参考。这非但没帮你“熵减”,反而增加了海量的、甚至带有幻觉的“无效信息”。
- 辅助工具:帮你调个导航、查个美团。它提升了现有体验,但你还是离不开它。
李想认为,AI真正的爆发点,在于它必须进化成“生产工具”。
什么是“生产工具”?他给了一个极简的定义:“知行合一”。
它不能只“知道”(知),它必须能“行动”(行)。它得能真正替代我,完成专业工作,解决我工作中最重要的那8小时。
他举例,像Cursor或Deep Research,他的同事开始自己掏钱付费了。为什么?因为这些工具开始“动手”了,它们在真正地“做”工作,而不只是“聊”工作。
这引出了他对Agent的最终评判标准:Agent的唯一意义,就是成为“生产工具”。一个只会聊天、不会动手的Agent,价值是极其有限的。
---
话题二:向DeepSeek学什么?反人性的“最佳实践”
这场对话中,李想毫不掩饰的表达了对DeepSeek及其创始人梁文锋的赞赏。DeepSeek的开源,让理想VLA(视觉语言行动模型)的语言部分研发“进度加快了9个月”。理想后来把自己的操作系统开源,很大程度上就是出于对DeepSeek的“感谢”。
那么,DeepSeek到底做对了什么?
李想的总结是:“它极简地运用了人类最佳实践。”
他拆解了两种“最佳实践”:
第 1 种是做能力(研发)的最佳实践:
- 第一步:搞研究 (Research)
- 第二步:搞研发 (Development)
- 第三步:能力表达 (Expressing Capability)
- 第四步:变成业务价值 (Business Value)
- 我们常犯的错:直接跳到第二步“搞研发”,忘了第一步“搞研究”。
第 2 种是做业务(推理)的最佳实践:
- 第一步:索引分析 (Analysis)
- 第二步:确定目标 (Goal Setting)
- 第三步:涌现策略 (Strategy)
- 第四步:反思反馈 (Feedback/Review)
- 我们常犯的错:遇到问题只想改第三步“策略”,却忘了重新做第一步“分析”、第二步“定目标”和第四步“复盘”。
严格遵循这些步骤,其实是“反人性”的。人性总是想走捷径,想随心所欲。而一个卓越的组织,就是要和这种人性对抗。
他认为梁文锋就是这种“自律”和“坚守最佳实践”的化身。
---
话题三:解密VLA:我们是如何“造”一个司机的?
这是全篇“技术专家”模块最硬核的部分。当别人还在谈论端到端时,李想已经在详细拆解他们下一代的VLA(Vision-Language-Action,视觉-语言-行动)架构了。
他把辅助驾驶的进化分成了三个阶段,这个比喻非常传神:
第一个阶段是规则算法阶段:像“昆虫智能”。比如蚂蚁,严格依赖高精地图(信息素),规则定得死死的,没法泛化。
第二个阶段是端到端阶段:像“哺乳动物智能”。比如马戏团的动物学骑车,它能模仿,但它不理解物理世界。
第三个阶段是VLA阶段:追求“人类智能”。它不仅要看(Vision),还要理解(Language,包括推理、思维链),并且能执行(Action)。
那么,这个“人类司机”是怎么“造”出来的?李想给出了一个通俗的“三步训练法”:
第一步:预训练 (VL基座) —— 仿佛“上学学知识”
目标是让模型理解世界。
用什么数据训练呢?
不仅用普通语料,还要用理想独有的三类数据:
1. 3D Vision数据(物理世界)。
2. 高清2D Vision数据(比如看懂导航地图,清晰度比开源的高10倍)。
3. VL联合语料(最关键的,比如“看到这个导航”+“人类做了这个判断”的组合数据)。
然后呢?
把这个云端320亿参数的“博士”大模型,蒸馏成一个车端32亿参数的“专家”MoE模型,保证在车上能跑得动。
第二步:后训练 (加入Action) —— 仿佛“上驾校学车”
目标是把“知识”变成“行动”,进行模仿学习。
怎么训练呢?
学习人类司机的操作,让VLA模型知道看到什么、理解了什么之后,应该做出什么动作(Action)。
第三步:强化训练 (RL) —— 仿佛“上路实际开”
目标是开得跟人一样好,甚至比人更好。
怎么做训练呢?
1. RLHF(人类反馈):用人类的接管、驾驶习惯来“对齐”,让它开得像个“老司机”,而不是“马路杀手”。
2. 纯RL(世界模型):在模拟器(世界模型)里疯狂跑,用“舒适性”、“交通规则”、“是否碰撞”作为奖惩标准,让它自己“悟”,开得比人类平均值还好。
通过这三步,一个“VLA司机大模型”就诞生了。
李想认为交通领域会是VLA最早落地的场景。而且,未来不会有“通用Agent”,只会有无数个“专业Agent”(比如司机、医生、律师),而它们会运行在一个统一的“Agent OS(智能体操作系统)”上。
---
话题四:理想的终局:一家“AGI终端公司”
这是“战略专家”模块的思考。
理想这家公司,组织能力在学谁?
李想划出的路线是:
1. 百亿收入阶段:学丰田、通用(流程)、谷歌(OKR)。
2. 千亿收入阶段:学华为(IPD、组织流程)。
3. 迈向万亿(1000亿美金)阶段:必须学苹果。
学苹果什么?
学它从一个电脑公司,拓展成音乐播放器公司、手机公司、服务生态公司的能力。
基于此,李想给出了理想的终极答案。当被问到“理想是谁”时,他不再只说汽车,而是给出了一个极其清晰的定义:
“到2030年,我们希望能够成为全球领先的人工智能终端企业。”
他做了个类比:
- PC时代:有终端公司(苹果)和平台公司(微软)。
- 移动互联网时代:有终端公司(苹果)和平台公司(谷歌)。
- AGI时代:也必然会有平台公司(如OpenAI),和终端公司。
理想,要做的就是AGI时代的苹果。
他认为,汽车是第一个真正意义上的“AGI终端”,因为它同时具备四个要素:
1. 360°物理感知;
2. 认知决策;
3. 行动能力;
4. 反思反馈。
但理想不会止步于汽车。当规模达到5000亿以上,他们必须像苹果做iPhone一样,去探索其他(符合上述4要素的)AGI终端,比如家庭、穿戴设备。
对于“摊子铺太大”的质疑,李想的回应很直接:“如果我们有1000多亿收入……做这些事情就是合理的……太划算了,干嘛不做?”
---
话题五:从“改变”到“成长”:能量、智慧与亲密关系
这是整场对话我个人最喜欢的部分,它关于“人”。
李想分享了他最重要的一个管理“心法”:“人是很难‘改变’的,但人是愿意‘成长’的。”
所以,他做管理时会“顺着人性去说,逆着人性去做”。话要说得顺人性(我们来一起“成长”),事要做得逆人性(严格执行“最佳实践”)。
他还分享了一个核心概念:“能量”。
他认为,一个组织的核心,是构建一个3-7人的“能量体”(核心合伙人团队)。这个团队必须形成“更强的大脑”(一起决策)和“更强的心脏”(相互支撑)。
如何构建这种能量?
他给出的答案来自他做父亲的体验:
“在亲密关系里,你要大胆表达自己的需求……我需要他们(家人、同事)超过了他们需要我。”
他发现,当你表达“我需要你”时,能量就开始流动了。因为所有人都渴望“被需要”。
这引出了他对AI时代的终极思考:AI负责“智能”,人类负责“智慧”。
- 智能(能力):AI可以无限提升。
- 智慧(关系):李想定义,“智慧就是我们和万物的关系”——你和自己的关系,你和他人的关系,你和自然的关系。
AI的终极价值是什么?是把人类从那些消耗能量、不产生“智慧”的低价值劳动(比如打邀约电话)中解放出来,让我们有时间去做真正“熵减”的、有能量的事情——去处理“关系”,去提升“智慧”。
这或许就是“AI与人的关系”这个母题的答案。
访谈的文字链接:
https://t.co/1f6T91aK5E
点击图片查看原图