晚点 LatePost 发了一篇 DeepSeek 深度报道《V4 发布前的 DeepSeek:特质、组织和梁文锋的独特目标》
https://t.co/Are5PLtOaP
时间点卡在 V4 发布前夕。信息密度很高,摘几个最值得关注的点。
【1】核心成员离职,但没有成组流失
四位已确认离开的成员里,分量最重的是 DeepSeek-R1 核心作者郭达雅,近期正式离职,可能入职某大厂。另外还有去年底被腾讯姚顺雨挖走的王炳宣(第一代 LLM 核心作者),以及 OCR 系列核心作者魏浩然、多模态方向的阮翀。
猎头给 DeepSeek 成员开出的条件是“翻 2 到 3 倍”,有公司直接给 8 位数总包。加上智谱、MiniMax 上市股价高涨,阶跃和 Kimi 的 IPO 也提上日程,DeepSeek 那份没有明确标价的期权让一些成员产生了疑问。
梁文锋正在想办法给公司估值,给团队更多确定性。
【2】V4 可能 4 月发布,大概率开源最强但不会碾压
1 月左右,V4 的小参数版本已经给到一些开源框架社区做适配。原本乐观预期是春节前后发大参数版,现在推迟到 4 月。
晚点的判断是:V4 大概率仍是开源最强模型,但很难是碾压级的强。原因是进入 Agent 时代后,“强”的标准越来越多元,不同场景、不同用户的体感差异很大。
【3】DeepSeek 的“反主流”路线
梁文锋有两个不太主流的优先级:一是基于国产芯片生态做大模型,DeepSeek 已经在做国产 GPU 适配,把底层算子库从 CUDA/Triton 换成了北大开源的 TileLang;二是做“原创式创新”,包括统一多模态的 Janus 系列、形式化证明的 Prover 系列、用图片方式理解文字的 OCR 方案,甚至招了神经科学和脑科学顾问来探索仿生学习机制。
代价是,DeepSeek 在 Agent 和编程这条当前最热的赛道上投入相对少。R1 之后,智谱更新了 5 版模型,MiniMax 4 版,Kimi 3 版,都在针对 Agent 和 coding 强化。OpenRouter 过去 30 天的 token 消耗排名里,DeepSeek-V3.2 排第 12,前 10 中有 6 个来自中国公司。
【4】不过,变化已经开始
DeepSeek 最近首次在招聘启事中提到了具体产品名,要招 Agent 方向的“模型策略产品经理”,岗位要求里写着“熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名 Agent”。
梁文锋从去年秋天起开始更多提产品化和商业化。DeepSeek 已有小几十人的产品团队,但目前 C 端仍然只有一个标准 Chatbot。
【5】不卷文化依然在
DeepSeek 可能是全球唯一一个“不卷”的核心 AI Lab。多数员工下午 6 到 7 点走人,早上不打卡,没有明确的绩效考核和截止时间。梁文锋的逻辑是:一个人每天能高质量输出的时间很难超过 6 到 8 小时,加班疲劳下的昏庸判断反而浪费算力。
研究团队约 100 多人,只有梁文锋和研究员两个层级。梁文锋本人参与最多的是基模架构团队,会出席每个团队的会议,是串起不同模块的“粘合剂”。研究员可以自由组队,“有时开始一个新方向,就是因为三五个人都觉得一个 idea 不错,然后就一起做了。”
接近 DeepSeek 的人说:“留下的人多少还是有些理想的。”
在当前这个所有 AI 公司都在拼命卷 Agent 和编程的窗口期,DeepSeek 选择花精力做国产芯片适配和仿生学习,这到底是远见还是错过了最佳出手时机?
完整内容:https://t.co/Are5PLtOaP
点击图片查看原图