我来告诉你们，数学界接下来一个最大的问题。我去年就说过，UC Berkeley数学系助理教授Tony Feng在Google Gemini做visiting professor的时候，拿到了当时最好模型Google Gemini的超长极长无敌长的reasoning版本。这直接导致Tony Feng解决了7道Erdos问题，三道FirstProof问题，开创性地用半监督方式

发布时间: 2026-06-24 13:50:11

1分

数据加载中

我来告诉你们，数学界接下来一个最大的问题。
我去年就说过，UC Berkeley数学系助理教授Tony Feng在Google Gemini做visiting professor的时候，拿到了当时最好模型Google Gemini的超长极长无敌长的reasoning版本。
这直接导致Tony Feng解决了7道Erdos问题，三道FirstProof问题，开创性地用半监督方式
时政
( twitter.com )

我来告诉你们，数学界接下来一个最大的问题。

我去年就说过，UC Berkeley数学系助理教授Tony Feng在Google Gemini做visiting professor的时候，拿到了当时最好模型Google Gemini的超长极长无敌长的reasoning版本。

这直接导致Tony Feng解决了7道Erdos问题，三道FirstProof问题，开创性地用半监督方式，以及无监督方式，指导AI Agent解决数学问题。

我去年就说过，下一步要解决的问题是，尝试把一个数学命题以lean4的形式拆分成多个lemma，多个lemma以DAG的数学结构组合成一个数学命题，每个数学证明可以拆分成几十个到几千个lemma DAG，每个lemma作为节点又可以让多个agent来证明，这样可以用成千上万个agent来碰撞证明每个lemma，尝试组合成一个完整数学证明的DAG。

所有人都忽视了一个最重要的问题，就是一个LLM的reasoning是不可能无限长的，哪怕是Claude和GPT模型，reasoning是有限的，这是LLM结构和目前inference infra决定的。

但是数学家们早就给出了解决方案：在3000多年前，古希腊的数学家们就知道，完备的数学体系需要写书、写笔记、收学生，以学术社区和讨论组的形式，一条条验证，把自己思考的过程记录下来，给同行完成peer review，这样把自己在数学的工作一条条记录、验证、审议、写书、组织起来，一起构建完整的数学大厦。

过去10年来，人类一直在mathlib中实现这一个愿景，全世界所有数学家都在用lean4构建数学大厦，但是还远远不够。

你党弟提出lemma DAG概念后，能大概预测到一个方向，这个方向就是，驱动AI Agent用lean4把所有它能构建数学体系的领域：

用lean4审核目前人类已有的、能用lean4实现和验证的数学论文，全部用lean4实现并验证一遍；
用lean4尝试构建新的问题，实现一个AI native版本的mathlib证明大全——mathlib2——比现有人类数学家构建的mathlib要大一两个数量级；
当人类尝试定义新的问题的时候，先从mathlib和mathlib2中搜索已有近似证明，尝试拆分成DAG的lemma形式，用mathlib2更加快速便捷地实现部分证明；
最后用大量、超大量的AI Agent尝试大量、巨大量、无限提出新的问题，并且并行in parallel用已有mathlib2去验证或者证伪这些新问题，最后由人类数学大师cherry pick出其中有价值的问题和完整证明方案出来。

回到开头，首尾呼应一下：

人类在单一LLM本体进行超长reasoning已经接近inference复杂度极限，这是人类任何人都无法改变的，OpenAI和Anthropic改变不了，玉皇大帝都改变不了，

能提到LLM超长reasoning的唯一办法，就是让LLM Agent不断总结、不断记录、不断验证出过去产出的结构化、逻辑化、有组织的知识库，作为long term memory，这些知识库就是一个LLM Agent过去的所有reasoning中的有效记忆，并且能用于今后未来的所有构建中。

这和朴素古典的memory机制完全不同，无论构建一套lean4还是构建matlab simulink的有效仿真验证后的设计，还是构建HDL各种硬件描述语言在仿真后验证的电路设计，都更有效、更精准、更专业、更小领域，

而且最重要的是，构建这些结构化的专业学术知识库，恰恰是AI Agent加上一个本地仿真、编译、运行环境的最擅长的事情。

说人话说就是，脑子到极限的前提下，好脑子不如烂笔头。