我来告诉你们,数学界接下来一个最大的问题。
我去年就说过,UC Berkeley数学系助理教授Tony Feng在Google Gemini做visiting professor的时候,拿到了当时最好模型Google Gemini的超长极长无敌长的reasoning版本。
这直接导致Tony Feng解决了7道Erdos问题,三道FirstProof问题,开创性地用半监督方式 ,以及无监督方式,指导AI Agent解决数学问题。
我去年就说过,下一步要解决的问题是,尝试把一个数学命题以lean4的形式拆分成多个lemma,多个lemma以DAG的数学结构组合成一个数学命题,每个数学证明可以拆分成几十个到几千个lemma DAG,每个lemma作为节点又可以让多个agent来证明,这样可以用成千上万个agent来碰撞证明每个lemma,尝试组合成一个完整数学证明的DAG。
所有人都忽视了一个最重要的问题,就是一个LLM的reasoning是不可能无限长的,哪怕是Claude和GPT模型,reasoning是有限的,这是LLM结构和目前inference infra决定的。
但是数学家们早就给出了解决方案:在3000多年前,古希腊的数学家们就知道,完备的数学体系需要写书、写笔记、收学生,以学术社区和讨论组的形式,一条条验证,把自己思考的过程记录下来,给同行完成peer review,这样把自己在数学的工作一条条记录、验证、审议、写书、组织起来,一起构建完整的数学大厦。
过去10年来,人类一直在mathlib中实现这一个愿景,全世界所有数学家都在用lean4构建数学大厦,但是还远远不够。
你党弟提出lemma DAG概念后,能大概预测到一个方向,这个方向就是,驱动AI Agent用lean4把所有它能构建数学体系的领域:
- 用lean4审核目前人类已有的、能用lean4实现和验证的数学论文,全部用lean4实现并验证一遍;
- 用lean4尝试构建新的问题,实现一个AI native版本的mathlib证明大全——mathlib2——比现有人类数学家构建的mathlib要大一两个数量级;
- 当人类尝试定义新的问题的时候,先从mathlib和mathlib2中搜索已有近似证明,尝试拆分成DAG的lemma形式,用mathlib2更加快速便捷地实现部分证明;
- 最后用大量、超大量的AI Agent尝试大量、巨大量、无限提出新的问题,并且并行in parallel用已有mathlib2去验证或者证伪这些新问题,最后由人类数学大师cherry pick出其中有价值的问题和完整证明方案出来。
回到开头,首尾呼应一下:
人类在单一LLM本体进行超长reasoning已经接近inference复杂度极限,这是人类任何人都无法改变的,OpenAI和Anthropic改变不了,玉皇大帝都改变不了,
能提到LLM超长reasoning的唯一办法,就是让LLM Agent不断总结、不断记录、不断验证出过去产出的结构化、逻辑化、有组织的知识库,作为long term memory,这些知识库就是一个LLM Agent过去的所有reasoning中的有效记忆,并且能用于今后未来的所有构建中。
这和朴素古典的memory机制完全不同,无论构建一套lean4还是构建matlab simulink的有效仿真验证后的设计,还是构建HDL各种硬件描述语言在仿真后验证的电路设计,都更有效、更精准、更专业、更小领域,
而且最重要的是,构建这些结构化的专业学术知识库,恰恰是AI Agent加上一个本地仿真、编译、运行环境的最擅长的事情。
说人话说就是,脑子到极限的前提下,好脑子不如烂笔头。