谷歌技术之神 Jeff Dean 提到的牛逼论文:Titans(泰坦)
让 AI 简单解读下。
Titans 让 AI 有了"真正的记忆力",既能像人一样记住重要的事,又能忘掉不重要的,还能在使用时边学边记。
三个厉害的地方:
- 解决了AI的"金鱼记忆"问题
Transformer:像个学霸,啥都记得清清楚楚,但脑子装不下太多东西(只能看几千个字)
传统RNN:像个压缩狂,把所有东西塞进一个小盒子,结果啥都记不清
Titans的解法
- 短期记忆:用注意力机制,精确处理当前看到的内容
- 长期记忆:用神经网络当"大脑",把重要信息编码进参数里
- 持久记忆:存储关于任务本身的知识
像人脑一样,三种记忆各司其职。
- 会判断什么值得记住
核心创新:借鉴人类记忆系统:违背预期的事件(更容易被记住,定义为惊喜度量。
看新闻:
- 看到"今天天气不错" → 不惊讶,不用特别记
- 看到"火星发现生命" → 很惊讶,赶紧记下来
- 后续相关报道 → 虽然不那么惊讶了,但因为和之前的大事件相关,也要记住。
Titans的工作原理:
- 当前惊喜:这个信息和我之前见过的差多少?
- 历史惊喜:最近有没有重要事件在发生?
- 自适应遗忘:这段记忆该保留多久?
- 边用边学,越用越聪明
传统模型,训练完就定型了,测试时只能"回忆",不能"学习"。
Titans,测试时记忆模块还在更新,看到新内容会实时调整记忆
实验结果有多猛?
超长文本理解,Needle in Haystack(大海捞针)任务
在16,000字的文章里找一个关键信息,Titans准确率:96%+。
最强对手Mamba2:5.4%(基本瞎猜)
BABILong 超难推理任务,在百万字文档里推理
Titans用不到1/70的参数量,打败了700亿参数的Llama3.1,甚至超GPT-4
常规任务也不拉胯
- 语言建模:比Transformer和所有线性RNN都好
- 时间序列预测:7个数据集全面领先
- 基因序列分析:达到最优SOTA水平
为什么其他模型做不到?
Transformer的困境,想记住100万字?内存爆炸,算不动
,只能看固定长度的窗口。
线性RNN的问题,把历史压缩成一个向量或矩阵,就像把一本书总结成一句话,信息丢太多了,没有遗忘机制,时间长了"脑子"就乱了。
Titans的优势
- 深度记忆:用多层神经网络当记忆,比一个矩阵强太多
- 动量机制:不只看当前,还看最近的趋势
- 遗忘门:该忘的忘,该记的记
- 并行训练:虽然复杂,但训练速度不慢
技术上的巧妙之处
把"学习"变成"记忆",记忆模块本质是在做梯度下降
,但它是在测试时做的,相当于一个"元学习器"。
统一了很多现有方法:
- Mamba的遗忘门?Titans的特例
- DeltaNet的增量规则?Titans的简化版
- TTT的测试时训练?Titans加了动量和遗忘
为什么说这个工作重要?
打开了新思路,不是简单地"加大模型"或"优化attention",从记忆系统的角度重新思考架构。
解决了真实痛点,长文档分析,长视频理解,持续学习场景
最后一个类比
Transformer = 照相机记忆,看到的都能记住,但一次只能看一小块
传统RNN = 记笔记,把所有东西总结成几句话,细节丢了
Titans = 人类大脑
- 短期记忆:处理当前信息
- 长期记忆:存储重要经历
- 元记忆:知道怎么学习
- 忘记不重要的事
强在哪里?
- 能记得更多:扩展到200万token,其他模型早崩了
- 记得更准:知道什么重要,什么该忘
- 越用越聪明:测试时还在学习
- 理论有保证:有数学证明和实验。
- 实验很能打:各种任务都是SOTA或接近SOTA
真的牛逼啊!