谷歌技术之神 Jeff Dean 提到的牛逼论文：Titans（泰坦）让 AI 简单解读下。Titans 让 AI 有了"真正的记忆力"，既能像人一样记住重要的事，又能忘掉不重要的，还能在使用时边学边记。三个厉害的地方：1. 解决了AI的"金鱼记忆"问题

发布时间: 2025-12-17 01:50:11

1分

数据加载中

关注推特

收听电报

谷歌技术之神 Jeff Dean 提到的牛逼论文：Titans（泰坦）
让 AI 简单解读下。
Titans 让 AI 有了"真正的记忆力"，既能像人一样记住重要的事，又能忘掉不重要的，还能在使用时边学边记。
三个厉害的地方：
1. 解决了AI的"金鱼记忆"问题
IT技术
( twitter.com )

2个月前由向阳乔木提交

谷歌技术之神 Jeff Dean 提到的牛逼论文：Titans（泰坦）

让 AI 简单解读下。

Titans 让 AI 有了"真正的记忆力"，既能像人一样记住重要的事，又能忘掉不重要的，还能在使用时边学边记。

三个厉害的地方：

解决了AI的"金鱼记忆"问题

Transformer：像个学霸，啥都记得清清楚楚，但脑子装不下太多东西（只能看几千个字）

传统RNN：像个压缩狂，把所有东西塞进一个小盒子，结果啥都记不清

Titans的解法
- 短期记忆：用注意力机制，精确处理当前看到的内容
- 长期记忆：用神经网络当"大脑"，把重要信息编码进参数里
- 持久记忆：存储关于任务本身的知识
  
  像人脑一样，三种记忆各司其职。
会判断什么值得记住

核心创新：借鉴人类记忆系统：违背预期的事件（更容易被记住，定义为惊喜度量。

看新闻：
- 看到"今天天气不错" → 不惊讶，不用特别记
- 看到"火星发现生命" → 很惊讶，赶紧记下来
- 后续相关报道 → 虽然不那么惊讶了，但因为和之前的大事件相关，也要记住。
  
  Titans的工作原理：
- 当前惊喜：这个信息和我之前见过的差多少？
- 历史惊喜：最近有没有重要事件在发生？
- 自适应遗忘：这段记忆该保留多久？
边用边学，越用越聪明

传统模型，训练完就定型了，测试时只能"回忆"，不能"学习"。

Titans，测试时记忆模块还在更新，看到新内容会实时调整记忆

实验结果有多猛？

超长文本理解，Needle in Haystack（大海捞针）任务

在16,000字的文章里找一个关键信息，Titans准确率：96%+。

最强对手Mamba2：5.4%（基本瞎猜）

BABILong 超难推理任务，在百万字文档里推理

Titans用不到1/70的参数量，打败了700亿参数的Llama3.1，甚至超GPT-4

常规任务也不拉胯
- 语言建模：比Transformer和所有线性RNN都好
- 时间序列预测：7个数据集全面领先
- 基因序列分析：达到最优SOTA水平
  
  为什么其他模型做不到？
  
  Transformer的困境，想记住100万字？内存爆炸，算不动
  ，只能看固定长度的窗口。
  
  线性RNN的问题，把历史压缩成一个向量或矩阵，就像把一本书总结成一句话，信息丢太多了，没有遗忘机制，时间长了"脑子"就乱了。
  
  Titans的优势
- 深度记忆：用多层神经网络当记忆，比一个矩阵强太多
- 动量机制：不只看当前，还看最近的趋势
- 遗忘门：该忘的忘，该记的记
- 并行训练：虽然复杂，但训练速度不慢
  
  技术上的巧妙之处
  
  把"学习"变成"记忆"，记忆模块本质是在做梯度下降
  ，但它是在测试时做的，相当于一个"元学习器"。
  
  统一了很多现有方法：
- Mamba的遗忘门？Titans的特例
- DeltaNet的增量规则？Titans的简化版
- TTT的测试时训练？Titans加了动量和遗忘
  
  为什么说这个工作重要？
  
  打开了新思路，不是简单地"加大模型"或"优化attention"，从记忆系统的角度重新思考架构。
  
  解决了真实痛点，长文档分析，长视频理解，持续学习场景
  
  最后一个类比
  Transformer = 照相机记忆，看到的都能记住，但一次只能看一小块
  
  传统RNN = 记笔记，把所有东西总结成几句话，细节丢了
  
  Titans = 人类大脑
- 短期记忆：处理当前信息
- 长期记忆：存储重要经历
- 元记忆：知道怎么学习
- 忘记不重要的事
  
  强在哪里？
能记得更多：扩展到200万token，其他模型早崩了
记得更准：知道什么重要，什么该忘
越用越聪明：测试时还在学习
理论有保证：有数学证明和实验。
实验很能打：各种任务都是SOTA或接近SOTA

真的牛逼啊！