Ilya很早前的分享,讲明白了的无监督学习的本质是“压缩”,压缩就是学习,很有启发。
压缩就是学习:一个更简单的解释
假设你有两个文件夹:
① 文件夹 X:一堆没标签的照片(无监督数据)
② 文件夹 Y:你真正要做的任务,比如识别猫狗(有标签数据)
现在你用压缩软件把这两个文件夹打包在一起。
神奇的事情发生了:
如果压缩软件足够聪明,它会发现 X 和 Y 里有共同的模式(比如都有"毛茸茸的边缘"、"四条腿"这些特征),然后用这些共同模式来压缩得更小。
这就是无监督学习在干的事。
监督学习很清楚:
- 你告诉机器"这是猫,那是狗"
- 机器学会了,训练准确率高,测试准确率也高
- 有数学公式保证这件事
但无监督学习很诡异:
- 你让机器预测"下一个像素是什么"
- 但你真正想要的是"识别猫狗"
- 这俩任务根本不一样啊!凭什么预测像素能帮你识别猫狗?
以前我们只知道无监督学习"确实有用",但说不清为什么一定有用。
Ilya 说,把无监督学习想成压缩问题就清楚了。
好的压缩 = 找到数据里的规律
- 如果一张图片全是随机噪点,你压缩不了
- 如果图片里有规律(比如天空都是蓝的,草地都是绿的),你就能压缩
所以:
- 预测下一个像素 = 找到像素之间的规律 = 压缩图片
- 找到的规律越好,压缩越狠,学到的东西就越有用
2020 年 Ilya 团队做了个实验:
- 把图片变成一串像素:像素1,像素2,像素3...
- 训练模型预测:看到前面的像素,猜下一个是什么
- 模型越大,预测越准
- 神奇的事发生了:预测越准的模型,拿去做图片分类也越准
这证明了:压缩能力强 = 学习能力强
旧的困惑:
我让你学"预测下一个字",你怎么就会"写作文"了?这俩不是一回事啊。
Ilya 的解释:
因为要预测得准,你必须理解语言的深层规律。
这些规律对写作文也有用。
用压缩的语言说:
- 压缩一本小说,你得理解情节、人物、语法
- 这些理解本身就是"学习"
- 压缩得越好,理解得越深
为什么这个视角很棒?
因为它给了一个数学上的保证:
只要你的模型能把数据压缩得足够好,它就一定学到了有用的东西。
简单的一句话版本:
压缩数据 = 找规律,找到的规律越多,学到的东西就越有用。
GPT 预测下一个词,本质上就是在压缩文本,所以它能学会语言。
https://t.co/digeAJm2D7