同样的 DeepSeek V4 Pro,不同平台成本相差太多了。
在 DeepSeek 官方平台,我用了 1500W Token 只花了 2.43 元,但是在阿里百炼等云平台,同样打了 2.5 折,同样的输入输出,账单大概在 25-35 元,十倍的价格。
这么大价差的原因就出在缓存上,DeepSeek 官方平台的缓存读取价格是 0.025/M,而阿里腾讯云平台,打完 2.5 折后,价格还在 0.25/M,这也是十倍的差价。
1️⃣ 为什么 DeepSeek 官方平台成本这么低?
根据 DeepSeek 的官方文档,它用硬盘实现了前缀缓存。
在一般的大模型推理中,KV Cache 几乎全部放在 HBM 中,而把缓存放在硬盘的做法,能大幅降低硬件成本。
由于用了硬盘,所以 DeepSeek 的缓存不光便宜,时间还长,它的缓存时间是几个小时到几天不等。
2️⃣ 为什么云厂商没做到硬盘缓存?
云厂商一般都是有多级缓存机制的,但是他们都是通用架构,目的是为了适配多种模型,再上下文缓存方面一定比不过 DeepSeek 官方平台的专属配套。
DeepSeek 系列模型在 V2 做了 MLA,V4 又做了 Token 维度压缩 + DSA 稀疏注意力,大幅降低长上下文计算和显存需求。
通过把 KV Cache 大幅压缩,使得传输带宽和存储容量下降,才能把缓存放到低成本硬盘上。
而且 DeepSeek 官方 API 的速度也普遍更快一点,用 DeepSeek 的话真没必要选第三方平台。
缓存文档: https://t.co/NXfDYenbeV
点击图片查看原图