一位 Reddit 用户利用 Intel Optane PMem(持久内存)DIMM 作为系统内存(RAM),成功让一台工作站运行了一个 1 万亿参数的大语言模型。
这位名为 APFrisco 的用户在 Reddit 的 Local LLaMA 社区发布了一篇简短教程,介绍了具体实现方法。他表示,自己购买了一些二手的 Intel Optane Persistent Memory(傲腾持久内存) 模块,由于二手市场价格较低,因此能够以较低成本扩充超大容量内存。
借助这些傲腾内存,他成功在自己的 Xeon 工作站 上本地运行了一个 1 万亿参数模型(这里指 Kimi K2.5),推理速度约为 每秒 4 个 Token。
换句话说,他利用价格相对便宜的二手傲腾持久内存,搭建出了一套能够在本地运行超大规模 AI 模型的系统,而无需依赖昂贵的数据中心级 GPU 集群。
这一原本可以替代SSD,弥补DRAM和SSD之间隔阂的创新技术,因为糟糕的销量而被英特尔放弃
不过,从更宏观的角度来看,这件事表明:在 DRAM(内存) 与 SSD(固态硬盘) 之间,仍然存在一种存储产品的市场空间,尤其是在运行大语言模型(LLM)这类应用时。
目前,DRAM 速度极快但价格昂贵,而 SSD 容量大、成本低,却存在明显的性能瓶颈。对于需要存放数千亿乃至上万亿参数模型的 AI 工作负载而言,两者之间的巨大鸿沟依然存在。
许多业内人士认为,这一缺口很快将由 Compute Express Link(Compute Express Link,CXL)标准 来填补。CXL 有望提供规模庞大、成本更低且支持字节级寻址的内存池,使系统能够像访问传统内存一样访问海量扩展内存,从而更适合大语言模型等对容量需求极高的工作负载。
换句话说,未来 AI 服务器可能不再需要完全依赖昂贵的 DRAM 来容纳超大模型,而是可以通过 CXL 构建数 TB 甚至数十 TB 级别的共享内存池,在成本与性能之间取得更好的平衡。对于推理场景而言,这种架构有望成为连接 DRAM 和 SSD 之间的关键一环。