DeepSeek 下一代模型 V4 将跑在华为芯片上。
据 The Information 今天报道,DeepSeek 专门推迟了 V4 的发布时间,花了几个月和华为、寒武纪合作,重写了模型底层代码的部分模块,确保 V4 能在华为最新的昇腾(Ascend)芯片上流畅运行。模型预计未来几周内发布。
华为这颗芯片是今年 3 月刚亮相的昇腾 950PR,搭载在 Atlas 350 加速卡上。单卡算力号称是英伟达 H20(目前对华出口合规版本)的 2.87 倍,配备 112GB 显存,内存带宽 1.4 TB/s。更关键的是,它是目前中国唯一支持 FP4 低精度推理的 AI 芯片,FP4 格式能大幅压缩模型对显存的需求,比如一个原本需要 140GB 显存才能跑的 700 亿参数模型,用 FP4 只需要 35GB,同样的硬件能部署更大的模型,或者同时处理更多请求。
不过代价也不小:功耗 600W,大约是 H20 的两倍。
按行业惯例,AI 公司在发布大模型前会提前把模型给英伟达、AMD 等芯片厂商做性能优化。DeepSeek 这次打破了这个惯例,没有给美国芯片厂商提供 V4 的早期访问权限,而是把机会独家给了华为和寒武纪。
The Information 的报道还透露,DeepSeek 目前还在开发两个 V4 变体版本,分别面向不同的能力侧重,同样基于国产芯片。
据英国《金融时报》此前报道,DeepSeek 曾尝试用华为昇腾芯片训练推理模型 R2,但遭遇了反复失败,包括稳定性问题、芯片间互联速度慢、软件工具链不成熟等,最终不得不退回英伟达硬件做训练,华为芯片只用于推理。
V4 能直接跑在华为芯片上,说明过去这段时间软硬件适配取得了实质进展。对中国 AI 行业来说,这是从"离不开英伟达"到"至少推理环节可以用国产替代"的一步。对开发者而言,如果 V4 的性能确实如传闻所说在长上下文编程任务上能和 Claude、ChatGPT 掰手腕,那未来通过国产算力就能用上前沿模型,不用再担心美国芯片出口管制的影响。
点击图片查看原图