如果你是不是还记得,2024 年夏天马斯克只用了四个月时间,从零建成了一个 10 万块 GPU 的超级计算集群。
正常流程下,光是向电网申请接入、等审批、等施工,就要三到五年。一个 400MW 的数据中心,走正规路子可能要等到 2028 年才能通电。
今天看了 SemiAnalysis 的报道,《AI 实验室如何解决电力危机》(How AI Labs Are Solving the Power Crisis: The Onsite Gas Deep Dive)https://t.co/RgFWJnvtVO,才知道马斯克的做法很简单粗暴:租了一堆燃气轮机,自己发电。
他租了一堆卡车载的燃气轮机,直接拉到工地,接上天然气管道,几周内就开始供电。xAI 的孟菲斯园区现在已经部署了超过 500MW 的自建发电设备。
这不是什么黑科技,但需要勇气和执行力。因为自建发电的成本比用电网贵得多,而且要自己搞定一大堆运维问题。但马斯克算了一笔账:每 GW 的 AI 云服务,一年能产生 100 到 120 亿美元收入。早上线六个月,就是十几亿美元。这笔账算下来,电费贵一点根本不是事。
于是,一场“自带发电机”的运动在 AI 行业迅速蔓延。OpenAI 和 Oracle 在德州下了一笔史上最大的自建电厂订单,2.3GW。Meta 在俄亥俄州的项目,因为设备紧缺,干脆用了五种不同的发电机拼凑,能用就行,先跑起来再说。
【1】电网为什么成了 AI 的绊脚石
要理解这场“自建电厂”运动,得先明白电网为什么跟不上。
美国的电网并不差。到今天为止,绝大多数 AI 集群还是用电网供电的,包括微软给 OpenAI 建的集群、谷歌在俄亥俄和爱荷华的超算、亚马逊给 Anthropic 建的 Trainium 集群。问题是,这些项目都是 2022 年之前拿到电力批文的,那时候还没有“AI 淘金热”。
ChatGPT 爆火之后,情况完全变了。德州电网运营商 ERCOT 的数据显示,每个月涌进来的数据中心用电申请高达几十 GW,但过去一年实际批准的,加起来刚过 1GW。
为什么批不下来?
首先,电网是一个需要精密平衡的系统。供电和用电必须每秒钟都匹配,差一点就可能导致大面积停电,今年 4 月伊比利亚半岛的大停电就是例子。每接入一个大型用户,都要做复杂的工程评估,确保不会把系统搞崩。
其次,审批陷入了一个恶性循环。所有人都知道拿电很难,所以开发商们同时向多个电网运营商提交申请,先占坑再说。有的申请连地都没买,纯粹是投机。俄亥俄有一个电网,积压了 35GW 的申请,其中 68% 连地都还没拿到。投机申请越多,队伍越长,正经项目等得越久,于是大家更要提前占坑……
从提交申请到真正通电,现在平均要五年。
五年?AI 公司等不起五个月。
【2】“自带发电机”的逻辑
BYOG 的核心逻辑很简单:不等电网了,我自己发电。
但这不是一锤子买卖。更聪明的做法是“桥接电力”:先用自建发电把数据中心跑起来,同时继续排队等电网接入。等电网通了,这些发电设备就转成备用电源。
这样做有两个好处。
第一,时间价值太大了。一个 200MW 的 AI 数据中心,早上线六个月,可能就是十亿美元级别的收入差距。在 AI 军备竞赛里,第一个跑出来的才能吃到最大的蛋糕。用 SemiAnalysis 那篇文章的原话:“Speed is the moat”,速度本身就是护城河。
第二,省掉了柴油发电机备用电源的钱。传统数据中心都要配柴油发电机做备用,现在这些燃气设备可以兼职。
当然,这条路不是谁都能走。自建电厂的成本比电网贵不少,还要自己搞定许可证、天然气供应、运维一堆事。但对于资金充裕、时间敏感的大厂来说,这是当前最务实的选择。
【3】发电设备的“菜单”:从喷气发动机到船用引擎
自建电厂用什么设备?选择比你想象的多。
第一类是航空衍生燃气轮机,简单说就是把喷气发动机从飞机上拆下来,装到地面发电。GE 的 LM2500 就是这么来的,原型是波音 747 和 F-18 战斗机上的发动机。这类设备体积小,一台 30MW 的机组可以用普通卡车运输,几周内就能装好发电。启动也快,从冷启动到满功率只要 5 到 10 分钟。缺点是贵,目前全包成本在每千瓦 1700 到 2000 美元,交货期 18 到 36 个月。
有意思的是,超音速飞机公司 Boom Supersonic 也杀进来了。他们发现自己的喷气发动机设计稍微改改就能发电,于是推出了 Superpower 燃气轮机,已经拿到了 Crusoe 公司 1.2GW 的订单。飞机公司干脆把发电当副业,用赚来的钱贴补造飞机。
第二类是工业燃气轮机,专门为地面发电设计,不是从飞机改的。成本略低,但启动慢一些,需要 20 分钟左右。
第三类是往复式内燃机,本质上是放大了几十倍的汽车发动机。一台 11MW 的机组可能有 14 米长。这类设备单台功率小,但维护简单,对燃料杂质和高温环境的耐受性更好。VoltaGrid 公司就是用这类设备做“能源即服务”,把一堆发电机装在卡车上,哪里需要拉到哪里。xAI 最早的 Colossus 1 集群就用了 VoltaGrid 的 34 台卡车载机组。
第四类是燃料电池,主要是 Bloom Energy 的产品。这东西不烧天然气,通过电化学反应发电,完全没有燃烧过程,所以不产生除了二氧化碳之外的空气污染物。这在环保审批上有巨大优势,部署也最快,几周就能搞定。缺点是最贵,每千瓦 3000 到 4000 美元,而且电池芯片五六年就要换一批。
最后还有重型燃气轮机,就是传统电厂用的那种 GW 级大家伙,配上废热回收的联合循环系统,效率可以超过 60%。但这种设备交货要等两三年,安装调试又要两年,总共五年起步。所以现在更多是作为“终极方案”,先用小设备跑起来,大设备慢慢建。
【4】跑起来才知道的坑
自建电厂不是买几台设备那么简单。真正跑起来之后,有一堆问题等着你。
第一个坑是冗余。电网的平均可用率是 99.93%,也就是“三个 9”。要自己达到这个水平,发电设备必须“超配”。一个 200MW 的数据中心,如果用 11MW 的往复式发电机,大概需要 26 台,其中 23 台工作,3 台备用。如果一台坏了,其他机组稍微加点负荷就能顶上。VoltaGrid 在德州的一个项目,1.4GW 的数据中心配了 2.3GW 的发电设备,超配了 64%。
Meta 在俄亥俄州的 Socrates South 项目更有意思。他们用了 5 种不同的发电设备:3 台 Solar Titan 250、9 台 Solar Titan 130、3 台西门子 SGT-400、15 台卡特彼勒高速发动机。总装机 306MW,给 200MW 的负载供电。设备型号都不统一,明显是“能抢到什么用什么”的拼凑方案。
第二个坑是负载波动。AI 训练的用电负荷变化很快,几毫秒内就可能出现几十兆瓦的波动。如果发电系统的惯性不够,频率会跳,严重的会触发保护跳闸。解决方案包括同步调相机、飞轮储能、电池储能系统。xAI 的做法是配大量特斯拉 Megapack 电池,既能平滑负载波动,又能在发电机启动时顶一会儿。
第三个坑是许可证。虽然自建电厂绑过了电网审批,但还要过环保部门这一关。燃气发电有空气污染物排放,需要拿空气许可证。即使在德州这种审批友好的地方,这个流程也可能要一年以上。Oracle 和 Stargate 的一个 GW 级项目就因为许可证问题延期了,SemiAnalysis 在彭博报道之前三周就通过追踪许可审批流程预测到了这个问题。
xAI 的应对方式很“马斯克”:把项目选址放在田纳西和密西西比两个州的交界处,同时向两边申请,谁先批就在谁那边建。结果田纳西没批下来,密西西比批了,项目就在密西西比落地。
【5】供应链的老伤疤
即使你有钱、有地、有许可证,也不一定能买到设备。
燃气轮机的交货期现在是历史最长。GE Vernova、西门子能源、三菱重工这三大厂商的订单已经排到 2028 年甚至 2029 年。
他们为什么不扩产?
这要追溯到燃气轮机行业的两次“大崩盘”。
第一次是 2001 年前后。互联网泡沫时代,大家相信数据中心会消耗天量电力,电力公司疯狂下单。GE 一年出货超过 60GW。然后互联网泡沫破了,安然崩了,订单一夜之间消失。
第二次是 2017 年到 2022 年,清洁能源转型叠加全球经济放缓,燃气轮机市场跌到谷底。GE 和西门子的年出货量都跌到 10GW 以下。
这两轮周期给制造商留下了深刻的心理阴影。现在 AI 带来的需求暴涨,他们的第一反应不是“赶紧扩产”,而是“别又是一个泡沫”。所以 GE 承诺把产能提到每年 24GW,但这只是回到 2007 到 2016 年的平均水平,根本不是大扩张。西门子也差不多,“不增加厂房面积”是明确说法。
更深层的瓶颈在供应链。燃气轮机的核心部件:涡轮叶片,需要用到稀土金属、单晶镍合金等高端材料,铸造工艺极其复杂。全球能做的供应商就那么几家,而且他们要同时供应民航发动机、军用航空发动机和工业燃气轮机。这些供应商刚经历过 COVID 期间的订单崩盘,现在也不敢贸然扩产。
另外,重型燃气轮机的核心部件重达三四百吨,需要专用的驳船、铁路车厢和拖车来运输。这种重型物流本身也是瓶颈。
相比之下,小型航空衍生燃气轮机和往复式发动机的供应情况好一些,因为它们可以用普通卡车运输,也不那么依赖稀土材料。
【6】新玩家入局
供应紧张的时候,总有人会找到变通办法。
ProEnergy 是先行者。他们把波音 747 退役发动机的核心机翻新改造,做成和 GE LM6000 性能相当的发电机组。用别人不要的东西,解决眼前的燃眉之急。
更有意思的是 Boom Supersonic。这家公司本来是做超音速客机的,结果发现自己的发动机设计稍微改改就能发电。他们推出了 Superpower 燃气轮机,单机 42MW,可以装在一个集装箱里运输。已经拿到了 Crusoe 公司 1.2GW 的订单,计划 2027 年出货 200MW,2028 年 1GW,2029 年 2GW。
一家造飞机的公司来做发电设备,听起来很跨界,但细想又合理,航空衍生燃气轮机本来就是喷气发动机改的,Boom 只是从源头入场。他们甚至可以把发电业务当成飞机业务的“融资渠道”。
往复式发动机领域,船用发动机制造商 Wärtsilä早就入场了。他们发现,驱动游轮的发动机和给数据中心发电的发动机,本质上是同一种东西。已经签了 800MW 的美国数据中心合同。
【7】对 AI 产业意味着什么
如果说总结一下这篇报告的内容:
第一,电力已经成为 AI 发展最主要的瓶颈。不是芯片,不是数据,是电。一个算力集群再牛,没电就是一堆金属。
第二,“速度就是护城河”正在重塑整个基础设施行业。AI 公司为了早几个月上线,愿意承担更高的成本、更复杂的运维、更大的不确定性。这种“时间价值优先”的思维,和传统数据中心“成本效率优先”的逻辑完全不同。
第三,AI 公司正在变成“准电力公司”。它们不再满足于做电网的用户,更想要自己掌控能源供给。这种垂直整合的冲动,和当年互联网公司自建光纤网络是一个路数。
最后必须得再重复一下马斯克那句话:“Speed is the moat”,速度本身就是护城河。
在 AI 这场竞赛里,快,比什么都重要。
点击图片查看原图