在AI算力进入万卡级大模型时代后,华为昇腾950与NVIDIA NVLink超级集群成为两条完全不同的技术路线,二者在设计逻辑、性能定位、成本结构、生态壁垒与商业价值上差异巨大。绝大多数外行甚至行业从业者,都容易陷入“只看单卡速度”“只比带宽数值”的浅层对比,而忽略背后的制裁限制、架构取舍、成本构成与真实商业场景。本文基于硬件原理、工程实现、成本模型与市场需求,完整梳理两条路线的本质区别,以及华为为何必须走上“全光+池化+万卡扩展”这条路。
NVIDIA的NVLink+GPU体系,是建立在自由供应链、全栈封闭、高价HBM之上的最优小集群方案;而华为昇腾950的全光万卡架构,则是制裁锁死高端SerDes、HBM禁运、先进制程受限下,被逼出来同时又主动选择的长期路线。很多人误以为华为只是“抄不了作业才退而求其次”,事实上这套架构既包含无奈,也包含远超NVIDIA的长远布局:NVIDIA固守单机柜高密度小集群,华为直接瞄准全国一张网的算力调度体系,二者从根上就不是同一类产品。
NVIDIA的核心优势,在于NVLink短距电互联的极致速度,其单链路带宽达到PCIe 5.0 x16的7倍以上,配合HBM3e超大显存,让GPU之间可以绕开CPU直接高速通信,训练延迟极低、效率极高。但这套体系有两个致命前提:一是必须使用美国主导的高端SerDes与HBM3e,二是扩展性极差,超过64卡后性能衰减明显,只能做小而美的训练集群。对华为而言,这两条都被美国彻底卡死:高端SerDes依赖5nm/3nm制程,HBM3e属于严格禁运产品,即便华为能设计出类NVLink私有总线,也无法量产、无法形成生态,更无法在全球范围内商用。因此,华为放弃短距私有电互联,转向全光模块+灵衢统一协议,不是技术妥协,而是唯一能规模化落地的路线。
全光方案的优势,恰好弥补了电互联的短板:铜缆只能传输1~2米,光纤可跨机柜、跨机房甚至跨城市;柜内柜外可使用同一套协议,无需分层切换;光模块供应链国产自主可控,不受制于人;更关键的是,光纤可以支撑万卡级统一寻址,让整个集群在软件层面看起来像一台计算机,这是NVLink永远做不到的能力。可以说,华为是在制裁边界内,走出了一条比NVIDIA更适合大规模算力组网的路线。
NVIDIA长期宣传“训练推理一体化”,本质是单卡全能化——用同一张带超大HBM的GPU既做训练也做推理,但这在商业上极不划算。HBM3e成本极高,甚至超过GPU核心本身,训练需要超大显存,推理却用不到30%,相当于买法拉利跑滴滴,资源浪费严重。NVIDIA并非不懂异构优化,而是HBM与GPU捆绑的暴利模式,让它没有动力拆分训练与推理硬件,用户只能被动接受高成本。
华为昇腾950采用950DT+950PR双芯异构,彻底解决这一矛盾:950DT主打训练与推理Decode环节,配备144GB自研HiZQ高带宽内存,带宽对标HBM3e;950PR主打推理Prefill与高并发场景,使用低成本高带宽内存,功耗更低、密度更高。二者在同一机柜、同一集群内混插,由调度系统自动分配任务,白天推理需求高时以PR为主,晚上闲时将DT全部投入训练,实现一套硬件全天复用,推理利用率从30%提升至70%~85%。这种异构架构并非多买一套设备,而是同一算力池内的角色划分,从工程上实现真正的训练推理一体化,而非NVIDIA式的单卡全能浪费。
很多人不理解华为为何要在NPU之外搭配1TB鲲鹏CPU内存,并做统一池化,核心原因在于全光互联与NVLink的速度差异。大模型训练的AllReduce聚合环节,会瞬间产生海量中间数据,NVLink可依靠极致速度在GPU显存内完成汇聚,而光互联速度略低,需要一层大容量内存作为缓冲大坝,避免爆显存、堵网络、训练回滚。同时,统一寻址让NPU显存与CPU内存纳入同一地址空间,软件无需关心数据位置,并行计算完全透明,开发者不用拆分模型、不用手写分布式代码,这是万卡集群稳定运行的关键,也是NVIDIA小集群无法具备的能力。
NVLink常被误解为全网全互联,实际仅支持机箱内8卡全直连,扩至64卡POD必须依靠InfiniBand交换机,形成胖树拓扑,多跳后延迟上升、扩展受限。它的设计目标是单机柜训练最优,而非大规模组网,本质是封闭小圈子的超级跑车,速度快但跑不远、拉不多。
华为灵衢全光互联采用单层扁平无收敛拓扑,8192张NPU任意两点之间仅一跳直达,配合400G/800G光模块,总光纤长度超6万米,单跳时延低至200ns。整套系统不区分柜内与柜间,全部走光纤,彻底解决铜缆距离限制,同时实现内存、显存、存储三层池化。6912个光模块并非全互联冗余,而是UB-Mesh架构下的最优配置,既保证带宽,又控制成本,让万卡集群保持线性扩展能力,这是NVLink体系无论如何都无法实现的。
外界常质疑光模块成本高、数模转换损耗大,但在万卡级别下,光模块反而是最成熟、最可控、最具性价比的选择。华为自研光模块与交换机进一步压低成本,配合全液冷散热,PUE低至1.08~1.12,远优于风冷与半液冷方案,长期电费成本优势极其明显。
真实市场价格中,NVIDIA 64卡NVLink POD总成本接近3000万美元,仅能支持1万亿参数以内模型训练;华为昇腾950万卡集群(128柜+32互联柜)批量集采价约1亿美元,总算力达到前者6~7倍,可支持10万亿参数模型训练,单位算力成本仅为NVIDIA的一半。对中小公司而言,1亿美元是天文数字,但对中国移动、中国电信、联通及头部云厂商而言,这笔投入仅相当于中型项目预算,完全具备批量采购能力。
运营商采购这套集群的核心逻辑,是算力租赁+分时复用:万卡统一寻址支持弹性切片,小公司可按小时租用少量算力,大公司可独占整块资源训练超大模型,训练与推理任务混合调度,机柜全年利用率大幅提升。按当前市场算力租赁价格计算,整套万卡集群约10个月即可收回硬件成本,后续持续产生纯利润,相当于低成本印钞机。同时,全液冷+绿电方案实现100%绿电应用与碳排放管理,符合A级智算中心标准,在政策与合规层面更具优势。
华为自研HiZQ/HiBL高带宽内存,是成本可控的关键。这类内存对标HBM2e/HBM3e性能,采用国产堆叠方案,绕开禁运限制,成本仅为HBM3e的1/5~1/10,直接拉低单卡造价。华为不对外出售这类内存,是为了构筑昇腾生态壁垒,确保自身集群的成本与性能优势。
NVIDIA的核心护城河是CUDA生态,全球AI开发者与框架均基于CUDA构建,迁移成本极高。华为CANN作为对标CUDA的底层架构,确实存在适配门槛,普通算法工程师无法直接运行CUDA代码,复杂模型需要专业团队优化。但华为的策略是上层框架兼容,PyTorch等主流框架可自动映射至CANN,简单模型基本无需改码,复杂模型由运营商与云厂商的专业团队适配,成本完全可被租赁收益覆盖。
对普通用户而言,根本不需要接触CANN——用户面对的是统一寻址的算力池,只需要提交任务,底层调度、互联、优化全部由硬件与系统完成,协议透明、地址透明、硬件透明,这也是全光池化架构的核心价值。生态短板只会影响极底层开发者,不会阻碍中小用户使用算力。
NVIDIA凭借CUDA与HBM暴利,长期固守小集群路线,缺乏大规模算力组网的动力,本质是商业利益驱动的固步自封。而华为的全光万卡架构,从一开始就瞄准全国一体化算力网络,支持跨地域调度、多租户复用、训练推理混合、行业安全合规,叠加量子安全技术,对银行、医疗、政务等高安全需求行业极具吸引力。
这套架构并非完美,单卡速度不及NVIDIA顶级GPU,光互联速度弱于NVLink,但它胜在可扩展、可落地、可盈利、不受制于人。在万卡大模型成为主流的未来,小集群路线会逐渐遇到规模天花板,而全光池化路线会展现出更强的生命力。对用户而言,训小模型选NVIDIA更高效,训超大模型、做长期算力运营,华为昇腾950的性价比与扩展性具备碾压优势。
昇腾950全光万卡集群,是制裁限制与长期战略共同作用的产物,既包含无奈的取舍,也包含领先的架构设计。它放弃NVLink式短距极速,选择全光扩展;放弃单卡全能,选择异构高效;放弃封闭生态,选择算力组网。与NVIDIA相比,它单卡不占优,但集群规模、成本效率、长期扩展性与商业价值全面领先。对运营商与云厂商而言,1亿美元的投入是低风险高回报的优质资产;对中小用户而言,租赁模式降低了使用门槛;对行业而言,它打破了NVIDIA的垄断,走出了一条适合大规模算力时代的新路线。在AI算力从“卡堆算力”走向“网联算力”的转折点上,华为的选择,远比表面看起来更具远见。