没问题,这就为你继续。
大家好,今天我想和大家聊聊当前 AI 算力领域最引人注目的两位 "选手"—— 华为的 CloudMatrix 384 超节点和 NVIDIA 的 GB200 NVL72。
这不仅仅是一次简单的硬件对比,更是两种截然不同技术哲学的碰撞。一边是通信巨头华为,用 16 个机柜和全光互联打造的 "算力集群";另一边是 AI 王者 NVIDIA,在单个机柜里用 72 个 GPU 构建的 "性能怪兽"。
它们代表了应对大模型算力挑战的两种路径:是用规模和开放弥补单芯片差距?还是用垂直整合和封闭生态追求极致性能?
在接下来的分享里,我们将深入探讨它们在网络拓扑、CPU 角色、互联技术和内存管理上的核心差异。你会明白为什么华为需要 192 个 CPU,而 NVIDIA 几乎可以不用 CPU;为什么华为选择光通信,而 NVIDIA 坚守铜缆。
最重要的是,我们将一起分析,在什么场景下应该选择哪种方案,以及这两种技术路线对整个 AI 算力行业的深远影响。
好,让我们先从这两种架构的基本概况开始看起。
首先,让我们快速了解一下这两位主角的基本情况。
想象一下,16 个巨大的机柜并排放在一起,其中 12 个是算力机柜,4 个是网络机柜。这就是华为的 CloudMatrix 384。
它内部包含了 384 颗昇腾 NPU 作为计算核心,还有 192 颗鲲鹏 CPU 作为辅助。华为的思路是 "用集群的力量弥补单芯片性能的不足",通过全光互联技术将这些分散的资源紧密连接起来。
再来看 NVIDIA 的方案,它显得非常紧凑。整个系统只需要一个机柜,里面集成了 72 颗最新的 Blackwell GPU。
NVIDIA 的策略是 "把单芯片性能做到极致",然后用自家的 NVLink 铜缆技术将这些 GPU 连接成一个高速协同的整体。
一个像大型数据中心,一个像超级计算机。这两种截然不同的设计,注定了它们在核心技术上的巨大差异。
这是两者最根本的区别之一。
对于 NVIDIA 的 72 个 GPU,数量相对较少,可以实现近乎 "全连接" 的网络。简单来说,任意两个 GPU 之间只需要经过一两个交换机,就能高速通信。这就像一个小型会议室,任何人想和其他人说话,都能直接听到。
而华为有 384 个节点,如果要全连接,需要数百万条线路,这在物理上是不可能的。所以华为采用了 "分区互联" 的方式,将 384 个节点分成 4 个区域。区域内的节点可以高速通信,但跨区域通信就需要经过更多交换机转发,速度会慢一些。
这就像一个大型商场,同一楼层的店铺之间走动很方便,但要去其他楼层,就必须经过电梯或楼梯。
这个差异也非常有趣。
在 NVIDIA 的系统里,CPU 的作用非常简单,更像是一个 "启动器"。它只负责启动程序,把初始任务分发给 GPU,之后就基本 "退休" 了。GPU 之间的数据交换和内存共享完全不需要 CPU 参与,形成了一个 "GPU 自闭环"。
而华为的 192 个 CPU 则扮演着更重要的角色,它们更像是整个系统的 "智能管家团队"。
- 共同维护一个巨大的虚拟内存地址表
- 处理不同节点间数据读写的一致性
- 智能调度数据预取,提前把需要的数据调到近处
华为的 CPU 不是计算核心,而是整个分布式系统高效运转的 "大脑"。
连接方式的选择,也反映了两家公司的技术基因。
NVIDIA 使用自家的 NVLink 铜缆技术。铜缆的优点是延迟极低,没有光电转换的开销。但缺点也很明显,传输距离很短,而且只能连接 NVIDIA 自家的 GPU。这是一个高性能但封闭的体系。
华为则选择了光通信技术。光信号可以传输非常远的距离而衰减很小,这让华为的系统可以轻松跨机柜甚至跨数据中心扩展。同时,华为开放了自己的互联协议,允许其他厂商的硬件接入。
当然,光通信也有代价,光电转换会带来一定的延迟,尽管华为已经把它降到了很低的水平。
最后,我们看看它们如何管理宝贵的内存资源。
NVIDIA 的 GPU 显存通过硬件级别的 NVLink 技术实现了统一共享。这意味着 72 个 GPU 可以像使用自己的显存一样,直接访问其他 GPU 的显存,速度非常快。这对于需要频繁交换数据的稠密模型训练非常有利。
华为则采用了软件层面的 "内存池化" 技术。它把所有 CPU 和 NPU 的内存整合成一个巨大的共享池,然后通过智能调度让 NPU 可以访问远程内存。
这种方式非常灵活,突破了单节点的内存限制,但由于需要软件调度,在延迟上会比 NVIDIA 的硬件方案稍逊一筹。
了解了技术细节,我们再来看看大家最关心的性能和成本。
从算力上看,华为的 300 PFLOPs 略高于 NVIDIA 的 176 PFLOPs。但 NVIDIA 在单机柜内的通信带宽和延迟上有明显优势。
简单来说,处理单个大任务,NVIDIA 可能更快;而同时处理多个不同任务,华为的资源利用率会更高。
价格方面,华为整套系统约 800 万美元,而 NVIDIA 约 300 万美元,华为贵了不少。
但要考虑扩展性:华为的开放架构让你未来可以按需扩展,而 NVIDIA 的封闭生态可能让你未来升级时不得不继续购买它的昂贵硬件。
能耗上,华为的液冷技术加上国内便宜的电价,实际运行成本可能与 NVIDIA 在美国的成本相当。
那么,到底该怎么选呢?这完全取决于你的具体需求。
- 如果你主要运行稠密模型,追求极致的训练速度
- 如果你需要快速部署,依赖成熟的软件生态
- 如果你没有供应链限制,并且预算充足
- 如果你需要运行超大规模的 MoE 稀疏模型
- 如果你未来有非常明确的、大幅度的扩展需求
- 如果你关注长期总成本,或者有国产化的要求
没有绝对的好坏,只有合适与否。
最后,让我们总结一下。
NVIDIA 代表了 "封闭性能型" 路线:把单芯片做到最好,用封闭生态保证体验,适合追求极致性能的场景。
华为代表了 "开放规模型" 路线:用架构创新弥补单芯片差距,用开放生态拥抱未来,适合需要大规模扩展的场景。
这两种技术路线的并存和竞争,将共同推动整个 AI 算力行业的进步。它们为我们提供了宝贵的经验:在算力竞赛中,既可以单点突破,也可以体系制胜。
技术的道路不止一条,找到最适合自己的那条,才是最重要的。
我的分享就到这里,希望能让大家对这两种顶尖的 AI 算力架构有更深入的理解。谢谢大家,现在欢迎提问。