我的征尘是星辰大海。。。

The dirt and dust from my pilgrimage forms oceans of stars...

-------当记忆的篇章变得零碎，当追忆的图片变得模糊，我们只能求助于数字存储的永恒的回忆

作者:黄教授

手机视频列表

AI算力的巅峰对决

视频

音频

原始脚本

华为 Cloud Matrix 384 versus NVIDIA GB 200 NVL 72技术对比发言稿。
开场介绍，大家好，今天我想和大家聊聊当前 AI 算力领域最引人注目的两位选手，华为的 Cloud Matrix 384 超节点和 NVIDIA 的 GB 200 NVL 72。
这不仅仅是一次简单的硬件对比，更是两种截然不同技术哲学的碰撞。
一边是通信巨头华为，用16个机柜和全光互联打造的算力集群。
另一边是 AI 王者 NVIDIA，在单个机柜里用72个 GPU 构建的性能怪兽。
他们代表了应对大模型算力挑战的两种路径，是用规模和开放弥补单芯片差距？还是用垂直整合和封闭生态追求极致性能？在接下来的分享里，我们将深入探讨他们在网络拓扑、CPU 角色、互联技术和内存管理上的核心差异。
你会明白为什么华为需要192个 CPU，而 NVIDIA 几乎可以不用 CPU。
 为什么华为选择光通信？而 NVIDIA 坚守同揽。
最重要的是，我们将一起分析，在什么场景下应该选择哪种方案，以及这两种技术路线对整个 AI 算力行业的深远影响。
好，让我们先从这两种架构的基本概况开始看起。
架构概述首先，让我们快速了解一下这两位主角的基本情况。
华为 Cloud Matrix 384，想象一下，16个巨大的机柜并排放在一起，其中12个是算力机柜，4个是网络机柜，这就是华为的 Cloud Matrix 384。
它内部包含了384颗昇腾 NPU 作为计算核心，还有192颗鲲鹏 CPU 作为辅助。
华为的思路是用集群的力量弥补单芯片性能的不足，通过全光互联技术将这些分散的资源紧密连接起来。
Invidia GB 200 NVL 72。
再来看 Invidia 的方案，它显得非常紧凑。
整个系统只需要一个机柜，里面集成了72颗最新的 Blackwell GPU。
NVIDIA 的策略是把单芯片性能做到极致，然后用自家的 NVLink 同缆技术将这些 GPU 连接成一个高速协同的整体。
一个像大型数据中心，一个像超级计算机。
这两种截然不同的设计，注定了它们在核心技术上的巨大差异。
核心差异对比一，网络拓扑，全连接 vs 分区互联。
这是两者最根本的区别之一。
对于 NVIDIA 的72个 GPU，数量相对较少，可以实现近乎全连接的网络。
简单来说，任意两 两个 GPU 之间只需要经过一两个交换机就能高速通信。
这就像一个小型会议室，任何人想和其他人说话都能直接听到。
而华为有384个节点，如果要全连接，需要数百万条线路，这在物理上是不可能的。
所以华为采用了分区互联的方式，将384个节点分成四个区域。
区域内的节点可以高速通信，但跨区域通信就需要经过更多交换机转发，速度会慢一些。
这就像一个大型商场，同一楼层的店铺之间走动很方便，但要去其他楼层，就必须经过电梯或楼梯。
二，CPU 角色，任务分发 vs 智能管这个差异也非常有趣，在 NVIDIA 的系统里，CPU 的作用非常简单，更像是一个启动器。
他只负责启动程序，把初始任务分发给 GPU，之后就基本退休了。
GPU 之间的数据交换和内存共享完全不需要 CPU 参与，形成了一个 GPU 自闭环。
而华为的192个 CPU 则扮演着更重要的角色，他们更像是整个系统的智能管家团队。
共同维护一个巨大的虚拟内存地址表，处理不同节点间数据读写的一致性，智能调度数据预取，提前把需要的数据调到近处。
华为的 CPU 不是计算核心，而是整个分布式系统高效运转的大脑。
三、互联技术，铜缆封闭 vs 全光开放。
连接方式的选择也反映了两家公司的技术基因。
NVIDIA 使用自家的 NVLink 铜缆技术。
铜缆的优点是延迟极低，没有光电转换的开销。
但缺点也很明显，传输距离很短，而且只能连接 NVIDIA 自家的 GPU，这是一个高性能但封闭的体系。
华为则选择了光通信技术，光信号可以传输非常远的距离而衰减很小，这让华为的系统可以轻松跨机柜甚至跨数据中心扩展。
同时，华为开放了自己的互联协议，允许其他厂商的硬件接入。
当然，光通信也有代价，光电转换会带来一定的延迟，尽管华为已经把它降到了很低的水平。
四、内存管理，硬件共享 vs 软件池化。
最后，我们看看他们如何管理宝贵的内存资源。
NVIDIA 的 GPU 显存通过硬件级别的 NVLink 技术实现了统一共享。
这意味着72个 GPU 可以像使用自己的显存一样，直接访问其他 GPU 的显存，速度非常快。
这对于需要频繁交换数据的稠密模型训练非常有利。
华为则采用了软件层面的内存池化技术。
技术 他把所有 CPU 和 NPU 的内存整合成一个巨大的共享池，然后通过智能调度让 NPU 可以访问远程内存。
这种方式非常灵活，突破了单节点的内存限制。
但由于需要软件调度，在延迟上会比 NVIDIA 的硬件方案稍逊一筹。
性能与成本了解了技术细节，我们再来看看大家最关心的性能和成本。
性能指标从算力上看，华为的300 FLOPS 略高于 NVIDIA 的176 FLOPS。
但 NVIDIA 在单机柜内的通信带宽和延迟上有明显优势。
简单来说，处理单个大任务，Nvidia 可能更快。
而同时处理多个不同任务，华为的资源利用率会更高。
成本结构价格方面，华为整套系统约800万美元，而 Nvidia 约300万美元，华为贵了不少。
但要考虑扩展性，华为的开放架构让你未来可以按需扩展，而 NVIDIA 的封闭生态可能让你未来升级时不得不继续购买它的昂贵硬件。
能耗上，华为的液冷技术加上国内便宜的电价，实际运行成本可能与 NVIDIA 在美国的成本相当。
适用场景与选型建议，那么到底该怎么选呢？这完全取决于你的具体需求。
优先选 NVIDIA 的情况，如果你主要运行稠密模型，追求极致的训练速度。
如果你需要快速部署，依赖成熟的软件生态。
如果你没有供应链限制并且预算充足。
优先选华为的情况，如果你需要运行超大规模的 MOE 稀疏模型。
如果你未来有非常明确的大幅度的扩展需求，如果你关注长期总成本，或者有国产化的要求，没有绝对的好坏，只有合适与否。
总结与启示，最后让我们总结一下，Nvidia 代表了封闭性能型路线，把单芯片做到最好，用封闭生态保证。
体验，适合追求极致性能的场景。
华为代表了开放规模型路线，用架构创新弥补单芯片差距，用开放生态拥抱未来，适合需要大规模扩展的场景。
这两种技术路线的并存和竞争将共同推动整个 AI 算力行业的进步。
他们为我们提供了宝贵的经验。
在算力竞赛中，既可以单点突破，也可以体系制胜。
技术的道路不止一条，找到最适合自己的那条才是最重要的。

修正脚本

华为 Cloud Matrix 384 versus NVIDIA GB 200 NVL 72技术对比发言稿。
开场介绍，大家好，今天我想和大家聊聊当前 AI 算力领域最引人注目的两位选手，华为的 Cloud Matrix 384 超节点和 NVIDIA 的 GB 200 NVL 72。
这不仅仅是一次简单的硬件对比，更是两种截然不同技术哲学的碰撞。
一边是通信巨头华为，用16个机柜和全光互联打造的算力集群。
另一边是 AI 王者 NVIDIA，在单个机柜里用72个 GPU 构建的性能怪兽。
他们代表了应对大模型算力挑战的两种路径，是用规模和开放弥补单芯片差距？还是用垂直整合和封闭生态追求极致性能？在接下来的分享里，我们将深入探讨他们在网络拓扑、CPU 角色、互联技术和内存管理上的核心差异。
你会明白为什么华为需要192个 CPU，而 NVIDIA 几乎可以不用 CPU。
 为什么华为选择光通信？而 NVIDIA 坚守铜缆。
最重要的是，我们将一起分析，在什么场景下应该选择哪种方案，以及这两种技术路线对整个 AI 算力行业的深远影响。
好，让我们先从这两种架构的基本概况开始看起。
架构概述首先，让我们快速了解一下这两位主角的基本情况。
华为 Cloud Matrix 384，想象一下，16个巨大的机柜并排放在一起，其中12个是算力机柜，4个是网络机柜，这就是华为的 Cloud Matrix 384。
它内部包含了384颗昇腾 NPU 作为计算核心，还有192颗鲲鹏 CPU 作为辅助。
华为的思路是用集群的力量弥补单芯片性能的不足，通过全光互联技术将这些分散的资源紧密连接起来。
NVIDIA GB 200 NVL 72。
再来看 NVIDIA 的方案，它显得非常紧凑。
整个系统只需要一个机柜，里面集成了72颗最新的 Blackwell GPU。
NVIDIA 的策略是把单芯片性能做到极致，然后用自家的 NVLink 铜缆技术将这些 GPU 连接成一个高速协同的整体。
一个像大型数据中心，一个像超级计算机。
这两种截然不同的设计，注定了它们在核心技术上的巨大差异。
核心差异对比一，网络拓扑，全连接 vs 分区互联。
这是两者最根本的区别之一。
对于 NVIDIA 的72个 GPU，数量相对较少，可以实现近乎全连接的网络。
简单来说，任意两个 GPU 之间只需要经过一两个交换机就能高速通信。
这就像一个小型会议室，任何人想和其他人说话都能直接听到。
而华为有384个节点，如果要全连接，需要数百万条线路，这在物理上是不可能的。
所以华为采用了分区互联的方式，将384个节点分成四个区域。
区域内的节点可以高速通信，但跨区域通信就需要经过更多交换机转发，速度会慢一些。
这就像一个大型商场，同一楼层的店铺之间走动很方便，但要去其他楼层，就必须经过电梯或楼梯。
二，CPU 角色，任务分发 vs 智能管理，这个差异也非常有趣，在 NVIDIA 的系统里，CPU 的作用非常简单，更像是一个启动器。
它只负责启动程序，把初始任务分发给 GPU，之后就基本退休了。
GPU 之间的数据交换和内存共享完全不需要 CPU 参与，形成了一个 GPU 自闭环。
而华为的192个 CPU 则扮演着更重要的角色，他们更像是整个系统的智能管家团队。
共同维护一个巨大的虚拟内存地址表，处理不同节点间数据读写的一致性，智能调度数据预取，提前把需要的数据调到近处。
华为的 CPU 不是计算核心，而是整个分布式系统高效运转的大脑。
三、互联技术，铜缆封闭 vs 全光开放。
连接方式的选择也反映了两家公司的技术基因。
NVIDIA 使用自家的 NVLink 铜缆技术。
铜缆的优点是延迟极低，没有光电转换的开销。
但缺点也很明显，传输距离很短，而且只能连接 NVIDIA 自家的 GPU，这是一个高性能但封闭的体系。
华为则选择了光通信技术，光信号可以传输非常远的距离而衰减很小，这让华为的系统可以轻松跨机柜甚至跨数据中心扩展。
同时，华为开放了自己的互联协议，允许其他厂商的硬件接入。
当然，光通信也有代价，光电转换会带来一定的延迟，尽管华为已经把它降到了很低的水平。
四、内存管理，硬件共享 vs 软件池化。
最后，我们看看他们如何管理宝贵的内存资源。
NVIDIA 的 GPU 显存通过硬件级别的 NVLink 技术实现了统一共享。
这意味着72个 GPU 可以像使用自己的显存一样，直接访问其他 GPU 的显存，速度非常快。
这对于需要频繁交换数据的稠密模型训练非常有利。
华为则采用了软件层面的内存池化技术。
它把所有 CPU 和 NPU 的内存整合成一个巨大的共享池，然后通过智能调度让 NPU 可以访问远程内存。
这种方式非常灵活，突破了单节点的内存限制。
但由于需要软件调度，在延迟上会比 NVIDIA 的硬件方案稍逊一筹。
性能与成本了解了技术细节，我们再来看看大家最关心的性能和成本。
性能指标从算力上看，华为的300 FLOPS 略高于 NVIDIA 的176 FLOPS。
但 NVIDIA 在单机柜内的通信带宽和延迟上有明显优势。
简单来说，处理单个大任务，Nvidia 可能更快。
而同时处理多个不同任务，华为的资源利用率会更高。
成本结构价格方面，华为整套系统约800万美元，而 Nvidia 约300万美元，华为贵了不少。
但要考虑扩展性，华为的开放架构让你未来可以按需扩展，而 NVIDIA 的封闭生态可能让你未来升级时不得不继续购买它的昂贵硬件。
能耗上，华为的液冷技术加上国内便宜的电价，实际运行成本可能与 NVIDIA 在美国的成本相当。
适用场景与选型建议，那么到底该怎么选呢？这完全取决于你的具体需求。
优先选 NVIDIA 的情况，如果你主要运行稠密模型，追求极致的训练速度。
如果你需要快速部署，依赖成熟的软件生态。
如果你没有供应链限制并且预算充足。
优先选华为的情况，如果你需要运行超大规模的 MOE 稀疏模型。
如果你未来有非常明确的大幅度的扩展需求，如果你关注长期总成本，或者有国产化的要求，没有绝对的好坏，只有合适与否。
总结与启示，最后让我们总结一下，Nvidia 代表了封闭性能型路线，把单芯片做到最好，用封闭生态保证体验，适合追求极致性能的场景。
华为代表了开放规模型路线，用架构创新弥补单芯片差距，用开放生态拥抱未来，适合需要大规模扩展的场景。
这两种技术路线的并存和竞争将共同推动整个 AI 算力行业的进步。
他们为我们提供了宝贵的经验。
在算力竞赛中，既可以单点突破，也可以体系制胜。
技术的道路不止一条，找到最适合自己的那条才是最重要的。