我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
算力围城与架构困局2
视频
音频
原始脚本
第三章硬件枷锁,英伟达 GPU 集群的扩展性天花板。 一、英伟达集群的甜蜜区,单机柜同缆互联的高效与局限。 英伟达 GPU 集群在 AI 训练领域的崛起,离不开其对单机柜场景的极致优化。 以 NVL 系列集群为例,其采用高速同缆,如 NVLink 4.0,实现机柜内 GPU 互联,传输带宽可达3.6TB每秒,延迟低至微秒级。 这种设计在单机柜或小规模集群场景下优势显著。 同缆无需光电转换,避免了光模块的额外开销,且成本可控,稳定性强,完美适配中小规模模型的训练需求。 在 GPT 3等千亿参数模型时代,这种架构足以支撑 OpenAI 的迭代节奏。 彼时模型规模有限。 单机柜内的64或72颗 GPU 即可满足并行计算需求。 扩大生态的成熟优化更让开发者无需关注底层通信细节,实现傻瓜化高效训练。 这也是 OpenAI 早期依赖英伟达 GPU 的核心原因。 在中小规模场景下,英伟达集群的性价比、开发效率远超其他方案。 但同缆互联的短板也十分明显。 跨机柜扩展时,延迟和能耗呈指数级上升。 同缆的信号衰减随距离增加而加剧。 当集群规模突破单机柜边界,跨机柜传输延迟会从微秒级飙升至毫秒级,导致数据同步效率大幅下降。 同时 铜缆的能耗密度较高,大规模跨机柜部署会带来巨大的散热压力,进一步限制了集群规模的扩张。 二、超大规模扩展的死穴。 跨机柜传输与调度难题,当模型规模从千亿级迈向万亿级,尤其是采用茂架构后,对集群扩展性的需求呈爆发式增长。 MO 架构需要频繁进行专家参数调度,不同机柜的 GPU 需实时交换数据。 这对跨机柜通信的带宽和延迟提出了极高要求。 而英伟达 GPU 集群的同缆互联方案恰恰在这一环节陷入瓶颈。 例如 OpenAI 试图训练万亿参数级 Moe 模型时,需将任务拆分到多个机柜的 GPU 上。 由于跨机柜同缆延迟过高,专家参数的传输时间甚至超过了计算时间,导致通信阻塞,GPU 长时间等待数据,计算资源严重闲置。 为解决这一问题,OpenAI 不得不投入大量资源优化软件调度,甚至采用数据预取、任务分片等复杂策略,但效果有限,反而增加了开发成本。 更严峻的是英伟达集群的跨机 柜扩展缺乏硬件层面的原生支持。 与谷歌 TPU 集群的3D TORUS 拓扑不同,英伟达 GPU 集群的跨机柜互联需依赖第三方交换机,兼容性和协同效率大打折扣。 这意味着,当集群规模扩大时,OpenAI 不仅要面对通信延迟的问题,还要解决不同设备间的适配难题,进一步加剧了算力缺口。 三、谷歌 TPU 集群的降维打击,光互联加全栈协同,与英伟达 GPU 集群的扩展性困境形成鲜明对比的,是谷歌 TPU 集群的全栈优势。 谷歌从芯片设计、网络拓扑到软件框架,构建了一套专为超大规模 AI 训练打造的全栈体系。 彻底解决了跨机柜扩展的难题。 在硬件层面,谷歌第七代 TPU Aronwood 采用 OCS 光电路交换技术,实现跨机柜互联,传输带宽达400 Gbps 链路,延迟低至亚微秒级,且能耗仅为铜缆的十分1%。 同时,TPU 集群采用3D Torus 拓扑,9216颗 TPU 可通过光交换机形成一个统一的计算节点。 无主从之分,任务拆分由硬件自动完成,无需软件层额外适配。 在软件层面,谷歌 Pathways 框架与 TPU 深度协同,能够动态调度数万个 TPU 的算力,实现模型并行、数据并行、专家并行的三重并行。 例如,训练 Gemini 30时,Pathways 可将不同专家模块分配到不同机柜的 TPU 上,通过光互联实现实时数据交换,通信开销几乎可忽略不计。 这种硬件原生并行加软件智能调度的模式,让谷歌能够轻松支撑万亿参数级 Moe 模型的训练。 而算力开销仅为英伟达集群的1/5左右。 四、OpenAI 的算力缺口本质,缺乏全栈自研能力。 OpenAI 的算力缺口,表面上是 GPU 资源不足,本质上是依赖通用硬件生态与超大规模训练需求的矛盾。 谷歌之所以能突破算力瓶颈,核心在于其拥有芯片、互联、软件、模型的全栈自研能力,能够实现硬件与软件的深度协同。 而 OpenAI 作为纯 AI 公司,缺乏自有硬件研发团队,只能依赖英伟达的通用 GPU 方案,自然被锁死在扩展性的天花板下。 更关键的是,谷歌的全栈体系形成了研发、应用、迭代的闭环。 TPU 集群支撑 Gemini 模型训练,模型训练过程中发现的硬件优化需求反哺 TPU 芯片迭代,Pathways 框架也随模型需求不断升级。 这种闭环让谷歌的算力体系持续进化,而 OpenAI 只能被动依赖英伟达的硬件更新,难以实现针对性优化。 例如,当 OpenAI 遇到跨机柜通信瓶颈时,只能等待英伟达推出新一代 GPU 或通信方案。 而谷歌则可直接修改 TPU 的网络拓扑或 Pathways 的调度逻辑,快速解决问题。 这种被动适配与主动优化的差距,正是 OpenAI 与谷歌在算力层面的核心鸿沟。
修正脚本
第三章硬件枷锁,英伟达 GPU 集群的扩展性天花板。 一、英伟达集群的甜蜜区,单机柜铜缆互联的高效与局限。 英伟达 GPU 集群在 AI 训练领域的崛起,离不开其对单机柜场景的极致优化。 以 NVL 系列集群为例,其采用高速铜缆,如 NVLink 4.0,实现机柜内 GPU 互联,传输带宽可达3.6TB每秒,延迟低至微秒级。 这种设计在单机柜或小规模集群场景下优势显著。 铜缆无需光电转换,避免了光模块的额外开销,且成本可控,稳定性强,完美适配中小规模模型的训练需求。 在 GPT 3等千亿参数模型时代,这种架构足以支撑 OpenAI 的迭代节奏。 彼时模型规模有限。 单机柜内的64或72颗 GPU 即可满足并行计算需求。 CUDA生态的成熟优化更让开发者无需关注底层通信细节,实现傻瓜化高效训练。 这也是 OpenAI 早期依赖英伟达 GPU 的核心原因。 在中小规模场景下,英伟达集群的性价比、开发效率远超其他方案。 但铜缆互联的短板也十分明显。 跨机柜扩展时,延迟和能耗呈指数级上升。 铜缆的信号衰减随距离增加而加剧。 当集群规模突破单机柜边界,跨机柜传输延迟会从微秒级飙升至毫秒级,导致数据同步效率大幅下降。 同时,铜缆的能耗密度较高,大规模跨机柜部署会带来巨大的散热压力,进一步限制了集群规模的扩张。 二、超大规模扩展的死穴。 跨机柜传输与调度难题,当模型规模从千亿级迈向万亿级,尤其是采用MoE架构后,对集群扩展性的需求呈爆发式增长。 MoE 架构需要频繁进行专家参数调度,不同机柜的 GPU 需实时交换数据。 这对跨机柜通信的带宽和延迟提出了极高要求。 而英伟达 GPU 集群的铜缆互联方案恰恰在这一环节陷入瓶颈。 例如 OpenAI 试图训练万亿参数级 Moe 模型时,需将任务拆分到多个机柜的 GPU 上。 由于跨机柜铜缆延迟过高,专家参数的传输时间甚至超过了计算时间,导致通信阻塞,GPU 长时间等待数据,计算资源严重闲置。 为解决这一问题,OpenAI 不得不投入大量资源优化软件调度,甚至采用数据预取、任务分片等复杂策略,但效果有限,反而增加了开发成本。 更严峻的是英伟达集群的跨机柜扩展缺乏硬件层面的原生支持。 与谷歌 TPU 集群的3D TORUS 拓扑不同,英伟达 GPU 集群的跨机柜互联需依赖第三方交换机,兼容性和协同效率大打折扣。 这意味着,当集群规模扩大时,OpenAI 不仅要面对通信延迟的问题,还要解决不同设备间的适配难题,进一步加剧了算力缺口。 三、谷歌 TPU 集群的降维打击,光互联加全栈协同,与英伟达 GPU 集群的扩展性困境形成鲜明对比的,是谷歌 TPU 集群的全栈优势。 谷歌从芯片设计、网络拓扑到软件框架,构建了一套专为超大规模 AI 训练打造的全栈体系。 彻底解决了跨机柜扩展的难题。 在硬件层面,谷歌第七代 TPU Aronwood 采用 OCS 光电路交换技术,实现跨机柜互联,传输带宽达400 Gbps 链路,延迟低至亚微秒级,且能耗仅为铜缆的十分之一。 同时,TPU 集群采用3D Torus 拓扑,9216颗 TPU 可通过光交换机形成一个统一的计算节点。 无主从之分,任务拆分由硬件自动完成,无需软件层额外适配。 在软件层面,谷歌 Pathways 框架与 TPU 深度协同,能够动态调度数万个 TPU 的算力,实现模型并行、数据并行、专家并行的三重并行。 例如,训练 Gemini 30时,Pathways 可将不同专家模块分配到不同机柜的 TPU 上,通过光互联实现实时数据交换,通信开销几乎可忽略不计。 这种硬件原生并行加软件智能调度的模式,让谷歌能够轻松支撑万亿参数级 Moe 模型的训练。 而算力开销仅为英伟达集群的1/5左右。 四、OpenAI 的算力缺口本质,缺乏全栈自研能力。 OpenAI 的算力缺口,表面上是 GPU 资源不足,本质上是依赖通用硬件生态与超大规模训练需求的矛盾。 谷歌之所以能突破算力瓶颈,核心在于其拥有芯片、互联、软件、模型的全栈自研能力,能够实现硬件与软件的深度协同。 而 OpenAI 作为纯 AI 公司,缺乏自有硬件研发团队,只能依赖英伟达的通用 GPU 方案,自然被锁死在扩展性的天花板下。 更关键的是,谷歌的全栈体系形成了研发、应用、迭代的闭环。 TPU 集群支撑 Gemini 模型训练,模型训练过程中发现的硬件优化需求反哺 TPU 芯片迭代,Pathways 框架也随模型需求不断升级。 这种闭环让谷歌的算力体系持续进化,而 OpenAI 只能被动依赖英伟达的硬件更新,难以实现针对性优化。 例如,当 OpenAI 遇到跨机柜通信瓶颈时,只能等待英伟达推出新一代 GPU 或通信方案。 而谷歌则可直接修改 TPU 的网络拓扑或 Pathways 的调度逻辑,快速解决问题。 这种被动适配与主动优化的差距,正是 OpenAI 与谷歌在算力层面的核心鸿沟。
back to top