我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
曙光ScaleX640架构深度解析
视频
音频
原始脚本
曙光 Skyex 640架构深度解析,破解算力集群三大痛点的架构革命,曙光 Skyex 640的横空出世,堪称国产算力集群突破国外技术垄断的关键里程碑。 它在硬件层一次性破解了大规模算力集群的三大核心痛点,为 AI 大模型训练的集群化突围。 为提供了全新范式。 当前算力集群面临的困境堪称三重枷锁。 其一,异构算力兼容难,不同厂商、不同类型的算力卡,GPU、NPU、TPU 等,虽均支持 PCIE 协议,却难实现高效集群协同。 其二,卡间互联效率低,传统架构依赖 CPU 中转数据,GPU 间直连通道缺失,带宽瓶颈成为大模型训练的主要桎梏。 其三,高密度部署矛盾突出,PCIe 同缆传输距离仅1米左右,跨机柜互联需妥协于高时延的系统级协议。 而单机柜高密度部署又面临散热与供电的极限挑战。 当国外同类方案最多仅能在单机柜集群72张算力卡,受限于铜缆传输与散热瓶颈。 曙光 Sky Lake 640以架构革新实现了颠覆性突破。 他舍弃本地 CPU、内存等非核心部件,将整机柜精简为纯 PCIE 设备集群。 80个刀片模块承载640张算力卡,通过正交背板实现卡间两两高速直连,再以静默液冷破解散热难题。 最后用光纤延伸 PCIE 总线,实现远程控制与统一寻址。 这种设计不仅让易购算力卡无需特殊适配即可接入,更将卡间时延压制微秒级,彻底绕开了单卡工艺限制与传统互联瓶颈,为国产算力自主化树立了架构创新的典范。 一一拖二的算力与散热组合,解决高密度运行的核心痛点。 曙光 ScaleX 640采用一个液冷机柜加两个算力机柜的一拖二配置。 每个算力机柜内集成640张算力卡,两台机柜合计可承载1280张卡的超大算力规模。 之所以必须采用这种组合,核心是为了解决高密度算力的散热难题。 640张算力卡在单机柜内密集部署,其发热功率远超传统风冷、普通水冷的承载极限。 为此, ScaleX 640搭载了静默式静默液冷技术,将所有算力设备完全沉浸在特制的可挥发绝缘导热液体中。 这种液体不仅能高效吸收热量,还具备绝缘性,避免设备短路。 同时挥发过程无需风扇、水泵等运动部件,实现0噪音散热。 正是这套方案让640张卡的高密度部署从不可能变为现实。 二,刀片模块而非刀片服务器,极致精简的纯算力单元,很多人会将其与刀片服务器混淆。 但 Scale X 640的核心是80个刀片模块,而非刀片服务器。 两者的本质区别在于,刀片模块是纯粹的算力载体,不含本地 CPU、内存和独立存储,仅集成8张带显存的算力卡,完全为高密度插卡运算设计。 每个刀片模块自带独立的小型背板,核心功能包括三项。 一是提供8个算力卡插槽,实现单模块8张卡的集成。 二是负责模块内的供电分配,确保每张卡稳定供电。 三是搭建模块内的 PCIE 基础互联链路,为卡间初步通信铺路。 更关键的是,每个刀片模块都具备独立的故障隔离能力。 一旦出现供电或链路问题,会自动断开连接,仅影响本模块内的8张卡,不会波及其他79个模块,极大提升了整机柜的可靠性。 三,两级背板架构加正交互联,无瓶颈的总线通信设计,80个刀片模块并非直接堆砌,而是通过模块小背板加机柜总背板的两级结构实现互联。 所有刀片模块先接入机柜的总背板,而总背板的核心是正交互联架构,这也是其区别于星状连接的关键。 星状连接依赖中心设备转发数据,容易出现带宽瓶颈和单点故障。 而 ScaleX 640的总背板采用预设的专用正交总线布线,任意两个刀片模块内的算力卡都能通过直连链路通信,无需中间转发设备。 这种设计不仅让卡间时延低至微秒级,更保证了每条链路的带宽独立。 即便单个模块故障,也不会影响其他模块的通信效率,完美兼顾了低时延、高带宽和高可靠性。 四、远程 PCIe 互联,本质是超级远程 PCIe 设备集群。 ScaleX 640整机柜无本地 CPU,完全作为远程 PCIE 设备集群运行。 其通过 PCIE 光互联卡搭配光纤,将机柜与远程控制节点的 PCIE 根联合体相连,实现 PCIE 总线的远距离延伸。 之所以选择光纤而非铜缆,是因为 PCIE 5.0及以上版本的铜缆传输距离仅1米左右,无法满足跨机柜甚至跨数据中心的远程连接需求。 而光纤能在保持 PCIE 原生协议的前提下,实现长距离低损耗传输。 远程 CPU 的根联合体负责为640张算力卡分配唯一的 PCI IE 地址,Bus Device Function. 确保每张卡都能被远程系统精准识别与控制。 对远程操作系统而言,整个 ScaleX 640机柜就是一堆标准的 PCIE 设备,无需特殊适配即可兼容。 而 PCIE 作为通用硬件接口,早已成为显卡等算力设备的标配,这从底层保障了 ScaleX 640的生态兼容性。 只要支持 PCIE 协议的算力卡均可接入该架构。 总结,ScaleX 640的核心价值在于极致适配 AI 算力需求。 曙光 ScaleX 640的设计逻辑围绕 AI 大规模训练的核心痛点展开。 用刀片模块实现算力的高密度集成,用静默液冷解决散热瓶颈,用正交互联消除总线通信障碍,用远程 PCIE 实现灵活控制与广泛兼容。 它本质上是一台超级远程 PCIE 扩展柜,打破了传统服务器的算力边界,证明了通过总线架构优化和散热技术革新,能够让通用 PCIE 协议适配配超大规模算力集群的需求。 为 AI 大模型训练提供了高效稳定的硬件底座,更在国产算力自主化的进程中树立了架构创新突破硬件限制的典范。
修正脚本
曙光 ScaleX 640架构深度解析,破解算力集群三大痛点的架构革命,曙光 ScaleX 640的横空出世,堪称国产算力集群突破国外技术垄断的关键里程碑。 它在硬件层一次性破解了大规模算力集群的三大核心痛点,为 AI 大模型训练的集群化突围提供了全新范式。 当前算力集群面临的困境堪称三重枷锁。 其一,异构算力兼容难,不同厂商、不同类型的算力卡,GPU、NPU、TPU 等,虽均支持 PCIE 协议,却难实现高效集群协同。 其二,卡间互联效率低,传统架构依赖 CPU 中转数据,GPU 间直连通道缺失,带宽瓶颈成为大模型训练的主要桎梏。 其三,高密度部署矛盾突出,PCIe 铜缆传输距离仅1米左右,跨机柜互联需妥协于高时延的系统级协议。 而单机柜高密度部署又面临散热与供电的极限挑战。 当国外同类方案最多仅能在单机柜集群72张算力卡,受限于铜缆传输与散热瓶颈。 曙光 ScaleX 640以架构革新实现了颠覆性突破。 它舍弃本地 CPU、内存等非核心部件,将整机柜精简为纯 PCIE 设备集群。 80个刀片模块承载640张算力卡,通过正交背板实现卡间两两高速直连,再以静默液冷破解散热难题。 最后用光纤延伸 PCIE 总线,实现远程控制与统一寻址。 这种设计不仅让异构算力卡无需特殊适配即可接入,更将卡间时延压制到微秒级,彻底绕开了单卡工艺限制与传统互联瓶颈,为国产算力自主化树立了架构创新的典范。 一拖二的算力与散热组合,解决高密度运行的核心痛点。 曙光 ScaleX 640采用一个液冷机柜加两个算力机柜的一拖二配置。 每个算力机柜内集成640张算力卡,两台机柜合计可承载1280张卡的超大算力规模。 之所以必须采用这种组合,核心是为了解决高密度算力的散热难题。 640张算力卡在单机柜内密集部署,其发热功率远超传统风冷、普通水冷的承载极限。 为此, ScaleX 640搭载了静默液冷技术,将所有算力设备完全沉浸在特制的可挥发绝缘导热液体中。 这种液体不仅能高效吸收热量,还具备绝缘性,避免设备短路。 同时挥发过程无需风扇、水泵等运动部件,实现0噪音散热。 正是这套方案让640张卡的高密度部署从不可能变为现实。 二、刀片模块而非刀片服务器,极致精简的纯算力单元,很多人会将其与刀片服务器混淆。 但 Scale X 640的核心是80个刀片模块,而非刀片服务器。 两者的本质区别在于,刀片模块是纯粹的算力载体,不含本地 CPU、内存和独立存储,仅集成8张带显存的算力卡,完全为高密度插卡运算设计。 每个刀片模块自带独立的小型背板,核心功能包括三项。 一是提供8个算力卡插槽,实现单模块8张卡的集成。 二是负责模块内的供电分配,确保每张卡稳定供电。 三是搭建模块内的 PCIE 基础互联链路,为卡间初步通信铺路。 更关键的是,每个刀片模块都具备独立的故障隔离能力。 一旦出现供电或链路问题,会自动断开连接,仅影响本模块内的8张卡,不会波及其他79个模块,极大提升了整机柜的可靠性。 三、两级背板架构加正交互联,无瓶颈的总线通信设计,80个刀片模块并非直接堆砌,而是通过模块小背板加机柜总背板的两级结构实现互联。 所有刀片模块先接入机柜的总背板,而总背板的核心是正交互联架构,这也是其区别于星状连接的关键。 星状连接依赖中心设备转发数据,容易出现带宽瓶颈和单点故障。 而 ScaleX 640的总背板采用预设的专用正交总线布线,任意两个刀片模块内的算力卡都能通过直连链路通信,无需中间转发设备。 这种设计不仅让卡间时延低至微秒级,更保证了每条链路的带宽独立。 即便单个模块故障,也不会影响其他模块的通信效率,完美兼顾了低时延、高带宽和高可靠性。 四、远程 PCIe 互联,本质是超级远程 PCIe 设备集群。 ScaleX 640整机柜无本地 CPU,完全作为远程 PCIE 设备集群运行。 其通过 PCIE 光互联卡搭配光纤,将机柜与远程控制节点的 PCIE 根联合体相连,实现 PCIE 总线的远距离延伸。 之所以选择光纤而非铜缆,是因为 PCIE 5.0及以上版本的铜缆传输距离仅1米左右,无法满足跨机柜甚至跨数据中心的远程连接需求。 而光纤能在保持 PCIE 原生协议的前提下,实现长距离低损耗传输。 远程 CPU 的根联合体负责为640张算力卡分配唯一的 PCIE 地址,Bus Device Function. 确保每张卡都能被远程系统精准识别与控制。 对远程操作系统而言,整个 ScaleX 640机柜就是一堆标准的 PCIE 设备,无需特殊适配即可兼容。 而 PCIE 作为通用硬件接口,早已成为显卡等算力设备的标配,这从底层保障了 ScaleX 640的生态兼容性。 只要支持 PCIE 协议的算力卡均可接入该架构。 总结,ScaleX 640的核心价值在于极致适配 AI 算力需求。 曙光 ScaleX 640的设计逻辑围绕 AI 大规模训练的核心痛点展开。 用刀片模块实现算力的高密度集成,用静默液冷解决散热瓶颈,用正交互联消除总线通信障碍,用远程 PCIE 实现灵活控制与广泛兼容。 它本质上是一台超级远程 PCIE 扩展柜,打破了传统服务器的算力边界,证明了通过总线架构优化和散热技术革新,能够让通用 PCIE 协议适配超大规模算力集群的需求。 为 AI 大模型训练提供了高效稳定的硬件底座,更在国产算力自主化的进程中树立了架构创新突破硬件限制的典范。
back to top