NVIDIA 的这个 NVLink,它是号称训练推理就是一体化,是高效的。那么华为它现在这个,就是说我我不知道我理解对不对,就是说主存跟显存一体化了,就是同样规格的。我的理解是 nvli nvlink 它这个主控跟这个显存是两回事,就是这个完全是 GPU 在运算,意思就是说它的主控、主存根本就不是用来计算的,它只是一第一次的,就是等于是系统控制一下而已,数据全部是在 GPU 的显存内,啊就是 GPU 互互联。而已,互联互通,就 GPU 完全绕开了这个 CPU,就是等于数据不通过 CPU 进行这个走,它的这个 NVLink 这个,它的这个总线。也就是说 GPU 之间直接通讯,这个效率肯定是最高的。那么华为为什么没有这么做?它的做法是为什么要这么大的一个 CPU 的 1T 的内存,而且这个内存跟 GPU 的那个显存是同规格的,是不是?我的理解是说这个 GPU 的这个高带宽,就是 HBE3,就是对标 HBE3 的这个是非常非常贵的。那个带宽这么高的显存,为什么要和主内存用同样规格的这种?就是放到 1T 的这种主内存有什么好处?难道不应该像 NV NVIDIA 那样把数据交换全部放在这个叫做 NPU 之间吗?为什么要去使用 CPU 的主内存去做池化?这有什么好处呢?我的意思说,你训练的时候数据互相交换的时候,其实应该是说 GPU 之间直接交换就好了嘛。你如果直接那个 NVLink,我的理解它是星型的拓扑连接,就是说我不知道这新型拓扑连接这个说法对不对,你来纠正我。就是说它的就是那个并行计算, MapReduce, 你等于是把任务分发,然后最后再集合起来。训练的时候很多都是这样,因为它的那个那张矩阵太大了,训练矩阵太大,你只能把这个矩阵乘法给它分成若干个块,然后去分块去做乘法,但是你必须要去把它组合起来。就是意思就是说,你一个小的矩阵做乘法之后,你还要每个矩阵之间的,还要再去做乘法,就等于是有个 reduce 这一块,它需要把数据集合在一起,然后这个地方一下子就把显存打爆掉了,这是我原来的理解。那么你现在要怎么去做这个事情呢?就是说你现在要放 1T 的这种内存,是这个目的吗?就是说你现在显存也这么大,主内存也这么大,还去搞池化技术。这是这个做法是什么目的?这样的话推理的时候不是更加的浪费吗?还是说效率更高?原来这个 NVIDIA 的这个,就是说训练效率很高,但推理时候利用率才 30%。原因就是因为这个 HBM 这个显存太贵了。然后太大了,训练时候够用,但是推理时候就浪费了,那你现在怎么做?怎么解决这个问题?
针对这个新闻报道,我有几个问题,一个就是说华为的这个 384 超节点,它对应的 NVIDIA 有那种所谓 NVLink 的相对应的这种超级集群,那么跟,嗯,NVIDIA 最顶级的这个目前的超级群,它的性能、算力价格我们来做一些对比吧,就说华为这是 384 超节点,是 NPU,那么一个 NPU 的计算推理能力,他说有达到 2000 多个 2000 美国的 token 每秒,这个跟 NVIDIA 的单个这种算卡的这种节点相比怎么样,还有就是说它的带宽是使用光模块,带宽是 400G,那么这个跟 NVIDIA 的那个超级总线或者是 NVLink 的这个相比如何,然后是 6912 个光模块,这个 6912 个这个是怎么样,是 384 个节点的全互联还是怎么样?看起来好像也不是那种任何两点之间都有连,它是有个拓扑结构吧,然后一共 300P 的算力,这个一 P 是等于 1000 个亿算力,是吗?然后我对于这个带宽就是说我不知道这个 NVIDIA 它的这个最高的这个节点是能做到多少个节点,它应该是它的所谓超级服务器集群,就是等于是单个节点是最多有多少个 GPU 的这种算卡,还是它总共 NVIDIA 的这个 NVLink 它总共能连多少个,最多多少个节点,那单个节点的这个算力跟这个华为的这个 NPU 的算力相比怎么样,然后关于这 6912 个光模块,我现在就是想知道说华为的这个连接啊,384 个节点它的连接,它这个拓扑结构是是所谓的,我我在猜想因为这个 384 的平方应该是是到不了 6912 了,这这这比 692 大多了,所以它有大概是二十几倍吧,二十几倍,我在想说是不是就是它的拓扑结构?是不是说,我在猜想是不是说是一些是都是两两互联,然后一些分成若干个除,然后这些除在有个主干的这种连接,我在猜想这个它这个拓扑结构不知道怎么样?还有一个它的这个存储是,就是说它现在是把 NPU 跟存储相当于全部都走光纤,就相当于说那个 NVIDIA 那种是全部走它的 NVLink,就是说它 GPU 以及 GPU 的之间内存,以及 GPU 那个 GPU 之间的存处,它都使用它的 NVLink 来做,就是不走那个传统的 PCIE 总线,就全部走 NVLink,这个就是它自己的协议,它自己的物理连接,所以它的这个带宽是通用的,就是说 GPU 跟 GPU 之间,GPU 跟存储之间那个通通都是走的同样的协议,还是说它 GPU 之间有更高的这个 HBM,这个它的这个这个带宽更更宽,更高的传输带宽。你能不能,嗯,总的分析对比一下,然后还有这个价格就是如何这两个对比一下。