当大模型训练需要“千卡集群”的算力支撑,当东部企业为一张H800显卡竞价,当西部数据中心的服务器利用率不足60%——这组矛盾的画面,正是当下中国算力产业的真实缩影。工信部推动的算力互联互通行动,看似是“算力一张网”的宏大蓝图,但落地之初,必须直面三重残酷现实:被NVIDIA主导的存量生态、供需错配的算力乱象,以及外部技术封锁的双重挤压。
打开国内任意一家头部互联网公司的算力机房,大概率会看到同一景象:机架上密集排列的NVIDIA GPU——据2025年行业数据,NVIDIA在国内AI算力芯片市场的份额高达70%,华为昇腾等国产芯片仅占23%,其余厂商瓜分剩余7%。这些GPU(从A800到H20)是当前大模型训练、工业AI推理的“主力军”,但也是算力互联绕不开的“第一道坎”。
问题的核心在于NVIDIA的“生态封闭性”:这些GPU的算力释放,完全依赖CUDA软件生态——从底层的CUDA Toolkit到中间层的cuDNN加速库,再到上层的PyTorch/TensorFlow适配,形成了一套“硬件-软件-工具”的闭环。更关键的是,NVIDIA通过技术限制(如CUDA EULA禁止跨硬件模拟)和硬件阉割(如特供版GPU的NVLink带宽砍半),从根源上阻断了“非NVIDIA架构整合其算力”的可能。
这意味着什么?国内现存的数百万张NVIDIA GPU,看似是“算力资产”,实则是“封闭的孤岛”:阿里的GPU集群无法直接对接腾讯的算力池,中小企业的单卡算力更难参与到大模型训练中——因为没有统一的协议能让这些GPU突破CUDA的限制,实现跨主体协同。工信部要做的“算力互联”,第一步就要面对“70%的存量算力被一家外企绑定”的现实,而解套的难度,堪比“在别人的操作系统上重构新生态”。
“我们有10台单卡服务器,但训练一个中等模型需要8卡集群,这些单卡根本用不上。”这是很多中小AI企业的共同困扰——当前国内算力资源的分布,呈现出严重的“结构性失衡”。
一方面,是“需求端”的迫切缺口:大模型训练需要“高密度、低延迟”的集群算力(如1024卡、2048卡的统一调度),但国内能提供此类算力的,只有阿里、腾讯、字节等头部企业的自建集群,且大多优先满足内部需求;另一方面,是“供给端”的大量闲置:据行业统计,国内中小数据中心的算力上架率平均不足60%,西部部分地区的智算中心甚至长期处于“半闲置”状态,原因是“本地需求少、跨地域调度难”。
更棘手的是“算力碎片化”:不同数据中心的硬件架构(GPU/NPU/TPU混杂)、接口协议(各自的调度系统)、服务标准(计费、时延承诺)完全不统一。比如,一家广州的AI公司想租用成都某数据中心的NPU算力,不仅要解决“数据跨地域传输的延迟问题”,还要面对“模型适配不同芯片的重构成本”——最后往往因“麻烦且不划算”放弃。这种“有算力用不上、需算力找不到”的乱象,正是工信部要破解的核心痛点,但要把这些“小而散”的算力拧成一股绳,远比新建一个超算中心更复杂。
如果说存量GPU的封闭性是“内部困境”,那么外部技术封锁则让算力互联的道路更添阻力。美国对高端AI芯片的出口管制持续升级:从最初限制H100等高端型号,到后来对H800、A800等“特供版”也加码限制,甚至试图阻断先进制程芯片的对华供应——这意味着国内想通过“买更多NVIDIA GPU”来缓解算力缺口的路,正在被逐步堵死。
而国产算力的“替代之路”,目前仍处于“补短板”阶段:华为昇腾虽推出384卡的CloudMatrix超节点,通过MatrixLink实现了高带宽互联,但产能和生态成熟度仍需时间——昇腾芯片的量产能力尚未满足大规模需求,CANN开源生态的开发者数量(约40万)仅为CUDA(超400万)的1/10;谷歌TPU虽在专用AI计算上有优势,但生态绑定TensorFlow,且受限于谷歌云服务,难以融入国内算力网络。
这就形成了“双重压力”:短期无法依赖进口芯片填补缺口,长期国产芯片的生态建设又需时间。工信部推动算力互联,本质上是在“外部卡脖子、内部待成熟”的夹缝中,寻找一条“不依赖单一厂商、不被技术封锁捆住”的路径,但这条路径的每一步,都要面对“技术突破”和“生态建设”的双重考验。
面对如此多的困境,工信部并没有急于追求“全国算力一张网”的理想形态,而是在《算力互联互通行动计划》中给出了2026年的“务实目标”——先解决“能互联、能调度”的基础问题,再谈“高效协同”。
第一步是“统一语言”:建立全国统一的算力标识体系。简单说,就是给每一份算力发“身份证”——标注清楚硬件类型(是NVIDIA A800还是华为昇腾910)、算力规格(FP16算力多少TFLOPS)、内存带宽(HBM容量多少)、服务能力(支持训练还是推理、时延多少)。有了这个“身份证”,不同数据中心的算力才能被“认得出、比得了”,就像电商平台上的商品标注参数,企业可以清晰判断“这份算力是否符合我的需求”。
第二步是“打通通路”:推动三大运营商升级骨干网。算力要跨地域调度,首先得有“高速公路”——工信部明确要求推广800G/1400G光纤传输技术,强化国家级互联网骨干直联点,建设“算力专网”。目前中国移动的400G全光骨干网已投入运营,800G光模块也实现了国产化量产(如睿海光电的产品已通过阿里云认证),这些基础设施的升级,正是为了让“东部的需求”能高效对接“西部的算力”,减少跨地域传输的延迟和损耗。
第三步是“试点破冰”:建国家、区域两级算力互联平台。目前国家超算互联网平台已打通20多家超算/智算中心,累计提供近百亿计算时——比如某科研团队在上海,可通过平台调用兰州超算中心的算力,无需自己搭建集群。这种“先试点、再推广”的模式,正是为了在2026年前验证“跨地域、跨架构算力调度”的可行性,为后续全国互联积累经验。
这些举措,看似是“基础工作”,实则是破解当前困境的关键:通过“标识”解决“算力不互通”的问题,通过“骨干网”解决“调度不高效”的问题,通过“平台”解决“资源不匹配”的问题。虽然离“全国算力一张网”的理想还有距离,但至少为“存量算力利用”和“国产算力突围”找到了一个现实的起点。
道路的曲折,在于每一步都要直面存量生态的封闭、供需矛盾的尖锐、外部封锁的压力;但破局的希望,也正藏在这些“务实的第一步”中——当算力有了统一的“身份证”,当跨地域的“高速路”建成,当分散的算力能被高效调度,中国算力产业才能真正从“被动依赖”走向“主动可控”。