谷歌的 AI 算力体系,是“平台型全栈”的典范,其核心逻辑是围绕自身 AI 研究与云平台生态,构建从芯片到软件的垂直整合能力。从 2016 年第一代 TPU 问世,到 2024 年第七代 Ironwood TPU 集群落地,谷歌用八年时间完成了“芯片-互联-软件-模型”的全链路闭环,而这一切的核心目标,都是为了支撑超大规模模型的高效训练。
在硬件层面,谷歌的 TPU 芯片从设计之初就瞄准 AI 张量运算,采用脉动阵列架构,算力密度远超通用 GPU。最新的 Ironwood TPU 单芯片算力达 4.6 PFLOPS,9216 颗芯片组成的集群总算力高达 42.5 ExaFLOPS,且通过 OCS 光交换和 3D Torus 拓扑,实现跨机柜的低延迟互联——这意味着,谷歌可以将万亿参数级的 MoE 模型,像调度单个芯片一样进行高效并行计算。
软件层面,Pathways 框架与 TPU 深度协同,解决了超大规模模型的调度难题。它能够自动将模型拆分为多个任务,分配给不同的 TPU 节点,同时动态调整专家模块的激活策略,确保算力资源的高效利用。例如,训练 Gemini 3 时,Pathways 会根据不同任务场景,灵活切换数据并行、模型并行和专家并行模式,实现性能与效率的最优平衡。
更关键的是,谷歌的全栈体系形成了“飞轮效应”:TPU 集群支撑 Gemini 模型迭代,模型训练中发现的硬件优化需求反哺 TPU 芯片研发,Pathways 框架也随模型需求持续升级。这种“研发-应用-迭代”的闭环,让谷歌的算力体系始终保持行业领先,也使其在 MoE 架构的落地中占据绝对优势。
与谷歌的“平台型全栈”不同,华为的 AI 算力体系走的是“产品型全栈”路线,核心是依托自身在通信、服务器、芯片等领域的技术积淀,打造兼顾国产化替代与多场景适配的算力解决方案。华为的全栈能力,扎根于其数十年的硬件产品经验,从昇腾芯片、Atlas 集群到 MindSpore 框架,每一个环节都服务于“政企、工业、消费”等多元化场景需求。
在硬件层面,华为的昇腾 910B 芯片采用达芬奇架构,适配 AI 训练与推理双重场景,而 Atlas 集群则延续了华为在通信领域的优势,采用自研的智能分布式存储和高速光互联技术,单集群可支持 384 颗昇腾芯片的高效并行。与谷歌 TPU 集群聚焦超大规模模型不同,华为 Atlas 集群更注重通用性,既能支撑 AI 训练,也能适配工业互联网、智能驾驶等终端场景的算力需求。
软件层面,MindSpore 框架采用“端边云全场景统一”的设计,能够适配从手机端到云端的不同硬件环境,这与谷歌 Pathways 框架专注云端超大规模调度形成鲜明对比。华为的这种设计,是为了满足国产化替代的需求——在政企、工业等领域,用户往往需要“端到端”的算力解决方案,而非单一的云端训练平台。
受限于外部制裁,华为的全栈体系在芯片制造、EDA 工具等环节仍面临挑战,因此在集群规模扩展上采取“稳步迭代”策略,目前重点推进 384 颗芯片级集群的落地,而非谷歌式的 9000 颗以上规模扩张。但凭借在通信、服务器领域的深厚积累,华为的算力体系在国产化市场具备独特优势,尤其在工业、政务等对自主可控要求高的场景,已实现规模化应用。
除了 OpenAI,美国其他头部 AI 公司(如 Anthropic、Cohere)也深陷“生态依赖”的困境,它们同样依赖英伟达 GPU 集群,难以突破 Scaling Law 天花板,只能通过妥协方案维持增长。
Anthropic 作为 OpenAI 的“同门师弟”,早期沿用稠密架构推进 Claude 系列,靠微软 Azure 的 GPU 集群实现快速迭代。但到 Claude 3 系列后,Scaling Law 失效的问题日益凸显,再堆 GPU 规模已无法实现性能的显著提升。为此,Anthropic 放弃了“大而全”的模型思路,转而推出针对法律文书、科研论文的定制化版本——本质是用“产品层面的场景拆分”,替代 MoE 架构的“模型层面的专家分工”,避开架构重构的成本。
Cohere 则更直接地承认了行业瓶颈,其联合创始人公开表示,LLM 发展已进入平台期,简单扩大模型规模的边际效益递减。Cohere 的应对策略是“强化推理能力”,通过增加模型的“思考时间”(即延长推理时的计算步骤),替代算力堆砌,提升任务准确率。同时,它推出定制化研发服务,针对企业客户的细分场景进行深度优化,靠服务增值弥补模型性能的增长乏力。
即便是 OpenAI,也在尝试多元算力突围。除了与微软深度绑定,它还向 AWS、甲骨文采购算力,试图通过“多厂商算力整合”缓解资源压力。此外,有消息称 OpenAI 正在推进“Stargate 项目”,探索自研芯片的可能性,但受限于硬件研发经验,短期内难以突破——这也印证了全栈自研的难度,并非靠资金就能快速弥补。
国内 AI 玩家的路径选择,呈现“开源推动+大厂适配”的差异化特征。DeepSeek 作为开源先锋,率先发布 MoE 模型(DeepSeek-V2)并开源核心技术,包括 DeepEP 通信库、训练框架和模型权重,为行业提供了可参考的落地方案;而阿里、百度等大厂则在现有生态基础上,小步试探 MoE 转型,避免激进重构。
阿里千问是国内大厂中 MoE 转型的代表,其推出的千问 3 系列采用 MoE 架构,总参数量达 235B,激活参数仅 22B,在部分基准测试中媲美 GPT-4o。阿里的转型策略是“软硬协同适配”:硬件层面,升级 GPU 集群的 RDMA 网络,提升跨设备通信效率;软件层面,基于 TensorFlow 二次开发,优化门控网络和专家负载均衡逻辑。但由于现有 GPU 集群仍依赖英伟达方案,阿里的 MoE 模型规模暂时限制在 200B 级别,难以突破谷歌 Gemini 3 的万亿级规模。
百度文心则采取“混合架构”策略,在现有稠密模型基础上,引入轻量化 MoE 模块,针对数学计算、代码生成等场景进行增强。这种“渐进式转型”避免了全量重构的风险,但也导致模型性能提升有限——本质是在“生态依赖”与“技术突破”之间寻找平衡。
腾讯混元、字节跳动火山大模型则更注重“工程化优化”,借鉴 DeepSeek 的 DeepEP 通信库思路,自研底层通信工具,适配英伟达 GPU 集群的 MoE 训练需求。字节跳动的 COMET 通信库,已实现对 MoE 架构的深度优化,在内部测试中,其 MoE 模型的训练效率较稠密模型提升 3 倍以上。
总体来看,国内阵营的 MoE 转型,得益于 DeepSeek 的开源推动,降低了技术门槛,但头部大厂仍面临英伟达 GPU 集群的扩展性限制,以及软件生态重构的成本压力——这与美国阵营的困境相似,只是国内玩家更依赖开源方案加速转型,而美国玩家更倾向于产品层面的妥协。
AI 算力竞争的底层逻辑,已从“谁的芯片算力更强”转变为“谁的全栈体系更高效”。过去,行业聚焦于 GPU 单芯片的算力参数(如 FLOPS),但如今,超大规模模型的训练效率,取决于芯片、互联、软件、模型的协同能力——这也是谷歌能超越英伟达生态的核心原因。
全栈体系的核心优势在于“精准适配”:芯片设计适配模型运算需求,互联技术适配芯片通信需求,软件框架适配互联调度需求,模型架构适配全栈硬件能力。这种“端到端”的协同,能够最大限度减少性能损耗,实现“1+1>2”的效果。例如,谷歌的 TPU 芯片、OCS 光互联、Pathways 框架与 Gemini 模型,每一个环节都为彼此量身定制,最终实现算力效率的指数级提升。
反观依赖通用硬件的企业,由于芯片、互联、软件来自不同厂商,适配过程中必然存在性能损耗。例如,OpenAI 用英伟达 GPU 训练稠密模型,GPU 的通用计算架构与 AI 张量运算的适配度,远低于谷歌 TPU 的专用架构;跨设备通信依赖第三方交换机,调度效率也低于谷歌的原生互联方案。这种“拼接式”的算力体系,在中小规模场景下尚可接受,但在超大规模模型时代,性能损耗会被无限放大,最终陷入算力瓶颈。
DeepSeek 等企业的开源行动,为行业提供了 MoE 架构的“标准答案”,降低了技术门槛,加速了行业转型。开源的价值不仅在于共享代码和参数,更在于暴露底层技术细节——如 DeepEP 通信库的优化逻辑、MoE 模型的训练策略,这些工程化经验对中小企业至关重要。
但开源也存在明显局限:其一,开源方案难以覆盖硬件适配细节。DeepSeek 的 DeepEP 通信库针对特定 GPU 架构(如 Hopper)优化,其他企业若使用不同硬件(如 Ampere 架构 GPU),需进行大量二次开发;其二,开源方案缺乏业务场景适配。DeepSeek 的 MoE 模型针对通用场景设计,头部大厂若需适配政企、工业等细分场景,需结合自身业务进行定制化改造;其三,开源方案的稳定性和安全性需企业自行验证,大规模商业化落地仍需投入大量资源进行测试和优化。
因此,开源更像是“技术普及工具”,而非“规模化落地捷径”。企业要真正驾驭 MoE 架构,仍需具备深厚的底层技术积累和工程化能力——这也是为何 DeepSeek 开源后,头部大厂仍需漫长时间才能实现规模化落地。
从行业发展趋势来看,三大变革已不可逆转:
一是 MoE 架构成为主流。随着 Scaling Law 持续失效,纯稠密架构将逐渐退出超大规模模型赛道,MoE 及其变种(如混合 MoE、动态 MoE)将成为万亿参数级模型的首选架构。未来,MoE 的核心竞争点将从“专家数量”转向“门控调度精度”和“通信效率”,谁能更好地解决专家负载均衡与底层通信优化,谁就能占据优势。
二是专用 AI 芯片爆发。通用 GPU 已难以满足超大规模 AI 训练的需求,专用 AI 芯片(如 TPU、昇腾、寒武纪思元)将迎来快速发展。这些芯片从设计之初就瞄准 AI 张量运算,算力密度和能效比远超通用 GPU,且能与特定互联技术、软件框架深度协同。未来,芯片厂商的竞争将不再是单芯片算力,而是“芯片+互联+软件”的整体解决方案能力。
三是算力多元化。单一厂商的算力供给已无法满足企业需求,算力多元化将成为趋势。一方面,企业将混合采购不同厂商的算力(如英伟达 GPU、谷歌 TPU、华为昇腾),根据不同场景灵活调配;另一方面,云厂商将推出“算力池化”服务,整合多种硬件资源,为企业提供按需调用的算力解决方案。这种多元化趋势,将打破英伟达的算力垄断,推动行业进入“全栈体系竞争”的新时代。
OpenAI 的困局,为中国 AI 产业提供了重要借鉴——过度依赖外部硬件生态,终将陷入发展瓶颈,唯有构建自主可控的全栈算力体系,才能在未来竞争中占据主动。
首先,需加强全栈底层技术积累。政府和企业应加大对芯片、互联、软件框架等底层技术的投入,重点突破 EDA 工具、半导体制造、光互联等“卡脖子”环节。华为、寒武纪等企业应持续推进专用 AI 芯片研发,同时加强与通信、服务器厂商的协同,构建“芯片-互联-软件”的自主闭环。
其次,应充分发挥开源生态的作用。借鉴 DeepSeek 的开源经验,鼓励企业开放 MoE 模型、通信库等核心技术,降低行业转型门槛。同时,搭建开源社区,促进产学研协同,加速技术迭代——这既能提升行业整体水平,也能让中小企业在开源基础上实现差异化创新。
最后,需平衡“自主可控”与“开放合作”。在推进国产化替代的同时,不应闭门造车,而应积极参与全球技术交流,借鉴谷歌、英伟达等企业的先进经验。例如,在 MoE 架构的门控调度、专家均衡等技术领域,可通过国际合作加速研发;在算力多元化趋势下,可与全球云厂商合作,构建跨区域的算力池化服务。
总之,中国 AI 产业的突围,既要靠全栈自研能力的硬实力,也要靠开源生态的软实力,更要靠开放合作的战略眼光——唯有如此,才能避开 OpenAI 的“生态依赖陷阱”,在全球 AI 算力竞争中实现弯道超车。