我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
算力围城与架构困局4
视频
音频
原始脚本
第五章全球玩家的路径分野,全站自研 vs 生态依赖。 一,谷歌平台型全站,为超大规模模型而生。 谷歌的 AI 算力体系是平台型全站的典范,其核心逻辑是围绕自身 AI 研究与云平台生态,构建从芯片到软件的垂直整合能力。 从2016年第一代 TPU 问世,到2024年第七代 Airwood TPU 集群落地,谷歌用8年时间完成了芯片 片互联软件模型的全链路闭环。 而这一切的核心目标都是为了支撑超大规模模型的高效训练。 在硬件层面,谷歌的 TPU 芯片从设计之初就瞄准 AI 张量运算,采用脉动阵列架构,算力密度远超通用 GPU。 最新的 R5 TPU 单芯片算力达4.6 FLOPS,9216颗芯片组成的集群总算力高达42.5 ExaFLOPS,且通过 OCS 光交换和3D Torus 拓扑实现跨机柜的低延迟互联。 这意味着谷歌可以将万亿参数级的模型 模型像调度单个芯片一样进行高效并行计算。 软件层面, Pathways 框架与 TPU 深度协同解决了超大规模模型的调度难题。 它能够自动将模型拆分为多个任务,分配给不同的 TPU 节点,同时动态调整专家模块的激活策略,确保算力资源的高效利用。 例如训练 Gemini 30时, Pathways 会根据不同任务场景灵活切换数据并行、模型并行和专家并行模式实现 性能与效率的最优平衡。 更关键的是,谷歌的全站体系形成了飞轮效应, TPU 集群支撑 Gemini 模型迭代。 模型训练中发现的硬件优化需求反哺 TPU 芯片研发, TensorFlow 框架也随模型需求持续升级。 这种研发应用迭代的闭环,让谷歌的算力体系始终保持行业领先,也使其在 MO 架构的落地中占据绝对优势。 二、华为,产品型全栈,国产化与多场景适配,与谷歌的平台型全栈不同。 华为的 AI 算力体系走的是产品型全栈路线。 核心是依托自身在通信服务器芯片等领域的技术积淀,打造兼顾国产化替代与多场景适配的算力解决方案。 华为的全栈能力扎根于其数十年的硬件产品经验,从昇腾芯片 Atlas 集群到 MindSpore 框架,每一个环节都服务于政企公 业消费等多元化场景需求。 在硬件层面,华为的昇腾910B芯片采用达芬奇架构,适配 AI 训练与推理双重场景。 而 Atlas 集群则延续了华为在通信领域的优势,采用自研的智能分布式存储和高速光互联技术,单集群可支持384颗昇腾芯片的高效并行。 与谷歌 TPU 集群聚焦超大规模模型不同,华为 Atlas 集群更注重通用性,既能支撑 AI 训练,也能适配工业互联网、智能驾驶等终端场景的算力需求。 软件层面,MindSpore 框架采用端边云全场景统一的设计,能够适配从手机端到云端的不同硬件环境。 这与谷歌 Pathways 框架专注云端超大规模调度形成鲜明对比。 华为的这种设计是为了满足国产化替代的需求,在政企工业等领域用户网 往往需要端到端的算力解决方案,而非单一的云端训练平台。 受限于外部制裁,华为的全栈体系在芯片制造、EDA 工具等环节仍面临挑战。 因此在集群规模扩展上采取稳步迭代策略。 目前重点推进384颗芯片及集群的落地,而非谷歌式的9000颗以上规模扩张。 但凭借在通信服务器领域的深厚积累,华为的算力体系在国产化市场具备独特优势,尤其在工业、政务等对自主可控要求高的场景,已实现规模化应用。 三、美国阵营,妥协与突围,生态依赖下的被动应对。 除了 OpenAI,美国其他头部 AI 公司,如 Anthropic、Cohere,也深陷生态依赖的困境。 他们同样依赖英伟达 GPU 集群,难以突破 Scaling Law 天花板,只能通过妥协方案维持增长。 Anthropic 作为 OpenAI 的同门师弟,早期沿用稠密架构推进 Cloud 系列,靠微软 Azure 的 GPU 集群实现快速迭代。 但到 Cloud 3系列后,Scaling Law 失效的问题日益凸显,在对 GPU 规模已无法实现性能的显著提升。 为此, Anthropic 放弃了大而全的模型思路,转而推出针对法律文书、科研论文的定制化版本。 本质是用产品层面的场景拆分,替代 moe 架构的模型层面的专家分工,避开架构重构的成本。 Coherent 则更直接的承认了行业瓶颈,其联合创始人公开表示,LLM 发展已进入平台期,简单扩大模型规模的边际效益递减。 Coherent 的应对策略是强化推理能力,通过增加模型的思考时间,及延长推理时的计算步骤,替代算力堆砌,提升任务准 准确率。 同时,它推出定制化研发服务,针对企业客户的细分场景进行深度优化,靠服务增值弥补模型性能的增长乏力。 即便是 OpenAI 也在尝试多元算力突围。 除了与微软深度绑定,他还向 AWS、甲骨文采购算力,试图通过多厂商算力整合缓解资源压力。 此外,有消息称 OpenAI 正在推进 StarGate 项目,探索自研芯片的可能性。 但受限于硬件研发经验,短期内难以突破,这也印证了全站自研的难度,并非靠资金就能快速弥补。 四、国内阵营,开源推动与适配挑战,MO 转型的差异化探索。 国内 AI 玩家的路径选择呈现开源推动加大厂适配的差异化特征。 Deepseek 作为开源先锋,率先发布 MoE 模型 Deepseek V2,并开源核心技术,包括 DPP 通信库、训练框架和模型权重,为行业提供了可参考的落地方案。 而阿里、百度等大厂则在现有生态基础上,小步试探 MO 转型,避免激进重构。 阿里千问是国内大厂中 MO 转型的代表,其推出的千问三系列采用 MO 架构,总参数量达235B,激活参数仅22B,在部分基准测试中媲美 GPT 4O。 阿里的转型策略是软硬协同适配,硬件层面升级 GPU 集群的 RDMA 网络,提升跨设备通信效率。 软件层面基于 TensorFlow 二次开发,优化 门控网络和专家负载均衡逻辑。 但由于现有 GPU 集群仍依赖英伟达方案,阿里的 MoE 模型规模暂时限制在200B级别,难以突破谷歌 Gemini 3的万亿级规模。 百度文心则采取混合架构策略,在现有稠密模型基础上,引入轻量化 MoE 模块,针对数学计算、代码生成等场景进行增强。 这种渐进式转型避免了全量重构的风险,但也导致模型性能提升有限。 本质是在生态依赖与技术突破之间寻找平衡。 腾腾讯会员、字节跳动火山大模型则更注重工程化优化。 借鉴 Deepseek 的 DPP 通信库思路,自研底层通信工具,适配英伟达 GPU 集群的 MOE 训练需求。 字节跳动的 Comet 通信库已实现对 MOE 架构的深度优化。 在内部测试中,其 moe 模型的训练效率较稠密模型提升3倍以上。 总体来看,国内阵营的 moe 转型得益于 Deepseek 的开源推动,降低了技术门槛。 但头部大厂仍面临英伟达 GPU 集群的扩展性限制。 以及软件生态重构的成本压力,这与美国阵营的困境相似。 只是国内玩家更依赖开源方案加速转型,而美国玩家更倾向于产品层面的妥协。
修正脚本
第五章全球玩家的路径分野,全栈自研 vs 生态依赖。 一,谷歌平台型全栈,为超大规模模型而生。 谷歌的 AI 算力体系是平台型全栈的典范,其核心逻辑是围绕自身 AI 研究与云平台生态,构建从芯片到软件的垂直整合能力。 从2016年第一代 TPU 问世,到2024年第七代 Airwood TPU 集群落地,谷歌用8年时间完成了芯片互联软件模型的全链路闭环。 而这一切的核心目标都是为了支撑超大规模模型的高效训练。 在硬件层面,谷歌的 TPU 芯片从设计之初就瞄准 AI 张量运算,采用脉动阵列架构,算力密度远超通用 GPU。 最新的 R5 TPU 单芯片算力达4.6 FLOPS,9216颗芯片组成的集群总算力高达42.5 ExaFLOPS,且通过 OCS 光交换和3D Torus 拓扑实现跨机柜的低延迟互联。 这意味着谷歌可以将万亿参数级的模型像调度单个芯片一样进行高效并行计算。 软件层面, Pathways 框架与 TPU 深度协同解决了超大规模模型的调度难题。 它能够自动将模型拆分为多个任务,分配给不同的 TPU 节点,同时动态调整专家模块的激活策略,确保算力资源的高效利用。 例如训练 Gemini 30时, Pathways 会根据不同任务场景灵活切换数据并行、模型并行和专家并行模式实现 性能与效率的最优平衡。 更关键的是,谷歌的全栈体系形成了飞轮效应, TPU 集群支撑 Gemini 模型迭代。 模型训练中发现的硬件优化需求反哺 TPU 芯片研发, TensorFlow 框架也随模型需求持续升级。 这种研发应用迭代的闭环,让谷歌的算力体系始终保持行业领先,也使其在 MoE 架构的落地中占据绝对优势。 二、华为,产品型全栈,国产化与多场景适配,与谷歌的平台型全栈不同。 华为的 AI 算力体系走的是产品型全栈路线。 核心是依托自身在通信服务器芯片等领域的技术积淀,打造兼顾国产化替代与多场景适配的算力解决方案。 华为的全栈能力扎根于其数十年的硬件产品经验,从昇腾芯片 Atlas 集群到 MindSpore 框架,每一个环节都服务于政企工业消费等多元化场景需求。 在硬件层面,华为的昇腾910B芯片采用达芬奇架构,适配 AI 训练与推理双重场景。 而 Atlas 集群则延续了华为在通信领域的优势,采用自研的智能分布式存储和高速光互联技术,单集群可支持384颗昇腾芯片的高效并行。 与谷歌 TPU 集群聚焦超大规模模型不同,华为 Atlas 集群更注重通用性,既能支撑 AI 训练,也能适配工业互联网、智能驾驶等终端场景的算力需求。 软件层面,MindSpore 框架采用端边云全场景统一的设计,能够适配从手机端到云端的不同硬件环境。 这与谷歌 Pathways 框架专注云端超大规模调度形成鲜明对比。 华为的这种设计是为了满足国产化替代的需求,在政企工业等领域用户往往需要端到端的算力解决方案,而非单一的云端训练平台。 受限于外部制裁,华为的全栈体系在芯片制造、EDA 工具等环节仍面临挑战。 因此在集群规模扩展上采取稳步迭代策略。 目前重点推进384颗芯片及集群的落地,而非谷歌式的9000颗以上规模扩张。 但凭借在通信服务器领域的深厚积累,华为的算力体系在国产化市场具备独特优势,尤其在工业、政务等对自主可控要求高的场景,已实现规模化应用。 三、美国阵营,妥协与突围,生态依赖下的被动应对。 除了 OpenAI,美国其他头部 AI 公司,如 Anthropic、Cohere,也深陷生态依赖的困境。 他们同样依赖英伟达 GPU 集群,难以突破 Scaling Law 天花板,只能通过妥协方案维持增长。 Anthropic 作为 OpenAI 的同门师弟,早期沿用稠密架构推进 Claude 系列,靠微软 Azure 的 GPU 集群实现快速迭代。 但到 Claude 3系列后,Scaling Law 失效的问题日益凸显,再扩大GPU规模已无法实现性能的显著提升。 为此, Anthropic 放弃了大而全的模型思路,转而推出针对法律文书、科研论文的定制化版本。 本质是用产品层面的场景拆分,替代 moe 架构的模型层面的专家分工,避开架构重构的成本。 Cohere 则更直接地承认了行业瓶颈,其联合创始人公开表示,LLM 发展已进入平台期,简单扩大模型规模的边际效益递减。 Cohere 的应对策略是强化推理能力,通过增加模型的思考时间,及延长推理时的计算步骤,替代算力堆砌,提升任务准确率。 同时,它推出定制化研发服务,针对企业客户的细分场景进行深度优化,靠服务增值弥补模型性能的增长乏力。 即便是 OpenAI 也在尝试多元算力突围。 除了与微软深度绑定,它还向 AWS、甲骨文采购算力,试图通过多厂商算力整合缓解资源压力。 此外,有消息称 OpenAI 正在推进 StarGate 项目,探索自研芯片的可能性。 但受限于硬件研发经验,短期内难以突破,这也印证了全栈自研的难度,并非靠资金就能快速弥补。 四、国内阵营,开源推动与适配挑战,MoE 转型的差异化探索。 国内 AI 玩家的路径选择呈现开源推动加大厂适配的差异化特征。 Deepseek 作为开源先锋,率先发布 MoE 模型 Deepseek V2,并开源核心技术,包括 DPP 通信库、训练框架和模型权重,为行业提供了可参考的落地方案。 而阿里、百度等大厂则在现有生态基础上,小步试探 MoE 转型,避免激进重构。 阿里千问是国内大厂中 MoE 转型的代表,其推出的千问三系列采用 MoE 架构,总参数量达235B,激活参数仅22B,在部分基准测试中媲美 GPT 4O。 阿里的转型策略是软硬协同适配,硬件层面升级 GPU 集群的 RDMA 网络,提升跨设备通信效率。 软件层面基于 TensorFlow 二次开发,优化门控网络和专家负载均衡逻辑。 但由于现有 GPU 集群仍依赖英伟达方案,阿里的 MoE 模型规模暂时限制在200B级别,难以突破谷歌 Gemini 3的万亿级规模。 百度文心则采取混合架构策略,在现有稠密模型基础上,引入轻量化 MoE 模块,针对数学计算、代码生成等场景进行增强。 这种渐进式转型避免了全量重构的风险,但也导致模型性能提升有限。 本质是在生态依赖与技术突破之间寻找平衡。 腾讯、字节跳动火山大模型则更注重工程化优化。 借鉴 Deepseek 的 DPP 通信库思路,自研底层通信工具,适配英伟达 GPU 集群的 MOE 训练需求。 字节跳动的 Comet 通信库已实现对 MOE 架构的深度优化。 在内部测试中,其 moe 模型的训练效率较稠密模型提升3倍以上。 总体来看,国内阵营的 moe 转型得益于 Deepseek 的开源推动,降低了技术门槛。 但头部大厂仍面临英伟达 GPU 集群的扩展性限制,以及软件生态重构的成本压力,这与美国阵营的困境相似。 只是国内玩家更依赖开源方案加速转型,而美国玩家更倾向于产品层面的妥协。
back to top