我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
算力围城与架构困局5
视频
音频
原始脚本
第六章,行业启示,AI 算力竞争的底层逻辑重构。 一、从单硬件比拼到全栈体系较量。 AI 算力竞争的底层逻辑已从谁的芯片算力更强转变为谁的全栈体系更高效。 过去行业聚焦于 GPU 单芯片的算力参数,如 FLOPS。 但如今,超大规模模型的训练效率取决于芯片互联软件模型的协同能力,这也是谷歌能超越英伟达生态的核心原因。 全栈体系的核心优势在于精准适配,芯片设计适配模型运算需求,互联技术适配芯片通信需求,软件框架适配互联调度需求,模型架构适配全站硬件能力。 这种端到端的协同能够最大限度减少性能损耗,实现1+1大于2的效果。 例如谷歌的 TPU 芯片、OCS 光互联、Paiswise 框架与 Gemini 模型,每一个环节都为彼此量身定制,最终实现算力效率的指数级提升。 反观依赖通用硬件的企业,由于芯片、互联、软件来自不同厂商,适配过程中必然存在性能损耗。 例如 OpenAI 用英伟达 GPU 训练稠密模型。 GPU 的通用计算架构与 AI 张量运算的适配度远低于谷歌 TPU 的专用架构。 跨设 被通信依赖第三方交换机,调度效率也低于谷歌的原生互联方案。 这种拼接式的算力体系,在中小规模场景下尚可接受。 但在超大规模模型时代,性能损耗会被无限放大,最终陷入算力瓶颈。 二、开源生态的价值与局限 Deepseek 等企业的开源行动,为行业提供了 Moe 架构的标准答案,降低了技术门槛,加速了行业转型。 开源的价值不仅在于共享代码和参数,更在于暴露底层技术细节,如 DPP 通信库的优化逻辑、Moe 模型的训练策略。 这些工程化经验对中小企业至关重要。 但开源也存在明显局限。 其一,开源方案难以覆盖硬件适配细节。 Deepseek 的 DPP 通信库针对特定 GPU 架构,如 Hopper 优化。 其他企业若使用不同硬件,如 MPR 架构 GPU,需进行大量二次开发。 其二,开源方案缺乏业务场景适配。 Deepseek 的 MoE 模型针对通用场景设计,头部大厂若需适配政企、工业等细分场景,需结合自身业务进行定制化改造。 其三,开源方案的稳定性和安全性需企业自行验证。 大规模商业化落地仍需投入大量资源进行测试和优化。 因此,开源 更像是技术普及工具,而非规模化落地捷径。 企业要真正驾驭 MO 架构,仍需具备深厚的底层技术积累和工程化能力。 这也是为何 Deepseek 开源后,头部大厂仍需漫长时间才能实现规模化落地。 三、未来趋势,MO 主流化、专用芯片爆发与算力多元化。 从行业发展趋势来看,三大变革已不可逆转。 一是 MO 架构成为主流,随着 Scaling Law 持续失效,纯稠密架构将逐渐退出超大规模模型赛道。 MO 及其变种,如混合 MO、动态 MO 将成为万亿参数级模型的首选架构。 未来,MOE 的核心竞争点将从专家数量转向门控调度精度。 和通信效率。 谁能更好的解决专家负载均衡与底层通信优化,谁就能占据优势。 二是专用 AI 芯片爆发。 通用 GPU 已难以满足超大规模 AI 训练的需求,专用 AI 芯片,如 TPU、昇腾、寒武纪思元将迎来快速发展。 这些芯片从设计之初就瞄准 AI 张量运算,算力密度和能效比远超通用 GPU,且能与特定互联技术、软件框架深度协同。 未来芯片厂商的竞争将不再是单芯片算力,而是芯片加互联加软件的整体解决方案能力。 三是算力多元化,单一厂商的算力供给已无法满足企业需求,算力多元化将成为趋势。 一方面,企业将混合采购不同厂商的算力,如英伟达 GPU、谷歌 TPU、华为昇腾,根据不同场景灵活调配。 另一方面,云厂商将推出算力池化服务,整合多种硬件资源,为企业提供按需调用的算力解决方案。 这种多元化趋势将打破英伟达的算力垄断,推动行业进入全站体系竞争的新时代。 四、对中国 AI 产业的借鉴,全栈能力建设与开源生态布局 OpenAI 的困局为中国 AI 产业提供了重要借鉴。 过度依赖外部硬件生态终将陷入发展瓶颈,唯有构建自主可控的全栈算力体系,才能在未来竞争中占据主动。 首先,需加强全站底层技术积累。 政府和企业应加大对芯片、互联、软件框架等底层技术的投入,重点突破 EDA 工具、半导体制造、光互联等卡脖子环节。 华为、寒武纪等企业应持续推进专用 AI 芯片研发,同时加强与通信服务器厂商的协同,构建芯片互联软件的自主闭环。 其次,应充分发挥开源生态的作用,借鉴 Deepseek 的开源经验,鼓励企业开放 moe 模型、通信库等核心技术,降低行业转型门槛。 同时搭建开源社区,促进产学研协同,加速技术迭代。 这既能提升行业整体水平,也能让中小企业在开源基础上实现差异化创新。 最后,需平衡自主可控与开放合作。 在推进国产化替代的同时,不应闭门造车,而应积极参与全球技术 交流,借鉴谷歌、英伟达等企业的先进经验。 例如在茂架构的门控调度、专家均衡等技术领域,可通过国际合作加速研发。 在算力多元化趋势下,可与全球云厂商合作,构建跨区域的算力池化服务。 总之,中国 AI 产业的突围既要靠全站自研能力的硬实力,也要靠开源生态的软实力,更要靠开放合作的战略眼光。 唯有如此,才能避开 OpenAI 的生态依赖陷阱,在全球 AI 算力竞争中实现弯道超车。
修正脚本
第六章,行业启示,AI 算力竞争的底层逻辑重构。 一、从单硬件比拼到全栈体系较量。 AI 算力竞争的底层逻辑已从谁的芯片算力更强转变为谁的全栈体系更高效。 过去行业聚焦于 GPU 单芯片的算力参数,如 FLOPS。 但如今,超大规模模型的训练效率取决于芯片互联软件模型的协同能力,这也是谷歌能超越英伟达生态的核心原因。 全栈体系的核心优势在于精准适配,芯片设计适配模型运算需求,互联技术适配芯片通信需求,软件框架适配互联调度需求,模型架构适配全栈硬件能力。 这种端到端的协同能够最大限度减少性能损耗,实现1+1大于2的效果。 例如谷歌的 TPU 芯片、OCS 光互联、Paiswise 框架与 Gemini 模型,每一个环节都为彼此量身定制,最终实现算力效率的指数级提升。 反观依赖通用硬件的企业,由于芯片、互联、软件来自不同厂商,适配过程中必然存在性能损耗。 例如 OpenAI 用英伟达 GPU 训练稠密模型。 GPU 的通用计算架构与 AI 张量运算的适配度远低于谷歌 TPU 的专用架构。 跨设备通信依赖第三方交换机,调度效率也低于谷歌的原生互联方案。 这种拼接式的算力体系,在中小规模场景下尚可接受。 但在超大规模模型时代,性能损耗会被无限放大,最终陷入算力瓶颈。 二、开源生态的价值与局限 Deepseek 等企业的开源行动,为行业提供了 Moe 架构的标准答案,降低了技术门槛,加速了行业转型。 开源的价值不仅在于共享代码和参数,更在于暴露底层技术细节,如 DPP 通信库的优化逻辑、Moe 模型的训练策略。 这些工程化经验对中小企业至关重要。 但开源也存在明显局限。 其一,开源方案难以覆盖硬件适配细节。 Deepseek 的 DPP 通信库针对特定 GPU 架构,如 Hopper 优化。 其他企业若使用不同硬件,如 MPR 架构 GPU,需进行大量二次开发。 其二,开源方案缺乏业务场景适配。 Deepseek 的 MoE 模型针对通用场景设计,头部大厂若需适配政企、工业等细分场景,需结合自身业务进行定制化改造。 其三,开源方案的稳定性和安全性需企业自行验证。 大规模商业化落地仍需投入大量资源进行测试和优化。 因此,开源更像是技术普及工具,而非规模化落地捷径。 企业要真正驾驭 MoE 架构,仍需具备深厚的底层技术积累和工程化能力。 这也是为何 Deepseek 开源后,头部大厂仍需漫长时间才能实现规模化落地。 三、未来趋势,MoE 主流化、专用芯片爆发与算力多元化。 从行业发展趋势来看,三大变革已不可逆转。 一是 MoE 架构成为主流,随着 Scaling Law 持续失效,纯稠密架构将逐渐退出超大规模模型赛道。 MoE 及其变种,如混合 MoE、动态 MoE 将成为万亿参数级模型的首选架构。 未来,MOE 的核心竞争点将从专家数量转向门控调度精度和通信效率。 谁能更好地解决专家负载均衡与底层通信优化,谁就能占据优势。 二是专用 AI 芯片爆发。 通用 GPU 已难以满足超大规模 AI 训练的需求,专用 AI 芯片,如 TPU、昇腾、寒武纪思元将迎来快速发展。 这些芯片从设计之初就瞄准 AI 张量运算,算力密度和能效比远超通用 GPU,且能与特定互联技术、软件框架深度协同。 未来芯片厂商的竞争将不再是单芯片算力,而是芯片加互联加软件的整体解决方案能力。 三是算力多元化,单一厂商的算力供给已无法满足企业需求,算力多元化将成为趋势。 一方面,企业将混合采购不同厂商的算力,如英伟达 GPU、谷歌 TPU、华为昇腾,根据不同场景灵活调配。 另一方面,云厂商将推出算力池化服务,整合多种硬件资源,为企业提供按需调用的算力解决方案。 这种多元化趋势将打破英伟达的算力垄断,推动行业进入全栈体系竞争的新时代。 四、对中国 AI 产业的借鉴,全栈能力建设与开源生态布局 OpenAI 的困局为中国 AI 产业提供了重要借鉴。 过度依赖外部硬件生态终将陷入发展瓶颈,唯有构建自主可控的全栈算力体系,才能在未来竞争中占据主动。 首先,需加强全栈底层技术积累。 政府和企业应加大对芯片、互联、软件框架等底层技术的投入,重点突破 EDA 工具、半导体制造、光互联等卡脖子环节。 华为、寒武纪等企业应持续推进专用 AI 芯片研发,同时加强与通信服务器厂商的协同,构建芯片互联软件的自主闭环。 其次,应充分发挥开源生态的作用,借鉴 Deepseek 的开源经验,鼓励企业开放 moe 模型、通信库等核心技术,降低行业转型门槛。 同时搭建开源社区,促进产学研协同,加速技术迭代。 这既能提升行业整体水平,也能让中小企业在开源基础上实现差异化创新。 最后,需平衡自主可控与开放合作。 在推进国产化替代的同时,不应闭门造车,而应积极参与全球技术交流,借鉴谷歌、英伟达等企业的先进经验。 例如在MoE架构的门控调度、专家均衡等技术领域,可通过国际合作加速研发。 在算力多元化趋势下,可与全球云厂商合作,构建跨区域的算力池化服务。 总之,中国 AI 产业的突围既要靠全栈自研能力的硬实力,也要靠开源生态的软实力,更要靠开放合作的战略眼光。 唯有如此,才能避开 OpenAI 的生态依赖陷阱,在全球 AI 算力竞争中实现弯道超车。
back to top