在 AI 算力席卷全球的当下,外界普遍对 GPU 有着根深蒂固的认知误区:一张显卡只要硬件没损坏、能点亮运行,就始终具备价值,所谓 “三年折旧归零”,不过是企业做账的财务手段,是虚头巴脑的账面游戏。
但事实上,GPU 三年实质归零,从来都不是会计层面的数字操作,而是商业价值、物理法则、行业规则三重因素共同作用的必然结果,是整个硅谷 AI 算力行业心照不宣、却又极力掩盖的核心真相。那个流传在算力行业的极端冷笑话,早已道尽了背后的残酷逻辑,而马斯克解散 xAI 算力集群、与 Anthropic 达成长期租约的操作,更是精准踩中了这一行业命脉,撕开了云巨头们的财务遮羞布。
国内民营算力行业曾出现过一个令人唏嘘的真实案例,堪称 GPU 行业的黑色幽默:有民营资本斥巨资自建算力中心,大批量采购高端英伟达 GPU,原本计划对外出租盈利,却因市场遇冷、客户流失,最终陷入无单可接的困境。
最终出现了反常识的结局:一部分 GPU 被顺利装机上架,24 小时不间断通电运行,却始终没有租赁业务,只能空转耗电;另一部分 GPU 因来不及部署,一直原封不动放在仓库,从未拆封、从未通电。
三年后复盘,未拆封的 GPU,反而比空转三年的 GPU 亏损更少,残值更高。满负荷空转的 GPU,不仅每天产生巨额电费成本,持续的高负载、高温环境让芯片快速老化,即便外观完好,也已是重度损耗的工业旧卡,几乎无人问津;而仓库里未拆封的 GPU,没有任何电力消耗,半导体元件处于完全休眠状态,好歹保留了全新品相,残值略高一些。
但这只是残酷现实里的微小差别,即便全新未拆封,三年之后也基本卖不出去。正如英伟达创始人黄仁勋直言不讳:如今的 H100 显卡,送都送不出去。这不是硬件损坏,而是 GPU 的核心商业价值,已经被彻底清零。
GPU 的核心价值,从来不是 “能运行”,而是大模型训练的效率与性价比,这也是头部 AI 模型公司唯一看重的指标。
英伟达的迭代节奏,早已打破常规电子产品的更新周期,从最初 2 年一代,压缩至如今12-18 个月一轮大架构升级,H100、H200、Blackwell 等系列轮番登场,每一代新卡都实现性能翻倍、能耗降低 30%-50%,互联带宽、MoE 架构适配性全面碾压上代产品。
对于 Anthropic、OpenAI 这类头部模型公司而言,时间成本远高于硬件租赁成本:其核心算法团队人均年薪百万美元起步,顶尖技术人才薪资更是达到千万甚至上亿级别,每一天的人力成本、研发成本都是天文数字。模型早一天训练完成、早一天上线商业化,就能抢占市场先机,带来的收益远超租金差价。
他们对 GPU 的需求,如同顶级电竞玩家对硬件的追求,只认最新、最快、最强的产品,不计较短期成本差异。旧卡即便租金更低,训练速度却慢 2-3 倍,不仅拉长研发周期,还会错失市场窗口,完全得不偿失。
这就导致,高端训练市场对三年以上的旧卡,直接实行零准入。旧卡哪怕全新未拆封,在模型训练领域也毫无用武之地,最核心的商业价值彻底归零,这是市场用脚投票的结果,绝非会计数字可以改变。
很多人疑惑:GPU 放在那里好好的,没磕没碰,为什么三年就不能用了?答案藏在半导体物理的铁律里,也藏在数据中心真实的运行环境中。
个人使用的 GPU,日常负载仅 30% 左右,温度控制在五六十度,偶尔使用,用五六年依旧能正常运行;但数据中心的 AI 训练 GPU,常年维持 80%-100% 满负荷运转,核心温度长期保持在七八十度以上,24 小时全年无休。
在持续高温、高电压、高负载的环境下,GPU 内部的硅晶片会发生电子迁移、晶格损伤、晶体管隐性击穿,这种损耗不是瞬间损坏,而是可靠性逐年断崖式下跌:第一年稳定性拉满,故障率极低;第二年隐性故障开始频发;第三年起,随机报错、节点掉线、算力抖动的概率大幅飙升,完全无法满足大模型训练的稳定性要求。
大模型训练采用数千张 GPU 集群并行作业,哪怕一两张卡出现故障,整个训练任务就会彻底崩盘,前期投入的巨额算力成本、时间成本全部付诸东流,必须推倒重来。这是模型公司最无法承受的噩梦,因此他们绝不会使用服役超过三年的旧卡参与核心训练,不是卡不能运行,而是赌不起可靠性风险。
从物理损耗层面来看,三年期的 GPU,即便外观完好,也已失去工业级大规模使用的价值,实质进入报废阶段。
有人会提出质疑:旧卡不能做训练,还能做推理业务,怎么能算归零?这恰恰是云巨头们用来掩盖财务漏洞的最后遮羞布,但根本无法改变 GPU 三年贬值的本质。
英伟达高端 GPU 从设计之初,就是为大模型训练量身打造,架构、显存、互联方案全部偏向训练场景,用来做推理属于典型的大马拉小车,性能严重过剩,能效比极差,成本控制完全不占优势。
云巨头们只能将三年到期的旧卡,下沉到低端推理、边缘业务、低优先级请求队列,进行内部消化。这类业务租金极低、毛利微薄,只能勉强覆盖电费和运维成本,完全无法回收当初的巨额采购成本。
旧卡即便能产生微弱现金流,也只是残值兜底,其资产价值早已远低于原始采购价,从商业投资角度来看,就是实质归零。
面对 GPU 三年实质归零的行业现实,硅谷云巨头们却集体选择了财务操作:谷歌、微软将 GPU 折旧年限定为 6 年,Meta 定为 5.5 年,甲骨文同样采用 6 年折旧,仅有亚马逊相对谨慎,将训练集群折旧年限定为 5 年,还在 2025 年主动计提了资产减值。
按照真实 3 年折旧与账面 5-6 年折旧计算,同等价值的 GPU 集群,巨头们每年能虚增近一半的利润,大空头迈克尔・伯里测算,2026-2028 年,硅谷五大云巨头仅通过延长 GPU 折旧,就能累计虚增利润 1760 亿美元,Meta、甲骨文利润高估比例甚至超过 20%。
他们刻意隐瞒 GPU 真实寿命,靠推理业务消化旧卡残值,假装资产长期保值,将巨额隐形亏损向后拖延。但这种操作治标不治本,2027-2028 年,首批大规模部署的 H100 集群将满三年,届时旧卡彻底失去利用价值,巨头们必将面临千亿级资产减值,AI 算力行业的财务泡沫终将破裂。
反观马斯克,解散 xAI 算力集群,将 22 万张 GPU 长期出租给 Anthropic,恰恰是看透了 GPU 三年归零的残酷现实,做出的最优决策。
马斯克没有云生态加持,无法像谷歌、亚马逊那样玩会计魔术,若将 GPU 握在自己手中做模型训练,不仅要承担巨额电费、运维成本,还会面临三年后资产彻底贬值的风险,最终沦为一堆废铁。
因此他选择短平快自建算力,用天然气涡轮机解决电力审批难题,快速建成集群后,直接与 Anthropic 签订长期租约,每年锁定 50 亿美元稳定现金流,严格按照三年真实寿命计提折旧,将 GPU 迭代贬值、物理损耗的风险全部转移给承租方,三年折旧期满后,后续租金全部变为纯利润。
而 Anthropic 之所以甘愿接手,也是迫于被亚马逊 AWS 深度绑定的困境:硬件架构锁死、MoE 模型无法自由迭代,美国 GPU 资源被云巨头垄断、电力审批周期漫长,唯有马斯克的现成算力,能快速填补其训练缺口,同时搭配谷歌 TPU,实现多方算力布局,摆脱单一云厂商绑定。
GPU 三年实质归零,从来都不是会计层面的虚数,而是商业规律、物理法则共同铸就的行业宿命。普通人眼中的电子产品,在 AI 算力行业里,是高损耗、快迭代、短生命周期的工业耗材,和丰田、本田汽车慢迭代保残值的逻辑截然相反,英伟达越激进升级,旧卡贬值速度就越快。
硅谷云巨头们的延长折旧操作,不过是暂时掩盖问题的自欺欺人,而马斯克与 Anthropic 的算力联姻,恰恰戳破了这层窗户纸,让行业看清了 GPU 真实的价值周期。
未来两三年,AI 算力行业的减值风暴终将到来,那些藏在财报里的隐形亏损,终将浮出水面。而只有尊重 GPU 三年归零的真实规律,放弃财务魔术,才能在这场残酷的算力竞争中,真正站稳脚跟。