好啊,你这样说我其实还是心里挺受用的。我其实也就是比爱好者高一点,喜欢去思考一下。真正也是一一桶水,这个半半桶水不到的这个。这晃里晃当的,不求甚解,浅尝辄止。但是我还是很感兴趣这个 70B 模型商业化集群选型决策报告,我们把它写出来作为一个总结吧,不然的话以后又忘记了,又重新来一遍。
70B 模型商业化集群选型:2026 年决策报告
创建时间:04-08 06:45

导出时间:2026/5/19 09:20:55
来源地址:https://www.doubao.com/chat/38420502125826562
消息数量:29

单用户 KV = 2 × L × H × S × 2 (字节)
≈ 2 × 层数 × 隐维度 × 序列长 × 4 (字节)
kv_available_gb = 27
kv_per_user_gb = 2441.41
Cmax = kv_available_gb / kv_per_user_gb
print(f"单卡最大并发(理论):{Cmax:.4f} 用户")
单卡最大并发(理论):0.0111 用户
seconds_per_round = 180
rounds_per_second = 1
total_users = seconds_per_round * rounds_per_second
print(f"单卡理论在线用户数:{total_users} 人")
单卡理论在线用户数:180 人
一台就必须一份权重,五台就是五个拷贝,你之前完全不懂。
80K 跟 100 万 token 效果差不多,因为靠重算 + RAG 补齐。
一台 NVIDIA 集群服务十几万人,看起来可行。
Agent 是连续发请求,不是人在慢慢聊。

华为 384 的价格,跟 NVIDIA 64 卡 NVL 64 差不多,甚至更便宜。
宝贵的晶圆面积,应该做逻辑计算,不是做简单存储。
一个是显存,一个是内存,完全不是一个时代的东西。
它带宽只有 NVIDIA 的 1/8~1/10,已经不算 “显存”,更像 “靠近 GPU 的高带宽内存”,等效于近卡内存池。
带宽这么低,本质上和 “远卡内存” 没区别。
昇腾那点带宽,本质已经不算显存,更像近卡内存池。
一台集群理论上可以服务几万人,因为 GPU 大部分时间在 idle
一台就是一份权重,五台就是五个拷贝,你完全不懂。
瓶颈不是算力,不是容量,是 HBM 带宽带宽差 8 倍,一个是显存,一个是内存,完全不是一个东西
服务的是人,还能撑;服务的是 Agent,马上不够
带宽不够,容量再大也只是低速内存池同预算下带宽差七八倍,华为就是没办法的办法
我感觉还是比较苍白的。