保存时间:2026/4/3 16:35:34
| 方案 | 硬件绑定程度 | 会不会踩 Blackwell 瓶颈 |
|---|---|---|
| vLLM / PagedAttention | 极高,深度绑 NVIDIA | 会,影响很大 |
| FlashAttention-1/2/3 | 极高 | 会,变慢就是它 |
| FlashAttention-4 | 高,但针对性修了 | 基本修好了 |
| llama.cpp | 低,通用为主 | 几乎不会 |
exp / log / sqrt / tanh 这类不好用SIMD并行的函数,做成专用硬件电路AVX512 或 SFU exp 指令-mavx2 / -mcpu=xxx 之类越往硬件专用指令靠,性能越极致,但越容易被新一代架构坑;越走通用计算,性能一般,但跨平台稳、不翻车。
a + b:真·单周期 SIMD 原生,电路直接算exp(x):用 SIMD 跑一段小算法,周期多很多这个乘法它也有 SIMD 的这个乘法吗?
exp(x) = ex(Softmax 里最常用)exp2(x) = 2xlog(x) = 自然对数log2(x)log10(x)sqrt(x)rsqrt(x) = 1/√x(神经网络里极常用)rcp(x) = 1/xsin(x)cos(x)tan(x)(AI 里用得少,主要图形、科学计算)tanh(x)sigmoid 很多时候是用 exp 拼出来的exp / log:分段多项式 + 查表sqrt / rsqrt:牛顿迭代 + 多项式sin / cos:范围归约 + 分段多项式