基于提供的论文全文,以下从摘要核心提炼和关键技术与实验结论两方面,用通俗逻辑拆解 MoR 框架的核心价值与实现逻辑。
语言模型规模扩大虽能提升能力,但训练和部署的计算、内存成本极高。现有优化方案通常只聚焦 “参数共享”(减少权重冗余)或 “自适应计算”(按需分配算力)中的一项,无法同时兼顾两者。
MoR 框架的核心是在递归 Transformer 架构中统一这两种优化思路,具体通过三个关键设计实现:
- 参数共享:复用一组共享的网络层(递归块),大幅减少参数量;
- 自适应 token 级递归深度:通过轻量级路由模块,为不同 token 动态分配 “递归次数”(复杂 token 多递归、简单 token 少递归);
- 高效 KV 缓存:仅缓存当前递归步骤中 “活跃 token” 的键值对(KV 对),减少内存访问开销;同时还提出 “KV 共享变体”,复用第一次递归的 KV 对,进一步降低预填充阶段的延迟和内存占用。
实验结果显示,在 1.35 亿~17 亿参数规模下,MoR 形成了新的 “性能 - 效率帕累托最优”:相同训练算力、更小模型尺寸下,验证困惑度更低、少样本准确率更高,且推理吞吐量显著超过普通 Transformer 和现有递归模型,实现了 “大模型性能、小模型成本”。
MoR 基于递归 Transformer,通过 “层绑定” 复用权重,论文对比了 4 种参数共享方式,最终确定Middle-Cycle 策略效果最佳:
- 保留模型 “第一层” 和 “最后一层” 的独特参数(捕捉输入输出的关键特征);
- 中间层按 “循环复用” 逻辑共享权重(例如 9 层模型拆为 3 次递归,每次复用 “层 0-1-2”);
- 相比其他策略(如全循环复用、顺序复用),既能减少参数量,又避免因过度共享导致的性能损失。
路由模块是 MoR 实现 “token 级算力分配” 的核心,负责决定每个 token 该递归多少次,论文提出两种路由策略:
针对动态递归中 KV 对缺失的问题,MoR 设计了两种缓存方案:
- 递归级缓存(Recursion-wise Caching):仅缓存当前递归步骤中 “活跃 token” 的 KV 对,注意力计算仅针对这些 token,KV 内存和 IO 降至普通模型的2NrNr+1(Nr为递归次数),单层注意力浮点运算量(FLOPs)降至Nctx2k2(k为活跃 token 数,Nctx为总序列长度);
- 递归共享缓存(Recursive Sharing):所有 token 先过第一次递归,缓存此时的 KV 对,后续递归直接复用,KV 内存降至普通模型的Nr1,适合预填充延迟高的场景,但注意力 FLOPs 降幅较小。
- 在 16.5e18 FLOPs 训练预算下,1.67 亿参数的 MoR(2 次递归)比 3.15 亿参数的普通 Transformer,少样本准确率更高(43.1% vs 42.3%),且训练 token 量多 35%(270 亿 vs 200 亿);
- 随着递归次数增加(2→3→4),MoR 参数量进一步减少(1.67 亿→1.18 亿→0.98 亿),但性能仍能超过同参数递归模型。
- 固定训练 200 亿 token 时,1.67 亿参数的 MoR 比普通 Transformer 少用 25% 算力(12.3e18 vs 16.5e18 FLOPs),训练时间减少 19%,峰值内存降低 25%。
借助 “连续深度批处理”(token 提前退出后,新 token 立即补位),MoR 推理吞吐量显著提升:
- 3.6 亿参数规模下,4 次递归的 MoR(MoR-4)比普通 Transformer 吞吐量最高提升 2.06 倍,且仅需小幅牺牲性能(可接受的效率 - 性能 trade-off)。
- 1.35 亿小模型时,MoR 略逊于普通 Transformer(递归容量瓶颈);
- 3.6 亿及以上模型(7.3 亿、17 亿),MoR 不仅追上,还超过普通 Transformer,尤其在中低算力预算下优势更显著。
MoR 的核心突破是在一个架构中同时解决 “参数冗余” 和 “算力浪费”:通过递归复用权重减少参数,通过动态路由为 token 分配算力,通过选择性 KV 缓存降低内存开销。实验证明,它能以更低的计算和内存成本,实现媲美大模型的性能,为大语言模型的高效训练和部署提供了新路径。