Mixture-of-Recursions（MoR）论文核心内容解读

基于提供的论文全文，以下从摘要核心提炼和关键技术与实验结论两方面，用通俗逻辑拆解 MoR 框架的核心价值与实现逻辑。

一、摘要核心提炼

语言模型规模扩大虽能提升能力，但训练和部署的计算、内存成本极高。现有优化方案通常只聚焦 “参数共享”（减少权重冗余）或 “自适应计算”（按需分配算力）中的一项，无法同时兼顾两者。

MoR 框架的核心是在递归 Transformer 架构中统一这两种优化思路，具体通过三个关键设计实现：

参数共享：复用一组共享的网络层（递归块），大幅减少参数量；
自适应 token 级递归深度：通过轻量级路由模块，为不同 token 动态分配 “递归次数”（复杂 token 多递归、简单 token 少递归）；
高效 KV 缓存：仅缓存当前递归步骤中 “活跃 token” 的键值对（KV 对），减少内存访问开销；同时还提出 “KV 共享变体”，复用第一次递归的 KV 对，进一步降低预填充阶段的延迟和内存占用。

实验结果显示，在 1.35 亿～17 亿参数规模下，MoR 形成了新的 “性能 - 效率帕累托最优”：相同训练算力、更小模型尺寸下，验证困惑度更低、少样本准确率更高，且推理吞吐量显著超过普通 Transformer 和现有递归模型，实现了 “大模型性能、小模型成本”。

MoR 基于递归 Transformer，通过 “层绑定” 复用权重，论文对比了 4 种参数共享方式，最终确定Middle-Cycle 策略效果最佳：

路由模块是 MoR 实现 “token 级算力分配” 的核心，负责决定每个 token 该递归多少次，论文提出两种路由策略：

表格

路由类型	核心逻辑	优势	局限
专家选择路由（Expert-choice）	每个递归步骤（如递归 1、2、3）作为 “专家”，从当前 token 中选 top-k 继续递归（如递归 1 选全部 token，递归 2 选 2/3，递归 3 选 1/3）	算力分配精确，负载完全均衡	训练时可能存在 “信息泄露”（需依赖辅助损失函数修正）
Token 选择路由（Token-choice）	一开始就为每个 token 分配固定递归次数（如 token “Drugs” 分配 3 次，“and” 分配 1 次），全程按该次数递归	无信息泄露，符合自回归逻辑	易出现 “负载不均衡”（需平衡损失函数调整）

针对动态递归中 KV 对缺失的问题，MoR 设计了两种缓存方案：

递归级缓存（Recursion-wise Caching）：仅缓存当前递归步骤中 “活跃 token” 的 KV 对，注意力计算仅针对这些 token，KV 内存和 IO 降至普通模型的 $\frac{N _{r} + 1}{2 N _{r}}$ （ $N_{r}$ 为递归次数），单层注意力浮点运算量（FLOPs）降至 $\frac{k ^{2}}{N _{c t x}^{2}}$ （ $k$ 为活跃 token 数， $N_{c t x}$ 为总序列长度）；
递归共享缓存（Recursive Sharing）：所有 token 先过第一次递归，缓存此时的 KV 对，后续递归直接复用，KV 内存降至普通模型的 $\frac{1}{N _{r}}$ ，适合预填充延迟高的场景，但注意力 FLOPs 降幅较小。

在 16.5e18 FLOPs 训练预算下，1.67 亿参数的 MoR（2 次递归）比 3.15 亿参数的普通 Transformer，少样本准确率更高（43.1% vs 42.3%），且训练 token 量多 35%（270 亿 vs 200 亿）；
随着递归次数增加（2→3→4），MoR 参数量进一步减少（1.67 亿→1.18 亿→0.98 亿），但性能仍能超过同参数递归模型。

固定训练 200 亿 token 时，1.67 亿参数的 MoR 比普通 Transformer 少用 25% 算力（12.3e18 vs 16.5e18 FLOPs），训练时间减少 19%，峰值内存降低 25%。

借助 “连续深度批处理”（token 提前退出后，新 token 立即补位），MoR 推理吞吐量显著提升：

3.6 亿参数规模下，4 次递归的 MoR（MoR-4）比普通 Transformer 吞吐量最高提升 2.06 倍，且仅需小幅牺牲性能（可接受的效率 - 性能 trade-off）。

MoR 的核心突破是在一个架构中同时解决 “参数冗余” 和 “算力浪费”：通过递归复用权重减少参数，通过动态路由为 token 分配算力，通过选择性 KV 缓存降低内存开销。实验证明，它能以更低的计算和内存成本，实现媲美大模型的性能，为大语言模型的高效训练和部署提供了新路径。