保存时间:2026/3/29 16:07:39
| 维度 | 传统Transformer | MoR架构 |
|---|---|---|
| 层结构 | 每层独立权重,N层固定深度 | 共享递归块+动态深度,参数更少 |
| 计算模式 | 所有token同深度处理 | token级动态递归,按需分配算力 |
| 核心组件 | 自注意力、FFN等 | 保留自注意力/FFN,新增路由与递归控制 |
| 兼容性 | - | 可与MoE融合,支持KV缓存、长上下文,可在Transformer生态上直接适配 |
# 初始化:训练好的递归块(Transformer层)+ 路由器
recursion_block = TrainedTransformerBlock() # 共享参数的核心模块
router = TrainedRouter() # 训练学到的token打分器
def mor_inference(tokens):
active_tokens = tokens # 初始活跃token
max_recursion_steps = 4 # 最大递归轮次
for step in range(max_recursion_steps):
# 1. 路由器打分:判断哪些token需要继续递归
scores = router(active_tokens)
# 2. 筛选:分数高于阈值的token留下,其余早退
need_recurse = [t for t, s in zip(active_tokens, scores) if s > 0.5]
if not need_recurse:
break # 没有需要递归的token,直接结束
# 3. 核心:同一递归块重复处理(这就是递归的发生处)
active_tokens = recursion_block(need_recurse)
return active_tokens # 输出最终处理结果