MemRL 的 Memory 并非嵌入 Transformer 标准架构的层结构中,也不是通过 RAG/Agent 单独发起查询,而是在 Transformer 驱动的 LLM 完成“推理/生成”的运行时(Runtime)环节介入,作为独立的“经验决策模块”与冻结的 LLM 协同,本质是“固定 Transformer 架构 + 动态外部记忆”的 pipeline 结合模式,而非新的 Transformer 架构。
具体结合流程可拆解为 3 个核心节点,完全围绕 LLM 的“输入-推理-反馈”循环展开:
- 输入触发:接收意图,启动记忆检索当用户输入查询(Intent,如“解决HLE某道专家题”)后,冻结的 LLM 不直接生成答案,而是先触发 MemRL 的记忆空间。此时记忆模块会执行“两阶段检索”——先通过语义相似度(类似 RAG)召回与当前意图相关的“意图-经验-效用”三元组,再根据 Q 值(效用分数)筛选出高价值经验,将这些经验作为“参考策略”传递给 LLM。
- 推理辅助:记忆指导 LLM 生成,不改变 Transformer 内部逻辑LLM 基于自身 Transformer 架构(如 decoder-only 的自回归机制)进行推理时,会把记忆模块传递的“高价值经验”作为上下文补充,辅助生成更优的解决方案(如参考过往类似题的正确策略)。此过程中,Transformer 的自注意力、前馈网络等核心组件完全按标准流程运行,记忆仅提供“外部策略参考”,不修改 Transformer 的层结构或参数。
- 反馈更新:根据结果优化记忆,形成闭环LLM 生成解决方案后,环境会给出反馈(Reward,如“正确/错误”“得分高低”)。MemRL 会基于此反馈,在独立的记忆空间内完成两件事:一是更新本次使用过的记忆三元组的 Q 值(好用则加分,不好用则减分),二是将本次完整推理轨迹(经 LLM 总结后)封装成新的三元组写入记忆库。整个更新过程无梯度传播,不涉及 Transformer 参数微调,仅优化记忆空间的内容。
简单来说,MemRL 的 Memory 是 Transformer 驱动的 LLM 的“外部策略库”——在 LLM 每次工作时,提前提供“历史最优经验”,工作后再根据结果更新“经验库”,既不侵入 Transformer 内部架构,也不依赖 RAG/Agent 的独立查询逻辑,而是作为“运行时助手”嵌入 LLM 的任务循环。
需要我帮你梳理一张“MemRL 与 Transformer 协同流程”的简化步骤图吗?可以更直观地展示记忆模块的介入节点。