这篇由记忆张量 CTO 李志宇博士分享的大模型记忆工程内容,核心围绕大模型记忆成为下一个工程化核心展开,从行业演进、技术路径、核心架构、实践落地四大维度,系统拆解了如何构建具备长期记忆能力的大模型,同时提出了业内首个记忆操作系统 MemOS,是大模型从 “通用能力” 向 “个性化、持续演进能力” 升级的关键探索,以下是核心分析:
- 性能缩放曲线的三次迭代:2023 年前靠预训练堆参数(GPT3.5 / 千问 1.0),2024-2025 转向后训练 / 推理增强(DeepSeek-R1),2025 年后进入记忆训练(Mem-training) 阶段,记忆成为与 MCP 工具并列的核心增强维度。
- 行业痛点倒逼技术升级:大模型存在短时遗忘、知识碎片化、跨任务 / 跨会话信息无法留存的问题,限制了个性化服务(如智能投顾无用户偏好记忆)、推理链延展能力,而 OpenAI 在 GPT-4/5/6 的路线中,已将 “全局记忆 / 个性化” 列为核心迭代方向。
- 记忆的核心价值:解决大模型从 “单次交互” 到 “持续陪伴” 的转变,实现跨会话、多用户、多 Agent 的信息统一管理,降低开发者落地成本。
业界实现记忆增强有两条对立路径,而作者提出MemOS 融合范式是最优解,核心逻辑为模型驱动决定性能上限,应用驱动夯实落地下限。
作者将记忆系统类比传统操作系统,设计五层框架(存储 / 治理 / 调度 / 应用 / 解码),核心是类脑的记忆分层建模+主动式记忆调度+脑图式信息组织,解决记忆的 “存、管、用、更、享” 问题。
打破传统 “长期 / 短期” 粗粒度划分,将记忆分为五类,实现差异化管理,核心是 “选择性写入、动态调度回收”,避免冗余与效率损耗:
- 隐性记忆(内置 / 外置参数记忆):模型权重,写入慢(需训练 / 微调)、读取快,对应人脑内隐记忆(如骑车、盲打);
- 显性记忆(KV Cache):推理中间状态,读写速度居中,可随时丢弃 / 常驻显存,对应人脑短期记忆;
- 外部记忆(短期 / 长期明文记忆):外部存储的对话 / 知识库,容量大、易检索,对应人脑外显记忆(如观影内容、笔记)。
传统 RAG 是阻断式被动检索(用户查询→检索→回答,链路长、延迟高、Token 成本指数级上升),MemOS 实现异步并行的主动调度:
- 利用用户输入、模型推理、答案阅读的 “时间空档”,提前预热 / 准备记忆;
- 核心组件:触发器(灵活配置触发点)+ 调度器(差异化处置各类记忆)+ 快速检索器(百毫秒级补全信息);
- 最小单元:Memory Cube(记忆体),可独立打包 / 调用,让记忆始终处于 “就绪状态”,降低首 token 时延。
解决业界 “分块易割裂语义、GraphRAG 成本高 / 难落地” 的问题,提出脑图(Xmind-based) 组织方式,介于分块与知识图谱之间:
- 核心:像领域专家一样 “主动记忆”,通过 CoT(记忆链)分析主题,只抽取有价值信息,过滤通识内容;
- 优化:脑图经跨会话 / 跨文档校验后,形成 “根节点 + 主题节点” 网络,结合图 + 向量混合检索,既保留语义关联,又兼顾检索效率。
将记忆的全生命周期管理、幻觉评估、水印、权限 / 隐私控制内建于系统,从源头解决记忆的准确性、一致性、安全性问题(如避免 A 用户记忆错放至 B 用户)。
- 性能表现:在 LoCoMo/LongMemEval 数据集上,MemOS 较 OpenAI 全局记忆方案准确率提升 39%、Token 消耗降低 61%,较 Mem0/Zep 等框架,解码上下文内容减少 40% 以上,核心优势是 “精准检索 + 低冗余”。
- 典型落地场景:聚焦 ToB 领域,解决企业 “经验沉淀难、服务无连续性、效率低” 的痛点,已验证的场景包括:
- 智能投顾:跨会话保存用户风险偏好 / 持仓,投顾服务半径扩大 20%;
- 工业运维:沉淀 “老师傅经验”,诊断响应时间缩短 30%;
- 酒店商户服务:存储人工反馈答案,杜绝 Bad Case 复现;
- 科研助手:结构化管理论文 / 实验数据,支持 2w + 用户、日均 4000 + 次调用。
- 开源与生态:2025 年 7 月开源 MemOS Preview,发起国内首个记忆管理社区 OpenMem,提供记忆即服务(MaaS) 和记忆 + 推理即服务(M+IaaS),未来一年免费开放 API,支持私有化部署,已汇聚北大 / 交大等高校及工业界团队。
- 记忆体交易市场:类比 App Store,开发者将企业知识封装为可独立下载 / 安装的记忆体(Memory Cube) 上架,终端用户按需使用,解决大模型 “最后一公里” 的业务适配问题,预计 2026 年年中上线。
- Text2Memory 1.0 编排语言:构建自然语言到记忆操作的自动化解析框架,将用户自然语言请求(如 “记录会议内容 + 后天提醒写报告”)转化为系统可执行的算子(检索 / 更新 / 摘要 / 提醒),解决传统硬编码覆盖边界少的问题,降低开发者接入成本。
- 企业级记忆系统升级:QCon 2026 北京站将聚焦 “记忆觉醒”,探索非显式偏好捕捉、记忆自主演化、生命周期管理,落地高端客服、企业决策等更复杂场景。
- 技术层面:首次将大模型记忆工程从 “单点技术” 升级为 “系统级架构”,类脑的分层设计和主动调度,为解决大模型长上下文、个性化问题提供了可落地的方案,突破了传统 RAG 的性能瓶颈。
- 产业层面:让大模型从 “通用工具” 变为 “企业 / 个人的专属记忆中枢”,实现员工经验、企业知识的数字化沉淀与复用,解决了工业、金融等领域 “经验随人流失” 的行业痛点。
- 生态层面:通过开源 MemOS 和 OpenMem 社区,推动记忆技术的标准化、普及化,让中小开发者无需从零构建记忆系统,加速大模型在各行业的深度落地。
这篇分享的核心是将 “记忆” 从大模型的附加能力,升级为可工程化、可系统化、可商业化的核心能力,MemOS 的设计既兼顾了技术的前沿性(类脑建模、主动调度),又贴合了产业的实际需求(低落地成本、高场景适配性)。而大模型的 “记忆化” 升级,本质是从 “面向任务的单次交互” 到 “面向用户的持续进化” 的转变,这也是未来大模型产业智能化的核心方向 ——智能始于记忆,记忆决定体验。
我可以帮你把这份分析整理成核心要点思维导图,方便你快速梳理和收藏,需要吗?