MUD(Multi-User Dungeon)文字迷宫是对大模型智能体最严苛的测试场之一。它没有图形界面、没有坐标提示、没有明确路径,所有信息以自然语言呈现:房间描述、出口隐写、物品交互、状态变化、随机事件、时间驱动的场景切换…… 玩家或智能体只能通过文本反馈判断位置、状态与可行性。传统思路试图让单个智能体一次性、无冗余、高效率遍历迷宫,采用深度优先搜索(DFS)、广度优先搜索(BFS)等经典图论算法,维护栈、队列、地图拓扑、访问标记、压栈出栈等复杂数据结构。
但这套方案在大模型时代遭遇根本性失败。原因有三:第一,大模型原生上下文长度有限,无法承载长迷宫的状态回溯与路径记忆;第二,短期记忆不可靠,容易遗忘房间关联、命令结果、失败尝试;第三,MUD 存在大量非因果、非动作驱动的状态迁移 —— 时间流逝、系统随机、环境自动转移,会让基于 “动作 - 结果” 的因果推理完全失效。单智能体既要探索、又要记忆、还要推理、还要避循环、还要补全出口,本质是对单一系统提出超出现有架构能力的全能要求。这也是为什么即便最强闭源模型,在无外挂记忆的情况下也难以稳定通关中等复杂度 MUD。
我们从经典科幻电影《Maze Runner(移动迷宫)》中获得了颠覆性启发:电影中的迷宫会持续移动、充满危险、没有固定拓扑,幸存者从未依赖某一个 “完美探索者” 独自跑完所有路径,而是依靠分工、协作、共享、冗余,用群体智能战胜了动态迷宫。这套思想可以完整迁移到 MUD 文字迷宫探索中,形成一套不依赖超强模型、不依赖超长上下文、不依赖复杂算法的通用探索架构。
《移动迷宫》的设定直指探索问题的本质:迷宫是动态的、危险的、信息不完备的,单一探索者无法承载全部任务。片中的 “行者(Runner)” 每天进入迷宫,只负责探索一段路径,记录地形与变化,返回后与所有人共享地图;其他人负责观察、记录、验证、补给。他们允许重复、允许试错、允许局部低效,用冗余覆盖不确定性,用共享记忆替代个体超强记忆,用分工降低单次任务复杂度。
这套机制的四条原则可以直接映射到 MUD 探索:
- 不追求个体最优,追求群体收敛:单个智能体不必走完所有路径,只需完成局部可靠任务。
- 允许冗余与重复,冗余即鲁棒性:重复探索不是浪费,而是提升规律置信度、验证因果关系。
- 全局共享记忆是核心资产:所有发现、成功路径、失败命令、隐藏出口,必须写入共享存储。
- 任务专业化拆分:复杂探索行为拆解为单一职责小任务,每个智能体只做一件事。
这正是对传统 DFS/BFS 的降维颠覆:经典算法追求无冗余、无回溯、最低成本,前提是计算系统拥有可靠长时记忆、精确状态控制、稳定因果关系;而 MUD 与大模型的现实是记忆有限、因果模糊、动态干扰,因此高效算法失效,分治协作生效。我们不再用复杂数据结构与精巧逻辑去 “省算力”,而是用工程化、分布式、多智能体去 “换可靠性”。
基于移动迷宫思想,我们将 MUD 探索从 “单智能体全职责” 重构为最小可用分工架构—— 两个轻量智能体即可实现稳定探索与地图收敛。未来可根据迷宫复杂度继续拆分为更多角色,保持 “一次只做一件事” 的原则。
Runner 的定位是不纠结、不回溯、不深挖、只冲锋。它完全依赖全局共享记忆,不做任何额外探索与验证。
- 核心任务:沿着已验证的安全出口,以最快速度抵达当前地图的前沿(Frontier),进入未探索房间。
- 行为规则:
- 只执行共享记忆中已成功的出口命令;
- 不寻找第二出口、不检查隐藏通道、不尝试新命令;
- 不分析因果、不处理谜题、不处理交互物品;
- 到达未探索房间后,简单观察并写入共享记忆,立即继续推进。
- 价值:彻底解决单智能体 “卡在旧房间反复试错” 的问题,把算力集中在拓展地图边界。它对上下文要求极低,不需要记忆历史路径,只需要读取当前房间的已知出口。
Scanner 的定位是不赶路、不拓荒、定点深入、全面检查。它由系统指派到特定房间,专门完成单智能体最难做好的 “补全出口” 任务。
- 核心任务:对指定房间做穷尽式检查,寻找所有显性出口、隐性出口、隐藏通道、交互解法。
- 行为规则:
- 只在目标房间内活动,不主动移动到其他房间;
- 尝试所有合理命令、观察所有物体、验证所有可能方向;
- 记录成功命令、失败命令、语法提示、隐藏反馈;
- 全部结果同步写入共享记忆。
- 价值:解决传统搜索最容易失败的多出口房间漏探索问题。Scanner 一次只处理一个房间,上下文压力极小,能够稳定完成精细探索。
- 彻底抛弃复杂数据结构:不再需要栈、链表、队列、压栈出栈、路径追踪,每个智能体只维护极简单状态。
- 上下文压力降到最低:Runner 只看 “已知出口”,Scanner 只看 “当前房间”,都不需要长上下文。
- 动态迷宫与非因果迁移不再是问题:我们不追求 “为什么转移”,只记录 “观察到什么”,用多次验证确认规律,不做先验因果假设。
- 可无限扩展:卡关则增加 Scanner 做定点排查;需要提速则增加 Runner 做并行拓荒。
在 MUD 这类开放文字环境中,智能体常常产生 “伪因果”:点火柴→房间切换,便误以为点火导致转移,而真实原因是游戏引擎的时间自动转移。传统思路试图让模型区分 “动作因果” 与 “系统随机 / 自动迁移”,这在工程上几乎不可行。
我们确立一条不可动摇的原则:所有观测到的现象都是真实事实,在未被重复验证推翻前,一律视为有效因果关联。
这不是放弃推理,而是工程化妥协:
- 模型没有能力在有限上下文内区分复杂因果;
- 因果关系只能通过后验多次重复确认;
- 伪关联会被后续探索自动稀释、覆盖、修正;
- 共享记忆会通过多智能体的冗余观测提升置信度。
这一点让整个系统从 “推理型” 变成 “统计验证型”,稳定性呈数量级提升。
多智能体的意义完全来自全局共享记忆。没有共享,分工毫无价值;有了共享,每个微小贡献都被永久保留。记忆体系只需要维护四类信息,结构极简、稳定可靠:
- 房间 - 出口映射:该房间有哪些可行出口,对应到哪个房间。
- 命令成功 / 失败记录:哪些命令有效、哪些无效、无效原因。
- 隐藏反馈与提示:游戏给出的语法提示、建议命令、隐晦线索。
- 观测置信度:某条规律被多少次观测验证,避免单次偶然事件误导。
这套记忆不依赖模型、不依赖上下文、不依赖算法,任何模型、任何版本、任何智能体都可以读写。它本质是把大模型最薄弱的长时记忆,外包给最可靠的外部存储。
我们的整套方案,本质是用经典工程思想解决 AI 能力短板:
- 空间换时间:用外部存储保存所有历史,避免重复探索。
- 冗余换精准:用多次尝试与交叉验证,抵消模型幻觉与上下文遗忘。
- 分工换复杂度:把指数级复杂度的迷宫搜索,拆解为常数级复杂度的小任务。
- 观测换推理:放弃脆弱的因果推理,用统计观测替代逻辑推演。
这也回答了一个关键问题:国产模型与顶尖模型的差距,是否可以通过工程弥补?答案是肯定的。模型之间的差距,更多体现在上下文长度、一致性、指令遵循、记忆准确度,这些都属于 “工程可补” 的范畴。用多智能体、共享记忆、分治任务、冗余验证,我们可以让中等模型实现接近顶尖模型的探索效果。真正的壁垒不是参数、不是数据、不是架构,而是能否把问题从 “模型能力问题” 转化为 “工程架构问题”。
这套 MUD 迷宫探索架构,不只是用于游戏,它是所有长程、开放、多步、动态任务的通用解法:自动驾驶、代码工程、科学研究、复杂推理、规划决策…… 凡是需要长期记忆、分步推进、容错探索、动态变化的任务,都可以迁移 “移动迷宫思想”:
- 不依赖全能个体;
- 不依赖超长上下文;
- 不依赖精巧算法;
- 依赖分工、共享、冗余、验证。
人脑很可能也是如此:我们并没有一个 “超级中枢” 记住一切、算尽一切,而是把任务拆分、局部专注、外部记录、反复验证、群体协同。所谓 “聪明”,很多时候不是算力更强,而是记忆更可靠、分工更合理、方法更工程化。
《移动迷宫》告诉我们:动态、危险、不完备的迷宫,无法依靠完美个体征服,只能依靠群体智能。我们将这一思想完整落地到 MUD 文字迷宫探索,形成一套反直觉、高鲁棒、可扩展、模型无关的全新架构:
- 放弃单智能体全能探索,改用 Runner + Scanner 双智能体最小分工;
- 放弃复杂 DFS/BFS 与数据结构,用最简单行为规则完成探索;
- 放弃先验因果推理,接受观测事实,用后验重复验证建立规律;
- 全局共享记忆,让每一次尝试都成为永久资产,不浪费、不遗忘;
- 用工程弥补模型差距:冗余换精准、分工换复杂度、存储换记忆。
这套方案不挑模型、不挑环境、不依赖超长上下文,能够稳定应对动态迷宫、非因果迁移、多出口房间、循环陷阱等所有 MUD 核心难点。它不仅是一套 MUD 探索方法,更是一套通用长程任务的工程化解决范式—— 在大模型能力存在天花板的今天,架构的胜利,远大于模型的胜利。
我可以把这篇总结精炼成一段可直接用于论文 / 项目说明的核心摘要,方便你对外 presentation 或存档,需要吗?