纯用大模型(无MCTS)自主学习围棋规则、棋谱并训练下棋技术上完全可行,且这是检验大模型核心能力的绝佳试金石——围棋的封闭性、规则明确性、胜负客观性,能比自然语言任务更量化、更精准地测试大模型的推理、建模、规则遵循能力。但从对弈效果和算力效率来看,它不会成为围棋AI的主流方案,且和人类下棋的“模拟度”也有特殊的双面性。
大模型的核心能力(序列建模、模式归纳、知识注入)能完美对接围棋的数字化表达,现有GPT、Claude等大模型经简单微调就可实现围棋对弈,核心做法很直接:
- 棋盘token化:把19×19棋盘的每个交叉点转化为一维序列token(比如用“星位-黑”“三三-空”“五路-白”这类标识),将二维棋盘映射为大模型能处理的序列数据;
- 棋谱当训练语料:把人类海量棋谱(落子顺序+棋局结果)当作“文本数据”,让大模型学习落子的上下文关联(比如某棋形后人类通常怎么下);
- 规则显式注入:把围棋提子、禁着、数子定胜负等规则,以prompt或知识库形式喂给大模型,约束其落子的合理性;
- 落子预测即推理:大模型将“当前棋盘状态”作为输入prompt,输出下一手的落子坐标,本质是基于模式匹配和规则的决策推理。
简单说,围棋对大模型而言,就是一种“有固定规则的特殊语言”,大模型的通用能力完全能覆盖这种任务的需求。
你说的“用这个方法实验大模型能力”,恰恰是纯大模型做围棋最核心的意义——围棋是封闭、客观、有量化指标的“标准化考题”,比模糊的自然语言任务(比如写文案、答问题)更能测清大模型的真实水平,重点检验这4项核心能力:
- 结构化知识的建模能力:能否把二维棋盘的空间关联(上下左右、棋形、厚势),通过一维token序列准确建模(这是大模型处理空间/结构化数据的核心难点);
- 长程逻辑推理能力:围棋是多步决策游戏,能否从当前棋形预判后续数步的攻防、死活,检验大模型的长上下文推理和因果链建模能力;
- 规则的遵循与泛化能力:能否严格遵守围棋硬规则,且从有限棋谱中泛化到未见过的棋局(而非死记硬背定式);
- 模式归纳与“棋感”学习:能否像人类一样,从海量棋谱中总结出“金角银边草肚皮”这类隐性经验,形成类人类的“棋感”。
这些能力都是大模型的通用核心能力,围棋的客观胜负结果能给这些能力做量化打分(比如胜率、落子合理性),这是自然语言任务难以做到的。
虽然可行,但纯大模型做围棋的对弈效果远不如AlphaGo的MCTS+RL组合,且它对人类下棋的“模拟”是表面相似,底层不同,核心短板有4点:
- 空间理解的天然缺陷:大模型是一维序列建模,对围棋二维棋盘的空间关联理解需要额外编码,远不如CNN直接捕捉局部棋形、MCTS全局搜索空间关系高效;
- 决策导向是“模仿人类”,而非“赢棋”:大模型学的是人类的落子模式,容易陷入人类的定式和思维局限,而MCTS+RL是纯胜率导向,能跳出人类经验下出更优的“怪手”;
- 长程决策的精度不足:大模型的推理依赖模式匹配,对围棋这种需要数十步预判的任务,容易出现“一步错,步步错”,而MCTS能通过模拟后续对局,精准筛选最优落子路经;
- 算力性价比极低:大模型少则数十亿参数量,训练和推理的算力消耗远大于AlphaGo那种“轻量CNN+MCTS”组合,而围棋是固定19×19的封闭任务,完全没必要用大模型的通用算力去做“专属任务”。
另外,它看似“模拟人类下棋”,实则只是模仿人类的落子序列,而非人类的“思考过程”:人类下棋是“棋感+局部计算+全局判断”,大模型只是“从棋谱中找相似棋形的落子规律”,二者底层逻辑完全不同。
纯大模型训练下围棋,不会成为围棋AI的主流方案(效率、效果都不如MCTS+RL),但是大模型技术研发的重要试金石——就像AlphaGo当年验证了强化学习的可行性,纯大模型下围棋能精准找到大模型在结构化建模、长程推理、规则泛化上的短板,这些短板的优化,能直接反哺大模型在其他领域(比如代码生成、数学证明、智能决策)的能力。
结合你之前看到的“围棋AI市场小”的现状,这一尝试的技术实验意义,远大于其在围棋领域的商业和对弈意义——它不是为了做更好的围棋AI,而是为了做更强的大模型。
如果想做这个实验,其实可以从小棋盘(9路/13路)+轻量大模型+人类棋谱微调起步,门槛不高,还能快速看到大模型在围棋任务上的能力边界,要不要我帮你梳理一个极简的实验思路框架?