谷歌 DeepMind 这项研究的论文《Chain of Thought Reasoning Without Prompting》(无需提示的思维链推理)发表于2024 年,并非新论文,可通过 arXiv 预印本平台查询。
思维链能力并非 AI “与生俱来”,而是模型在训练中习得后,被传统调用方式 “隐藏” 了,谷歌的研究只是找到了激活它的方法,具体逻辑如下:
- 能力来源:训练赋予基础大型语言模型在训练时接触了海量文本,其中包含人类的各种推理过程(如解题步骤、逻辑分析),因此模型参数中 “存储” 了推理模式 —— 这是能力的基础,并非天生就有。
- 传统方式:只选 “最简洁路径”过去用 “贪婪解码”(每次选概率最高的词)调用模型时,模型会优先输出简洁答案(如直接给数学题结果),因为日常语言中 “直接给答案” 比 “写推理步骤” 更常见,概率更高,导致推理能力被隐藏。
- 谷歌方法:“逼出” 隐藏的推理能力研究团队用 “CoT-decoding” 让模型对同一问题生成 10 个不同答案(通过调整 “温度采样” 增加多样性),发现部分答案会自然包含推理步骤 —— 这证明推理能力早就在模型里,只是需要通过 “多路径探索” 激活,而非外部提示临时激发。
简单类比:就像学生通过上课(训练)学会了解题步骤,但考试时若只要求写答案(传统调用),他不会展示步骤;若让他多写几种解题思路(多路径生成),就会自然呈现推理过程 —— 能力是学来的,不是天生的,只是需要合适的方式展现。
我可以帮你整理这篇论文中 “CoT-decoding 方法” 的核心步骤拆解,方便你更直观理解 AI 如何被引导展现推理能力,需要吗?