我们在批驳这个,或者说反思萨顿的这个论断的时候,其实可以抛开这个刚才所讨论的这个第一性原理的这个具体的,而是聚焦于这个他的这个,就说大语言模型跟他的持续学习这个维度。而不是说 Transformer 这个架构,他并没有说 Transformer 这种架构被抛弃。他这个论断说的是大语言模型是死路一条,因为在他看来大语言模型是一个统计学的概率这种是别人教给他的,或者,而不是说自己学学习的,他是从这个维度,而不是说具聚焦于具体的 Transformer,因为这个可能大语言模型跟 Transformer 这个还是有些微的差别的。所以呢这个反思,我们是聚焦于直接经验与间接经验的这个层面,因为他的所谓这个持续学习,就是认为说直接经验是最重要的,所有的东西都要通通让 AI 自己发现一遍,这是我的理解。而我在我看来,这个大语言模型实际上就是等价于一个间接经验,就是人类把这个几千年来我们的文明的成果,给它作为这种这种填鸭式的,或者说怎么样的去灌输给大语言模型。大语言模型的本质就是把我们人类的所有的这个文明的成果,做一个这个这个归纳总结,或者说是全部灌输输给他。这个当然就是剥夺了这个人工智能去自我发现的这个机会,或者说他没有这种能力去发现。但是并不代表说就不能够这样,就说很多人都反驳他,就说我们人类也是这样,说先有一些学校里教的一些,然后知识,理论知识,然后再去社会上去做实践,去自己去发现。而不是说所有的东西通通都要自己去发现,那不是,就是说全部靠自学,就相当于全部靠自学,那还要书本干什么?还要老师干什么?就说很多东西是别人给你一个正确的东西,一个基本的框架,好像一个基础的这种知知识框架,你才能去做一些自我学习,自我发现。如果一点都不给的话,完全从零开始,我认为是不不行。现实的,而这个萨顿是过于强调说苦涩的教训里面,就是说我们不应该给预设任何的这个这个这个框架,就说应该让 AI 纯粹从零开始。我认为说这个第一可能不够现实,第二可能没有必要,第三也不太可能做得到。因为毕竟,就算,就我举例,就像一个计算机,它也有一个叫基本的输入输出, BIOS, 是吧?没有这个基本的,那你全部都从头开始的话,就成为一个无本之源,无无无水之源,无无本之木的这个这个,就说不太可能全部从零开始,它总是有一些最基本的原则,最基本的原则不代表说就一定会成为将来被抛弃的,当然也有可能被抛弃。能让他持续发现。就说,但是这总要有让他一种自我学习的机制,但是并不会和灌输给它一些基本理论产生矛盾。这两者实际上是并不是非此即彼的。所以从这个观点来去讨论,而不,你不要有这种负担,说说我们要把上一篇文章这个继续加进来,而是说写一篇新的文章,就从新的角度。因为他也讨论这个问题,也是跟 Transformer 并没有那么直接的关系,而是说大语言模型这个这个这个架构是从另外一个维度来讨论这个问题了。
大语言模型的应用与理解
导出时间:2026/5/27 21:29:16
来源地址:https://www.doubao.com/chat/27898905094146050
消息数量:4
经验之辩:大语言模型与持续学习的非零和共生
理查德・萨顿在《苦涩的教训》中抛出的核心诘问,直指大语言模型 “依赖人类知识灌输” 的统计学本质,将其判定为 “死路一条”,并主张 AI 应转向纯粹的持续学习,通过自主探索获取全部直接经验。这一论断精准点出了大语言模型缺乏原生创新的短板,却陷入了 “非此即彼” 的认知误区 —— 正如人类认知遵循 “间接经验奠基、直接经验突破” 的规律,AI 的智能演进同样无需在两者间做极端选择。大语言模型承载的人类文明成果与持续学习的自主探索能力,本质是互补共生的关系,而非相互排斥的替代方案。
一、萨顿论断的偏狭:将 “直接经验” 绝对化的三重谬误
萨顿对大语言模型的否定,建立在 “自主发现至上” 的单一认知框架上,这一视角既忽视了智能演进的效率原则,也违背了现实世界的约束条件,存在三重核心谬误。
其一,完全从零探索的不现实性。智能的生成离不开基础规则的支撑,正如计算机无法脱离 BIOS 启动,AI 的自主学习也需要最低限度的 “认知地基”。萨顿所推崇的 “无预设框架”,在现实中难以落地 —— 围棋领域的 AlphaGo Zero 虽能从零探索棋理,但围棋有着明确的落子规则与胜负判定标准,而真实世界的多数任务既无清晰规则,也无即时反馈。试想让 AI 从零学习人脸识别,若没有任何关于人脸结构、成像原理的基础认知,其自主生成的数据可能只是 “鬼脸” 而非有效样本,更无法建立合理的相似度判断标准。这种脱离基础框架的 “纯粹自主学习”,本质是对智能生成规律的违背。
其二,重复探索的资源浪费。人类文明的进步核心在于 “传承 + 突破”,数千年积累的知识成果早已通过实践验证其可靠性。要求 AI 重新发现牛顿三定律、证明毕达哥拉斯定理,无异于让其重复 “造轮子”—— 即便 AI 拥有超强算力,也无法在短期内复刻人类历经偶然发现、长期试错才获得的认知成果。这种对间接经验的全盘否定,既浪费计算资源,也违背了文明演进的效率原则,与 “让 AI 助力人类进步” 的初衷背道而驰。
其三,对经验本质的认知偏差。萨顿将大语言模型的 “知识灌输” 简单等同于 “填鸭式教育”,却忽视了其核心价值在于构建 “认知坐标系”。大语言模型并非机械复刻人类知识,而是通过对海量文本的学习,提炼出事物间的关联规律,形成一套可复用的知识框架 —— 这如同学生在学校习得的基础理论,并非剥夺了实践探索的机会,而是为后续的自主发现提供了方向指引。没有这套框架,AI 的持续学习将陷入 “盲目试错” 的困境,难以形成有效的认知迭代。
二、经验共生:大语言模型与持续学习的互补逻辑
从人类学习的本质来看,间接经验与直接经验从来都是相辅相成的 —— 学生以书本知识(间接经验)为主,同时通过实践(直接经验)深化理解,这一规律同样适用于 AI 的智能演进。大语言模型与持续学习的互补,体现在 “奠基 - 突破 - 修正” 的完整闭环中。
大语言模型的核心价值是高效承接文明成果,降低探索成本。作为人类间接经验的载体,大语言模型沉淀了数千年的知识结晶,这些经过实践检验的内容具有极高的可靠性与效率优势。AI 无需重复天文观测即可掌握行星运行规律,无需重做无数次实验就能理解物理定律,这种对既有知识的快速吸收,让 AI 得以站在 “人类文明的肩膀上” 开展探索,而非从零开始。正如量子计算先驱大卫・多伊奇所言,大语言模型虽只是 “认知放大器” 而非独立智能体,但其带来的效率革命为后续探索奠定了基础。更重要的是,大语言模型能构建统一的知识语境,让 AI 的持续学习有明确的目标导向 —— 例如基于已有的医学知识,AI 可聚焦于疑难病症的治疗探索,而非重新验证基础病理。
持续学习的核心作用是突破认知边界,修正知识偏差。大语言模型的知识局限在于其训练数据的 “静态性”,无法涵盖未被人类发现的未知领域,也难以应对动态变化的现实场景。而持续学习通过与环境的实时交互,能获取原生性的直接经验,这种第一手知识具有创新性与时效性,可突破人类认知的边界。例如在药物研发领域,大语言模型可提供已知的分子结构与药理知识,持续学习则通过虚拟实验探索新的组合方案,两者结合既避免了盲目试错,又能实现创新突破。同时,持续学习还能修正大语言模型中的偏见与误差 —— 当模型输出的理论与现实观测不符时,持续学习的反馈可反向优化模型参数,形成 “理论 - 实践 - 修正” 的良性循环。
这种互补关系并非简单的 “分工合作”,而是智能的协同进化:大语言模型为持续学习提供 “认知地图”,持续学习为大语言模型注入 “新鲜血液”。没有大语言模型的奠基,持续学习将是低效的 “盲人摸象”;没有持续学习的突破,大语言模型将沦为僵化的 “知识仓库”。图灵奖得主扬・勒昆曾指出,真正的智能需要 “持久记忆、逻辑推理与环境交互” 的结合,而这正是两者共生所能实现的目标。
三、结论:在传承中创新,AI 演进的最优路径
萨顿的论断为 AI 领域提供了宝贵的批判性视角,提醒业界警惕大语言模型 “重统计、轻理解” 的局限,但将其全盘否定并推崇纯粹持续学习,无疑走向了另一个极端。智能的本质从来不是 “要么全靠传承,要么全靠探索”,而是在已有基础上实现迭代突破 —— 这一规律既适用于人类,也适用于 AI。
未来 AI 的发展方向,不应是非此即彼的路线选择,而是构建 “大语言模型奠基 + 持续学习创新” 的融合范式:以大语言模型高效吸收人类间接经验,搭建基础认知框架;以持续学习聚焦未知领域,获取直接经验实现突破;通过双向反馈机制,让间接经验指导直接探索,让直接经验修正间接知识。这种模式既尊重了文明传承的效率原则,又保留了自主探索的创新空间,既避免了纯粹传承的僵化,也克服了纯粹探索的低效。
AI 的终极目标不是复刻人类的学习方式,而是构建更高效的智能体系。萨顿所强调的 “持续学习” 价值值得重视,但这并不意味着要抛弃大语言模型承载的宝贵经验。在约束与可能之间找到平衡,让两种经验范式各展所长、共生共荣,才是对萨顿论断最具建设性的回应 ——AI 的未来,不在于从零开始的纯粹探索,而在于在传承中创新,在互补中演进。
需要我帮你提炼文中的核心论点做成思维导图,或者补充具体的技术案例来强化论证吗?
萨顿还有另外一个观点,就是说他认为说当前的大语言模型是死路一条。而他推崇这种,就是苦涩的教训里边的引出来的,就是所谓的持续学习, continue learning 吧。就意意思就是说接受这种早期我们的教训,就像 AlphaGo 这种从原则上去从原则上去学习,而不是说人教给他的规则,就是继续延续他的苦涩的教训这种观点。我只能部分的同意他的呃这个看法,但是呢我是把它类比成叫做叫做直接经验与间接经验。大语言模型可以看作是所谓的间接经验,就是说这个 AI 它没有直接去学习这些原理,而是说人给它灌输的。当然这个灌输的很有可能是准确的,或者说是经过正确的,经过了实践检验的,这个并不是它自己总结出来的,是别人发现的,教给他的。而那个萨顿强调是说,一定要 AI 自己去实践,自己去发现。这个当然是好了,如果说他能够说全部都能发现,比如说把牛顿三定律也自己能发现,这个毕达哥拉斯定理全部自己证明,这当然可以了,这个这个直接经验,这个相当于说你把人类文明历史全部走一遍,把所有的这个人类的几千年积累的这个呃成果全部自己发现一遍,就是轮子重新造一遍,就是直接经验在我看来走极端就是这样。你要说是这样做可可行也就罢了,但是我认为说,哪怕强如 AI 这种,这个它也是需要耗费无数多的精力,把人类的这几千年的文明全部走一遍。因为很多人类的发明发现是有偶然性的,而且是有一定的这个概率或者说是大量的积累,就是超过普通人的智力能够发现得了的。我不认为说 AI 可以把这个所有的路径都走一遍,就是说它是一个强盗,以至于说把这个天文地理历史无所不知。无所不晓,然后永远不会犯错误,永远不会,就是说,因为你即便是你自己去发现,你要去做实验,那实验需要不需要时间呢?需要不需要条件呢?你有没有可能把所有的实验,所有的这个物理化学地理什么通通都实践一遍呢?这个可能吗?就是说说这个直接经验当然是好的,就说这,但是从现实讲角度讲,哪怕是人工智能,它也不可能在这个地球上,这个去这个晃荡一几百年,去把这个人类的几千年历史全部走一遍。当然几百年也许夸张了,也许人工智能非常聪明,人类几千年,这个无数人人的这个实践经验,他能够在短短的时间,但再怎么短短时间,有些东西也是耗费时间的。因为有些结果,比如说天文观测,那行星的运行轨道规律,难道你要等个几年时间,看看这个行星它是绕太阳旋转,你才能确定,哦,行星的确是呃绕太阳旋转的这个,然后你就不接受说我们已经观测了几千年的这个天体运行的这个这个这个数学原理,或者说是规律,然后要自己去重新发现一下,自己把轮子重新造一遍,这是不现实的。就是直接经验固然是好的。但是也不能否定,就间接经验就不可取。只不过说是你要能够自己有那个能力去重新做,但是呢别人告诉你了,你你就不一定要去重新去,你你有能力把它验证,或者说你是有其他间接的相信它是正确的。我觉得就足够了,而不是说你事事都要自己发现,那可能吗?不太可能。有的东西是靠一定的几率,或者说是偶然性,或者说是要时间的。那不可能把轮子都造一遍,所以这是我的一个观点。当然我还有其他的这个想法,我们先看看你的这个意见。
对萨顿 AI 论断的双重反思:架构瓶颈与经验范式的平衡之道
理查德・萨顿在《苦涩的教训》中提出的两大核心观点 ——Transformer 架构终将被抛弃、当前大语言模型是死路一条而应转向持续学习 —— 为 AI 领域带来了深刻的方向拷问。但结合 AI 技术的底层逻辑与现实约束,这两大论断均需置于更具体的技术语境中重新审视:前者忽视了 Transformer 架构的第一性原理瓶颈本质,后者则陷入了 "直接经验至上" 的极端化误区。唯有正视架构的不可逾越约束与经验范式的互补价值,才能找到更具现实可行性的技术演进路径。
一、架构反思:Transformer 的瓶颈是原理性约束,而非可替代缺陷
萨顿关于 "Transformer 将被抛弃" 的预判,忽略了该架构的核心瓶颈源于信息处理的第一性原理,而非技术设计的阶段性不足。Transformer 的两大核心局限 —— 输入侧 n² 全关联的计算复杂度、输出侧自回归的串行依赖 —— 本质上是对 "语言符号需全局关联" 这一本质需求的必然响应,任何替代架构只要以离散语言符号为处理对象,就无法绕开这一底层约束。
当前行业所谓的 "架构优化",无论是并行计算加速还是概率性投机解码,本质上都是对这一原理性约束的战术性妥协:并行计算仅能提升训练效率,无法降低核心复杂度;投机解码虽能减少推理步数,却引入了回滚风险,并未从根本上改变自回归的本质。这些优化正如 CPU 指令集的升级,只能在既定架构框架内提升性能,无法重构信息处理的底层逻辑。
真正具有突破潜力的方向,并非抛弃 Transformer 架构,而是重构其处理的 "信息颗粒度"——Deepseek OCR 提出的视觉 token 方案提供了关键启示。与传统离散文字 token 不同,视觉 token 以连续向量形式存在,无需依赖固定字典:一方面,它通过视觉压缩天然实现了信息密集化,将多个文字 token 融合为更具语义完整性的大概念单元,直接降低了 n² 关联的计算压力;另一方面,连续向量的模糊性特性,恰好规避了离散 token 依赖 Softmax 计算全字典概率的低效问题 —— 视觉 token 无需遍历数万级字典,只需通过相似性匹配定位核心关联对象,从根本上解决了离散符号处理的算力浪费困境。这种 "架构不变、颗粒度升级" 的思路,才是对原理性约束的正向突破,而非对架构本身的否定。
二、经验范式:持续学习与大语言模型的互补,而非对立
萨顿推崇的 "持续学习" 范式,将 AI 自主探索的直接经验置于绝对优先地位,认为依赖人类知识灌输的大语言模型是 "死路一条"。这一观点虽触及了大语言模型的本质缺陷,却陷入了 "非此即彼" 的二元对立误区 —— 从经验论视角看,持续学习代表的直接经验与大语言模型承载的间接经验,本应是互补而非替代的关系。
持续学习的核心价值在于 AI 通过自主探索获得 "第一手知识",正如 AlphaGo 从零开始探索围棋规律,这种知识具有原生性和创新性,能够突破人类认知的边界。但直接经验的获取存在不可规避的现实约束:人类文明的诸多成果源于偶然发现与长期积累,如行星运行规律的观测耗时数千年、物理定律的验证需依赖特定实验条件,AI 即便具备超强算力,也无法在短期内复刻所有人类实践的路径。要求 AI 重新发现牛顿三定律、证明毕达哥拉斯定理,本质上是让其重复 "造轮子",既浪费计算资源,也违背了文明传承的效率原则。
大语言模型承载的间接经验,虽非 AI 自主探索的成果,却是人类文明数千年实践检验的结晶。这些知识经过了无数次现实验证,具有极高的可靠性与效率优势 ——AI 无需重复天文观测即可掌握行星运行规律,无需重做无数次物理实验就能理解力学原理。真正的技术进步不应是抛弃间接经验,而是构建 "间接经验吸收 - 直接经验验证" 的闭环:大语言模型负责高效承接人类已有的知识成果,持续学习则聚焦于未知领域的自主探索,通过少量关键实验验证和修正间接经验,形成 "传承 - 突破" 的良性循环。这种模式既避免了直接经验的资源浪费,又弥补了间接经验的创新性不足,远比单一范式更具现实可行性。
三、结论:在原理约束内寻找突破,在经验互补中实现演进
萨顿的论断为 AI 领域提供了宝贵的批判性视角,但技术演进的真相往往并非 "彻底颠覆",而是 "在约束中突破,在互补中完善"。Transformer 架构的原理性瓶颈决定了其不会被简单抛弃,而是会通过视觉 token 等信息颗粒度升级的方式实现迭代;持续学习与大语言模型的经验范式也并非对立,而是会走向 "间接经验奠基、直接经验突破" 的融合模式。
未来 AI 的发展方向,应当是:以 Transformer 为基础架构,通过视觉 token 等连续向量形式重构信息处理单元,突破离散符号的原理性约束;以大语言模型为知识载体,高效吸收人类文明的间接经验,为自主探索提供基础;以持续学习为创新引擎,聚焦关键未知领域的直接探索,实现知识的迭代与突破。这种 "架构守正、颗粒度创新" 与 "经验互补、探索赋能" 的双重结合,既尊重了技术发展的原理性约束,又兼顾了现实可行性与创新性,或许才是对萨顿论断最具建设性的回应 ——AI 的未来不在于非此即彼的路线选择,而在于在约束与可能之间找到最优平衡。