我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
对于萨顿关于Transformer必将被抛弃的论点的第一性原理分析
视频
音频
原始脚本
架构迭代不等于颠覆本质,对萨顿 Transformer 将被抛弃的第一性原理反思。 强化学习奠基人理查德萨顿曾断言,Transformer 架构或许在几年后会被新架构取代。 这一观点延续了他在苦涩的教训中对通用方法迭代的执着,却忽略了 AI 处理语言智能的底层规律。 从信息论与语言本质的第一性原理来看,Transformer 的核心机制并非可被颠覆的架构设计,而是无法逾越的智能约束。 未来 AI 的进化方向绝非抛弃这些核心约束,而是在约束内通过更高效的信息编码方式实现优化。 其中视觉 token 路径正是当前最具落地价值的突破方向。 一,第一性原理,两个核心瓶颈的不可替代性,语言的本质属性与信息传递的基本规律,决定了任何通用语言智能模型都必须面对两个底层瓶颈,这并非 Transformer 的设计缺陷,而是智能实现的必然代价。 一、输入端,N 二全局关联是语义理解的底线成本。 语言的语义连贯性本质依赖所有 token 间的全局关联。 一个代词可能呼应前文数百词外的名词,一个连词需衔接前后文的逻辑关系。 早期 RNN、CNN 等架构之所以未能突破,核心在于未能完整捕捉这种全局依赖。 RNN 的线性传播导致长距离信息衰减,CNN 的局部感受也无法覆盖全序列关联。 Transformer 的自注意力机制之所以成功,正是通过计算所有 token 两两之间的关联强度及 N 平方复杂度,实现了语义信息的无损耗捕捉。 这种 N 平方复杂度并非可优化的冗余,而是语义理解的数学底线。 当前主流的稀疏注意力、线性注意力等优化方案。 本质是用概率性投机替代全量关联,通过预设大概率相关的 token 范围减少计算量,却必然以遗漏部分微妙语义关联为代价。 如同 CPU 的指令预取,赌的是多数情况下无需回滚,但永远无法达到100%的精准度。 无论未来架构如何命名,只要目标是精准理解语言,就必须以某种形式实现全局关联,N 平方的理解成本无法被彻底消除。 二、输出端,串行自回归是逻辑连贯的必然选择。 语言生成的核心是后验依赖,下一个词的语义必须由前文所有 信息共同决定,即满足条件概率 P 词词一词,这种持续依赖性决定了生成过程无法真正并行化。 非自回归生成虽能一次性输出多个 token ,却需通过多轮校验修正语义断裂,本质是将串行逻辑隐藏在内部。 谷歌的投机生成技术也只是用小模型预生成候选序列,再通过大模型验证,失败时仍需回滚重算,并未突破逐此依赖的核心。 从信息论角度看,用全部前文预测单个下 token 是最大信息输入、最小信息输出的最优路径。 既能保证预测的可靠性,又能最小化计算成本。 若强行一次性生成多个 token,相当于用有限信息推导大量未知,必然导致语义混乱、逻辑断裂。 这种串行生成的模式并非 Transformer 的专属设计。 而是语言作为时序符号系统的本质要求,任何生成式 AI 都无法绕开。 综上,Transformer 的核心价值在于用自注意力加自回归的组合,精准满足了语言智能的两个底层需求。 未来任何新架构,若想实现同等水平的语义理解与生成能力,都必须保 保留这两个核心机制。 所谓抛弃 Transformer 本质只是更换机制的实现形式,而非颠覆本质。 二、优化的误区与破局,从架构替换到信息增效。 萨顿的观点隐含着架构迭代必然颠覆核心机制的预设。 但 AI 发展的实践已证明,所有脱离底层约束的架构创新都是空中楼阁。 真正有效的优化是在保留核心机制的前提下提升信息处理效率。 当前主流优化路径的局限与突破可通过对比清晰呈现。 一、传统优化路径的两难困境。 一大概念模型 LCM 的瓶颈。 通过将多个小 token 组合为概念单元提升颗粒度,虽能减少序列长度、降低 N 平方复杂度,却必然导致字典规模膨胀。 字典的扩大直接增加了自回归阶段的计算负担。 传统离散 token 生成需通过 Softmax 计算所有字典成员的概率。 即便多数 token 与当前上下文毫无关联,仍需逐一遍历。 这种全面扫描是计算本质是对算力的浪费。 当字典规模扩大到10万级甚至百万级,Softmax 的计算成本会呈线性飙升,形成颗粒度提升字典膨胀算力浪费的恶性循环。 二、稀疏与并行优化的风险。 稀疏注意力通过聚焦局部关联,将复杂度降至 O N LOG IN,但牺牲了长距离语义捕捉能力。 投机生成通过并行域生成提升速度,却面临回滚风险与精度损失。 这些方案本质是效率与精度的妥协,无法从根本上解决计算量与信息密度不匹配的核心问题。 二、视觉 token 突破困境的可落地路径 Deepseek OCR 提出的视觉 token 替代传统文字 token。 方案之所以成为当前最优解,核心在于它跳出了离散字典的桎梏。 在保留全局关联加串行生成核心机制的前提下,实现了信息密度与计算效率的同步提升。 一,摒弃字典,根除算力浪费。 视觉 token 以连续向量形式存在,无需离散字典映射,输入时将文本转为视觉信号,通过编码压缩为连续向量,单个视觉 token 可对应5~10个传统文字 token 。 输出时直接生成视觉向量,再通过 OCR 转换为文字,多模态场景下甚至无需转换。 这种模式彻底规避了 Softmax 对全字典的遍历计算,只需通过向量相似度匹配找到最优结果。 将全面扫描变为精准定位,从源头解决了字典膨胀带来的算力浪费问题。 二、模糊容错,平衡精度与效率。 视觉 token 的连续向量特性自带模糊性,这种模糊性并非缺陷,而是对语言语义灵活性的适配。 语言表达本就存在歧义与语境依赖,离散 token 的非黑即白映射反而会割裂语义的连续性。 而 视觉向量的模糊性可自然容纳这种灵活性,其精度损失则通过 OCR 的容错机制弥补。 实验表明,视觉 token 在10倍压缩率下仍能保持97%以上的语义还原度,实现了复杂度降低、效率提升、精度无损的良性循环。 三、跨语 语言适配,突破编码局限。 传统离散 token 为适配多语言,常采用 UTF8编码,导致汉语等表意文字被拆分为半个字符的碎片,丢失语言特异性。 视觉 token 直接以文本的视觉形态建模,无需考虑语言差异。 既能保留汉语单字的完整性,又能适配各类语言的表达习惯,从编码层面解决了多语言适配的痛点。 三、结论。 Transformer 的形可变,神永存。 萨顿对架构迭代的预判混淆了实现形式与核心本质的区别。 Transformer 作为当前最契合语言智能底层规律的架构,其全局关联加串行生成的核心机制并非可被抛弃的过渡形态,而是任何通用语言智能模型都必须遵循的第一性原理。 未来 AI 的进化不会是抛弃 Transformer,而是 Transformer 核心机制的再封装、视觉 token 等方案的价值。 正是用更高效的信息编码方式,让核心机制的算力成本大幅降低。 从 CPU 的发展历史也可得到启示。 冯诺依曼架构的线性指令执行核心从未被颠覆。 但通过流水线预取并行优化等技术,其效率实现了指数级提升。 AI 的发展也将遵循同样逻辑,底层核心约束不可突破。 但信息处理的效率可以无限优化,视觉 token 路径的出现已证明这种优化并非空想,而是可落地的实践。 萨顿的苦涩的教训提醒我们,通用方法终将战胜手工设计。 但这并不意味着要否定经过实践验证的底层规律。 未来的 AI 创新不该执着于创造新架构的噱头。 而应聚焦于如何更高效的实现核心机制的本质。 这或许才是对苦涩的教训最深刻的践行,也是 AI 可持续发展的必然路径。
修正脚本
架构迭代不等于颠覆本质,对萨顿“Transformer 将被抛弃”的第一性原理反思。 强化学习奠基人理查德萨顿曾断言,Transformer 架构或许在几年后会被新架构取代。 这一观点延续了他在《苦涩的教训》中对通用方法迭代的执着,却忽略了 AI 处理语言智能的底层规律。 从信息论与语言本质的第一性原理来看,Transformer 的核心机制并非可被颠覆的架构设计,而是无法逾越的智能约束。 未来 AI 的进化方向绝非抛弃这些核心约束,而是在约束内通过更高效的信息编码方式实现优化。 其中视觉 token 路径正是当前最具落地价值的突破方向。 一、第一性原理,两个核心瓶颈的不可替代性,语言的本质属性与信息传递的基本规律,决定了任何通用语言智能模型都必须面对两个底层瓶颈,这并非 Transformer 的设计缺陷,而是智能实现的必然代价。 一、输入端,全局关联是语义理解的底线成本。 语言的语义连贯性本质依赖所有 token 间的全局关联。 一个代词可能呼应前文数百词外的名词,一个连词需衔接前后文的逻辑关系。 早期 RNN、CNN 等架构之所以未能突破,核心在于未能完整捕捉这种全局依赖。 RNN 的线性传播导致长距离信息衰减,CNN 的局部感受野无法覆盖全序列关联。 Transformer 的自注意力机制之所以成功,正是通过计算所有 token 两两之间的关联强度及 N 平方复杂度,实现了语义信息的无损耗捕捉。 这种 N 平方复杂度并非可优化的冗余,而是语义理解的数学底线。 当前主流的稀疏注意力、线性注意力等优化方案。 本质是用概率性投机替代全量关联,通过预设大概率相关的 token 范围减少计算量,却必然以遗漏部分微妙语义关联为代价。 如同 CPU 的指令预取,赌的是多数情况下无需回滚,但永远无法达到100%的精准度。 无论未来架构如何命名,只要目标是精准理解语言,就必须以某种形式实现全局关联,N 平方的理解成本无法被彻底消除。 二、输出端,串行自回归是逻辑连贯的必然选择。 语言生成的核心是后验依赖,下一个词的语义必须由前文所有信息共同决定,即满足条件概率 P(下一词|前文),这种持续依赖性决定了生成过程无法真正并行化。 非自回归生成虽能一次性输出多个 token ,却需通过多轮校验修正语义断裂,本质是将串行逻辑隐藏在内部。 谷歌的投机生成技术也只是用小模型预生成候选序列,再通过大模型验证,失败时仍需回滚重算,并未突破逐词依赖的核心。 从信息论角度看,用全部前文预测单个下 token 是最大信息输入、最小信息输出的最优路径。 既能保证预测的可靠性,又能最小化计算成本。 若强行一次性生成多个 token,相当于用有限信息推导大量未知,必然导致语义混乱、逻辑断裂。 这种串行生成的模式并非 Transformer 的专属设计。 而是语言作为时序符号系统的本质要求,任何生成式 AI 都无法绕开。 综上,Transformer 的核心价值在于用自注意力加自回归的组合,精准满足了语言智能的两个底层需求。 未来任何新架构,若想实现同等水平的语义理解与生成能力,都必须保留这两个核心机制。 所谓抛弃 Transformer 本质只是更换机制的实现形式,而非颠覆本质。 二、优化的误区与破局,从架构替换到信息增效。 萨顿的观点隐含着架构迭代必然颠覆核心机制的预设。 但 AI 发展的实践已证明,所有脱离底层约束的架构创新都是空中楼阁。 真正有效的优化是在保留核心机制的前提下提升信息处理效率。 当前主流优化路径的局限与突破可通过对比清晰呈现。 一、传统优化路径的两难困境。 一、大概念模型 LCM 的瓶颈。 通过将多个小 token 组合为概念单元提升颗粒度,虽能减少序列长度、降低 N 平方复杂度,却必然导致字典规模膨胀。 字典的扩大直接增加了自回归阶段的计算负担。 传统离散 token 生成需通过 Softmax 计算所有字典成员的概率。 即便多数 token 与当前上下文毫无关联,仍需逐一遍历。 这种全面扫描的计算本质是对算力的浪费。 当字典规模扩大到10万级甚至百万级,Softmax 的计算成本会呈线性飙升,形成颗粒度提升字典膨胀算力浪费的恶性循环。 二、稀疏与并行优化的风险。 稀疏注意力通过聚焦局部关联,将复杂度降至 O(N log N),但牺牲了长距离语义捕捉能力。 投机生成通过并行预生成提升速度,却面临回滚风险与精度损失。 这些方案本质是效率与精度的妥协,无法从根本上解决计算量与信息密度不匹配的核心问题。 二、视觉 token 突破困境的可落地路径:Deepseek OCR 提出的视觉 token 替代传统文字 token方案之所以成为当前最优解,核心在于它跳出了离散字典的桎梏。 在保留全局关联加串行生成核心机制的前提下,实现了信息密度与计算效率的同步提升。 一、摒弃字典,根除算力浪费。 视觉 token 以连续向量形式存在,无需离散字典映射,输入时将文本转为视觉信号,通过编码压缩为连续向量,单个视觉 token 可对应5~10个传统文字 token 。 输出时直接生成视觉向量,再通过 OCR 转换为文字,多模态场景下甚至无需转换。 这种模式彻底规避了 Softmax 对全字典的遍历计算,只需通过向量相似度匹配找到最优结果。 将全面扫描变为精准定位,从源头解决了字典膨胀带来的算力浪费问题。 二、模糊容错,平衡精度与效率。 视觉 token 的连续向量特性自带模糊性,这种模糊性并非缺陷,而是对语言语义灵活性的适配。 语言表达本就存在歧义与语境依赖,离散 token 的非黑即白映射反而会割裂语义的连续性。 而视觉向量的模糊性可自然容纳这种灵活性,其精度损失则通过 OCR 的容错机制弥补。 实验表明,视觉 token 在10倍压缩率下仍能保持97%以上的语义还原度,实现了复杂度降低、效率提升、精度无损的良性循环。 三、跨语言适配,突破编码局限。 传统离散 token 为适配多语言,常采用 UTF8编码,导致汉语等表意文字被拆分为半个字符的碎片,丢失语言特异性。 视觉 token 直接以文本的视觉形态建模,无需考虑语言差异。 既能保留汉语单字的完整性,又能适配各类语言的表达习惯,从编码层面解决了多语言适配的痛点。 三、结论。 Transformer 的形可变,神永存。 萨顿对架构迭代的预判混淆了实现形式与核心本质的区别。 Transformer 作为当前最契合语言智能底层规律的架构,其全局关联加串行生成的核心机制并非可被抛弃的过渡形态,而是任何通用语言智能模型都必须遵循的第一性原理。 未来 AI 的进化不会是抛弃 Transformer,而是对 Transformer 核心机制的再封装,视觉 token 等方案的价值,正是用更高效的信息编码方式,让核心机制的算力成本大幅降低。 从 CPU 的发展历史也可得到启示。 冯诺依曼架构的线性指令执行核心从未被颠覆。 但通过流水线预取并行优化等技术,其效率实现了指数级提升。 AI 的发展也将遵循同样逻辑,底层核心约束不可突破。 但信息处理的效率可以无限优化,视觉 token 路径的出现已证明这种优化并非空想,而是可落地的实践。 萨顿的《苦涩的教训》提醒我们,通用方法终将战胜手工设计。 但这并不意味着要否定经过实践验证的底层规律。 未来的 AI 创新不该执着于创造新架构的噱头。 而应聚焦于如何更高效地实现核心机制的本质。 这或许才是对《苦涩的教训》最深刻的践行,也是 AI 可持续发展的必然路径。
back to top