保存时间:2026/4/3 18:53:16
大模型是个巨大复杂函数 → 要高效计算 → 就拆成很多小而高效的专家函数 → 这就是 MoE
任何高效可计算的函数,一定能拆成少量变量的简单子函数,再层级组合。
复杂函数都能用简单函数近似,只是精度问题
任何高效可计算的函数,一定可以被写成这种稀疏组合结构,而且是严格相等,不是近似。
复杂函数用简单函数近似,精度够不够是工程问题
任何高效可计算的函数,一定可以写成稀疏组合结构(严格相等)
是我们计算能力限制,所以只能解决这类特殊函数?
稀疏组合性不是普遍真理,只对高效可计算的函数成立;现实里有用的函数刚好都在这一类里;大模型/MoE 就是专门用来表示这类函数的结构。
函数是 多项式时间可计算 的(高效可计算)
这个函数一定可以写成稀疏组合结构,而且是严格相等,不是近似。
前提已经假设它复杂度是多项式级别,那当然可以用多项式来表达完全正确。
稀疏组合性 = 给P 问题量身定做的结构表示NP-complete 不在这个圈子里。
波焦那套稀疏组合性 + 高效可计算的前提,并不完全覆盖现在大模型实际在做的事。
大模型再强,仍然被计算复杂度锁死它只是在我们不知道怎么高效解的问题上,给了个凑合能用的答案不是真的把问题变成“高效可解”。
我们以为 AI 在帮我们解难问题,其实 AI 只是在用统计方式近似那些难问题;真正的复杂度边界还在那里,所以 AI 一定有天花板,不会无限万能。
大模型本身 = 一个固定、有限、参数有限的函数生成过程 = 这个函数迭代
有限状态机式的迭代,无限走下去,必然出现周期或退化。
输出反过来影响下一个输出
你有一把固定尺子(参数 θ)你每次量东西,把上次量的结果接着量下去(自回归)尺子本身没有变长、没有变多、没有增加刻度只是你量的长度在延长
自回归会不会让模型表达能力越来越强,相当于参数在逻辑上变多?
用一个更复杂的状态机,去表达一个更强的函数。
相对于浅层网络的简单函数,深度网络靠状态迭代把表达能力拉爆了。
再大的模型,再像人,数学上仍然是:确定状态机 + 确定函数 + 无真正不可预测性
大模型再强,也只是状态机层面的模仿;只要我们不能证明人脑等价于状态机,人工智能就永远无法真正模拟人脑智能。
只要AI是状态机,人脑不一定是状态机→ 堆再大也跨不过去
“参数大了就涌现,涌现就突破边界。”
短期工程上的突飞猛进并不能代表人工智能的能力上限
工程上的逼近能力再强,也不能改变AI本质是状态机+固定函数的事实;状态机的边界,就是AI模拟人脑的理论天花板。工程进步只是逼近天花板更快,不是打破天花板。
“这模型出现了我们没预料到的能力 → 这叫涌现 → 涌现就是神秘突破 → 规模继续大就能成神 → 能超越一切边界”
涌现 = 可以突破状态机边界涌现 = 可以突破复杂度阶级涌现 = 可以从函数变成非函数
涌现明明是渐变到阈值的正常系统行为,怎么能拿来糊弄说“突破智能边界、超越状态机、接近人脑”?
人类大脑有寿命、有容量限制 → 本质上就是有限状态机那状态机类的 AI,就能覆盖人脑的能力上限。
人类大脑受神经元数量、突触容量与生命长度的严格限制,本质上就是一个有限状态系统;它同样无法跨越计算复杂度阶级,也无法真正解决指数级困难问题。从第一性原理看,人脑与当前大模型同属有限状态机范畴,二者的理论能力上限是同一量级。AI 之所以尚未完全模拟人脑,并非状态机框架本身存在边界,而是工程结构上的差异 —— 如连续动力学、实时可塑性、开放环境交互等尚未被完整实现。短期工程的差距,不等于理论上限的不可逾越;只要仍在有限状态机的框架内,AI 就有可能逐步逼近甚至达到人脑的能力边界。
人脑是有限状态机,AI 也是有限状态机;二者同复杂度、同上限,差距在结构,不在本质。