我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
世界智能模型与经济规律的底层架构
视频
音频
原始脚本
世界智能模型与经济规律的底层架构。 一、世界的真实结构,线性主干加非线性例外。 世界绝大多数现象,底层是线性,可拟合,有稳定规律的。 只有少数是非线性、冲突、例外、边界情况。 现在大模型的问题,用一个巨大模型强行拟合所有分布。 把线性和非线性混在一起训练,导致参数大量浪费,效率极低,容易遗忘,难以解释。 正确的做法不是一锅炖,而是按兼容性聚类,能够用一套参数微调很小就能学会的,放在一起。 怎么都拟合不好,会互相破坏原有知识的,物理上拆分成独立小模型。 二、智能的本质,兼容性泛化与向量几何,学习的难易,不看知识难度,看新旧知识的兼容度。 兼容等于微调很小就能拟合,不兼容等于参数大幅扰动,学不进去还会遗忘。 我们重新定义了泛化泛化不是玄学,而是在两个不同向量里自动找出公共有效维度子集,只在共同维度上计算相似度。 比如比较一个五维向量和一个十维向量,就取公共五维。 如果比较两个不兼容的十维向量,我们就从十维里取重叠最大的子集,比如有可比性的几个维度比较。 单个小模型的训练原则,先把容量榨干,只放兼容、可泛化、可稳定拟合的知识,直到装不下再分裂新模型。 三、向量 vs 传统数据库,为什么世界不能只用规则?传统数据库是人定固定优先级,省大于市大于区大于门牌号,大维度错了直接排除。 优点,极快、极省。 缺点,只要有例外就失效。 现实世界的权重是上下文相关,会漂移的。 同省两市可能极远,跨省两市可能极近。 优先级不是永恒不变,无法写成固定规则。 向量存在的唯一根本原因,因为世界没有永恒不变的优先级,规则总有例外,只能用全局模糊匹配来包容所有情况。 向量不预设谁重要,每个输入自动重新决定权重。 四、学习的最优结构。 主规则模型加补丁模型,把任务天然分成两类。 第一是90%常态规律确定,简单放进主规则模型,规则极少、参数极少,一眼判断,不用思考。 第二是10%例外,模糊边界复杂放进 补丁模型,专门处理拟合不动、难判断、 case by case 的问题。 人类为什么快?因为90%事情靠主模型直觉秒解,只有10%才动用复杂推理。 核心原则,绝不破坏原有主模型,另外只打补丁、不重构体系。 这是最低成本、最高效、最抗遗忘的学习结构。 5 AGI 的端云架构,本地小模型加云端大模型,客户端除以本地等于社区家庭医生。 小模型,硬件决定容量,超参数固定,只装简单、规律、高频、低成本知识,负责意图理解、快速分类、常规判断,日常任务能解决80%~90%的需求。 服务器除以云端等于三甲医院专家团。 大模型、高算力、高存储、高成本。 存储海量特例、复杂关系、模糊场景、只处理本地判断不了、规则失效、疑难杂症、路由机制。 能本地绝不云端,能简单绝不复杂,这和人类先直觉后深思完全一致。 六,最终推动力不是技术,是经济规律。 大模型训练、推理、运维成本极高,必须靠高价值回报回本,天然就是专家号。 如果简单问题,如查常识、日常判断,都去用云端大模型。 金钱成本高、时间成本高,专家资源被大量浪费,市场会自动做出分级。 简单、高频、低成本压到本地小模型,复杂、低频、高价值留在云端大模型。 结论 不是我们设计端云分级,是成本效率这只宇宙级的手自动把 AI 推向这个结构。 全文总纲,世界由线性主干和少量例外构成。 智能的核心是按兼容性聚类与拆分。 架构上用本地小模型处理常态,云端大模型解决疑难。 这一切不是设计出来的,而是成本与效率自动演化的必然结果。
修正脚本
世界智能模型与经济规律的底层架构。 一、世界的真实结构,线性主干加非线性例外。 世界绝大多数现象,底层是线性,可拟合,有稳定规律的。 只有少数是非线性、冲突、例外、边界情况。 现在大模型的问题,用一个巨大模型强行拟合所有分布。 把线性和非线性混在一起训练,导致参数大量浪费,效率极低,容易遗忘,难以解释。 正确的做法不是一锅炖,而是按兼容性聚类,能够用一套参数微调很小就能学会的,放在一起。 怎么都拟合不好,会互相破坏原有知识的,物理上拆分成独立小模型。 二、智能的本质,兼容性泛化与向量几何,学习的难易,不看知识难度,看新旧知识的兼容度。 兼容等于微调很小就能拟合,不兼容等于参数大幅扰动,学不进去还会遗忘。 我们重新定义了泛化:泛化不是玄学,而是在两个不同向量里自动找出公共有效维度子集,只在共同维度上计算相似度。 比如比较一个五维向量和一个十维向量,就取公共五维。 如果比较两个不兼容的十维向量,我们就从十维里取重叠最大的子集,比如有可比性的几个维度比较。 单个小模型的训练原则,先把容量榨干,只放兼容、可泛化、可稳定拟合的知识,直到装不下再分裂新模型。 三、向量 vs 传统数据库,为什么世界不能只用规则?传统数据库是人定固定优先级,省大于市大于区大于门牌号,大维度错了直接排除。 优点,极快、极省。 缺点,只要有例外就失效。 现实世界的权重是上下文相关,会漂移的。 同省两市可能极远,跨省两市可能极近。 优先级不是永恒不变,无法写成固定规则。 向量存在的唯一根本原因,因为世界没有永恒不变的优先级,规则总有例外,只能用全局模糊匹配来包容所有情况。 向量不预设谁重要,每个输入自动重新决定权重。 四、学习的最优结构。 主规则模型加补丁模型,把任务天然分成两类。 第一是90%常态规律确定,简单放进主规则模型,规则极少、参数极少,一眼判断,不用思考。 第二是10%例外,模糊边界复杂放进 补丁模型,专门处理拟合不动、难判断、 case by case 的问题。 人类为什么快?因为90%事情靠主模型直觉秒解,只有10%才动用复杂推理。 核心原则,绝不破坏原有主模型,另外只打补丁、不重构体系。 这是最低成本、最高效、最抗遗忘的学习结构。 五、AGI 的端云架构,本地小模型加云端大模型,客户端就是本地等于社区家庭医生。 小模型,硬件决定容量,超参数固定,只装简单、规律、高频、低成本知识,负责意图理解、快速分类、常规判断,日常任务能解决80%~90%的需求。 服务器就是云端等于三甲医院专家团。 大模型、高算力、高存储、高成本。 存储海量特例、复杂关系、模糊场景,只处理本地判断不了、规则失效、疑难杂症、路由机制。 能本地绝不云端,能简单绝不复杂,这和人类先直觉后深思完全一致。 六、最终推动力不是技术,是经济规律。 大模型训练、推理、运维成本极高,必须靠高价值回报回本,天然就是专家号。 如果简单问题,如查常识、日常判断,都去用云端大模型。 金钱成本高、时间成本高,专家资源被大量浪费,市场会自动做出分级。 简单、高频、低成本压到本地小模型,复杂、低频、高价值留在云端大模型。 结论:不是我们设计端云分级,是成本效率这只宇宙级的手自动把 AI 推向这个结构。 全文总纲,世界由线性主干和少量例外构成。 智能的核心是按兼容性聚类与拆分。 架构上用本地小模型处理常态,云端大模型解决疑难。 这一切不是设计出来的,而是成本与效率自动演化的必然结果。
back to top