我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
智能的本质大模型训练的范式
视频
音频
原始脚本
智能的本质,从人类认知到大模型训练的统一框架。 对智能的理解和人类的认知成长规律,本质上可纳入一套统一框架。 当前大语言模型的运行与训练逻辑,本质上也可纳入这套统一框架。 一、智能的核心边界,纯记忆匹配不等于真正的智能。 智能的核心分野,始于一个明确的判断,能靠纯记忆、纯匹配解决的问题,本质上不是智能问题。 首先要明确一个前提,记忆是智能的必要非充分条件。 没有记忆作为底座,一切智能都无从谈起。 人类如果记不住最基础的概念规则,就无法进行任何思考推导。 大模型如果没有预训练阶段积累的基础语义映射,就连最基本的反馈信号都无法识别,更谈不上后续的调参优化。 记忆是智能的起点,但绝非智能的核心。 真正的智能,核心价值从来不是对已知内容的复现,而是对已有经验的泛化复用,是应对训练与学习中从未见过,但与原有问题同源的变种场景的能力。 传统软件可通过精确编码、查表、字符串匹配,完美解决所有预定义的输入输出问题。 却永远无法应对超出预设规则的场景,这正是机械程序与智能的本质区别。 智能的诞生就是为了解决那些无法靠纯记忆、纯预定义规则覆盖的复杂问题。 二、智能成长的两个必经阶段,从监督学习的筑基,到自监督与强化学习的泛化。 人类的学习成长与模型的训练迭代,遵循完全相同的两阶段路径,二者可形成完美的同构映射,不存在任何认知壁垒。 第一阶段,监督学习,搭建智能不可跨越的基础平台。 监督学习本质上就是上学听老师讲课,核心是带标准答案的及时强反馈。 由已掌握正确规则的主体将经过验证的知识、概念、映射规则直接灌输给学习者。 对人类而言,这个阶段是识字任务,学习基础语法、数学规则与常识。 帮我们搭建起最基础的认知框架,建立语言符号与现实世界的对应关系,让我们拥有读懂反馈理解规则的能力。 对大模型而言,监督学习就是通过逐 token 的标注数据训练,建立最基础的语言语义映射规则。 让模型理解文本含义,识别反馈信号的指向。 这个阶段绝对不可跨越。 没有监督学习打下的基础,学习者连最基本的信号都无法解读,根本无法进入后续的自主学习阶段。 就像一个连字都不认识的人,不可能读懂自学教材。 一个连基础语义都无法理解的模型,不可能读懂人类的偏好反馈,更谈不上调整自身输出。 第二阶段,自监督与强化学习,智能进阶的核心,也就是自主学习。 我们常说的自学,在智能体系中对应两种互补的范式,共同构成智能泛化能力的核心。 第一种是自监督学习,也是大模型预训练阶段最核心的学习方式。 它的本质是用数据本身做自己的老师,就像人类自学时,通过上下文推断生字含义,通过已有知识推导未知规律,自己给自己出题,自己验证答案。 大模型的掩码语言模型训练,就是通过掩盖文本中的部分 token 让模型根据上下文预测被掩盖的内容。 在这个过程中自主学习语言规律、知识关联与世界常识。 它介于监督学习与强化学习之间,是模型从记住标准答案走向理解底层规律的关键一步。 第二种是强化学习,核心是延迟奖励的试错学习,对应人类自学中在实践中试错,根据结果调整方法的过程。 这个阶段没有及时标准答案,只有最终的结果反馈。 人类解决问题时,会根据最终成败调整自己的思路与方法。 大模型则会根据人类的偏好反馈、任务完成结果,调整自身输出策略,逐步对齐人类需求,提升复杂场景的应对能力。 这个阶段的核心目标是解决纯记忆无法覆盖的变种问题,实现真正的泛化,这正是智能的核心价值所在。 三、知识与智慧的本质,降熵压缩与复用。 人类为什么要构建概念,形成知识,发展智慧?其底层动机与智能的核心目标完全一致,降低原始数据的存储、查询、复用成本,减少信息熵,提升复杂数据的处理能力。 原始 raw data 是海量、无序、高熵的。 如果人类把所有见过的画面、听过的声音、经历过的事件都原封不动存储下来,大脑的容量与算力根本无法承载。 如果大模型把所有训练数据都原封不动记住,也根本无法实现高效的推理与泛化。 而概念、知识、规律,本质上就是对海量原始数据的高效压缩,提取重复出现的核心规律,剔除冗余无效信息,用最小的存储量覆盖最多的同类场景。 比如苹果这个概念,就是对无数个不同颜色、大小、形状的苹果的原始视觉、味觉、触觉数据的极致压缩。 我们不需要记住每一个见过的苹果,只需掌握苹果这个概念的核心特征,就能识别所有从未见过的苹果。 这就是泛化,也是压缩的核心价值。 而智慧就是对这些压缩后的知识的复用、组合与推导。 是更高维度的压缩,它用更底层的规律,把分散的知识串联起来,应对更复杂的未知场景,进一步降低复杂问题的处理成本。 智能与压缩完全同源,一个智能体的智能水平,本质上就是它对数据的规律提取、压缩与泛化能力。 这与所罗门诺夫归纳法,衡量通用智能水平的 Hutter Prize 底层逻辑完全契合。 四大模型的本质,带可变内部状态的通用状态机。 所有大语言模型本质上都是带可变内部状态的通用状态机,而非固定参数的死函数。 从技术本质看,大模型训练完成后,其本体参数,也就是函数本身的核心逻辑是固定不变的,推理过程中不会修改。 而我们看到的相同输入产生不同输出的现象,核心来自推理过程中 KV Cache 的持续更新。 每一轮对话模型都会把之前的对话内容编码进 KV Cache,作为内部状态存储。 下一轮的输入不仅是用户新输入的文本,还包括这个已更新的内部状态。 这里存在两个完全等价、互不矛盾的视角,你可以把它理解为函数的完整输入发生了变化,因为上下文变长了。 也可以从面向对象的编程视角,把它理解为类的内部成员变量发生了变化,也就是模型的内部状态发生了迭代。 无论哪种视角,本质都是一致的。 大模型是可通过更新内部状态,适配不同上下文、不同场景的通用状态机。 这正是它拥有通用任务能力的核心来源。 五,所有训练范式的终极统一,基于反馈信号的状态校准。 看似纷繁复杂的模型训练范式,无论是监督学习、知识蒸馏、GAN、RLHF 还是 DPO。 其底层逻辑完全统一,所有训练本质上都是基于反馈信号,对状态机的参数或内部状态进行校准的过程。 不同范式之间的唯一区别只在于反馈信号的来源、颗粒度与权重不同,对应智能成长的不同阶段与不同目标。 监督学习,以人工标注的标准答案为反馈信号,进行逐 token 的细粒度校准,核心是教模型什么是对的,完成基础平台搭建。 知识蒸馏,以教师模型的输出为唯一反馈标准,出现矛盾时以老师的输出为准,核心是把大模型的隐性知识高效迁移给小模型。 GAN 生成对抗网络是两个平等模型的博弈式反馈,生成器与判别器互相校准,共同迭代。 核心是提升模型的生成能力与真实感。 RLHF 基于人类反馈的强化学习与 DPO 直接偏好优化,以人类的偏好为反馈信号,进行粗粒度的对齐校准。 核心是胶模型,什么是人类更喜欢、更认可的?完成模型与人类需求的对齐。 没有任何一种范式是特殊的,它们都遵循完全相同的底层逻辑。 用明确的反馈信号调整模型的状态,让模型的输出逐步逼近预期目标。 这套统一框架的终极价值在于它打破了人类智能与硅基智能的壁垒,让我们明白,无论是人类一生的学习与成长,还是大模型的训练与迭代,都遵循完全相同的底层规律,从基础规则的学习。 到进阶的泛化试错,通过对海量数据的压缩与规律提取,持续降低信息熵,不断提升应对复杂未知场景的能力。 这就是智能最本质的核心。
修正脚本
智能的本质,从人类认知到大模型训练的统一框架。 对智能的理解和人类的认知成长规律,本质上可纳入一套统一框架。 当前大语言模型的运行与训练逻辑,本质上也可纳入这套统一框架。 一、智能的核心边界,纯记忆匹配不等于真正的智能。 智能的核心分野,始于一个明确的判断,能靠纯记忆、纯匹配解决的问题,本质上不是智能问题。 首先要明确一个前提,记忆是智能的必要非充分条件。 没有记忆作为底座,一切智能都无从谈起。 人类如果记不住最基础的概念规则,就无法进行任何思考推导。 大模型如果没有预训练阶段积累的基础语义映射,就连最基本的反馈信号都无法识别,更谈不上后续的调参优化。 记忆是智能的起点,但绝非智能的核心。 真正的智能,核心价值从来不是对已知内容的复现,而是对已有经验的泛化复用,是应对训练与学习中从未见过,但与原有问题同源的变种场景的能力。 传统软件可通过精确编码、查表、字符串匹配,完美解决所有预定义的输入输出问题。 却永远无法应对超出预设规则的场景,这正是机械程序与智能的本质区别。 智能的诞生就是为了解决那些无法靠纯记忆、纯预定义规则覆盖的复杂问题。 二、智能成长的两个必经阶段,从监督学习的筑基,到自监督与强化学习的泛化。 人类的学习成长与模型的训练迭代,遵循完全相同的两阶段路径,二者可形成完美的同构映射,不存在任何认知壁垒。 第一阶段,监督学习,搭建智能不可跨越的基础平台。 监督学习本质上就是上学听老师讲课,核心是带标准答案的及时强反馈。 由已掌握正确规则的主体将经过验证的知识、概念、映射规则直接灌输给学习者。 对人类而言,这个阶段是识字任务,学习基础语法、数学规则与常识。 帮我们搭建起最基础的认知框架,建立语言符号与现实世界的对应关系,让我们拥有读懂反馈理解规则的能力。 对大模型而言,监督学习就是通过逐 token 的标注数据训练,建立最基础的语言语义映射规则。 让模型理解文本含义,识别反馈信号的指向。 这个阶段绝对不可跨越。 没有监督学习打下的基础,学习者连最基本的信号都无法解读,根本无法进入后续的自主学习阶段。 就像一个连字都不认识的人,不可能读懂自学教材。 一个连基础语义都无法理解的模型,不可能读懂人类的偏好反馈,更谈不上调整自身输出。 第二阶段,自监督与强化学习,智能进阶的核心,也就是自主学习。 我们常说的自学,在智能体系中对应两种互补的范式,共同构成智能泛化能力的核心。 第一种是自监督学习,也是大模型预训练阶段最核心的学习方式。 它的本质是用数据本身做自己的老师,就像人类自学时,通过上下文推断生字含义,通过已有知识推导未知规律,自己给自己出题,自己验证答案。 大模型的掩码语言模型训练,就是通过掩盖文本中的部分 token 让模型根据上下文预测被掩盖的内容。 在这个过程中自主学习语言规律、知识关联与世界常识。 它介于监督学习与强化学习之间,是模型从记住标准答案走向理解底层规律的关键一步。 第二种是强化学习,核心是延迟奖励的试错学习,对应人类自学中在实践中试错,根据结果调整方法的过程。 这个阶段没有及时标准答案,只有最终的结果反馈。 人类解决问题时,会根据最终成败调整自己的思路与方法。 大模型则会根据人类的偏好反馈、任务完成结果,调整自身输出策略,逐步对齐人类需求,提升复杂场景的应对能力。 这个阶段的核心目标是解决纯记忆无法覆盖的变种问题,实现真正的泛化,这正是智能的核心价值所在。 三、知识与智慧的本质,降熵压缩与复用。 人类为什么要构建概念,形成知识,发展智慧?其底层动机与智能的核心目标完全一致,降低原始数据的存储、查询、复用成本,减少信息熵,提升复杂数据的处理能力。 原始 raw data 是海量、无序、高熵的。 如果人类把所有见过的画面、听过的声音、经历过的事件都原封不动存储下来,大脑的容量与算力根本无法承载。 如果大模型把所有训练数据都原封不动记住,也根本无法实现高效的推理与泛化。 而概念、知识、规律,本质上就是对海量原始数据的高效压缩,提取重复出现的核心规律,剔除冗余无效信息,用最小的存储量覆盖最多的同类场景。 比如苹果这个概念,就是对无数个不同颜色、大小、形状的苹果的原始视觉、味觉、触觉数据的极致压缩。 我们不需要记住每一个见过的苹果,只需掌握苹果这个概念的核心特征,就能识别所有从未见过的苹果。 这就是泛化,也是压缩的核心价值。 而智慧就是对这些压缩后的知识的复用、组合与推导。 是更高维度的压缩,它用更底层的规律,把分散的知识串联起来,应对更复杂的未知场景,进一步降低复杂问题的处理成本。 智能与压缩完全同源,一个智能体的智能水平,本质上就是它对数据的规律提取、压缩与泛化能力。 这与所罗门诺夫归纳法,衡量通用智能水平的 Hutter Prize 底层逻辑完全契合。 四、模型的本质,带可变内部状态的通用状态机。 所有大语言模型本质上都是带可变内部状态的通用状态机,而非固定参数的死函数。 从技术本质看,大模型训练完成后,其本体参数,也就是函数本身的核心逻辑是固定不变的,推理过程中不会修改。 而我们看到的相同输入产生不同输出的现象,核心来自推理过程中 KV Cache 的持续更新。 每一轮对话模型都会把之前的对话内容编码进 KV Cache,作为内部状态存储。 下一轮的输入不仅是用户新输入的文本,还包括这个已更新的内部状态。 这里存在两个完全等价、互不矛盾的视角,你可以把它理解为函数的完整输入发生了变化,因为上下文变长了。 也可以从面向对象的编程视角,把它理解为类的内部成员变量发生了变化,也就是模型的内部状态发生了迭代。 无论哪种视角,本质都是一致的。 大模型是可通过更新内部状态,适配不同上下文、不同场景的通用状态机。 这正是它拥有通用任务能力的核心来源。 五、所有训练范式的终极统一,基于反馈信号的状态校准。 看似纷繁复杂的模型训练范式,无论是监督学习、知识蒸馏、GAN、RLHF 还是 DPO,其底层逻辑完全统一,所有训练本质上都是基于反馈信号,对状态机的参数或内部状态进行校准的过程。 不同范式之间的唯一区别只在于反馈信号的来源、颗粒度与权重不同,对应智能成长的不同阶段与不同目标。 监督学习,以人工标注的标准答案为反馈信号,进行逐 token 的细粒度校准,核心是教模型什么是对的,完成基础平台搭建。 知识蒸馏,以教师模型的输出为唯一反馈标准,出现矛盾时以老师的输出为准,核心是把大模型的隐性知识高效迁移给小模型。 GAN 生成对抗网络是两个平等模型的博弈式反馈,生成器与判别器互相校准,共同迭代。 核心是提升模型的生成能力与真实感。 RLHF 基于人类反馈的强化学习与 DPO 直接偏好优化,以人类的偏好为反馈信号,进行粗粒度的对齐校准。 核心是教模型,什么是人类更喜欢、更认可的?完成模型与人类需求的对齐。 没有任何一种范式是特殊的,它们都遵循完全相同的底层逻辑。 用明确的反馈信号调整模型的状态,让模型的输出逐步逼近预期目标。 这套统一框架的终极价值在于它打破了人类智能与硅基智能的壁垒,让我们明白,无论是人类一生的学习与成长,还是大模型的训练与迭代,都遵循完全相同的底层规律,从基础规则的学习,到进阶的泛化试错,通过对海量数据的压缩与规律提取,持续降低信息熵,不断提升应对复杂未知场景的能力。 这就是智能最本质的核心。
back to top