你写的非常的好,几乎每一个字我都想保留下来。但是现在我遇到一个问题,就是说你能不能把这些文字稍微的修饰一下,减少一两百个字,能够压缩到 3000 字以内。我不希望你丢弃任何的观点,只是把某些表述进行稍微的简化一点点,能够把总的字数降低到 3000 字以内。因为我在剪映上它有一个上限,只能在 3000 字以内才行。我不想把它分成两个视频,这样的话上下文是割裂的。我希望你不丢弃任何的观点,不丢弃任何的细节,只是减少一两百个字而已。
刚才讲了半天,又全部都讲给树洞听了,我再讲最后一遍。就是说监督学习是什么?就是上学去听老师讲课,而这个强化学习呢?就是什么自己在家里自学?就很简单,就是这样监督学习非常重要,就在于你的起步阶段,如果没有监督学习的话,你很有可能连基本的这个平台都到不了。就根本就没有办法进行下一阶段的自学,而自学很重要的原因在于说你学习到的大部分的这些呃知识或者说是。训练的这个数据在解决问题过程中,它不是简单的这种比对映射,就说意思就是说如果能靠记忆解决的问题,它就不是智能问题。重复一遍,能靠记忆解决的问题,它不是智能问题。大部分的问题,实际上都是对于你训练过程的问题的一种变化。什么意思呢?就是说它的变化是?学就是说他的是某种。联拓或者说是泛化就是训练过程的问题的一种呃。变种吧,最简单就这样,那怎么样去人为什么会有这种呃?要形成知识概念。理解智慧这一层呢,是本质的原因,是为了减少存储,查询,使用的成本。如果不是为了这个目的的话,根本没必要去创建这些什么知识啊,信息啊,这些概念为什么呢?因为我们使用这些手段最根本的目的是为了减少信息商。呃,增强这个呃,数据对数据处理的能力,能够尽可能的增强记忆能力。增强检索能力,增强查询识别能力,处理更复杂的变化,更多的这个数据,这是根本的目的,否则的话完全没有意义。那么怎么做到呢?就是说呃,一个简单的比喻,就是说是压缩的概念。因为智能跟压缩,实际上是有紧密的关系的,所以对于数据的重复,数据的这个寻找就是识别。就是压缩的本质。然后知识概念理解也是这样对于过去的经验的一种。叫做重现或者是复用以以及这个。搜索存储吧。就总而言之,实际上这些手段。说到底,他是对于基础的raw data的一种嗯,提高对它处理的能力。否则的话,人类就没有什么智能了,就是纯粹就是一个机械的。嗯。叫做。匹配吧,字符串匹配吧,可以甚至可以这么做。而我讲这么多的一个核心的用意是什么呢?是希望说能够呃把这个对于模型的训练进行一种。归纳总结。就是之前我们有谈论过模型的这种训练。他。呃。其实归根结底都是一种叫做什么呢?一个数据。输入以及输出的检验的过程。就是所谓调参数,实际上就是在呃把这个状态机进行微调的过程。什么意思呢?就是说任何现在的所有的模型,它都是一个状态机。之前我讨论过这个问题,就是说它的这个运算过程ffn这些大模型llm它就是一个函数。而它之所以有变量,是因为它里面的KB cache的每一次的这个叫做呃增加,实际上内部状态是一直在改变的。所以它并不是说所有的输入同样的输入,并不会有相同的输出原因,就在于此,否则它是一个固定的。AH next token肯定是固定输出是一个这个叫做死函数,或者说是一个固定参数的函数。啊,之所以它的输出是不断变化,是因为它内部的状态的变化。所以这个是一个。通用函数。而所有的模型其实都是这么一个。状态机。那么。我们把这个所有的状态机就要解决一个它的这个状态的,这个叫做函数的。参数调参怎么调呢?实际上就是。根据输入输出进行调整。那么,由谁来决定这个输入输出?呃,这个输出结果是应该是什么样呢?就是这种使用gan也行啊,或者是使用呃原样的数据去校准校准呢?或者是使用。Come on。Human。就人类的反馈啊,或者使用dpo啊,等等等等,它无非就是一个反馈的信号。就是这个反馈机制究竟是由什么标准?你说蒸馏蒸馏跟对抗到底是什么?蒸馏是一种以老师为准。就是出现矛盾的时候,要听老师的,而对抗是说两个是平等。所以本质上都是一种反馈,只不过你对这个反馈的这个信号采取什么样的态度给他什么样的全职而已。