这个 Gemma,你说它是分层的备用 U 盘,这点我是比较难以理解。就是说这个 Embedding 在最初,这个最上层输入。然后这个 FFN 一层一层的这个叫做处理,为什么要每一层都要把它再加强呢?这看起来好像是有点像残差连接的那种,就信号在增强的意思。就最初的这个语义在没有处理的时候第一次处理一层一层处理一层一层加深。像 Deepseek 的这个梁文锋做法就是他只在第二层和第十五层做了一个就是就做了一个就是用二 grams、三 grams 进行查询,然后反馈给他。然后他当然从工程角度讲,他认为这个是最合理的,因为这些都是额外的消耗资源。似乎这个在哪一层选择是一个很重要的这个工程化的或者艺术性的选择是一个工程实践。而这谷歌的这个团队, Gemma 这个 3 n 它每一层都给它作为备选,为什么你说它是备用 U 盘呢?这点我就不理解。因为我可以理解说它也许是某种残差连接,就每一层都把这个最初的输入的这个 embedding 作为每一层处理的一个加强。这个倒是,似乎是有点道理,但是我也不确定。为什么你说它是 U 盘,备用 U 盘,这个我就不理解了。
但是这个叫做分层备用 U 盘啊,这个理解就隐含的就和 Deepseek 的 Engram 是不同的,什么意思呢?我们之前对于 Deepseek 的 Engram 的理解就是说它只是个提示词,词,它存了所有的这个二 gram 三 gram 的这个哈希映射的这个高维语义向量,但是它的作用我们的理解是说它只是 Q A C U E 是一个提示词,就是等于是说它本身并没有存储全部的这个静态事实的细节,它只是静态事实的这些一个提示词,意思就是说这些静态事实,这些事实性的查询还是依赖于 Deepseek 模型里面 F F N,嗯,自己去查询,因为真正的事实查询在 Transformer 的机制下还是一个靠计算得到的,就说它的事实这些训练的这些事实还是在 FN FFN 的权重里面,就是这个机制是不可能改变的,它原本就是在靠计算得到查询结果,就说 Transformer 机制不存在说静态事实的这么一个机制,它的获取任何所谓的事实的机制还是通过权重矩阵计算计算得到的,不存在说单单靠查表就能够获得了。那么谷歌的这个 gemma 3N 这个机制它到底是一个什么样的作用呢,意思就是说它只是一个可卸载可加载的这个 U 盘,就是一个字典,每次在每一层谷歌的这个每一层的这个 FFN 它的推理过程中,它的这个 embedding 到底是个什么角色呢,是作为这个像残差连接一样的给它加强进去呢,而你这说法是说它像一个字典,那我们知道说在 Transformer 机制下不存在说你可以 Transformer 可以直接利用这种静态的数据,它都需要进行一个矩阵运算才能去得到你这个得到的这个 embedding 这个矩阵。呃,这个这些向量,静态向量怎么应用呢?就说它的角色是什么呢?