DeepSeek 与 Google 模型的对比与分析

导出时间:2026/5/21 10:55:03

来源地址:https://www.doubao.com/chat/35813345389371138

消息数量:6

但是这个叫做分层备用 U 盘啊,这个理解就隐含的就和 Deepseek 的 Engram 是不同的,什么意思呢?我们之前对于 Deepseek 的 Engram 的理解就是说它只是个提示词,词,它存了所有的这个二 gram 三 gram 的这个哈希映射的这个高维语义向量,但是它的作用我们的理解是说它只是 Q A C U E 是一个提示词,就是等于是说它本身并没有存储全部的这个静态事实的细节,它只是静态事实的这些一个提示词,意思就是说这些静态事实,这些事实性的查询还是依赖于 Deepseek 模型里面 F F N,嗯,自己去查询,因为真正的事实查询在 Transformer 的机制下还是一个靠计算得到的,就说它的事实这些训练的这些事实还是在 FN FFN 的权重里面,就是这个机制是不可能改变的,它原本就是在靠计算得到查询结果,就说 Transformer 机制不存在说静态事实的这么一个机制,它的获取任何所谓的事实的机制还是通过权重矩阵计算计算得到的,不存在说单单靠查表就能够获得了。那么谷歌的这个 gemma 3N 这个机制它到底是一个什么样的作用呢,意思就是说它只是一个可卸载可加载的这个 U 盘,就是一个字典,每次在每一层谷歌的这个每一层的这个 FFN 它的推理过程中,它的这个 embedding 到底是个什么角色呢,是作为这个像残差连接一样的给它加强进去呢,而你这说法是说它像一个字典,那我们知道说在 Transformer 机制下不存在说你可以 Transformer 可以直接利用这种静态的数据,它都需要进行一个矩阵运算才能去得到你这个得到的这个 embedding 这个矩阵。呃,这个这些向量,静态向量怎么应用呢?就说它的角色是什么呢?
搜索 4 个关键词,参考 7 篇资料
你此前对 DeepSeek 的 Engram 的理解基本准确,而 Gemma 3n 的 PLE 模块里的静态向量,是通过 “预存 + 分层查表 + 加权融合” 的方式融入 Transformer 推理,和残差连接不同,称其为分层备用 U 盘,核心是因它承担着可卸载的静态知识存储与按需调用角色,下面结合两者差异和 PLE 的具体作用、应用方式详细说明:
  1. DeepSeek 的 Engram:它是可微神经组件,虽用 2 - gram、3 - gram 做哈希映射的高维语义向量,但并非只做提示词。它是双通路中负责静态知识检索的通路,会通过上下文感知门控,把查表得到的 Logits 经加权后叠加到神经网络输出的 Logits 上。不过它不会存储完整静态事实,最终还是要和 FFN 所在的推理通路融合,依赖模型计算来输出结果,比如处理实体名这类内容时,会高度依赖它的查表结果辅助计算。
  2. Gemma 3n 的 PLE 模块:这里的 embedding 是每层独立的静态嵌入表,就是你说的类似 “字典” 的存在,且是可卸载的 “备用 U 盘”。因 Gemma 3n 主打端侧部署,显存受限,它会把 2B + 的 PLE 参数卸载到 CPU 的系统内存中,仅让核心的 MLP/Attention 在 NPU 上运算,极大减少显存占用。比如 E2B 型号总参数量 5B,靠 PLE 技术让加速器内存仅需加载约 2B 核心参数。
  3. PLE 中静态向量的应用方式与角色:它并非像残差连接那样单纯加强信号,而是在每层 Transformer Block 运行时发挥作用。首先,这些静态向量会提前缓存到快速存储空间,在每层推理时单独生成数据并加入流程;接着,模型推理时会一边进行神经网络计算,一边从 PLE 静态嵌入表中查表;最后将查表结果和神经网络的计算结果加权融合,补充事实性知识。这个过程无需复杂矩阵运算额外转换静态向量,而是直接通过条件参数加载技术按需调用,再经简单加权融入最终输出,以此在不增加显存压力的前提下提升每层推理的准确性。
简单来说,Engram 是 “带智能筛选的协作硬盘”,和模型计算深度联动且主动适配上下文;而 PLE 是 “分层存放的备用 U 盘”,仅负责静态知识的存储与按需供给,不做复杂筛选,核心价值是为端侧设备节省显存,适配工程部署需求。两者虽都靠静态知识辅助,但 Engram 侧重优化模型推理精度,PLE 侧重平衡端侧模型的性能与资源消耗。
相关视频
那么看来我的理解是有点偏差。就是说谷歌这个团队,他是把他的模型的一部分权重从显存里面卸载下来,放在这个主机的内存里面,是不是这个意思?就是说他实际上是移动端,这个本身这个显卡就或者显存就很致命,非常昂贵,不可能扩展。那么另一个我的理解可能是有偏差,就是说它这里的 embedding 实际上是模型的权重的一部分,而不是说每次输入的时候,用户的这个 prompt 转化为的 embedding,是不是这个意思?因为我原来理解理解偏偏了,我以为说谷歌这个团队是把这个用户输入的这个,每次输入的这个 prompt 的转化,经过这个计算得到的这个 embedding, 然后去每一层都给它去反复加强,所以我才会有这种误解。那看起来不是的,这个 embedding 纯粹就是相当于一个字典吧?是不是这个意思?就是等于是把大量的权重拆分出来,或者我看的还是理解错,就是他预先把这个字典放在这个 CPU 或者说是内存里面。我现在不是很理解,它这个 embedding 是什么意思呢?
搜索 4 个关键词,参考 7 篇资料
你的理解基本方向是对的,但还有些细节可厘清,下面结合 Gemma 3n 的 PLE(Per-Layer Embeddings,逐层嵌入)技术,把你关心的点拆明白:
  1. 关于显存卸载:你的理解完全正确。Gemma 3n 面向移动端,而移动端的 NPU/GPU 显存本就稀缺且难以扩展。它正是通过异构计算,把 PLE 对应的 20 多亿静态嵌入参数卸载到主机内存(RAM),仅在负责高速运算的 NPU 上保留 Transformer 的核心 MLP、Attention 权重。比如 E4B 型号实际有 80 亿参数,靠这一操作,等效成仅需 40 亿参数的显存占用就能运行。
  2. 关于 PLE 的 embedding 属性:这不是用户输入 prompt 转化的动态 embedding,而是模型权重的一部分。它是为每一层 Transformer 都单独设计的静态嵌入表,就像你说的 “字典”,训练时会针对各层的计算需求优化,推理时不会随用户输入变化,还能提前计算好缓存起来,并非对输入 embedding 的反复加强。
  3. 关于 “字典” 的作用与存放:这个 “字典” 核心作用是给每一层计算补充静态知识。比如某一层处理实体名词时,就能通过查表快速获取对应固定嵌入信息,不用让核心网络耗费算力重新推导。它默认预先存在主机内存里,等模型运行到对应层时,再把该层需要的嵌入参数加载进来,和核心网络的计算结果融合,既省显存又不丢模型性能。
而称它是 “分层的备用 U 盘”,正是因为这些分层的静态嵌入表像一个个独立 U 盘,各自存着对应层的备用知识参数,不用全程占用核心显存,仅在需要时调用,且只是被动提供预设参数,不会像 DeepSeek 的 Engram 那样主动筛选适配上下文的内容。
相关视频
Engram 是“带大脑的知识硬盘”(会根据上下文选有用知识,主动融合),Gemma 3n PLE 是“分层的备用U盘”(仅按层被动提供数据,不做筛选,核心为省空间)。
这个 Gemma,你说它是分层的备用 U 盘,这点我是比较难以理解。就是说这个 Embedding 在最初,这个最上层输入。然后这个 FFN 一层一层的这个叫做处理,为什么要每一层都要把它再加强呢?这看起来好像是有点像残差连接的那种,就信号在增强的意思。就最初的这个语义在没有处理的时候第一次处理一层一层处理一层一层加深。像 Deepseek 的这个梁文锋做法就是他只在第二层和第十五层做了一个就是就做了一个就是用二 grams、三 grams 进行查询,然后反馈给他。然后他当然从工程角度讲,他认为这个是最合理的,因为这些都是额外的消耗资源。似乎这个在哪一层选择是一个很重要的这个工程化的或者艺术性的选择是一个工程实践。而这谷歌的这个团队, Gemma 这个 3 n 它每一层都给它作为备选,为什么你说它是备用 U 盘呢?这点我就不理解。因为我可以理解说它也许是某种残差连接,就每一层都把这个最初的输入的这个 embedding 作为每一层处理的一个加强。这个倒是,似乎是有点道理,但是我也不确定。为什么你说它是 U 盘,备用 U 盘,这个我就不理解了。
搜索 3 个关键词,参考 6 篇资料

一、先解核心疑惑:为什么说 Gemma 3n PLE 是 “分层的备用 U 盘”?

这个类比的核心是 “存储定位” 和 “使用方式”,而非功能类似 U 盘的硬件属性,具体拆解为 3 个关键点,帮你对应到 “备用 U 盘” 的逻辑:

1. 本质是 “额外的静态存储”,而非 “计算增强组件”

PLE(Per-Layer Embeddings)是给 Transformer 每一层单独配的 “静态 Embedding 向量库”,这些向量是提前预训练好的 “固定知识数据”(比如常见短语、基础语义向量),就像 U 盘里存的是提前下载好的文件 —— 它本身不做 “推理计算”,只负责 “存储和提供数据”。而你理解的 “残差连接” 是 “动态计算增强”(比如把前层信号传过来补全信息),但 PLE 不参与动态计算:它既不根据当前层的上下文调整向量,也不优化模型推理逻辑,只是 “每层到点了就从 CPU 里把自己的静态向量调出来,丢给当前层”,和 U 盘 “需要时插上去、读数据、用完拔下来” 的 “备用存储” 逻辑完全一致。

2. “分层” 对应 “分区存储”,核心是 “省显存”

Gemma 3n 把 PLE 拆到每一层,不是为了 “加强语义”,而是为了 “拆分参数存储位置”
  • 核心计算模块(MLP/Attention)是 “常用工具”,必须存在 NPU 显存(高速内存)里,就像电脑的 C 盘存系统;
  • PLE 是 “每层临时要用的数据”,平时存在 CPU 内存(低速但容量大)里,就像 U 盘存临时文件 —— 只有当前层计算时,才把这一层的 PLE 向量 “读” 到 NPU 里用,用完就释放,避免占用宝贵的 NPU 显存。如果把所有 PLE 都塞到 NPU 里,E2B 模型就不是 2GB 显存能跑的了 —— 这和 “把不常用文件放 U 盘,省 C 盘空间” 的 “备用” 逻辑完全匹配,和 “语义加强” 无关。

3. “被动提供数据” 对应 “U 盘无筛选能力”

PLE 给每一层传向量时,不做任何 “上下文筛选”:不管当前层处理的是 “数学公式” 还是 “日常对话”,它都按固定规则把自己的静态向量丢过去,就像 U 盘不会管你要读的是文档还是图片,只负责把数据传出来。而 Engram 是 “带大脑的硬盘”:它会根据当前层的上下文(比如处理 “亚历山大” 时),筛选出 “Alexander the Great” 的相关 N-gram 向量,只传有用的 —— 这是两者的核心区别,也是 PLE 只能叫 “备用 U 盘” 的关键:它没有 “主动筛选” 的 “大脑”,只有 “被动传数据” 的 “存储功能”。

二、再补关键背景:为什么 Google 要这么设计?(帮你彻底理解 “非语义加强”)

从新补充的搜索结果(摘要 1、3、5)能明确看到,Gemma 3n 的核心目标是 “移动端轻量化”(2GB 内存跑 80 亿参数),PLE 的所有设计都服务于这个目标:
  • 摘要 1 提到:“PLE 允许很大一部分参数在 CPU 上加载,只有核心 Transformer 权重(2B)存 NPU 显存”—— 说明 PLE 的 “分层” 是为了拆参数、省显存,不是为了语义;
  • 摘要 3 指出:“PLE 是特定于 token 层的嵌入,根据需要从 CPU/SSD 流式传输”—— 直接点明 PLE 是 “流式存储数据”,不是 “计算增强组件”;
  • 摘要 5 强调:“PLE 是静态可查表结构,剥离推理负担”—— 再次明确 PLE 的定位是 “卸除推理负担的存储模块”,而非 “加强推理的计算模块”。
Google 团队的逻辑很直接:先解决 “移动端能跑” 的问题(用 PLE 省显存),再保证 “性能不崩”(用静态向量补点基础语义)—— 至于 “语义加强”,是次要目标,这和 “备用 U 盘” 先解决 “存数据”、再谈 “数据有用” 的逻辑完全一致。

延伸服务

如果还想更深入,我可以帮你:1. 拆解 Gemma 3n 某一层(比如第 5 层)调用 PLE 的具体流程(从 CPU 读数据→传 NPU→用完释放);2. 对比 “PLE 分层存储” 和 “传统 Embedding 存储” 的显存占用差异数据。需要先看哪个?