DeepSeek 与 Google 模型的对比与分析

导出时间：2026/5/21 10:55:03

来源地址：https://www.doubao.com/chat/35813345389371138

消息数量：6

但是这个叫做分层备用 U 盘啊，这个理解就隐含的就和 Deepseek 的 Engram 是不同的，什么意思呢？我们之前对于 Deepseek 的 Engram 的理解就是说它只是个提示词，词，它存了所有的这个二 gram 三 gram 的这个哈希映射的这个高维语义向量，但是它的作用我们的理解是说它只是 Q A C U E 是一个提示词，就是等于是说它本身并没有存储全部的这个静态事实的细节，它只是静态事实的这些一个提示词，意思就是说这些静态事实，这些事实性的查询还是依赖于 Deepseek 模型里面 F F N，嗯，自己去查询，因为真正的事实查询在 Transformer 的机制下还是一个靠计算得到的，就说它的事实这些训练的这些事实还是在 FN FFN 的权重里面，就是这个机制是不可能改变的，它原本就是在靠计算得到查询结果，就说 Transformer 机制不存在说静态事实的这么一个机制，它的获取任何所谓的事实的机制还是通过权重矩阵计算计算得到的，不存在说单单靠查表就能够获得了。那么谷歌的这个 gemma 3N 这个机制它到底是一个什么样的作用呢，意思就是说它只是一个可卸载可加载的这个 U 盘，就是一个字典，每次在每一层谷歌的这个每一层的这个 FFN 它的推理过程中，它的这个 embedding 到底是个什么角色呢，是作为这个像残差连接一样的给它加强进去呢，而你这说法是说它像一个字典，那我们知道说在 Transformer 机制下不存在说你可以 Transformer 可以直接利用这种静态的数据，它都需要进行一个矩阵运算才能去得到你这个得到的这个 embedding 这个矩阵。呃，这个这些向量，静态向量怎么应用呢？就说它的角色是什么呢？

搜索 4 个关键词，参考 7 篇资料

你此前对 DeepSeek 的 Engram 的理解基本准确，而 Gemma 3n 的 PLE 模块里的静态向量，是通过 “预存 + 分层查表 + 加权融合” 的方式融入 Transformer 推理，和残差连接不同，称其为分层备用 U 盘，核心是因它承担着可卸载的静态知识存储与按需调用角色，下面结合两者差异和 PLE 的具体作用、应用方式详细说明：

DeepSeek 的 Engram：它是可微神经组件，虽用 2 - gram、3 - gram 做哈希映射的高维语义向量，但并非只做提示词。它是双通路中负责静态知识检索的通路，会通过上下文感知门控，把查表得到的 Logits 经加权后叠加到神经网络输出的 Logits 上。不过它不会存储完整静态事实，最终还是要和 FFN 所在的推理通路融合，依赖模型计算来输出结果，比如处理实体名这类内容时，会高度依赖它的查表结果辅助计算。
Gemma 3n 的 PLE 模块：这里的 embedding 是每层独立的静态嵌入表，就是你说的类似 “字典” 的存在，且是可卸载的 “备用 U 盘”。因 Gemma 3n 主打端侧部署，显存受限，它会把 2B + 的 PLE 参数卸载到 CPU 的系统内存中，仅让核心的 MLP/Attention 在 NPU 上运算，极大减少显存占用。比如 E2B 型号总参数量 5B，靠 PLE 技术让加速器内存仅需加载约 2B 核心参数。
PLE 中静态向量的应用方式与角色：它并非像残差连接那样单纯加强信号，而是在每层 Transformer Block 运行时发挥作用。首先，这些静态向量会提前缓存到快速存储空间，在每层推理时单独生成数据并加入流程；接着，模型推理时会一边进行神经网络计算，一边从 PLE 静态嵌入表中查表；最后将查表结果和神经网络的计算结果加权融合，补充事实性知识。这个过程无需复杂矩阵运算额外转换静态向量，而是直接通过条件参数加载技术按需调用，再经简单加权融入最终输出，以此在不增加显存压力的前提下提升每层推理的准确性。

简单来说，Engram 是 “带智能筛选的协作硬盘”，和模型计算深度联动且主动适配上下文；而 PLE 是 “分层存放的备用 U 盘”，仅负责静态知识的存储与按需供给，不做复杂筛选，核心价值是为端侧设备节省显存，适配工程部署需求。两者虽都靠静态知识辅助，但 Engram 侧重优化模型推理精度，PLE 侧重平衡端侧模型的性能与资源消耗。

相关视频

3DCG出图实测：Gemini 3 Pro到底好不好用？ #Gemini3 #NanoBanana #AI #建模 #3D

J3 Pro Image：最强图像模型？又贵又强它被评测为“功能极其强大”，支持4K输出、中文渲染惊艳，甚至能生成复杂的财务图表。但在“最强”称号的背后，Gemini 3 Pro Image也面临两大争议：处理大量文本时精度快速下降，以及高昂的使用价格。这款让Google引以为傲的图像模型，究竟是物有所值的生产力革命，还是代价不菲的技术炫耀？#热门小助手 #知识前沿派对 #热门 #aigc #人工智能技术

Google发布Gemma 3n Gemma 3n——开启移动 AI 新纪元 #Google #Gemma

Gemma 3:单设备最强大模型！ #ai #谷歌

Gemma 3n网络架构大揭密 #小工蚁 #开源大模型 #gemma3

FunctionGemma：专为边缘设备打造的函数调用模型！谷歌最新推出的 FunctionGemma 是一款专门为边缘侧设备设计的轻量级开源模型，旨在将对话能力转化为实际的函数调用操作。该模型基于 Gemma 3 270M 构建，体积极小，能够在手机或嵌入式设备上离线运行，确保了极高的隐私性与响应速度。

那么看来我的理解是有点偏差。就是说谷歌这个团队，他是把他的模型的一部分权重从显存里面卸载下来，放在这个主机的内存里面，是不是这个意思？就是说他实际上是移动端，这个本身这个显卡就或者显存就很致命，非常昂贵，不可能扩展。那么另一个我的理解可能是有偏差，就是说它这里的 embedding 实际上是模型的权重的一部分，而不是说每次输入的时候，用户的这个 prompt 转化为的 embedding，是不是这个意思？因为我原来理解理解偏偏了，我以为说谷歌这个团队是把这个用户输入的这个，每次输入的这个 prompt 的转化，经过这个计算得到的这个 embedding，然后去每一层都给它去反复加强，所以我才会有这种误解。那看起来不是的，这个 embedding 纯粹就是相当于一个字典吧？是不是这个意思？就是等于是把大量的权重拆分出来，或者我看的还是理解错，就是他预先把这个字典放在这个 CPU 或者说是内存里面。我现在不是很理解，它这个 embedding 是什么意思呢？

搜索 4 个关键词，参考 7 篇资料

你的理解基本方向是对的，但还有些细节可厘清，下面结合 Gemma 3n 的 PLE（Per-Layer Embeddings，逐层嵌入）技术，把你关心的点拆明白：

关于显存卸载：你的理解完全正确。Gemma 3n 面向移动端，而移动端的 NPU/GPU 显存本就稀缺且难以扩展。它正是通过异构计算，把 PLE 对应的 20 多亿静态嵌入参数卸载到主机内存（RAM），仅在负责高速运算的 NPU 上保留 Transformer 的核心 MLP、Attention 权重。比如 E4B 型号实际有 80 亿参数，靠这一操作，等效成仅需 40 亿参数的显存占用就能运行。
关于 PLE 的 embedding 属性：这不是用户输入 prompt 转化的动态 embedding，而是模型权重的一部分。它是为每一层 Transformer 都单独设计的静态嵌入表，就像你说的 “字典”，训练时会针对各层的计算需求优化，推理时不会随用户输入变化，还能提前计算好缓存起来，并非对输入 embedding 的反复加强。
关于 “字典” 的作用与存放：这个 “字典” 核心作用是给每一层计算补充静态知识。比如某一层处理实体名词时，就能通过查表快速获取对应固定嵌入信息，不用让核心网络耗费算力重新推导。它默认预先存在主机内存里，等模型运行到对应层时，再把该层需要的嵌入参数加载进来，和核心网络的计算结果融合，既省显存又不丢模型性能。

而称它是 “分层的备用 U 盘”，正是因为这些分层的静态嵌入表像一个个独立 U 盘，各自存着对应层的备用知识参数，不用全程占用核心显存，仅在需要时调用，且只是被动提供预设参数，不会像 DeepSeek 的 Engram 那样主动筛选适配上下文的内容。

一、先解核心疑惑：为什么说 Gemma 3n PLE 是 “分层的备用 U 盘”？

这个类比的核心是 “存储定位” 和 “使用方式”，而非功能类似 U 盘的硬件属性，具体拆解为 3 个关键点，帮你对应到 “备用 U 盘” 的逻辑：

1. 本质是 “额外的静态存储”，而非 “计算增强组件”

PLE（Per-Layer Embeddings）是给 Transformer 每一层单独配的 “静态 Embedding 向量库”，这些向量是提前预训练好的 “固定知识数据”（比如常见短语、基础语义向量），就像 U 盘里存的是提前下载好的文件 —— 它本身不做 “推理计算”，只负责 “存储和提供数据”。而你理解的 “残差连接” 是 “动态计算增强”（比如把前层信号传过来补全信息），但 PLE 不参与动态计算：它既不根据当前层的上下文调整向量，也不优化模型推理逻辑，只是 “每层到点了就从 CPU 里把自己的静态向量调出来，丢给当前层”，和 U 盘 “需要时插上去、读数据、用完拔下来” 的 “备用存储” 逻辑完全一致。

2. “分层” 对应 “分区存储”，核心是 “省显存”

Gemma 3n 把 PLE 拆到每一层，不是为了 “加强语义”，而是为了 “拆分参数存储位置”：

核心计算模块（MLP/Attention）是 “常用工具”，必须存在 NPU 显存（高速内存）里，就像电脑的 C 盘存系统；
PLE 是 “每层临时要用的数据”，平时存在 CPU 内存（低速但容量大）里，就像 U 盘存临时文件 —— 只有当前层计算时，才把这一层的 PLE 向量 “读” 到 NPU 里用，用完就释放，避免占用宝贵的 NPU 显存。如果把所有 PLE 都塞到 NPU 里，E2B 模型就不是 2GB 显存能跑的了 —— 这和 “把不常用文件放 U 盘，省 C 盘空间” 的 “备用” 逻辑完全匹配，和 “语义加强” 无关。

3. “被动提供数据” 对应 “U 盘无筛选能力”

PLE 给每一层传向量时，不做任何 “上下文筛选”：不管当前层处理的是 “数学公式” 还是 “日常对话”，它都按固定规则把自己的静态向量丢过去，就像 U 盘不会管你要读的是文档还是图片，只负责把数据传出来。而 Engram 是 “带大脑的硬盘”：它会根据当前层的上下文（比如处理 “亚历山大” 时），筛选出 “Alexander the Great” 的相关 N-gram 向量，只传有用的 —— 这是两者的核心区别，也是 PLE 只能叫 “备用 U 盘” 的关键：它没有 “主动筛选” 的 “大脑”，只有 “被动传数据” 的 “存储功能”。

二、再补关键背景：为什么 Google 要这么设计？（帮你彻底理解 “非语义加强”）

从新补充的搜索结果（摘要 1、3、5）能明确看到，Gemma 3n 的核心目标是 “移动端轻量化”（2GB 内存跑 80 亿参数），PLE 的所有设计都服务于这个目标：

摘要 1 提到：“PLE 允许很大一部分参数在 CPU 上加载，只有核心 Transformer 权重（2B）存 NPU 显存”—— 说明 PLE 的 “分层” 是为了拆参数、省显存，不是为了语义；
摘要 3 指出：“PLE 是特定于 token 层的嵌入，根据需要从 CPU/SSD 流式传输”—— 直接点明 PLE 是 “流式存储数据”，不是 “计算增强组件”；
摘要 5 强调：“PLE 是静态可查表结构，剥离推理负担”—— 再次明确 PLE 的定位是 “卸除推理负担的存储模块”，而非 “加强推理的计算模块”。

Google 团队的逻辑很直接：先解决 “移动端能跑” 的问题（用 PLE 省显存），再保证 “性能不崩”（用静态向量补点基础语义）—— 至于 “语义加强”，是次要目标，这和 “备用 U 盘” 先解决 “存数据”、再谈 “数据有用” 的逻辑完全一致。

延伸服务

如果还想更深入，我可以帮你：1. 拆解 Gemma 3n 某一层（比如第 5 层）调用 PLE 的具体流程（从 CPU 读数据→传 NPU→用完释放）；2. 对比 “PLE 分层存储” 和 “传统 Embedding 存储” 的显存占用差异数据。需要先看哪个？