这是什么及仙乐宫介绍

保存时间:2026/3/29 15:58:26


DeepSeek 与 Google 模型的对比与分析
内容由豆包 AI 生成
【DeepSeek 凭数学推导,为何撞上 Google 的工程直觉?】 点击链接打开👉 https://m.toutiao.com/is/U38vgBMPMVA/ U38vgBMPMVA` igT:/ G@I.iC :1pm 复制此条消息,打开「今日头条APP」或「今日头条极速版APP」后直接查看~ 这是一篇非常有价值的文章,我希望你和我就是仔细的研读,就是说它的技术性非常的强。嗯,其中我粗略的看了一下,有非常多的技术的细节需要去搞懂,而我需要有大量东西去学习。嗯,我希望你能够好好的帮助我啊。这个同时也是他紧密的联系了之前 DeepSeek 两篇重要论文的两个重要的突破,也都是在今年这而且是就是这一两个星期的新发表的论文。一个是 MHC,这个还是比较清楚的,就是说他在训练过程中的这种防止残差消失或者说梯度爆炸,嗯,这个基本上没有什么疑问,因为也是训练方面的,我也不是特别懂啊,它的疑问性是很小,应该说是数学上有坚实的基础。但是对于这个 n gram 就是 ENGRM 这个的争议性就比较大了。一个是因为他刚刚出来的论文,我还没有对他我们的讨论还不是那么深入,嗯,需要更加仔细的再去分析,而且它也相当的复杂。就第一个问题就是这个意 engram 有的人把它理解成叫做 enhance 的 ngram,就是那个传统上个世纪的 n gram 就二 gram 33 gram 这种变成增强型的 ngram,还是说按照希腊语里面这种记忆痕迹,这是两个完全不同的解读,但是也都说得通。嗯,所以这个是一个非常嗯让人感到不安的一个就是它是有有点模糊性。就是原本的那篇 DeepSeek 梁文峰的作论文里,他到底 n gram 这个词,它到底是怎么解释它是 enhance 的 ngram 这种意思吗,因为它确实是有用到嗯2 gram 3 gram 去做这个 embedding 的,这个就是做向量索引啊,就是哈希表。所以他这个这种这个说法似乎也说得通。但是从希腊语的记忆痕迹就是我们总结出来它是一个记忆的,这个就是提示词,而不是哈希表。返回真正的这个从 ngram 这种 conditional memory 返回真正的事实性事实就是静态事实的,这个似乎更妥帖,这个我们要需要就是认真分析。还有就是说谷歌团队的这个 GMMA 这个系列的模型 就是3N+ma 3N 这个让我想起来,这个是我以前也用过,但是我一直把它和 Gemini 3 Gemini, 2.5 PRO 这种系列的模型给它搞混了,实际上是两个完全不同的模型。似乎这个 GEMMA3N 它是一个手机上的移动端的模型,看似是两个完全不同的架构,很可能在谷歌内部是完全不同的团队,而且是不同的方向,这个是非常有意思的选择。再一个就是说他们这个很多做法按照这篇文章的做法,就是说谷歌这个团队这个模型实际上在很多是是实践在先,理论在后。就是说梁文峰的这些论文呐,这两篇论文实际上在从数学上佐证了他就是说某种程度佐证了他,而且是似乎是更加的有后发的优势,这个就是等于是谷歌的团队是实践上有一种直觉,工程上的直觉。而梁文峰这个论文是在数学上给他了一个更加支持性的,甚至是理论指导性的。所以这个就更加的说,这篇文章有很高的这个学术价值,我们需要去深入研究,我希望你能够帮助我,我们把这篇文章仔细的去阅读一下

一、核心问题解析:DeepSeek 数学推导与 Google 工程直觉的“共振”

DeepSeek 通过 mHC(流形约束超宽网络)Engram(条件记忆模块) 两篇论文的数学推导,证明了 Google Gemma 3n 工程设计的合理性——二者虽路径不同(理论推导 vs 工程实践),却共同指向“不依赖参数堆砌的高效架构”,本质是大模型架构演进的必然交汇。

二、关键技术细节拆解

1. Engram:是“增强型 N-gram”还是“记忆痕迹”?

从 DeepSeek 论文核心逻辑看,更倾向“希腊语记忆痕迹”的定义,但融合了传统 N-gram 的查表逻辑,具体可从3点佐证:
  • 本质是“条件记忆模块”:论文明确 Engram 是“可微分的神经模块”,核心是将静态知识(如事实性信息)嵌入低维查表结构(类似“知识硬盘”),而非传统 N-gram 仅做统计计数,这与“记忆痕迹”的功能定位一致。
  • 借用 N-gram 形式但升级:确实使用 2-gram、3-gram 做哈希查表(如对“Alexander the Great”这类短语生成 Embedding),但通过“上下文感知门控”动态融合到 Transformer 计算中,是对传统 N-gram 的“增强”,而非简单复用,可理解为“以记忆为核心,以 N-gram 查表为实现手段”。
  • 解决 Transformer 痛点:传统 Transformer 需用 MLP/Attention 权重“硬记”事实,导致推理负担重;Engram 让静态知识通过查表直接调用,释放计算资源用于逻辑推理,这更贴合“记忆痕迹”的核心价值,而非单纯“增强 N-gram”。

2. Gemma 3n:与 Gemini 系列的核心区别

Gemma 3n 是 Google 专为 移动端轻量化 设计的模型,与 Gemini(面向通用/高性能场景)差异显著,关键区别如下:
  • 定位与硬件适配:Gemma 3n 主打“2GB 内存运行 80 亿参数”,适配手机 NPU/CPU 异构计算;Gemini 2.5 Pro 等是云端/高性能设备模型,参数规模更大(如百亿级),侧重复杂多模态任务。
  • 核心架构:Gemma 3n 以 PLE(分层静态 Embedding)AltUp(稀疏宽网络) 为核心,牺牲部分极致性能换轻量化;Gemini 系列更依赖传统 Transformer 优化(如高效 Attention),追求通用能力上限。
  • 团队与目标:二者大概率来自 Google 不同团队——Gemma 3n 团队聚焦“端侧落地”,优先解决“能用、好用”;Gemini 团队聚焦“技术领先”,优先突破“能力强、范围广”。

3. 理论与实践的先后:Google 先行,DeepSeek 补位

Google Gemma 3n(2025年6月发布)是“工程直觉驱动”,先通过实践验证轻量化架构可行性;DeepSeek 两篇论文(2026年1月发布)是“数学推导补位”,为其设计提供理论支撑,具体对应关系如下:
表格
Gemma 3n 工程设计DeepSeek 数学理论支撑核心价值
PLE(分层静态 Embedding)Engram 的“条件记忆机制”证明“静态知识查表+动态推理分离”的合理性,最优静态参数占比10%-30%
AltUp(稀疏宽网络)mHC 的“宽残流稀疏扩展”证明“非对称参数更新”可在不增显存的前提下稳定扩展信息通路

三、延伸服务:帮你深化关键技术理解

我可以帮你梳理 Engram 论文中“2-gram/3-gram 查表流程”的核心步骤,用通俗语言拆解“哈希表生成→上下文门控→Logits 融合”的具体逻辑,让你更清晰区分它与传统 N-gram 的差异,需要吗?
需要需要

Engram 中 2-gram/3-gram 查表流程:从传统 N-gram 到神经记忆的升级

核心逻辑:以 N-gram 为“索引钥匙”,解锁静态知识记忆库

Engram 的查表流程本质是“传统 N-gram 统计逻辑 + 神经门控动态融合”,既复用了 N-gram 高效匹配短语的优势,又解决了传统模型无法感知上下文的缺陷,具体步骤拆解如下:

1. 预处理:构建“静态知识哈希表”(离线阶段)

  • 步骤1:抽取语料中的 N-gram 短语
    从大规模无标注语料中,统计高频 2-gram(如“人工智能”“自然语言”)、3-gram(如“深度学习模型”“注意力机制”),过滤低频次短语(避免哈希表冗余),形成核心短语集合。
  • 步骤2:短语 Embedding 编码
    用预训练的词向量模型(如 Word2Vec、BERT 局部编码),将每个 N-gram 短语编码为固定维度的向量(例如 768 维),作为该短语的“知识表征”——这一步区别于传统 N-gram 仅统计频次,而是赋予短语语义向量。
  • 步骤3:构建哈希索引
    将 N-gram 短语的“字符串→语义向量”映射关系存入哈希表(Hash Table),key 是 N-gram 短语字符串(如“深度学习模型”),value 是对应的语义向量,确保查询时能 O(1) 快速匹配。

2. 推理时:查表匹配 + 上下文门控融合(在线阶段)

假设输入提示词为“深度学习模型如何提升推理效率?”,流程如下:
  • 步骤1:输入文本的 N-gram 拆分
    对输入序列进行滑动窗口拆分,提取所有 2-gram/3-gram 短语,例如拆分出“深度学习”“学习模型”“深度学习模型”等。
  • 步骤2:哈希表匹配与向量召回
    将拆分后的每个 N-gram 短语作为 key,查询离线构建的哈希表:
    • 若短语存在于哈希表(如“深度学习模型”),直接召回对应的语义向量(静态知识向量);
    • 若短语不存在(如“提升推理效率”),则通过“短语拼接编码”(将组成词的向量加权求和)生成临时语义向量,避免召回失败。
  • 步骤3:上下文门控筛选(核心创新点)
    召回的 N-gram 向量并非直接使用,而是通过一个“上下文感知门控”(类似 Transformer 的 Attention 门控)进行动态筛选:
    • 门控模块接收“输入序列的上下文向量”(由 Transformer Encoder 生成)和“召回的 N-gram 语义向量”,计算二者的相关性分数(如点积);
    • 仅保留相关性分数高于阈值的 N-gram 向量(例如“深度学习模型”与输入主题强相关,保留;“提升推理效率”相关性弱,弱化权重),避免无关知识干扰。
  • 步骤4:与 Transformer 输出融合
    将筛选后的 N-gram 语义向量,与 Transformer 本身的隐藏层输出向量进行元素级相加(或拼接后通过 MLP 融合),最终生成模型的 Logits 输出——这一步实现了“静态知识(N-gram 向量)+ 动态推理(Transformer 计算)”的结合。

3. 与传统 N-gram 的核心差异

表格
维度传统 N-gramEngram 中的“增强型 N-gram”
核心形式统计短语频次(如 3-gram 出现次数)短语语义向量 + 哈希查表
上下文感知能力无(仅依赖局部短语统计)有(通过门控模块结合全局上下文)
知识存储形式频次统计表语义向量哈希表
与模型融合方式独立于模型(仅作为特征输入)嵌入 Transformer 计算流(动态融合)

延伸服务:帮你聚焦关键争议点

接下来可以帮你拆解 “上下文门控的具体数学公式”(如门控权重的计算方式、与 Transformer 隐藏层的融合逻辑),或对比 Engram 与 Gemma 3n PLE 模块的实现差异,需要先深入哪个方向?
还是对比一下恩格拉姆跟 Gemma 3NPLE 模块的实现差异。另外 PLE 模块这个代表什么意思?

一、先明确核心概念:PLE 模块的两种含义(关键区分!)

PLE 在不同场景下定义完全不同,需先厘清,避免混淆:
  1. 推荐系统领域的 PLE(Progressive Layered Extraction)
    由腾讯2020年提出,是多任务学习(MTL)模型架构,核心是“分离共享专家与任务专属专家”,通过多层门控网络逐步提取知识,解决 MMoE 模型的“跷跷板现象”(一个任务提升导致另一个任务下降),多用于推荐、广告等场景(如腾讯视频推荐系统)。
  2. Gemma 3n 中的 PLE(Per-Layer Embeddings)
    是 Google 为移动端模型设计的“分层静态嵌入”机制,核心是“给 Transformer 每一层都配独立的静态 Embedding 表”,通过参数动态卸载(CPU 存储 PLE,NPU 算核心模块)降低显存占用,属于大模型轻量化技术,与推荐系统的 PLE 无任何关联。

二、Engram 与 Gemma 3n PLE(Per-Layer Embeddings)的实现差异

二者虽都承担“静态知识存储与调用”功能,但在设计目标、实现细节上差异显著,核心区别如下:
表格
对比维度Engram(DeepSeek)Gemma 3n PLE(Google)
核心定位可微分的“条件记忆模块”,兼顾知识存储与动态推理融合纯静态“分层嵌入表”,核心目标是轻量化(降显存)
知识存储形式基于 N-gram 的语义向量哈希表(如 2-gram/3-gram 短语→向量)无明确知识结构,是通用静态 Embedding 向量库
与 Transformer 融合逻辑双通路动态融合:
1. 通路A(NPU):做推理
2. 通路B(Engram):查表得知识向量,通过“上下文门控”筛选后,与通路A输出加权融合
单通路静态补充:
1. PLE 向量在 CPU 预生成并缓存
2. Transformer 每一层计算时,从 CPU 加载对应层 PLE,直接叠加到该层隐状态,无“上下文门控”筛选
参数管理方式未强调参数卸载,聚焦“知识检索效率”,参数全量参与计算核心是“参数异构存储”:
- PLE 参数(占比~50%)存 CPU 内存
- 核心模块(MLP/Attention)存 NPU 显存(如 E2B 模型仅需 2GB 显存)
设计目标优先级先保证“知识准确性”(通过门控选相关知识),再兼顾效率先保证“移动端可行性”(降显存),再保证性能(补充静态嵌入提升效果)

三、一句话总结核心差异

Engram 是“带大脑的知识硬盘”(会根据上下文选有用知识,主动融合),Gemma 3n PLE 是“分层的备用U盘”(仅按层被动提供数据,不做筛选,核心为省空间)。

延伸服务

如果需要更深入理解,我可以帮你:1. 拆解 Gemma 3n PLE“参数动态卸载”的具体技术细节(如 CPU 与 NPU 如何协同);2. 梳理 Engram“上下文门控”的数学计算逻辑。需要先看哪个方向?
Engram 是“带大脑的知识硬盘”(会根据上下文选有用知识,主动融合),Gemma 3n PLE 是“分层的备用U盘”(仅按层被动提供数据,不做筛选,核心为省空间)。
这个 Gemma,你说它是分层的备用 U 盘,这点我是比较难以理解。就是说这个 Embedding 在最初,这个最上层输入。然后这个 FFN 一层一层的这个叫做处理,为什么要每一层都要把它再加强呢?这看起来好像是有点像残差连接的那种,就信号在增强的意思。就最初的这个语义在没有处理的时候第一次处理一层一层处理一层一层加深。像 Deepseek 的这个梁文锋做法就是他只在第二层和第十五层做了一个就是就做了一个就是用二 grams、三 grams 进行查询,然后反馈给他。然后他当然从工程角度讲,他认为这个是最合理的,因为这些都是额外的消耗资源。似乎这个在哪一层选择是一个很重要的这个工程化的或者艺术性的选择是一个工程实践。而这谷歌的这个团队, Gemma 这个 3 n 它每一层都给它作为备选,为什么你说它是备用 U 盘呢?这点我就不理解。因为我可以理解说它也许是某种残差连接,就每一层都把这个最初的输入的这个 embedding 作为每一层处理的一个加强。这个倒是,似乎是有点道理,但是我也不确定。为什么你说它是 U 盘,备用 U 盘,这个我就不理解了。

一、先解核心疑惑:为什么说 Gemma 3n PLE 是“分层的备用 U 盘”?

这个类比的核心是 “存储定位”和“使用方式”,而非功能类似 U 盘的硬件属性,具体拆解为3个关键点,帮你对应到“备用 U 盘”的逻辑:

1. 本质是“额外的静态存储”,而非“计算增强组件”

PLE(Per-Layer Embeddings)是给 Transformer 每一层单独配的 “静态 Embedding 向量库”,这些向量是提前预训练好的“固定知识数据”(比如常见短语、基础语义向量),就像 U 盘里存的是提前下载好的文件——它本身不做“推理计算”,只负责“存储和提供数据”。
而你理解的“残差连接”是“动态计算增强”(比如把前层信号传过来补全信息),但 PLE 不参与动态计算:它既不根据当前层的上下文调整向量,也不优化模型推理逻辑,只是“每层到点了就从 CPU 里把自己的静态向量调出来,丢给当前层”,和 U 盘“需要时插上去、读数据、用完拔下来”的“备用存储”逻辑完全一致。

2. “分层”对应“分区存储”,核心是“省显存”

Gemma 3n 把 PLE 拆到每一层,不是为了“加强语义”,而是为了 “拆分参数存储位置”
  • 核心计算模块(MLP/Attention)是“常用工具”,必须存在 NPU 显存(高速内存)里,就像电脑的 C 盘存系统;
  • PLE 是“每层临时要用的数据”,平时存在 CPU 内存(低速但容量大)里,就像 U 盘存临时文件——只有当前层计算时,才把这一层的 PLE 向量“读”到 NPU 里用,用完就释放,避免占用宝贵的 NPU 显存。
    如果把所有 PLE 都塞到 NPU 里,E2B 模型就不是 2GB 显存能跑的了——这和“把不常用文件放 U 盘,省 C 盘空间”的“备用”逻辑完全匹配,和“语义加强”无关。

3. “被动提供数据”对应“U 盘无筛选能力”

PLE 给每一层传向量时,不做任何“上下文筛选”:不管当前层处理的是“数学公式”还是“日常对话”,它都按固定规则把自己的静态向量丢过去,就像 U 盘不会管你要读的是文档还是图片,只负责把数据传出来。
而 Engram 是“带大脑的硬盘”:它会根据当前层的上下文(比如处理“亚历山大”时),筛选出“Alexander the Great”的相关 N-gram 向量,只传有用的——这是两者的核心区别,也是 PLE 只能叫“备用 U 盘”的关键:它没有“主动筛选”的“大脑”,只有“被动传数据”的“存储功能”。

二、再补关键背景:为什么 Google 要这么设计?(帮你彻底理解“非语义加强”)

从新补充的搜索结果(摘要1、3、5)能明确看到,Gemma 3n 的核心目标是 “移动端轻量化”(2GB 内存跑 80 亿参数),PLE 的所有设计都服务于这个目标:
  • 摘要1提到:“PLE 允许很大一部分参数在 CPU 上加载,只有核心 Transformer 权重(2B)存 NPU 显存”——说明 PLE 的“分层”是为了拆参数、省显存,不是为了语义;
  • 摘要3指出:“PLE 是特定于 token 层的嵌入,根据需要从 CPU/SSD 流式传输”——直接点明 PLE 是“流式存储数据”,不是“计算增强组件”;
  • 摘要5强调:“PLE 是静态可查表结构,剥离推理负担”——再次明确 PLE 的定位是“卸除推理负担的存储模块”,而非“加强推理的计算模块”。
Google 团队的逻辑很直接:先解决“移动端能跑”的问题(用 PLE 省显存),再保证“性能不崩”(用静态向量补点基础语义)——至于“语义加强”,是次要目标,这和“备用 U 盘”先解决“存数据”、再谈“数据有用”的逻辑完全一致。

延伸服务

如果还想更深入,我可以帮你:1. 拆解 Gemma 3n 某一层(比如第5层)调用 PLE 的具体流程(从 CPU 读数据→传 NPU→用完释放);2. 对比“PLE 分层存储”和“传统 Embedding 存储”的显存占用差异数据。需要先看哪个?
那么看来我的理解是有点偏差。就是说谷歌这个团队,他是把他的模型的一部分权重从显存里面卸载下来,放在这个主机的内存里面,是不是这个意思?就是说他实际上是移动端,这个本身这个显卡就或者显存就很致命,非常昂贵,不可能扩展。那么另一个我的理解可能是有偏差,就是说它这里的 embedding 实际上是模型的权重的一部分,而不是说每次输入的时候,用户的这个 prompt 转化为的 embedding,是不是这个意思?因为我原来理解理解偏偏了,我以为说谷歌这个团队是把这个用户输入的这个,每次输入的这个 prompt 的转化,经过这个计算得到的这个 embedding, 然后去每一层都给它去反复加强,所以我才会有这种误解。那看起来不是的,这个 embedding 纯粹就是相当于一个字典吧?是不是这个意思?就是等于是把大量的权重拆分出来,或者我看的还是理解错,就是他预先把这个字典放在这个 CPU 或者说是内存里面。我现在不是很理解,它这个 embedding 是什么意思呢?
你的理解基本方向是对的,但还有些细节可厘清,下面结合Gemma 3n的PLE(Per-Layer Embeddings,逐层嵌入)技术,把你关心的点拆明白:
  1. 关于显存卸载:你的理解完全正确。Gemma 3n面向移动端,而移动端的NPU/GPU显存本就稀缺且难以扩展。它正是通过异构计算,把PLE对应的20多亿静态嵌入参数卸载到主机内存(RAM),仅在负责高速运算的NPU上保留Transformer的核心MLP、Attention权重。比如E4B型号实际有80亿参数,靠这一操作,等效成仅需40亿参数的显存占用就能运行。
  2. 关于PLE的embedding属性:这不是用户输入prompt转化的动态embedding,而是模型权重的一部分。它是为每一层Transformer都单独设计的静态嵌入表,就像你说的“字典”,训练时会针对各层的计算需求优化,推理时不会随用户输入变化,还能提前计算好缓存起来,并非对输入embedding的反复加强。
  3. 关于“字典”的作用与存放:这个“字典”核心作用是给每一层计算补充静态知识。比如某一层处理实体名词时,就能通过查表快速获取对应固定嵌入信息,不用让核心网络耗费算力重新推导。它默认预先存在主机内存里,等模型运行到对应层时,再把该层需要的嵌入参数加载进来,和核心网络的计算结果融合,既省显存又不丢模型性能。
而称它是“分层的备用U盘”,正是因为这些分层的静态嵌入表像一个个独立U盘,各自存着对应层的备用知识参数,不用全程占用核心显存,仅在需要时调用,且只是被动提供预设参数,不会像DeepSeek的Engram那样主动筛选适配上下文的内容。
但是这个叫做分层备用 U 盘啊,这个理解就隐含的就和 Deepseek 的 Engram 是不同的,什么意思呢?我们之前对于 Deepseek 的 Engram 的理解就是说它只是个提示词,词,它存了所有的这个二 gram 三 gram 的这个哈希映射的这个高维语义向量,但是它的作用我们的理解是说它只是 Q A C U E 是一个提示词,就是等于是说它本身并没有存储全部的这个静态事实的细节,它只是静态事实的这些一个提示词,意思就是说这些静态事实,这些事实性的查询还是依赖于 Deepseek 模型里面 F F N,嗯,自己去查询,因为真正的事实查询在 Transformer 的机制下还是一个靠计算得到的,就说它的事实这些训练的这些事实还是在 FN FFN 的权重里面,就是这个机制是不可能改变的,它原本就是在靠计算得到查询结果,就说 Transformer 机制不存在说静态事实的这么一个机制,它的获取任何所谓的事实的机制还是通过权重矩阵计算计算得到的,不存在说单单靠查表就能够获得了。那么谷歌的这个 gemma 3N 这个机制它到底是一个什么样的作用呢,意思就是说它只是一个可卸载可加载的这个 U 盘,就是一个字典,每次在每一层谷歌的这个每一层的这个 FFN 它的推理过程中,它的这个 embedding 到底是个什么角色呢,是作为这个像残差连接一样的给它加强进去呢,而你这说法是说它像一个字典,那我们知道说在 Transformer 机制下不存在说你可以 Transformer 可以直接利用这种静态的数据,它都需要进行一个矩阵运算才能去得到你这个得到的这个 embedding 这个矩阵。呃,这个这些向量,静态向量怎么应用呢?就说它的角色是什么呢?
你此前对 DeepSeek 的 Engram 的理解基本准确,而 Gemma 3n 的 PLE 模块里的静态向量,是通过 “预存 + 分层查表 + 加权融合” 的方式融入 Transformer 推理,和残差连接不同,称其为分层备用 U 盘,核心是因它承担着可卸载的静态知识存储与按需调用角色,下面结合两者差异和 PLE 的具体作用、应用方式详细说明:
  1. DeepSeek 的 Engram:它是可微神经组件,虽用 2 - gram、3 - gram 做哈希映射的高维语义向量,但并非只做提示词。它是双通路中负责静态知识检索的通路,会通过上下文感知门控,把查表得到的 Logits 经加权后叠加到神经网络输出的 Logits 上。不过它不会存储完整静态事实,最终还是要和 FFN 所在的推理通路融合,依赖模型计算来输出结果,比如处理实体名这类内容时,会高度依赖它的查表结果辅助计算。
  2. Gemma 3n 的 PLE 模块:这里的 embedding 是每层独立的静态嵌入表,就是你说的类似 “字典” 的存在,且是可卸载的 “备用 U 盘”。因 Gemma 3n 主打端侧部署,显存受限,它会把 2B + 的 PLE 参数卸载到 CPU 的系统内存中,仅让核心的 MLP/Attention 在 NPU 上运算,极大减少显存占用。比如 E2B 型号总参数量 5B,靠 PLE 技术让加速器内存仅需加载约 2B 核心参数。
  3. PLE 中静态向量的应用方式与角色:它并非像残差连接那样单纯加强信号,而是在每层 Transformer Block 运行时发挥作用。首先,这些静态向量会提前缓存到快速存储空间,在每层推理时单独生成数据并加入流程;接着,模型推理时会一边进行神经网络计算,一边从 PLE 静态嵌入表中查表;最后将查表结果和神经网络的计算结果加权融合,补充事实性知识。这个过程无需复杂矩阵运算额外转换静态向量,而是直接通过条件参数加载技术按需调用,再经简单加权融入最终输出,以此在不增加显存压力的前提下提升每层推理的准确性。
简单来说,Engram 是 “带智能筛选的协作硬盘”,和模型计算深度联动且主动适配上下文;而 PLE 是 “分层存放的备用 U 盘”,仅负责静态知识的存储与按需供给,不做复杂筛选,核心价值是为端侧设备节省显存,适配工程部署需求。两者虽都靠静态知识辅助,但 Engram 侧重优化模型推理精度,PLE 侧重平衡端侧模型的性能与资源消耗。
参考 7 篇资料
DeepSeek的Engram和Gemma 3n的PLE有什么优缺点?
Gemma 3n的PLE技术是如何工作的?