罗马大学等机构的研究核心是证明纯解码器Transformer模型在数学上具有单射性,即不同输入会对应完全不同的隐藏状态,且能通过SIPIT算法从隐藏状态100%反推原始输入,由此将其定义为“无损编码”,但这与你理解的“训练时对数据的有损压缩”并非同一概念,二者讨论的场景完全不同。
你提到的“10倍到千倍压缩率”,是指训练阶段模型通过学习将海量训练数据(如万亿级token)提炼为有限的权重参数,这个过程必然丢弃冗余信息,属于“有损压缩”,目的是掌握通用规律而非记忆所有数据;而研究中的“无损编码”,是指推理阶段模型将输入文本转化为隐藏状态时,完整保留了输入信息,没有丢失,本质是“信息的精确重编码”而非“压缩”。
简单类比:训练像把一本百科全书浓缩成一本笔记(有损,丢细节留核心),推理像把你说的一句话逐字转化为一种秘密代码(无损,代码能完整还原原句),二者讨论的是模型不同阶段的信息处理方式,并不矛盾。
“单射”是数学概念,指“不同输入必然对应不同输出”。研究通过两点证明这一点:
- 理论层面:Transformer的核心组件(LayerNorm、注意力、MLP)均为“实解析函数”,这些函数组合后仍保持特性——除非参数恰好落在概率为0的“特殊点”,否则不同输入的隐藏状态绝不会完全相同。
- 实验层面:在GPT-2、LLaMA-3.1等6个模型上做了超50亿次输入对比,甚至测试语义极近的文本,不同输入的隐藏状态欧氏距离都远高于“碰撞阈值”,未发现任何“撞车”情况。
你认为“大模型靠压缩记忆数据”,是因为默认“权重是信息的唯一载体”;但研究揭示,推理时的隐藏状态(KV Cache + Activation)也是信息载体,且这个载体的“体积”远大于输入本身——比如单个token的隐藏状态可能达数个MB,而单个token的原始信息仅2Byte左右,本质是“信息膨胀式编码”而非“压缩”,能反推输入其实是因为隐藏状态本身存储了输入的完整细节,并非靠“压缩后恢复”。
简单来说,这个研究并非推翻“大模型训练是有损压缩”,而是补充了“大模型推理时会完整保留输入信息”的新认知。它更偏向揭示模型的信息处理机制,而非否定训练阶段的压缩特性。
需要我帮你梳理“训练时的有损压缩”和“推理时的无损编码”的具体差异对比表吗?这样能更清晰地看到二者的核心区别。