DeepSeek 的 1M Token 上下文是模型序列层面原生支持的,其实现 1M 级 position encoding 核心依托两大技术创新 + 原有旋转位置编码(RoPE)的优化,完全能支撑百万级位置表征,并非简单的工程拼接:
- 基础层沿用旋转位置编码(RoPE) 并做适配优化,该编码本身具备天然的长上下文拓展性,能为序列位置提供连续且无截断的表征,是支撑百万 Token 位置编码的基础;
- 引入mHC(流形约束超连接) 优化 Transformer 深层信息流动,让长序列下的位置信息传递更稳定,解决了传统编码在超长序列中易出现的信息衰减问题;
- 搭配Engram 条件记忆模块,将静态知识与动态位置计算解耦,用 DRAM 存储海量位置相关的记忆信息,释放 HBM 专注于核心的位置编码推理,从硬件算力层面突破了百万 Token 位置编码的瓶颈。
此外,其还通过多头潜在注意力(MLA) 压缩 KV 缓存,减少了超长序列中位置编码相关的内存占用,进一步保障了 1M Token 序列下位置编码的高效运行。
简单来说,DeepSeek 不是单纯 “堆” 出了 1M 序列长度,而是从位置编码本身、模型架构、算力分配三个维度做了底层创新,让 position encoding 真正能在 1M Token 的超长序列中有效工作。
我可以帮你梳理下 DeepSeek 这套技术和传统长上下文位置编码方案的核心差异,需要吗?