DeepSeek百万Token模型技术解析

保存时间:2026/3/29 15:44:09


DeepSeek百万Token模型技术解析
内容由豆包 AI 生成
【DeepSeek突然更新百万Token模型,国产AI正式杀进全球第一梯...】 点击链接打开👉 https://m.toutiao.com/is/BeIVKeKLQmA/ BeIVKeKLQmA` igT:/ G@I.iC :0am 复制此条消息,打开「今日头条APP」或「今日头条极速版APP」后直接查看~ 这个deep seek,它的这个1M的上下文。它是模型序序序列的时候就达到了这么大吗?就是我们昨天讨论的这个position encoding,它要能够支持1M啊。能做到吗?
DeepSeek 的 1M Token 上下文是模型序列层面原生支持的,其实现 1M 级 position encoding 核心依托两大技术创新 + 原有旋转位置编码(RoPE)的优化,完全能支撑百万级位置表征,并非简单的工程拼接:
  1. 基础层沿用旋转位置编码(RoPE) 并做适配优化,该编码本身具备天然的长上下文拓展性,能为序列位置提供连续且无截断的表征,是支撑百万 Token 位置编码的基础;
  2. 引入mHC(流形约束超连接) 优化 Transformer 深层信息流动,让长序列下的位置信息传递更稳定,解决了传统编码在超长序列中易出现的信息衰减问题;
  3. 搭配Engram 条件记忆模块,将静态知识与动态位置计算解耦,用 DRAM 存储海量位置相关的记忆信息,释放 HBM 专注于核心的位置编码推理,从硬件算力层面突破了百万 Token 位置编码的瓶颈。
此外,其还通过多头潜在注意力(MLA) 压缩 KV 缓存,减少了超长序列中位置编码相关的内存占用,进一步保障了 1M Token 序列下位置编码的高效运行。
简单来说,DeepSeek 不是单纯 “堆” 出了 1M 序列长度,而是从位置编码本身、模型架构、算力分配三个维度做了底层创新,让 position encoding 真正能在 1M Token 的超长序列中有效工作。
我可以帮你梳理下 DeepSeek 这套技术和传统长上下文位置编码方案的核心差异,需要吗?
参考 8 篇资料
那么 Deepseek 这个模型它开源了吗?已经上架了吗?就是说这个事情是突然发生的。它有公布新的大模型吗?

1. 开源情况

暂未公布开源相关信息:截至 2026 年 2 月 11 日,DeepSeek 此次灰度测试的百万 Token 模型,官方未发布任何开源计划,也未在 GitHub 等平台上线相关模型权重、代码或开源版本。

2. 上架 / 可用情况

已灰度上架,非全面开放:该模型已在 DeepSeek网页端、APP 端开启灰度测试,部分用户可直接体验 1M Token 上下文能力,但并非对所有用户开放,官方预计短期内会完成全面开放,届时普通用户可直接使用。

3. 官方公布与更新特性

此次更新为突发的无宣发灰度升级,无开发布会、无正式通稿,仅通过产品端直接推送,但核心能力已明确落地,且有这些关键信息:
  • 无正式新模型命名:官方未公布全新模型名称,模型自述无固定版本号,业内推测为 V4 预览版 / 强化版 V3.2,代码中出现 “MODEL1” 新架构标识;
  • 核心升级:上下文从 128K 跃升至 1M Token,知识库更新至 2025 年 5 月,长文本召回准确率提升至 97%,但暂未支持多模态(无视觉输入能力);
  • 后续规划:此前消息称 DeepSeek 计划2 月中旬农历新年期间正式发布新一代旗舰模型 DeepSeek V4,主打更强代码能力,此次百万 Token 灰度版本或为 V4 的提前技术落地。
我可以帮你整理 DeepSeek 此次百万 Token 模型的核心技术亮点和实测能力,需要吗?
参考 10 篇资料