DeepSeek 新模型 MODEL1 解析

导出时间：2026/5/21 10:48:38

来源地址：https://www.doubao.com/chat/36288454914934530

消息数量：7

这个超长上下文 128K 就算是超长上下文了吗？我的理解就是说它能够做到超长上下文，而且对这个机器的这个硬件资源占用不多的话，就是得益于它的所谓 token level，这个 spars attention 吧，就是它的那个 MLA 之类的，就是稀疏注意力的这种，就等于是把这个因为注意力这个超上下文的窗口限制其实就在于这个 N 平方这个矩阵乘法的这个这个复杂度的矩阵乘法上，因为这个上下文如果是长度 128K，那就是 128K 乘以 128K 的这样一个矩阵，这个计算量相当的大，对内存消耗极其的大，因为这个直接你要把它装到内存里面去看看，我不知道 128K 的平方是多大，大概是就算一兆，然后浮点数两个 Byte 就是是不是这么算 1K 乘啊？不，100K 乘 100K 是等于是一百万再乘以一千，再乘两两万，二十 billion 是吧？二十个二十亿啊，anyway，就是二十个 g 好像是，我搞不清楚，你大概算一下这个 128K 乘 128K 这个，它那个矩阵在内存里面需要多大？然后所以 GPT 4 O，不，那个谷歌的 Gemini 它之所以能够做到超长上下文一兆的话，你说它是对硬件依赖极其高，是不是依赖于谷歌的那些 TPU 的那种高性能高内存闪啊，高显存这种，或者池化显存等等等等，就是它从硬件上去弥补它这个资源消耗的巨大，就说其实是消耗非常大，但是谷歌的服务器它因为是 TPU 是自研的嘛，它可以有这个硬件来去补它这个，允许它消耗这么大的这个资源，是不是这样？

搜索 3 个关键词，参考 6 篇资料

你的理解基本准确，下面结合 128K 上下文的定位、128K×128K 矩阵的内存占用，以及 Gemini 1M 上下文的实现原因展开详细说明：

128K 上下文属超长上下文范畴：当前大模型中，日常对话常用上下文多为 4K - 8K，32K - 64K 已能满足长文档分析、代码审查等需求，而 128K 远超普通场景需求，足以支撑整本书籍、大型代码库这类超长文本的处理，妥妥属于超长上下文级别。
128K×128K 矩阵的内存占用：矩阵内存占用 = 矩阵元素个数 × 单个元素占用字节数，不同精度的浮点数计算结果差异很大。128K×128K 的矩阵共有 163840000 个元素，若用推理常用的 FP16（半精度浮点数，2 字节）计算，内存占用约 320GB；用 FP32（单精度浮点数，4 字节）计算则约 640GB；即使用 INT8 量化（1 字节）压缩，也需约 160GB，这还未算中间计算产生的额外开销，可见其原生消耗极大。
MODEL1 控耗核心是稀疏注意力：你说的 token - level 稀疏注意力确实是关键。它避开了全量注意力的 N² 复杂度，不对所有 token 做两两计算，仅聚焦关键 token 深度运算，再配合 512 维架构适配硬件，大幅削减了计算量和 KV 缓存占用，这才实现了 128K 上下文的高效运行，不用依赖极致硬件就能控制资源消耗。
Gemini 1M 上下文依赖自研 TPU 与软硬协同：你的猜测很对，Gemini 能做到 1M 上下文，硬件支撑是核心，同时也离不开软硬协同优化。一方面，谷歌自研 TPU 本身具备高性能并行计算能力和大显存池化设计，能扛住 1M 上下文带来的巨量 KV 缓存和计算压力，弥补了原生超高的资源消耗；另一方面，Gemini 是基于 Transformer 解码器构建的，其结构做了适配 TPU 的大规模稳定训练优化，并非单纯靠硬件硬扛，而是通过软硬件协同进一步提升了资源利用效率，最终实现了 1M 上下文的流畅运行。

那么一个自然的问题就是这个 Model One 它这个性能，或者说它的指标，对标现在主流的大模型，它是一个什么地位，什么一个位置？就跟国内国外这个现在主流的模型来比，它的参数等等其他的的数据，它的表现等等，大概介绍一下吧。

搜索 3 个关键词，参考 6 篇资料

结合现有信息，DeepSeek MODEL1 的性能定位、核心参数及与国内外主流模型的对比可总结如下，核心优势集中在长上下文效率与硬件适配性，但部分通用能力仍需验证：

一、MODEL1 核心参数（已曝光信息）

架构与参数：采用全新架构，回归 512 维注意力头参数（适配英伟达 Blackwell GPU），未明确公布总参数，但结合上一代 R1（671B 总参数、激活 37B）推测，MODEL1 可能延续 MoE 混合专家架构，总参数或维持 600B-700B 级，激活参数比例或优化至 6%-8%（进一步降本）。
上下文能力：支持 128K 超长上下文，通过 KV 缓存优化、VVPA（数值向量位置感知）解决长文本信息衰减，远超 GPT-4o（128K 但无专门衰减优化）、Gemini 1.5 Pro（1M 上下文但硬件成本极高）。
效率指标：解码效率较 V3.2 提升明显，FP8 混合精度解码 + 稀疏性处理使推理成本降低，训练成本预计延续 DeepSeek 一贯优势（参考 R1 训练成本 100-220 万美元，仅为 GPT-4o 的 1/70）。

二、与国内外主流模型的性能对比

1. 国内主流模型（如文心一言 4.0、通义千问 3.0）

优势领域：MODEL1 在长上下文处理（128K）和硬件适配效率（针对 Blackwell GPU 优化）上领先，适合科研文献分析、超长代码生成等场景；数学推理能力预计延续 R1 的强势（R1 在 AIME 2024 达 79.8%，超国内多数模型 10%-15%）。
差距领域：多模态能力（如图像、语音理解）尚未曝光，而国内头部模型已实现成熟多模态融合；通用对话的自然度可能略逊于文心一言（后者侧重生活化交互优化）。

2. 国外主流模型（如 GPT-4o、Gemini 1.5 Pro、Claude 3.5）

优势领域：
- 成本效率：MODEL1 推理成本预计仅为 GPT-4o 的 5%-10%（参考 R1 成本是 o1 的 5%），且支持 128K 上下文的显存占用更低（无内存溢出问题）。
- 代码与数学：延续 R1 的强项，Codeforces 评级或接近 2000 Elo（R1 为 2029 Elo，与 o1 持平），数学 MATH-500 准确率或超 97%（R1 为 97.3%，略超 o1 的 96.4%）。
差距领域：
- 通用知识与多模态：NIST 评测显示 DeepSeek V3.1 在通用知识（如 MMLU）上落后 GPT-5 约 10%，MODEL1 若未加强通用数据训练，此差距可能仍存在；Gemini 1.5 Pro 的 1M 上下文虽成本高，但在超长篇文档处理（如整本书分析）上仍占优。
- 安全性：参考 R1（易受 jailbreaking 攻击，94% 恶意请求合规率），MODEL1 的安全防护或弱于 GPT-4o（8% 恶意请求合规率），需依赖外部安全工具补充。

三、整体定位：“高效推理专家”，非 “全能型选手”

MODEL1 更偏向垂直领域强优化（长上下文、数学、代码），适合开发者、科研人员等专业用户，在 “性能 - 成本比” 上处于全球第一梯队；但作为国产模型，其通用能力、多模态融合及安全性仍需追赶国外顶尖全能模型（如 GPT-5、Gemini 1.5 Pro）。

需要我帮你整理一份包含 MODEL1、GPT-4o、文心一言 4.0 核心指标的对比表吗？这样能更直观看到三者的差异。

搜索 3 个关键词，参考 6 篇资料

DeepSeek 新模型 MODEL1（大概率是 DeepSeek-V4 的内部代号）的三大核心改进，均围绕 “降本提速 + 优化长上下文处理” 展开，具体如下：

KV 缓存布局优化：通过更高效的缓存管理，大幅降低长文本处理时的显存占用，即使处理 128K 超长上下文也不会内存溢出，解决传统模型 “记忆包袱” 问题（如 GPT-3 处理 32K tokens 需 150GB KV 缓存显存）。
稀疏性处理升级：引入 “Token-level Sparse MLA”，实现稀疏与稠密并行解码，仅对关键 Token 深度计算，非关键 Token 简化处理；同时结合 NSA（原生稀疏注意力），前向传播速度最高提升 9 倍，反向传播最高提升 6 倍，大幅降低计算成本。
FP8 解码支持：采用 “FP8 存储 KV Cache + BF16 计算矩阵乘法” 的混合精度策略，在保证推理精度的同时，进一步减少显存消耗、提升解码效率，让模型响应更流畅。

此外，MODEL1 还回归 512 维标准架构以适配英伟达 Blackwell GPU，并新增 VVPA（数值向量位置感知）解决长文本位置信息衰减，整体针对长上下文任务和硬件效率做了全面革新。

需要我帮你整理一份 MODEL1 与现有 V3.2 版本的核心参数对比表吗？这样能更清晰看到两者的差异。

此外，MODEL1还回归512维标准架构以适配英伟达Blackwell GPU，并新增VVPA（数值向量位置感知）解决长文本位置信息衰减，整体针对长上下文任务和硬件效率做了全面革新

我对于这个回归 512 维标准架构，这个是那个 embedding 的这个 768 改成 512 是这个意思吗？然后那个 token level sparse MLA 就稀疏和稠密并行解码，并仅对关键 Token 深度计算，这个我大概理解一点，就说好像谷歌还是哪一个也是这样做，就是说等于是对这个输入的其实不是全项注意力，我我我的理解是说它这个在进行自注意力机制，它实际上是有等于是一个优化了，去把 N 平方变成近似于 Log N 或者是 N，就是等于是只对一部分注意力去进行这个注意机制，就等于是矩阵乘法，可能我我只是概念上这么理解，就稀疏注意力就不是说所有的 token 跟所有的 token 进行注意力这个计算，因为那个太笨了，而且有些 token 属于说语义稀疏型的 token，看比如说的地得啊、助词啊这些东西，当然这个要对语言等于是一个就是深度的适配吧，每种语言都不一样嘛，是吧？还有什么这个正向传播、反向传播，反向传播难道是训练吗？是训练的意思吧？前向传播是推理，是不是就是一个是训练快，一个也是推理也快，是这样吗？

搜索 4 个关键词，参考 5 篇资料

你的理解大多准确，仅部分细节有偏差，下面结合 MODEL1 的特性逐一厘清：

512 维架构并非 embedding 的 768 维改 512：这个 512 维对应的是注意力头的参数维度，而非输入层的 embedding 维度。上一代 DeepSeek V3.2 用的是 576 维注意力头参数，MODEL1 改成 512 维是重构了多头隐式注意力（MLA）结构，目的是适配英伟达 Blackwell GPU 架构，更好地匹配硬件算力。
Token-level Sparse MLA 相关理解基本正确：你的核心认知没错，它和谷歌等机构的稀疏注意力思路一致，都是通过非全量注意力计算降本提速，把 O (n²) 复杂度压低到接近线性。而且它确实会针对性忽略 “的地得” 这类低语义贡献 Token，不过它的适配更多是基于通用语义权重评估的硬件对齐稀疏模式，并非针对单一语言单独适配，通用性更强。像 Longformer、BigBird 等模型也用了类似的稀疏注意力思路，只是在关键 Token 筛选规则上有差异。
前向传播与反向传播的作用理解准确：前向传播主要用于推理，是输入数据从输入层经网络层计算到输出层得到结果的过程；反向传播则用于模型训练，通过输出结果和真实标签的误差，反向推导各层参数的梯度并更新参数。MODEL1 的稀疏性处理让前向传播（推理）速度提升，同时也优化了反向传播（训练）效率，最终实现训练和推理双提速。