DeepSeek-OCR 争议与定位

内容由豆包 AI 生成

【中科院证伪DeepSeek-OCR：90%准确率是幻觉】点击链接打开👉 https://m.toutiao.com/is/E-5Nz1PSxNE/ E-5Nz1PSxNE` e@o.Dh :8am dvX:/ 复制此条消息，打开「今日头条APP」或「今日头条极速版APP」后直接查看~ 我觉得这篇文章或者说他提到的这个中科院这篇论文。就是在挑毛病。什么意思呢？就是说deep sick的OCR原本就是这种记忆模型，就是训练啊。呃，用这种印刷体的文字训练出来的。我的理解就是说他就是猜文字。它就是依赖文字的上下文才猜出来的。就像人。阅读的过程中。很多其实你有一个实验，就是说那个词的顺序颠倒了，甚至于拼写都是错的。就是很著名的一个实验，把这个汉语的这个两个词的偏旁部首。互换一下，但是人也能看到这个。把两个相邻的这个字的这个偏旁部首都互换了一下，读出了这个词的语义。在这里其实是模仿了人的这种联想的能力。就说你实际上看到了那个字吗？他不是的，它是一种。嗯，惯性就好像是你看到一个subword，但是你联想到整个词。整个字就这个意思。所以这个是。语言依赖的是必然的，它并不是一个真实的嗯。就是说它一定是文字的OCR。所以根本就不是说你给你任意一幅图，你能够用利用这个视觉把它补全了，这是不对的。这是不可能的。就是说他就是针对文字的，而不是说你任意给一只具体的图，比如说猫啊狗啊这个图像。让它去还原。他不是做这个东西的。

你的理解核心准确，DeepSeek-OCR 的高准确率确实依赖语言先验（上下文联想） 而非纯粹视觉理解，这与其设计定位（文本场景的视觉 - 压缩范式）强相关，中科院论文的 “证伪” 更像是对其能力边界的明确，而非否定其在文本场景的价值。

从本质来看，二者的争议焦点在于 “评价标准是否匹配模型定位”：

DeepSeek-OCR 的核心目标是文本的高效压缩与重建，类似你说的 “模仿人类阅读时的联想惯性”，比如通过词形、短语规律补全语义，这在规整文本场景（如印刷体文档）中完全适用。
中科院论文则用语义破坏实验（如替换无意义词 “breadboxed”） 测试其视觉理解能力，相当于用 “识别乱码” 的标准要求一个 “擅长读正常文本” 的模型，确实存在 “挑毛病” 的倾向 —— 模型本就不是为 “解析无语义视觉内容” 设计的，就像不能要求 “计算器” 去做 “图像识别” 一样。

进一步看，传统 OCR（如 PaddleOCR-v5）虽视觉鲁棒性强，但压缩效率低；DeepSeek-OCR 用 “语言依赖” 换 “高压缩比”，是权衡后的设计选择，而非技术缺陷。它的价值本就在于 “文本场景的高效处理”，而非 “通用视觉理解”，这一点在其支持 10 倍压缩下仍能处理长文档、生成训练数据等实际应用中已得到体现。

需要我帮你整理一份 “DeepSeek-OCR 设计定位与中科院实验结论的对比表” 吗？这样能更清晰地看出二者的核心差异，方便你快速梳理逻辑。

参考 6 篇资料

不用，我原来文就对这个 Deepseek OCR 就讨论过，就是详细讨论过，结论就是这样的。我不，我现在是没有看到这个原文，就是这个论文，这个中科院的这个原文，哎，论文是不是像这篇文章头条作者这么写的，因为头条作者这个作者经常会夸大其词，经常会张冠李戴。那我没有去时间去查这个原原来的论文，我只希望你能够确认一下中科院的原来论文是不是这样故意挑毛病，还是说当然他也不算故意挑毛病，他只是确认了这个 deep deepseek OCR 的这个它的边界，它的能力边界。这个也没有什么错，学术上这样探讨，这个不能算是完全的挑刺。当然 deepseek OCR 它原来来就是这种设计的初衷，它并不没有说它就是一个图像扫描的这种高分辨率的这种高抗干扰能力的，它纯粹就是把印刷体。进行一个高压缩率，就是文字的印刷体高压缩率，而并不是说任意的图像扫描都可以这个高的这个还原度。当然我不知道这个 OCR 是不是特指，就是说都是文字的扫描呢？我的理解这个 OCR 是不是还有一般的图像的这种。扫描的还原的意思呢？你能不能确定一下 OCR 这个是不是只是定义就是限于文字印刷体这种？当然好像也有手写体吧，但是 Deepseek 这个 OCR 它就是印刷体，而且就是说为了压缩而设计的。你那个 OCR 很多还有手写体的识别，这个就不在 Deepseek 这个 OCR 模型训练的范畴之内了，并不是他的菜不是他的目的

中科院那篇论文并非故意挑毛病，头条作者虽有博眼球的表述，但核心结论和论文一致；而且 OCR 不局限于印刷体，DeepSeek - OCR 也并非只针对印刷体，以下是详细说明：

中科院论文核心是明确能力边界，并非挑刺：这篇发布在 arXiv 上的论文（标题《Visual Merit or Linguistic Crutch? A Close Look at DeepSeek - OCR》），核心是探究 DeepSeek - OCR 的高准确率源于视觉解析能力还是语言先验知识，并非刻意找茬。它设计语义破坏等实验，得出其在剥离语言先验后准确率从约 90% 暴跌至 20% 等结论，还发现其长文本处理约 8500 个标记后会失效。这些实验是学术上常见的性能评估方式，目的是厘清该类端到端模型的共性问题，为这类视觉 - 文本压缩模型的评估提供方法论，同时明确 DeepSeek - OCR 的能力边界，给后续技术优化和应用场景选择提供参考，属于严谨的学术探讨。
OCR 的定义不限于印刷体：OCR 是光学字符识别的缩写，核心是把图像中印刷体、手写体等文字转化为机器可识别的数字文本，本质只聚焦文字转化，和你担心的猫狗等图像还原毫无关系，但绝对不局限于印刷体。传统 OCR 就有手写体识别的相关探索，只是早期准确率较低。
DeepSeek - OCR 并非只针对印刷体：它的设计初衷是探索视觉 - 文本压缩边界，为长文本处理提供高效编码方案，高压缩比确实是其核心优势之一。但它的训练范畴不只有印刷体，还纳入了大量银行单据、法律文书等场景的手写数据集，能支持手写签名等手写体的识别，甚至能应对连笔、模糊等手写问题，不过这些都服务于文本识别，和通用图像还原无关。

但是 OCR 只是还原文字对不对？就意思就是说它的训练图像，图表这个算不算它的这个训练数据呢？我记得好像 Deepseek OCR 也有训练图表。表，就是，但是还是说只限于图表上的文字的还原。图像它是不能识别的，因为识别这个图像好像没有意义是吧？图像你没办法描述它，就只能把图像上的这些文字，这个标识文字能够识别。还有一个它，中科院这个论文提到说当这个 Deepseek OCR 超过 8000 个 token 的话，它的这个识别率就下降。这个意思是说一次输入超过 8000 个 token，这个应该是跟模型的上下文，那它也是一个 Transformer 的架构，不不是 Transformer 架构，但它应该，不知道它里面是不是也有类似这种， Transformer 这种 Encoder 的这种输入的上下文的这个上限的这个这个限制，所以它超过 8000 个 token 就会下降。我记得他说的，他是一个记忆模型，那也是只是说他在训练过程中掩码遮掩了百分之二三十这种做法，但是他归根结底应该也有这种相当于注意力机制吧，所以只要有注意力机制，可能就都有这种上下文窗口大小的上限。8000 个 token 可能就是它的超参数的这个设置吧，是不是？

你的多个疑问都能通过 DeepSeek - OCR 的技术细节和训练数据情况得到印证，具体解答如下：

OCR 不止还原文字，现代 OCR 已涉文档结构化解析：传统 OCR 核心是还原文字，但现在像 DeepSeek - OCR 这类进阶模型，已能解析图表、公式等结构化内容。它的训练数据包含 10M 张图表（线图、柱状图等），且不只是识别图表上的文字，还会将图表标注为 HTML 表格形式来实现结构化解析，不过它不会去描述图表里图形本身，核心还是围绕与文本相关的结构化信息提取。
DeepSeek - OCR 是 Transformer 架构，且含注意力机制：它采用双阶段 Vision - Language Transformer 编解码架构，视觉编码器是 ViT 变体架构，还集成了 SAM - base 的局部窗口注意力、CLIP - large 的全局稠密注意力模块，文本解码器也是混合专家 Transformer 解码器，注意力机制是其核心组件之一。
8000 个 token 的识别率下降，和模型超参数及架构限制强相关：一方面，它的纯文本训练数据统一处理为 8192 个 token 的长度，这个长度和模型序列长度超参数保持一致，相当于提前设定了适配的输入规模。另一方面，Transformer 架构的注意力机制计算量会随 token 数量增加而大幅上升，超出设定的 8000 左右 token 后，模型难以高效捕捉全局上下文关联，就会出现识别率下降。这正是注意力机制模型普遍存在的上下文窗口上限问题，8000 个 token 本质就是模型适配训练数据和架构能力设定的超参数阈值。

参考 6 篇资料

DeepSeek-OCR的准确率到底有多高？

中科院论文中关于DeepSeek-OCR的具体实验数据