你的理解核心准确,DeepSeek-OCR 的高准确率确实依赖语言先验(上下文联想) 而非纯粹视觉理解,这与其设计定位(文本场景的视觉 - 压缩范式)强相关,中科院论文的 “证伪” 更像是对其能力边界的明确,而非否定其在文本场景的价值。
从本质来看,二者的争议焦点在于 “评价标准是否匹配模型定位”:
- DeepSeek-OCR 的核心目标是文本的高效压缩与重建,类似你说的 “模仿人类阅读时的联想惯性”,比如通过词形、短语规律补全语义,这在规整文本场景(如印刷体文档)中完全适用。
- 中科院论文则用语义破坏实验(如替换无意义词 “breadboxed”) 测试其视觉理解能力,相当于用 “识别乱码” 的标准要求一个 “擅长读正常文本” 的模型,确实存在 “挑毛病” 的倾向 —— 模型本就不是为 “解析无语义视觉内容” 设计的,就像不能要求 “计算器” 去做 “图像识别” 一样。
进一步看,传统 OCR(如 PaddleOCR-v5)虽视觉鲁棒性强,但压缩效率低;DeepSeek-OCR 用 “语言依赖” 换 “高压缩比”,是权衡后的设计选择,而非技术缺陷。它的价值本就在于 “文本场景的高效处理”,而非 “通用视觉理解”,这一点在其支持 10 倍压缩下仍能处理长文档、生成训练数据等实际应用中已得到体现。
需要我帮你整理一份 “DeepSeek-OCR 设计定位与中科院实验结论的对比表” 吗?这样能更清晰地看出二者的核心差异,方便你快速梳理逻辑。