我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
头条图片文章的地层逻辑1
视频
音频
原始脚本
头条图片文章的底层逻辑,Deepseek OCR 论文揭秘文本压缩的反常识黑科技。 当你在头条刷到万字长文被拆解成文字图片时,或许以为这只是排版策略。 但 Deepseek 团队最新开源的 Deepseek OCR Contexts Optical Compression 论文却揭示了这一现象背后的技术革命。 用图像压缩文本,让大模型的上下文窗口实现10倍及无损扩展。 这篇由 Harun Way 等三位研究者撰写的论文,以严谨的实验数据证明。 看似冗余的文字转图片操作,实则是突破大模型长文本处理瓶颈的关键路径。 一、反直觉的压缩革命。 从字节密度到语义密度的颠覆计算机领域的基本常识告诉我们,图片的字节数远高于纯文本。 一个1 KB 的 txt 文件能存储500个汉字,而1 KB 的图片仅能呈现模糊的十几个字符。 从信息熵角度看,这完全不成比例。 但 Deepseek OCR 论文用三组核心数据颠覆了这一认知,10倍压缩下97%的解码精度。 当文本 token 数量是视觉 token 的10倍时,模型能以97%的准确率还原原文,近乎无损。 20倍压缩仍保持60%精度。 即使将文本压缩20倍,关键语义的识别率仍超过6成,远超传统 RAG 的语义断裂问题。 OmniDoc Bench 的性能碾压,仅用100个视觉 token 就超越了需256个 token 的的 G O T O C R 2.0。 800个 token 性能超过需7000个 token 的 Manner U2.0。 这种反直觉的高效源于语义密度的本质差异。 传统文本编码,如 UTF 8,将每个字符独立编码,完全忽略词语组合、段落结构等语义模式。 而 Deepseek C2将文字渲染为图像后,16×16像素的视觉 patch 可编码机器学习这样的完整语义单元。 相当于用一个视觉 token 替代多个文字 token。 一、文字 token 的困境,为何无法压缩文字 token 在上下文窗口中已达极限,无法进一步压缩。 它是字典里的最小单元,无法再分割,任何压缩都需要破坏语义完整性。 若想把人工智能这个词组合并成一个 token 必须加入字典,字典无限增大会导致计算效率急剧下降。 传统压缩如 ZIP 需要解压回文字 token ,这会导致 token 数反弹。 这就像把书打包成箱子,要用时还得拆开,根本解决不了空间问题。 二、视觉 token 的突破。 向量层面的压缩视觉 token 从根源上解决了这个问题。 它另辟蹊径,它本身就是 Latent space 中的向量,与文字 token 的最终形式兼容,它不是字典里的符号。 而是连续空间的数值表示,由于它是向量,可以用数学方法进行压缩。 例如用卷积神经网络将10个视觉 token 的向量整合成一个。 新向量压缩后的新向量仍表示相同语义,但只占一个上下文位置。 这相当于把十本书的内容浓缩成一本精华版,而不是简单打包。 这本精华版可以直接阅读,不需要再解压恢复成十本书。 三,10倍压缩的具体计算,从文字到视觉的密度跃迁,以一篇1万字的学术论文为例,传统文字处理,1万字约等于1万个文字 token,加20%位置编码,token 后总 token 数为12000。 DeepCOCO 2处理。 一、将论文渲染为1024×1024像素的高分辨率图像。 分割为16×16的视觉 patch,得到4096个原始 视觉 token,每个月对应1~2个汉字。 二,经 Deepen Coder 的16层卷积压缩模块后,4096个视觉 token 被压缩至400个视觉 token。 这意味着用400个视觉 token 就能替代12000个文字 token 的功能,实现30倍的 token 效率提升。 这种效率的本质是视觉 token 编码的是语义模式,而非单个字符,并且能在向量层面高效压缩。 四,最关键的反常十点,16×16像素如何承载多个汉字的语义?这是整个技术最反直觉的地方。 在16×16像素的 patch 里,即使使用最小的字体,也只能清晰显示一个汉字。 但 Deepseek C2的视觉 token 不是在编码单个字符,而是在编码字符的组合模式。 这就像看远处的广告牌,离得很近时能看清每个像素点,但离得远时虽然看不清单个像素,却能认出上面的词语。 视觉 token 正是利用了这个原理,它不关心单个字符的精确像素,而是学习字符组合形成的整体视觉模式。 例如,人工智能四个字虽然需要四个16×16的像素块来显示,但模型学习的是这四个字排列在一起的视觉特征。 当看到这种特征时,模型能直接将其识别为一个完整的语义概念,而非四个独立的字符。 这不是像素级的无损存储,而是语义级的智能压缩。 五、无需解压的革命性优势,这是整个技术最精妙的创新点,也是它与传统压缩最根本的区别。 传统 ZIP 压缩将文字压缩成二进制数据,使用时必须解压缩回文字,否则模型无法理解。 视觉 token 将文字渲染成图像,再编码成视觉 token 。 这些 token 本身就是模型能理解的语义单元模型,不需要把视觉 token 解压缩回文。 字。 在多模态模型眼中,视觉 token 和文字 token 都是表示语义的向量。 它就像一个双语者同时理解中文和英文,不需要把英文翻译成中文再理解。 视觉 token 是一种已被模型理解的压缩形式。 这完美解决了文字压缩需要解压导致 Token 数反弹的悖论。
修正脚本
头条图片文章的底层逻辑,Deepseek OCR 论文揭秘文本压缩的反常识黑科技。 当你在头条刷到万字长文被拆解成文字图片时,或许以为这只是排版策略。 但 Deepseek 团队最新开源的 Deepseek OCR Contexts Optical Compression 论文却揭示了这一现象背后的技术革命。 用图像压缩文本,让大模型的上下文窗口实现10倍级无损扩展。 这篇由 Harun Way 等三位研究者撰写的论文,以严谨的实验数据证明。 看似冗余的文字转图片操作,实则是突破大模型长文本处理瓶颈的关键路径。 一、反直觉的压缩革命。 从字节密度到语义密度的颠覆:计算机领域的基本常识告诉我们,图片的字节数远高于纯文本。 一个1 KB 的 txt 文件能存储500个汉字,而1 KB 的图片仅能呈现模糊的十几个字符。 从信息熵角度看,这完全不成比例。 但 Deepseek OCR 论文用三组核心数据颠覆了这一认知:10倍压缩下97%的解码精度。 当文本 token 数量是视觉 token 的10倍时,模型能以97%的准确率还原原文,近乎无损。 20倍压缩仍保持60%精度。 即使将文本压缩20倍,关键语义的识别率仍超过6成,远优于传统 RAG,解决了传统RAG的语义断裂问题。 OmniDoc Bench 的性能碾压,仅用100个视觉 token 就超越了需256个 token 的 GOT OCR 2.0。 800个 token 性能超过需7000个 token 的 Manner U2.0。 这种反直觉的高效源于语义密度的本质差异。 传统文本编码,如 UTF 8,将每个字符独立编码,完全忽略词语组合、段落结构等语义模式。 而 Deepseek C2将文字渲染为图像后,16×16像素的视觉 patch 可编码机器学习这样的完整语义单元。 相当于用一个视觉 token 替代多个文字 token。 一、文字 token 的困境:为何无法压缩?文字 token 在上下文窗口中已达极限,无法进一步压缩。 它是字典里的最小单元,无法再分割,任何压缩都需要破坏语义完整性。 若想把人工智能这个词组合并成一个 token,必须加入字典,字典无限增大会导致计算效率急剧下降。 传统压缩如 ZIP 需要解压回文字 token ,这会导致 token 数反弹。 这就像把书打包成箱子,要用时还得拆开,根本解决不了空间问题。 二、视觉 token 的突破。 向量层面的压缩:视觉 token 从根源上解决了这个问题。 它另辟蹊径,本身就是 Latent space 中的向量,与文字 token 的最终形式兼容,它不是字典里的符号。 而是连续空间的数值表示,由于它是向量,可以用数学方法进行压缩。 例如用卷积神经网络将10个视觉 token 的向量整合成一个。 压缩后的新向量仍表示相同语义,但只占一个上下文位置。 这相当于把十本书的内容浓缩成一本精华版,而不是简单打包。 这本精华版可以直接阅读,不需要再解压恢复成十本书。 三、10倍压缩的具体计算:从文字到视觉的密度跃迁,以一篇1万字的学术论文为例,传统文字处理,1万字约等于1万个文字 token,加20%位置编码后,总 token 数为12000。 Deepseek C2处理。 一、将论文渲染为1024×1024像素的高分辨率图像。 分割为16×16的视觉 patch,得到4096个原始视觉 token,每个对应1~2个汉字。 二、经 Deepseek Coder 的16层卷积压缩模块后,4096个视觉 token 被压缩至400个视觉 token。 这意味着用400个视觉 token 就能替代12000个文字 token 的功能,实现30倍的 token 效率提升。 这种效率的本质是视觉 token 编码的是语义模式,而非单个字符,并且能在向量层面高效压缩。 四、最关键的反常识点:16×16像素如何承载多个汉字的语义?这是整个技术最反直觉的地方。 在16×16像素的 patch 里,即使使用最小的字体,也只能清晰显示一个汉字。 但 Deepseek C2的视觉 token 不是在编码单个字符,而是在编码字符的组合模式。 这就像看远处的广告牌,离得很近时能看清每个像素点,但离得远时虽然看不清单个像素,却能认出上面的词语。 视觉 token 正是利用了这个原理,它不关心单个字符的精确像素,而是学习字符组合形成的整体视觉模式。 例如,人工智能四个字虽然需要四个16×16的像素块来显示,但模型学习的是这四个字排列在一起的视觉特征。 当看到这种特征时,模型能直接将其识别为一个完整的语义概念,而非四个独立的字符。 这不是像素级的无损存储,而是语义级的智能压缩。 五、无需解压的革命性优势,这是整个技术最精妙的创新点,也是它与传统压缩最根本的区别。 传统 ZIP 压缩将文字压缩成二进制数据,使用时必须解压缩回文字,否则模型无法理解。 视觉 token 将文字渲染成图像,再编码成视觉 token 。 这些 token 本身就是模型能理解的语义单元,模型不需要把视觉 token 解压缩回文字。 在多模态模型眼中,视觉 token 和文字 token 都是表示语义的向量。 它就像一个双语者同时理解中文和英文,不需要把英文翻译成中文再理解。 视觉 token 是一种已被模型理解的压缩形式。 这完美解决了文字压缩需要解压导致 Token 数反弹的悖论。
back to top