李明的手指在键盘上敲到发酸时,屏幕上的生成结果依旧是一团乱码 —— 不是文字乱码,是图像乱码。
他搭建的 “双 OCR + 视觉 Token Transformer” 原型已经卡了三天。按照 DeepSeek OCR 白皮书里的参数,16×16 像素的基础 patch、768 维特征向量、注意力池化融合 10 个 patch 生成 256 维视觉 Token,每一步都严丝合缝。可当视觉 Transformer 输出向量,经 DeepSeek OCR 还原层转成图像时,本该是 “今天天气很好” 的文字,却变成了笔画扭曲的色块,连 OCR 都识别成了 “□□天□气□好”。
“问题出在哪?” 李明揉了揉眼睛,把 Debug 日志拉到最下面。Loss 值一直在 0.8 以上居高不下,比正常范围高了 3 倍。他想起 DeepSeek OCR 文档里提过的 “视觉 Token 位置编码”—— 难道是位置信息丢了?
他重新检查代码,注意力池化模块里,相对位置编码的计算逻辑没错:第 n 个 patch 与第一个 patch 的距离用 128 维向量表示,和 768 维 patch 特征拼接后,通过 2 层 FFN 压缩到 256 维。那为什么还原后文字顺序会乱?
直到凌晨两点,他无意间点开输入端 OCR 的图像缓存 —— 里面的文字是 “微软雅黑 16px”,而输出端目标图像的缓存,因为调用的是另一个 OCR 接口,默认用了 “宋体 14px”。两个图像的基础 patch 像素分布完全不同:微软雅黑的 “天” 字占 1.2 个 patch,宋体的 “天” 字占 0.9 个 patch,视觉 Token 的特征向量自然无法对齐,MSE 损失计算时,相当于用 “苹果的特征” 去对比 “橘子的特征”,不乱才怪。
“原来如此。” 李明立刻修改代码,把全流程的图像生成规则统一:字体微软雅黑 16px、文字颜色 RGB (0,0,0)、背景色 RGB (255,255,255)、分辨率 300dpi。重新运行后,Loss 值在 500 步迭代后降到 0.2 以下,还原出的图像里,“今天天气很好,适合去公园” 的文字清晰得像打印出来的一样。
他激动地把生成速度截图发朋友圈:“RTX 4090 跑 1000 字生成,0.9 秒!” 没几分钟,一条陌生私信弹出来:“你在用视觉 Token 做文字生成?立刻删除,别惹麻烦。”
李明以为是恶作剧,没当回事。可第二天早上,他发现自己的 GitHub 仓库被封禁,云服务器里的原型代码被清空,连本地备份的硬盘都莫名出现 “坏道”—— 那可是他熬了三个通宵的成果。
“这不是巧合。” 李明盯着屏幕上的 “坏道提示”,突然想起一周前看到的新闻:谷歌宣布 “AGI 需要百万卡级超算集群”,Meta 紧接着追加 100 亿美金采购英伟达 H20 显卡。如果他的原型是对的,1 张消费级显卡就能抵得上 10 张 H20,那这些巨头的千亿投入,不就成了笑话?
通过开源社区的朋友牵线,李明在三天后见到了 “灰鸟”。那是个戴黑框眼镜的男人,坐在咖啡馆最角落的位置,面前放着一台没有 logo 的笔记本电脑。
“你知道谷歌 DeepMind 在 2023 年做过什么吗?” 灰鸟没绕弯子,直接打开一个加密文件夹,里面是一份标注 “绝密” 的项目报告 ——《视觉 Token 生成模型 V1.0:算力需求降低 8 倍的技术验证》。
李明快速翻着报告,心脏越跳越快:报告里的架构和他的原型几乎一模一样,甚至连视觉 Token 的维度(256 维)、patch 大小(16×16 像素)都分毫不差。不同的是,谷歌的模型用了 TPU 集群训练,能支持多语言生成,还解决了长文本位置编码漂移的问题 —— 他们把超过 100 字的文本按 “100 字分段”,段内用相对位置编码,段间用绝对段号编码(第 1 段标 0、第 2 段标 1),彻底避免了行重叠。
“既然技术早就有了,为什么不公开?” 李明抬头问。
灰鸟苦笑一声,点开另一份文档 ——《算力叙事保护协议》,签署方是硅谷七姐妹的 CEO。协议里写得清清楚楚:“所有成员需封存低算力技术,联合维护‘更大算力 = 更强 AI’的行业叙事,对开源社区的相关研究采取‘收购、威胁、抹黑’三原则。”
“2023 年谷歌刚测出 8 倍算力降低时,英伟达就慌了。” 灰鸟压低声音,“当时英伟达已经和七姐妹签了 5000 亿美金的显卡包销协议,要是技术公开,订单会全黄。更要命的是华尔街 —— 七姐妹的股价里,‘算力资产’占比超 40%,一旦算力需求骤降,估值会直接腰斩。”
李明想起自己原型里的生僻字问题 —— 他曾尝试生成 “𪚥” 字,结果还原图像里变成了 “炎”。灰鸟似乎看穿了他的心思,补充道:“谷歌的模型里有个‘生僻字专项数据集’,收录了 5000 + 生僻字的标准化图像,还加了特征增强损失 —— 用 CLIP 计算生成视觉 Token 与目标 Token 的语义相似度,强制模型学那些多笔画结构。”
“那 DeepSeek 为什么敢发布 OCR 技术?” 李明问。
“因为他们不在七姐妹的控制圈里。” 灰鸟调出 DeepSeek 的融资记录,“他们的投资方是国内的制造业资本,目标是把 AI 装到工厂的边缘设备里,不需要依赖云端算力。那个 10 倍压缩的 OCR 技术,其实是在试探巨头的底线 —— 就像在说‘皇帝没穿衣服’。”
临走前,灰鸟把加密文档拷贝给李明:“这些东西,你看完最好删掉。但如果你想继续做,记住一个细节:视觉 Token 还原图像后,最好加个 ESRGAN-tiny 超分模块,把分辨率提 2 倍,不然小屏设备上笔画会模糊,OCR 识别精度会掉。”
2027 年 11 月 15 日,DeepSeek 的 “效率革命” 发布会座无虚席。李明坐在观众席最后一排,手里攥着灰鸟给的文档,手心全是汗。
CEO 走上台,身后的大屏幕立刻分成两半:左边是谷歌云的 TPU 集群,1000 张显卡嗡嗡作响,生成 “基于视觉 Token 的低算力 AI 架构” 这句话用了 8.2 秒;右边是一台普通的笔记本电脑,屏幕上显示着 “RTX 4090” 的标识,同样的句子,生成时间定格在 0.9 秒。
“这不是魔术。”CEO 的声音透过麦克风传遍全场,“我们的‘双 OCR + 视觉 Token Transformer’架构,核心有三个技术点:第一,用 DeepSeek OCR 把文字转成 10 倍压缩的视觉 Token,1 个 Token 对应 10 个文字,保留 97% 语义精度;第二,视觉 Transformer 复用传统自回归逻辑,但去掉了字典 —— 输入是 256 维连续向量,输出也是 256 维连续向量,不用计算 5 万 Token 的 Softmax,算力直接省掉 80%;第三,输出端用 MSE 损失对比生成 Token 与目标 Token 的差异,避开 OCR 识别误差,训练更稳定。”
大屏幕上开始播放技术细节动画:16×16 像素的 patch 如何通过注意力池化融合,相对位置编码如何嵌入向量,超分模块如何增强图像分辨率。李明注意到,动画里甚至展示了 “生僻字特征增强” 的过程 ——“𪚥” 字的 4 个 “火” 字旁被标成红色,视觉 Token 的向量波动被放大,清晰地显示出模型是如何学习这个字的独特结构。
“最关键的是,”CEO 举起手中的笔记本电脑,“这台 4000 美元的设备,能跑通原本需要 100 万美元集群才能运行的 70B 参数模型。现在,我们宣布两个决定:第一,视觉 Token 的核心代码全部开源;第二,推出‘个人 AI 终端’,售价 2999 美元,支持离线运行所有主流大模型。”
发布会现场瞬间沸腾,而李明的手机里,财经 APP 推送了一条快讯:“硅谷七姐妹股价集体暴跌,英伟达 H20 显卡二手价半小时腰斩。” 他抬头看向舞台,CEO 正对着镜头微笑,那笑容里,藏着打破垄断的决心。
发布会后一周,李明收到了 DeepSeek 的入职邀请,职位是 “视觉 Token 架构优化工程师”。他的第一个任务,是解决用户反馈的 “长文本排版错位” 问题 —— 有用户生成 200 字的文章时,第 150 字之后的文字出现了行重叠。
“这是位置编码累积误差。” 李明想起灰鸟说的 “分段编码”,立刻在代码里加入逻辑:每 100 字分段,段间用绝对段号编码。测试后,200 字的文章排版整齐,连标点符号都没有错位。
与此同时,开源社区里涌现出上百个衍生项目:有人用树莓派跑通了迷你模型,有人把视觉 Token 架构装进了智能手机,甚至有车企联系 DeepSeek,想把模型嵌入车载系统,实现离线语音转文字。
只有一个疑问还悬在李明心头。这天晚上,他翻出灰鸟给的文档,在最后一页发现了一行被划掉的字:“备用方案:推出‘视觉 Token 安全漏洞’的虚假报告……”
他立刻给灰鸟发消息,却收到了自动回复:“我已离开 Meta,加入 DeepSeek 的低算力 AI 联盟。那些巨头不会善罢甘休,但我们有技术,有用户,更有打破垄断的勇气。”
李明看向窗外,北京的夜色里,写字楼的灯光依旧明亮。他打开代码编辑器,开始编写 “多语言视觉 Token 适配” 的文档 —— 日语的平假名、阿拉伯语的连笔、俄语的西里尔字母,都需要针对性调整 patch 大小和特征提取逻辑。
他知道,AI 行业的 “算力谎言” 时代已经结束,而一个由技术驱动、而非资本垄断的新秩序,才刚刚开始。