文章核心结论:将代码转为图像+视觉增强(语法高亮/粗体),AI编程效率提升8倍(计算资源仅需12.5%),且在代码克隆检测等任务上性能更优。
关于你的疑问,文章未明确量化“1个视觉token(如16×16 patch)对应多少汉字/英文词”,仅通过“图像压缩8倍仍保性能”泛化说明视觉token效率优势;未用DeepSeek类OCR的文字还原压缩率量化对比,而是通过代码补全、克隆检测等四大任务的准确率/F1分数验证效果;实验中用2025年8月后新GitHub代码构建数据集避免记忆干扰,且设“无上下文”基线,证明AI是基于视觉模式识别理解代码,而非单纯记忆。
需要我帮你提取文章中四大编程任务的具体实验数据(如各模型准确率、压缩比对应性能),或整理视觉token与文字token的核心差异对比吗?