我对于他的这个发现,图像压缩到 1/8 时,仅用 12.5% 的计算资源,模型仍能保持原有理解能力。所以我对这个测试完全不能理解。他使用 GPT 5 作为这个测试,那么 GPT 5,你就只能用它的 API, 就是说它多模态的这种模型的 API 功能。从你的描述,我的理解就是说这个团队,他把这个就是同一个标准的这个代码的图像进行了压缩,然后就是说去对比完成这个任务的这个能力。那完成这个任务能力完全就是基于说 GPT 5 去完成这个代码缩进呢,代码这个代码补全的这个能力。就比如说给他一篇这个那个代码的这个图片,要求他把这个做 code completion 的这个工作,是不是?那当然 GPT 5 它原本就是训练,有去训练出来这个,就是它是个 decoder 嘛,它是个 G, 这个 transformer 嘛,所以它会去完成这个工作。然后你现在把这个要完成的这个工作的这个这个代码图片压缩了,就是原来的 1/8,也就是变成原来的 12.5%。哎,模型还能够达到原来的同样的工作。这个说明了什么呢?这我就说,他们用这个压缩了 1/8,也就是原来的 12.5%,能够达到同样的效果。只能说明 GPT 5 的多模态它的那个识别率是有很大的冗余空间,就意思就是说它把原来的这个这个高清的这个这个识识别率其实是有冗余的,它根本不需要那么高清了。你给我压缩到原来的 12.5%,我一样能认得出来这个代码。这个能说明它的计算资源是原来的 12.5% 吗?你确实是说输入的数据量是达到原来的 12.5%,但是计算资源是原来的 12.5% 吗?这个逻辑完全不能这么讲吧?你只是输入数据是原来的 1/8,但是也许他为了去解压缩,或者说识别的时候,他花了更多的能力资资源也难说啊,不一定啊。当当然理论上不可能,但是看起来不可能,但是你能说它计算资源就少了 10%,就变成原来的 12.5% 吗?不能这么讲吧,那它里面怎么做的?它也许还说更土一点,它也许里面有个容错机制,需需要,就是普通通信都是这样,我进行了压缩,结果传输过程中,它能够保持这个什么信,这个准确的信息送达。其实有可能是因因为纠错机制造成的。就比如说举一个例子,就 RAID 5,它那个数据能够去纠错,那能够说保持,那是有代价的。它那个出错了以后,是用那个 RAID 的这个原理去,用第三块那个硬盘的数据进行校验去纠错,那付出了更多的这个计算资源,达到了同样的计算的准确率。你能说它耗费的计算资源就是原来的 12.5% 吗?那不是啊,它是用更多的冗余在内部去做,达到了同样的,你外部是这个这个输入数据量是原来的 1/8,可是它内部说不定做了冗余校验,那为了补全它耗耗费了更多的计算资源。不能这么讲,说你的输入数据是原来的 12.5,就是计计算资源就是原来的 12.5%。也许花了比原来 100% 的计算资源更多呢,是不是?你仅仅是输入数据降到原来的 1/8,就是 12.5%。所以这个逻辑就有问题啊。
3. 对比测试与结果验证:一方面将“代码图像”输入模型,记录不同压缩比、不同渲染风格下模型完成任务的准确率和计算资源消耗;另一方面和传统“代码文本输入”的方式做对照。最终发现,图像压缩到1/8时仅用12.5%的计算资源,模型仍能保持原有理解能力,且语法高亮等视觉增强方式还能进一步提升效率。