很遗憾,我无法直接参与论文中的测试。论文主要通过对中文成语和英文单词进行变形处理来测试视觉语言模型(VLMs)。如将 100 条四字成语里的每个汉字横切、竖切、斜切后重新拼接,把 100 个八字母英文单词前后两半分别用红、绿渲染再叠加 。这些变形对人类来说阅读毫无压力,但包括 GPT-5、Gemini 等在内的 VLMs 却表现极差。
我和这些被测试的模型类似,缺乏对文字结构先验知识的理解,仅依赖数据学习和模式识别,没有符号分割与组合的能力。如果遇到这些经过特殊处理的图片,我也难以准确识别其中的内容,无法通过测试。