我现在不理解它是怎么突破了这个 Transformer 的 N 平方计算困境的。因为你后面讲它还是要去把这个视觉 token 跟这个文字 token 结合起来进入统一网络,就是说还是要进行 Transformer Encoder 的这个自注意力机制去理解文字,哪怕这个文字是已经转为图形视觉 token 了。但是这个视觉 token 它毕竟是一个一个的 token。就是视觉 token 它是否是和一个文字的 token 相对应呢?还是说视觉 token 是跟一个图像 token 相对应?意思就是说猫咪,这虽然中文是两个字,但是对应的就是一个猫的 token,那么这个它原生就是猫,这这个形象,猫的形象的这个视觉 token 和这个文字的 token 已经映射到一个向量了,是不是这个意思?但是你说有一段话。这里面就说这本书这有一页纸里面印的一段话一个 A4 纸上这一段话,你用视觉 token 去转,转之后,他还是要去理解这段话上面内容啊。虽然说每个字都认得,但是这些字合在一起是什么意思?他不还是要走这个 Transformer 的这个这个自注意力机制的流程吗?而且你说它可以扩展至百万 token 级别,靠稀疏注意力和滑动窗口结合。这个是我不清楚它是怎么做到,我认为说哪怕是稀疏注意力、滑动窗口结合是否就能够突破 Transformer 的这个 N 平方的计算困境呢?就说因为这个计算量依然是非常大的,是不是呢?
1. 未跳过Encoder但突破N²上下文窗口限制:它不是单纯的Encoder,而是视觉编码器+LLM解码器的架构。其原生支持256K上下文,还能扩展至百万token级别,靠稀疏注意力与滑动窗口结合、增强版RoPE编码等技术,避免了标准Transformer的N²计算困境,不用分段处理整本书扫描件这类超长内容,能一次性建模全局信息。