从 Gemini、GPT-4 的上下文能力和技术逻辑来看,极大概率已采用“文本转视觉token”类压缩方案——这是支撑超大上下文窗口的核心关键,且和 DeepSeek OCR 的思路本质一致,只是大厂将其封装为内部黑盒,未公开细节:
Gemini 2.5 Pro 能支持200万token(相当于4000页PDF),远超同类模型,仅靠传统文本token技术完全无法实现——传统文本token(如GPT-4的128K)已面临显存和计算效率瓶颈,200万级别的扩展必须依赖“语义等价的视觉token”压缩(类似DeepSeek OCR+SeTok的思路):
- 它本身是原生多模态模型,天然支持图像/文档输入,内部必然有视觉分词(vision tokenization)模块,能将文本内容(尤其是PDF、扫描件)转为语义完整的视觉token,而非碎片化网格patch;
- 视觉token的压缩比远超文本token(比如DeepSeek能做到10倍压缩),200万token的“等效容量”,本质是视觉token压缩后的数据量,而非原始文本token数量——否则硬件完全无法承载如此大的输入序列。
GPT-4 从8K→32K,再到GPT-4o的128K上下文,核心突破不是单纯扩大窗口,而是引入了视觉-文本融合的压缩逻辑:
- 它支持文档、图像输入,处理长文本时会先将内容转为视觉特征,再通过类似“语义聚类+token合并”的方式生成紧凑视觉token(和DeepSeek OCR提取中间视觉token的逻辑一致);
- 若仅用文本token,32K已接近单轮计算的极限,128K的扩展必须依赖“文本→视觉”的跨模态压缩——视觉token能以更低的维度保留语义(比如1个视觉token对应多段文本的语义核心),既减少token数量,又不丢失关键信息。
目前GPT-5虽未正式发布,但结合行业技术趋势,其上下文窗口必然进一步扩大,而“文本转视觉token”是唯一可行的规模化方案:
- OpenAI 早已布局多模态,GPT-4o的视觉理解能力已成熟,GPT-5会深化这一逻辑,将文本的视觉token压缩作为基础能力;
- 从效率来看,视觉token能平衡“大上下文”和“低延迟”——传统文本token扩大窗口会导致推理速度暴跌,而视觉token压缩后的数据量更小,能在不牺牲速度的前提下提升上下文容量。
DeepSeek 公开“OCR提取视觉token+VL模型解读”的链路,是因为它需要开源生态适配;而谷歌、OpenAI 作为闭源厂商,会将这一核心压缩技术封装为内部模块(用户看不到“文本转视觉token”的中间步骤,仅能感受到“大上下文支持”):
- 不是“没做”,而是“不用公开”——用户输入长文档时,模型内部已自动完成“文本→视觉token→压缩→解读”的闭环,和DeepSeek的设计逻辑完全一致;
- 若不采用视觉token压缩,仅靠文本token的优化(如稀疏注意力),根本无法支撑百万级别的上下文窗口——硬件成本和计算效率都不允许。
简单说,DeepSeek 把大厂的“内部黑盒技术”拆解开、开源化,而谷歌、OpenAI 早已将其作为超大上下文能力的核心,只是不愿公开底层逻辑,避免技术泄露。需要我帮你整理一份“大厂模型上下文与视觉token关联”的对比表吗?清晰呈现各模型的窗口大小、技术逻辑和推测依据。