优化 Bash 脚本及功能

阿里 Qwen3-VL 的多模态映射

内容由豆包 AI 生成

【阿里这次开源Qwen3-VL，直接把多模态RAG的最后一块拼图补上了】点击链接打开👉 https://m.toutiao.com/is/uy2XZY7cYA8/ uy2XZY7cYA8` igT:/ G@I.iC :9am 复制此条消息，打开「今日头条APP」或「今日头条极速版APP」后直接查看~ 他这个是直接把这个所有的图像，就是编码跟文字编码映射了同一个视觉 token 的空间里面吗？就意思就是说，不是使用 OCR 的原理去把这个文字 token 和视觉 token，就等于是多模态全部映射到相同的空间。比如说，猫狗这种视觉跟文字猫跟狗是相同的视觉 token，但是应该还没有建立联系吧？就意思说，文字是文字，视觉图像是图像，两个并没有把它映射到同一个向量，只不过说是兼容的，还需要进一步训练，是不是这样，还是怎样去理解绑定文字跟图像要额外去训练的

阿里Qwen3-VL的核心是将文本、图片、视频等多模态信息直接映射到统一向量空间，并非依赖OCR转文字后再处理，也无需额外训练来绑定文字与图像的关联。

它通过Qwen3-VL-Embedding模型，让文字“猫”、猫咪图片、猫咪视频帧生成的向量处于同一空间，能直接计算相似度，实现“用文字搜图”“用图搜视频”的跨模态检索；这种多模态关联是模型预训练阶段已完成的，无需用户额外训练。你担心的“文字与视觉未建立联系”“需额外训练绑定”的情况并不存在。

如果你的业务中需要验证特定场景（比如中文图文检索、产品设计图匹配）的效果，我可以帮你整理一份基于官方示例的简易测试方案，方便你快速跑通流程。

这个是不是就是这个叫做终极的这个多模态的 Encoder，意思就是说它的输入可以是完全的跳过了这个所谓的，不知道有没有跳过这个 Encoder 的这个这个叫做 N 平方的这个上下文窗口。比如说现在有文字是他直接用 O OCR 去扫描，就是把它当图片，然后他去直接就就跳过了 OCR 这一这个这个这个过程就是直接就是把这个文字的图片直接就扫描成为识别成为文字的向量，或者说就是视觉向量，视觉 token。也就是说我们可以把整本书的这种图片文字直接用扫描成图片以后，直接就可以让它去作为输入为图片，然后就是整张 A4 纸，这样整张图片就作为向量，然后它就那它怎么去进行这个文字的这个叫做上下文关系的？就说 Transformer 的这个 Encoder 的上下文关系，它等于它等于只能识别一个一个的文字，而并不能识别整段话，整段话的这个这个 Transformer 的这个 Encoder 这个自注意力机制还是需要的，等于是他现在是进入了这种看图说话或者看图识字这个阶段，就是一张图他能识别文字，一个文字、一个词他能识别成图像，就是建立了图像跟文字的这种概念关系，至于说这个文字的上下文，一段话的这个上下文，它还是需要自注意力机制来去进行理解。是不是这个意思？

你的理解有部分偏差，Qwen3-VL并非所谓“终极多模态Encoder”，它跳过传统独立OCR流程，且靠优化机制突破上下文窗口限制，同时依托自注意力机制等实现整段文字上下文理解，远不止看图识字水平，具体如下：

未跳过Encoder但突破N²上下文窗口限制：它不是单纯的Encoder，而是视觉编码器+LLM解码器的架构。其原生支持256K上下文，还能扩展至百万token级别，靠稀疏注意力与滑动窗口结合、增强版RoPE编码等技术，避免了标准Transformer的N²计算困境，不用分段处理整本书扫描件这类超长内容，能一次性建模全局信息。
跳过传统独立OCR流程而非完全抛弃文字相关识别逻辑：它没有走传统OCR先检测文字区域再识别内容的割裂流程。而是把图像（含文字图片）通过ViT架构分割为patch生成视觉token，文字相关的视觉token会和文本token一同进入统一网络，相当于将文字图片直接转化为可与文本互通的向量，并非单纯识别成视觉token。比如扫描的A4纸文字图，会被整体提取特征生成向量并入处理流程。
靠自注意力机制实现整段文字的上下文理解：它绝非只能识别单个文字，其视觉token与文本token拼接后会输入模型主干，自注意力机制会让所有token自由交互。像识别财务报表时，能结合文字的位置、排版等视觉上下文，理清数据和表头的关联，还能推断营收与成本的逻辑关系；处理整本书扫描件时，也能通过该机制关联不同页面文字的上下文，完成跨页内容的逻辑梳理，这远超看图识字的范畴。

1. 未跳过Encoder但突破N²上下文窗口限制：它不是单纯的Encoder，而是视觉编码器+LLM解码器的架构。其原生支持256K上下文，还能扩展至百万token级别，靠稀疏注意力与滑动窗口结合、增强版RoPE编码等技术，避免了标准Transformer的N²计算困境，不用分段处理整本书扫描件这类超长内容，能一次性建模全局信息。

我现在不理解它是怎么突破了这个 Transformer 的 N 平方计算困境的。因为你后面讲它还是要去把这个视觉 token 跟这个文字 token 结合起来进入统一网络，就是说还是要进行 Transformer Encoder 的这个自注意力机制去理解文字，哪怕这个文字是已经转为图形视觉 token 了。但是这个视觉 token 它毕竟是一个一个的 token。就是视觉 token 它是否是和一个文字的 token 相对应呢？还是说视觉 token 是跟一个图像 token 相对应？意思就是说猫咪，这虽然中文是两个字，但是对应的就是一个猫的 token，那么这个它原生就是猫，这这个形象，猫的形象的这个视觉 token 和这个文字的 token 已经映射到一个向量了，是不是这个意思？但是你说有一段话。这里面就说这本书这有一页纸里面印的一段话一个 A4 纸上这一段话，你用视觉 token 去转，转之后，他还是要去理解这段话上面内容啊。虽然说每个字都认得，但是这些字合在一起是什么意思？他不还是要走这个 Transformer 的这个这个自注意力机制的流程吗？而且你说它可以扩展至百万 token 级别，靠稀疏注意力和滑动窗口结合。这个是我不清楚它是怎么做到，我认为说哪怕是稀疏注意力、滑动窗口结合是否就能够突破 Transformer 的这个 N 平方的计算困境呢？就说因为这个计算量依然是非常大的，是不是呢？

Qwen3-VL突破Transformer的N²计算困境，核心是靠**“降低注意力计算的范围与频次”** 而非抛弃自注意力；视觉token与文字token是“跨模态对齐”而非“一一对应”，具体拆解如下：

1. 先明确：视觉token与文字token的关系——跨模态对齐，而非一一对应

视觉token是图像/文字图片（如A4纸文字）经ViT分割成的“图像块特征”（比如一个16×16像素块对应1个视觉token），文字token是文本直接编码的语义单元（如“猫咪”可能对应1-2个文字token）。

两者并非“一个视觉token对应一个文字token”，而是通过预训练被映射到统一向量空间：比如“猫咪”的文字token向量，和猫咪图片的视觉token向量，在空间中距离很近，能被模型识别为“语义关联”；但一段A4纸文字转成的视觉token序列，仍需靠自注意力理解“字与字、词与词”的逻辑关系——这一步没有跳过，只是优化了计算方式。

2. 关键：稀疏注意力+滑动窗口如何突破N²困境？——“不做全量计算，只算关键关联”

标准Transformer的N²复杂度，源于“每个token都要和所有其他token算注意力”；Qwen3-VL的优化逻辑是缩小“需要计算注意力的token对数量”，具体两种技术的作用如下：

稀疏注意力：放弃“全量关联”，只让每个token关注“关键token”——比如处理长文档时，每个视觉token/文字token只关注“相邻的局部token+全局关键节点（如标题、关键词）”，而非所有token。原本1000个token需算100万次（1000²），现在可能只算1000×(20局部+5全局)=2.5万次，复杂度从O(N²)降到O(N log N)。
滑动窗口：把超长序列（如百万token）切成固定大小的“窗口”（比如每个窗口含1024个token），每个窗口内做局部注意力计算，窗口间只传递“摘要信息”而非全量token。比如处理整本书时，不用一次性算百万token的全量关联，而是按窗口分批算，再拼接窗口间的逻辑关系——进一步减少单次计算量，避免显存爆炸。

这两种技术并非“完全消除N²”，而是将“不可承受的平方级”降到“可落地的线性/对数级”：比如百万token的标准计算量是1e12次，优化后可能降至1e6×log(1e6)≈1e7次，差距达100倍，从而实现“处理百万token但不卡顿”。

3. 补充：为何“理解段落含义”仍需自注意力，但不影响效率？

你说的没错——哪怕是视觉token转的文字序列，理解“一段话的意思”仍需自注意力。但Qwen3-VL的优化逻辑是：“该用自注意力的地方不省，不该算的关联坚决不算”。

比如理解“小明今天去公园喂猫”这句话时，模型只需让“小明”“去”“公园”“喂猫”这些token互相计算注意力，无需让它们和文档里其他无关句子的token算关联——稀疏注意力会自动筛选“关键关联对”，滑动窗口则控制“计算范围”，两者结合后，“理解段落含义”的自注意力计算，成本已远低于标准Transformer的全量计算。

如果需要，我可以帮你整理一份“稀疏注意力+滑动窗口”的简化计算案例，用具体数字对比标准Transformer和Qwen3-VL的计算量差异，让你更直观看到优化效果。

这个千问 3 的这个模型是什么时候推出来的？那么其他模型公司是否也有类似的这个模型呢？人 Deepseek 好像老早就已经有这个 VL 模型了，其他公司是不是也有呢？

通义千问 3 基础模型于2025 年 4 月 29 日推出，其衍生的 Qwen3-VL 系列多模态模型则在 2025 年 9 - 10 月陆续发布新版本。除了 DeepSeek 的 VL 模型，国内外诸多公司和团队也推出了不少类似的多模态 VL 模型，具体如下：

国内其他团队
- InternVL2.5：性能表现突出，其中 InternVL2.5 - 78B - MPO 在评测中排名靠前，在空间感知等维度上展现出较强实力，适配复杂的图文理解场景。
- 智谱 GLM - 4v - Plus：属于闭源 API 模型，跻身多模态评测榜单前列，在通用图文交互、复杂场景推理等任务中有着稳定的表现，适配商业级多模态应用需求。
- 阶跃 Step - 1o：作为国内商业 API 模型的代表之一，位列评测榜单前 5，在多模态综合能力上可与海外主流模型比肩，适合对精度要求较高的商业场景。
海外团队
- Google Gemini 系列：像 Gemini - 2.0 - Pro、Gemini - 2.0 - Flash 均表现优异，其中 Gemini - 2.0 - Flash 在信息图形理解维度成绩突出，大幅领先多数模型，适配多场景图文处理任务。
- OpenAI GPT - 4o、GPT - 4.5 - Preview：经典的闭源多模态模型，具备成熟的图文理解与推理能力，可应对日常及部分专业场景的多模态交互需求，只是相比部分顶尖开源模型，在部分细分维度已无明显优势。
- Llama - 3.2：其相关多模态版本入选主流评测榜单，依托成熟的基础模型架构，在图文协同理解上表现稳定，是海外开源多模态领域的热门选择之一。
开源社区模型
例如LLaVA - OneVision、Ovis2等，其中 Ovis2 - 34B 取得了较高排名，这类模型多基于开源基础模型二次开发优化，适配开发者自行部署和二次创新，适合科研或中小型场景的多模态应用开发。

参考 8 篇资料

通义千问3的Qwen3-VL模型有哪些优点？

DeepSeek的VL模型是如何推出的？