保存时间:2026/3/29 15:54:28
system {指令} user {内容}模板,末尾追加<PAD>token。<PAD>token的隐藏状态作为向量表示(类似BERT的[CLS],适配LLM的Decoder-only架构)。Query(查询)+ Document(候选文档),支持任意模态组合(如图文Query匹配视频文档)。{
"query": {
"text": "请找出包含新能源汽车充电原理的资料", // 文本查询(可选)
"images": ["https://xxx.com/car.jpg"], // 图像输入(可选,支持多张)
"videos": ["https://xxx.com/charging.mp4"], // 视频输入(可选,支持多个)
"files": ["https://xxx.com/tech.pdf"] // 文档输入(可选,支持PDF/PPT)
},
"parameters": {
"top_k": 100, // Embedding 召回数量
"need_rerank": true // 是否启用 Reranker 重排(true/false)
}
}
| 部署场景 | 输入类型(文本) | 显存占用(Int8 量化) | 单条查询耗时(CPU/ARM) | 支持的最大文本长度 |
|---|---|---|---|---|
| 边缘设备(如树莓派 4B、手机) | 512Token 内文本 | ≤512MB | 50-200ms | 4096Token |
| 云端(单 GPU) | 512Token 内文本 | ≤2GB(FP16) | 1-5ms | 4096Token |