保存时间:2026/3/29 22:05:53
大模型自己在训练/推理时,不就已经把 raw text 映射到隐空间了吗?为什么还要额外小模型?
是不是因为 Decoder-Only 缺一个专门的 Encoder,所以才外挂小模型当 Encoder?
作者之所以提倡使用一个小模型去做这件事,是源于说当前的 Decoder Only 的 GPT 模型没有这么一个机制能够把输入文本映射到 Latent space这样一种特殊的映射,所以它又不愿意采用 Encoder Decoder 这种架构,所以必须额外去用一个小模型去做这个。
小模型和大模型在隐空间配合,是不是必须一起训练?不然不同频、不兼容?
小模型输出的表示,刚好是大模型最舒服、最适合推理的格式
它们一定是训练过程中就一起配合了,否则隐空间不同频,无法兼容。
#include、空白、废话的原始 C 代码传统预处理器是 “越处理越多”(include 把头文件全拉进来)DRIFT 小模型是 “越处理越少”(去冗余、提纯、浓缩)
DRIFT = 小模型预处理器(Reading) + 大模型编译器(Reasoning)