OpenAI 训练稀疏模型时并非通过冻结部分层实现,核心是在训练全程强制控制权重的 “稀疏性”—— 让模型绝大多数权重保持为 0,仅保留极少量非零连接用于计算,以此替代稠密模型中全连接的混乱状态。
具体实现方式主要分两步:
- 训练中强制稀疏:不同于 “先训练稠密模型再剪枝”,OpenAI 从训练开始就规定每个权重矩阵只能保留固定数量的非零值。模型每轮计算后,会通过 “投影” 操作将除最大 k 个权重外的其余值全部归零,确保连接始终极少,从源头避免冗余和功能混叠。
- 让关键电路显形:在模型的残差通道、注意力模块等位置加入 “门控(gate)” 结构。训练中模型会自然激活完成任务必需的门控,未激活的门控对应的连接则可被剔除,最终留下的就是完成任务的最小 “计算电路”,实现行为与结构的对应。
简单来说,它不是 “冻结层”,而是通过控制权重非零数量和门控筛选关键路径,让模型被迫在 “少而精” 的连接中工作,从而显露出可追踪的内部逻辑。需要我帮你整理这份训练逻辑的简化流程图吗?