DeepSeek 模型基于 Transformer 架构。在 Transformer 架构中,ReLU 激活函数通常出现在前馈神经网络(FFN)层中。
DeepSeek 模型的前馈神经网络层一般位于多头自注意力机制之后。在整个前向传播过程中,若以编码器 - 解码器结构来看,在编码器和解码器中,FFN 层中的 ReLU 激活函数一般处于多头自注意力机制计算后的阶段,属于对自注意力机制输出进行非线性变换的环节。
关于 ReLU 层的数量,Transformer 架构中编码器和解码器通常都有多个层,每个层中都有 FFN 层,也就都有 ReLU 激活函数。例如,如果 DeepSeek 模型的编码器有 N 层,解码器有 M 层,那么理论上就有 N + M 个 FFN 层包含 ReLU 激活函数。
在 DeepSeek 模型的解码器中,各层功能如下:
- 多头自注意力机制层:用于捕捉解码器输入序列内部不同位置之间的依赖关系。
- 编码器 - 解码器注意力机制层:主要捕捉编码器输出与解码器输入之间的关系,使得解码器在生成输出时能够利用编码器提取的源序列信息。
- 前馈神经网络层(含 ReLU):对经过注意力机制处理后的向量进行非线性变换,进一步提取特征,增强模型的表达能力。
目前没有公开的官方 DeepSeek 模型解码器可视化图,如果想了解更直观的结构,可以参考 Transformer 架构的可视化资料,其基本结构与 DeepSeek 模型类似。