那这里它这个权重矩阵的谱范数大于一,它就会这种就是链式反应,就指数级增长。那我我们为什么不像那个梁文锋的那个论文 M H C 那样去在超连接,你都可以去把,把这个每一个,呃这个每一层的这个这个权重都给它进行呃范数归一化,就是让它调整成一,这样就不会造成这种爆炸了。那能不能把这个每一集的这个权重矩阵他的范数都去进行调整,按照那个梁文峰那篇论文里面 mhc 那种调整方式,就是 ww 二这样一直调整,让它每一层的权重矩阵都是一个,它的普泛数都等于一,这样行不行呢?
那么我想问你,这个每一层的这个向量,这个比如说 2048 维这个向量,它代表的是什么?它代表的是一个绝对值,它的绝对值有意义吗?就说它的这个模有意义吗?我们比如说现在 FFN 这是对齐这个叫做一个 embedding 的向量的宽度。实际上它是对于每一个引完 embedding 的这个 token 进行这个线性变换,当然还有非线性变换。但它实际上是表达的是说我这一个字,一个 token,它的这一,一个向量。但是这一个 token 它跟另外一个 token 其实没有什么绝对值上的关系,其实只有这个向量本身的方向是有意义的,它的绝对值实际上我们其实是不关心的,或者说它的模我们是不关心的吧?就最后计算起来,每一个 token 跟其他 token 的这个模是否也有关系呢?它还是一个相对的关系。只要能保持它们相对的关系就可以了。