我对于这个回归 512 维标准架构,这个是那个 embedding 的这个 768 改成 512 是这个意思吗?然后那个 token level sparse MLA 就稀疏和稠密并行解码,并仅对关键 Token 深度计算,这个我大概理解一点,就说好像谷歌还是哪一个也是这样做,就是说等于是对这个输入的其实不是全项注意力,我我我的理解是说它这个在进行自注意力机制,它实际上是有等于是一个优化了,去把 N 平方变成近似于 Log N 或者是 N,就是等于是只对一部分注意力去进行这个注意机制,就等于是矩阵乘法,可能我我只是概念上这么理解,就稀疏注意力就不是说所有的 token 跟所有的 token 进行注意力这个计算,因为那个太笨了,而且有些 token 属于说语义稀疏型的 token,看比如说的地得啊、助词啊这些东西,当然这个要对语言等于是一个就是深度的适配吧,每种语言都不一样嘛,是吧?还有什么这个正向传播、反向传播,反向传播难道是训练吗?是训练的意思吧?前向传播是推理,是不是就是一个是训练快,一个也是推理也快,是这样吗?
这个超长上下文 128K 就算是超长上下文了吗?我的理解就是说它能够做到超长上下文,而且对这个机器的这个硬件资源占用不多的话,就是得益于它的所谓 token level,这个 spars attention 吧,就是它的那个 MLA 之类的,就是稀疏注意力的这种,就等于是把这个因为注意力这个超上下文的窗口限制其实就在于这个 N 平方这个矩阵乘法的这个这个复杂度的矩阵乘法上,因为这个上下文如果是长度 128K,那就是 128K 乘以 128K 的这样一个矩阵,这个计算量相当的大,对内存消耗极其的大,因为这个直接你要把它装到内存里面去看看,我不知道 128K 的平方是多大,大概是就算一兆,然后浮点数两个 Byte 就是是不是这么算 1K 乘啊?不,100K 乘 100K 是等于是一百万再乘以一千,再乘两两万,二十 billion 是吧?二十个二十亿啊,anyway,就是二十个 g 好像是,我搞不清楚,你大概算一下这个 128K 乘 128K 这个,它那个矩阵在内存里面需要多大?然后所以 GPT 4 O,不,那个谷歌的 Gemini 它之所以能够做到超长上下文一兆的话,你说它是对硬件依赖极其高,是不是依赖于谷歌的那些 TPU 的那种高性能高内存闪啊,高显存这种,或者池化显存等等等等,就是它从硬件上去弥补它这个资源消耗的巨大,就说其实是消耗非常大,但是谷歌的服务器它因为是 TPU 是自研的嘛,它可以有这个硬件来去补它这个,允许它消耗这么大的这个资源,是不是这样?