我觉得这个自回归架构是因为你训练的时候是掩码是把这个叫做除了当前这个 token 其他的都遮掩住啊不是反过来只把当前这个 token 遮掩住就说所有的上下文其他的 token 都是让你看的而只遮掩最后一个 token 所以你就是自回归就一个一个产生了但是你你训练的过程中其实你知道人的想法是不是一个字一个字说话的是最起码两三个字或者说是一小段话甚至于说更长的时候是有的人思路录好的话它甚至于是一整句一整段意思它都已经想好了那如果你训练过程中就是按照这个模式去我这个掩码这个这个叫什么多掩一点不就好了吗我们之前讨论如果是记忆模型的话它是随机去遮掩 15 20% 的 token 难道你这个产生的时候你训练的时候不能够说多遮解多遮掩几个吗甚至于我说你都可以先在一个一个 token 掩码的基础上回过头来再去训练它就说一句话一个掩码然后看它能不能产生整句话整句话的产生那你训练就决决定了你的这个叫做什么推理过程嘛如果你能够训练说这个模型能够说一句话一句话的产生那不就行了吗你上下文连贯的话最起码你一开始可以两个 token 或者像中文实际上是很明显的就比如说就比如说这个很多人口头语就比如说这个你难道说要每次说把这个就比如说这个我已经习惯了口头语把它拆开来一个字一个字的去去输出吗很多这个时候是就比如说这是把它当做说是一个个整个的一个最小语语料单元吧就是很多人都有这种口头语啊习惯的他一说就直接是两三个 token 一起蹦出来了拆开来没有意义啊你训练过程中完全可以抓住这些东西完全可以叫做也可以叫 Speculative 的这种就 Masking 嘛是吧你可以训练过程中把多个 token 全部做掩码然后看它能不能一起产生嘛是不是这样如果你能训练的话就能推理啊
所以的话,如果要沿用当前的 Transformer 这个架构的话,就是一个 vector 一个 vector 产生的话,那就只能是怎么样?一个 vector 产生的,它不是一个 token,而是一个可以扩展的意思。这个意思其实是可以是多个 token,甚至是一句话的这样一个意思。因为我们现在已经可以做到说把多个向量融合成一个向量,意思就是说把多个 token 进行融合成一个语义向量。那它就包含了这一句话里面每个 token 都含在里面了。那现在等于是反向做拆解。就是举我举个例子就很清楚了。一个人讲话很快,他很快是什么意思呢?他想的时候,他是一一句话一句话的讲。就说你你现在可以说有一个人,他脑子想的非常快,他是一句话就把一句话压缩成一个字去讲出来,然后你需要把这一个字再拆解出来。这个,甚至于可以用一个不太恰当的比喻。这个人讲的都是古文,古文实际上是,就是一个字,就是一个字,它有中文去解释的话,要好几个字解释。就说古代的汉语,它跟现在的汉语等于是两种不同的语言。用白话文去解释的话,原来的古汉语非常精炼,就一个汉字就代表好几个意思。好几个词就等于是经过了压缩。所以它讲的是古文。那么要一个小模型去把它古文翻译出来,就是这么一个意思。