但是你解释的时候完全跟我说的不同,你依次依次依旧是说啊一个一个 token 去预测,这个 mask 完全没有什么意义, mask 放到那里干什么?只是提醒他说啊下面就是要进行特别的预测吗?那你有什么任何的信息量呢?你这里有任何的训练模式吗?就无辜的加入了一个特殊的 mask token, 然后还让它训练。所以你这个解释完全就没有意义的。你看到没有?你依旧说啊, mask 也是个 token, 然后预预测 mask。 预测 mask 倒是有点意思,就是说可以说是加了个特殊标志符。但是咖啡呢,还是一个字一个一个 token 一个 token 去预测。我我觉得你的理解,你你把那个原来作者的那个原文再再讲一遍,看看他原作者的那个论文是怎么写的,我们再来分析一下。
我就问你最核心的东西,你就跳过去。比如说 GLM 它用填空那个地方,那是空格那个地方,那它训练的过程中遇到空格怎么办?那训练的时候,那个遇到空格不就信息就 0 了吗?那它怎么训练?呢?就比如说小明去公园买了杯咖啡,把这个咖啡给它挖掉,然后训练的时候,那遇到这个,原本是 GPT 是一个 token 一个 token, Next token 去训练,那现在你遇到那个填空的那个 token,它是一个特殊 token,怎么办呢?那你训练到底有没有标度呢?有没有标尺呢?以什么为目标呢?难道训练出填一个空格吗?那你这最核心的地方没讲啊,这全部跳过去了,讲其他的有什么用呢?最核心的地方遇到空格,它怎么训练呢?然后问答的时候,那答案全部是空格,那答案那就是说训练的时候答案不给他看,完全让他自己填空吗?那你这训练的目的怎么达得到呢?你不给他看标准答案,他怎么能学会呢?