这里我就不是特别理解了,就是说, MoE 的模型其实参数量是远远小于稠密模型的,是不是说参数量小的话?长上下文就没有意义了?还是说这个是全文逻辑连贯不容易断片,是稠密模型的特点?还是说就说这一段我不是很理解它的逻辑。是很更难训练呢?还是更容易训练?你之前讲说 Anthropic 这个,就 Claude 这个模型,它更连续更连贯不容易断片让人感觉说就是模型参数越多它的上下文越长因为不是或者这么说吧,它的超级参数这个当初在训练模型之初选择的时候,是一种主动选择还是一种被动选择?意思就说,被动选择是因为说最后做出来不得已,所以只能选择这样的结果,效果不好只能这样。主动选择是说我当初就要这么做,而且能做成。
那我的问题是, AI for Science 这个专业,它到底是一个什么样的专业呢?它的名字是很令人难以理解的,他到底是研究什么的?就说我不是很理解他的这个 AI for Science 这个专业,因为这是非常新的专业嘛。他应该怎样去做?就像他讲的,他的导师都不是这个专业的,因为他是一个全新的。这一点也是令人比较感兴趣的,你解释一下吧。另外他提到说 claude C L A U D E 这个公司我本来以为它只是做编程的,它的模型究竟是怎样子的?就是说跟 OpenAI 这种公司比,它的模型是自己研发,但是它的模型是怎样,就是说又成为了一个 AI for Science 进行能够给它启迪的。就是我不理解它这个模型到底是什么样的模型叫做专门给编程用的,但是它又是一个能够给 AI for Science 能够给它这么强烈的这个引领作用。就说意思说编程的模型是不是更强?在科学领域更有用?还是怎么样?