Meta 多 token 注意力机制介绍

保存时间:2026/3/29 21:29:24


Meta 多 token 注意力机制介绍
内容由豆包 AI 生成
近日,美国meta公司。即原脸书公司,发表论文,提出了多token注意力机制的人工智能理论,这个新的发明极大的减少了transformer架构的错误。 你有没有这方面的论文?以及这个。是什么意思?解释一下。
Meta 公司提出的多 token 注意力机制(Multi - Token Attention,MTA)的相关论文为《Multi - Token Attention》,论文链接是https://arxiv.org/abs/2504.00927
以下是对多 token 注意力机制的解释:
  • 传统注意力机制的局限:标准多头注意力使用点积比较查询向量与键向量的相似性,每个注意力权重只取决于单个关键字和查询向量。这导致在处理需要综合多个 token 信息的任务时表现不佳,如查找同时提到 “Alice” 和 “Rabbit” 的句子,传统机制难以有效整合多个单独的注意力信号。
  • MTA 的工作原理:MTA 通过对注意力权重进行卷积运算来实现,该运算在键、查询和注意力头三个维度上运行。它包含键 - 查询卷积和头混合卷积两个重要部分。键 - 查询卷积用于在头部内组合多个键和查询,头混合卷积则用于在头之间共享知识并放大重要信息。
  • MTA 的效果:研究者通过实验发现,MTA 在验证复杂度和标准基准任务方面都有所改进,而参数数量只增加了 0.001%。同时,在长语境任务上,MTA 的表现明显优于基线,能够更有效地处理长序列数据和复杂的语言依赖关系。
相关视频
参考 10 篇资料
它的这个工作原理,其实是,是不是说在训练过程中,还是说这个仅仅是推理的时候的改进。我的意思是说,他的这个做法是否是说所有的大模型都可以适用呢?比如说 Deepseek 它在训练的方法是怎么样,我们是不知道的。那么 Meta 公司的这个多 token 注意力机制是否就可可以去适用到这个 Deepseek 的这个开源的大模型上呢?
Meta 的多 token 注意力机制(MTA)主要是在训练过程中发挥作用,通过对注意力权重进行卷积运算,改变传统注意力的计算方式,让模型在训练时能更好地整合多个 token 信号,提升对上下文信息的理解能力。
从理论上来说,MTA 具有一定的通用性,有可能适用于各种基于 Transformer 架构的大模型,因为它是对 Transformer 的注意力机制进行改进,而大多数现代大模型都采用了 Transformer 架构。
对于 Deepseek 的开源大模型,虽然其具体训练方法未知,但如果它是基于 Transformer 架构的,那么从原理上讲,Meta 的多 token 注意力机制是可以尝试应用的。不过,实际应用中可能会面临一些问题,比如模型参数的兼容性、不同模型对数据处理方式的差异等,需要进行大量的实验和调整才能确定是否能真正提升 Deepseek 模型的性能。
相关视频
那么它的这个性能提升的数据是怎样子的?它是基于哪一个开源的模型,有做实验吗?
根据 36 氪的报道,Meta 团队的实验结果显示,多 token 注意力机制(MTA)有以下性能提升表现:
  • 简单任务:在寻找包含特定字母的目标块任务中,传统 Transformer 错误率极高,而 MTA 几乎以零错误率完成任务。
  • 语言建模:训练 880m 参数的模型,在 Slimpajama 数据集上用 Lingua 框架训练,与传统 Transformer 模型、差分 Transformer(DiffTransformer)相比,MTA 模型在各个验证数据集上的验证困惑度表现更好,在 BoolQ、PiQA 等基准测试中平均得分更高。
  • 长文本处理:将上下文长度从 2048 增加到 4096 进行长上下文微调后,MTA 模型在困惑度评估中比基线模型好很多;在 Lambada 任务中,MTA 模型预测下一个单词时能更好地利用上下文信息,预测更准确。
  • 长距离依赖任务:在 “大海捞针” 和 Babilong 等长距离依赖任务中,MTA 模型表现出色,在 2k 或 4k 的上下文窗口中,准确率都有显著提升,在 QA1-5 任务中,面对很多干扰文本也能保持较高准确率。
文中未提及 MTA 是基于哪个开源模型进行的实验。目前没有公开信息显示其基于特定开源模型开展实验,可能是 Meta 团队基于自有模型架构进行的研究。
那他有没有给出这个实现的代码?就比如说我现在如果要用拉玛点 cpp 来实现的话,这个是否有现成的实现的代码?
截至 2025 年 4 月,Meta 公司提出的多 token 注意力机制相关论文虽已发表,但可能没有公开直接可用的用拉玛点 cpp 实现的现成代码。
你可以在论文链接中查看是否有相关代码线索,或者到 Meta 公司的官方研究网站、开源代码库如 GitHub 等平台上搜索,看是否能找到与该机制实现相关的代码资源。不过即使有代码,也可能不是直接用拉玛点 cpp 实现的,需要根据具体情况进行转换和调整。
性能提升对比
模型训练参数