adtop
首页 财经 查看内容

注意力机制作用被高估了?苹果等机构新研究:把注意力矩阵替换成常数矩阵后,

2022-11-23 11:57| 发布者: 牧晓| 查看: 82908| 评论: 0|来自: IT之家  阅读量:13126   

摘要:要说《变形金刚》的核心亮点,当然是注意力机制。 可是现在,一项新的研究突然提出了一个有些爆炸性的观点: 注意机制对于预训练变形金刚有多重要,需要打个问号。 来自希伯来大学,艾伦人工智能研究所,苹果公司和华盛顿大学的...

要说《变形金刚》的核心亮点,当然是注意力机制。

可是现在,一项新的研究突然提出了一个有些爆炸性的观点:

注意机制对于预训练变形金刚有多重要,需要打个问号。

来自希伯来大学,艾伦人工智能研究所,苹果公司和华盛顿大学的研究人员提出了一种新的方法来衡量预训练变压器模型中注意力机制的重要性。

结果表明,即使去掉注意机制,某些变压器的性能变化也不大,甚至与原模型相差不到十分之一!

这个结论让很多人惊讶,也有网友调侃:

你亵渎了这个领域的神!

那么,如何判断注意机制对变形金刚模型的重要性呢。

把注意力转向一个常数矩阵。

这种新的测试方法叫做PAPA,全称是预训练语言模型注意机制的检测与分析。

PAPA采用的方法是将预训练语言模型中依赖输入的注意矩阵替换为常数矩阵。

如下图所示,我们熟悉的关注机制是通过Q和K矩阵计算关注权重,然后作用于V,得到整体权重和输出。

现在,Q和K的部分直接用常数矩阵C代替:

常数矩阵c计算如下:

然后用6个下游任务对这些模型进行测试,比较PAPA前后模型的性能差距。

为了更好地检验注意机制的重要性,模型的注意矩阵并不是一次性完全用一个常数矩阵代替,而是逐渐减少注意头的数量。

如下图所示,研究中使用了BERT—BASE,RoBERTa—BASE和DeBERTa—BASE,其中Y轴代表性能,X轴代表与原始相比注意力头的下降:

然后,将BERT—LARGE,RoBERTa—LARGE和DeBERTa—LARGE用作实验:

通过对比结果,研究人员发现了一些有趣的现象:

首先,用常数矩阵代替一半的注意力矩阵对模型的性能影响不大,甚至在某些情况下可能会导致性能的提高。

其次,即使关注头数减少到零,平均性能也会下降8%,与原模型相比不超过20%。

人们认为,这一现象表明,预训练语言模型并不那么依赖于注意机制。

模型的性能越好,就越依赖于注意机制。

可是,即使在预先训练的变压器模型中,性能也不完全相同。

如下图所示,其中Y轴代表每个模型的平均性能,X轴代表当所有关注矩阵替换为常数矩阵时模型性能的相对降低分数:

可以看出,以前的模型性能越好,用常数矩阵代替注意力矩阵的损失就越高。

这说明模型本身的性能越好,利用注意机制的能力就越强。

对于这个研究,有网友觉得很棒:

听起来很酷现在很多架构过于关注各种计算和性能任务,却忽略了是什么改变了模型

但也有网友认为,单纯从数据上无法判断架构变化是否重要。

例如,在某些情况下,注意机制带来的隐藏空间中数据点的振幅变化仅为2—3%:

这种情况下还不够重要吗不一定

如何看待《变形金刚》中注意力机制的重要性。

论文地址:

参考链接:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

分享至:
| 收藏

相关

  • 邮储银行获准首批开办个人养老金业务积极助力健全养老保障体系
  • 日前,根据中国银监会发布的通知,中国邮政储蓄银行获准首批开办个人养老金业务同日,中国证监会发布首批个人养老基金销售机构名单,邮储银行位列其中最近几天,邮储银行将正式推出个人养老金业务,在政策要求的第一批领域为符合条件的客...
  • 企业家在线 发布于  2022-11-23 09:52  
  • EvercoreISI:美股尚未反映美国铁路可能发生的破坏性罢工
  • ZhicaijingAPP了解到,EvercoreISI分析师乔纳森·沙佩尔警告称,美股表现得好像不可能发生罢工,但可能性不是零根据与铁路运输关系最密切的股票的表现,投资者现在预计这个问题将在不罢工的情况下得到解决该行的...
  • 企业家在线 发布于  2022-11-23 09:08  
  • 深圳东部华侨城将迎全面改造升级
  • 深圳东部华侨城是中国首个集休闲度假,观光旅游,户外运动,科普教育,生态探险为一体的大型综合性国家生态旅游示范区自2007年开园以来,景区即将开始新一轮的全面改造提升根据消息显示,盐田区相关部门已将东部华侨城整体改造提升作...
  • 企业家在线 发布于  2022-11-22 13:38  

企业家在线© 2012-   X3.4