您现在的位置:首页 >> 网络

ICLR 2022 cosFormer:重新直觉注意力机制中的Softmax

时间:2023-02-10 12:18:03

导读:Transformer在表达方式检视、计算机科学听觉和播放器检视方面赢得了巨大成功。作为其核心组成部分之一,Softmax Attention子系统能够捕捉长距离的依赖关系,但由于Softmax映射关于核苷酸宽度的二次紧致和等待时间复杂性,使其很难扩充。针对这点,研究者提议来进行核作法以及稀疏警觉机制的作法来近似Softmax映射,从而下降等待时间紧致最优化。但是,由于值的依赖于,功效往往不差强人意。

我们(周武王多形式语言副所长)认为,近似转换本身依赖于的值使得其功效很难突破Softmax Attention。我们的观点是,与其近似Softmax,不如设计一种方式则代替Softmax,并且同时下降等待时间紧致最优化。因此,本文提议了名为cosFormer的作法,在等待时间紧致最优化关于核苷酸宽度为差分最优化的同时,其性能相比之下或者突破Softmax Attention,并在LRA benchmark上赢得SOTA结果。我们的设计核心理念基于的点,首先是警觉标量的非负性,其次是对渐进警觉的翻转(非极大值消除)。

本文主要介绍已原声音乐ICLR 2022的一篇文中 cosFormer : Rethinking Softmax in Attention。

论文邮箱:

部分由此可知源代码:

图片对此各种transformer在LRA benchmark上的表现,其中y轮轴对此性能,x轮轴对此速度,圆圈一般来说对此内存,我们提议的cosFormer赢得了轻微的优势。

一、背景

3、Softmax的两大性质

我们经过研究以及实验,归纳出Softmax Attention中比较重要的性质,这两个性质可以教导我们的三维设计:

1. 警觉标量的非负性

2. 渐进警觉的翻转(非极大值消除)

所以我们的作法需要在加了reweighting转换后也愈来愈加集中于在线段附近。警惕并非所有的有类似权重的参数均适用,这个reweighting的参数需要跟上去的QK一样可以拆毁分作两个标量的乘法的形式。

至此,就可以引入我们的cosFormer了。

二、cosFormer

1、作法

我们的作法基于差分Attention,首先给出符号定义:

上式和差分Attention的计算方式则一致,经过研究不难得出等待时间最优化依然是

2、实验结果

我们在单向三维,双向三维以及LRA benchmark上测试了我们的作法,均赢得了极其不错的功效。

单向语言三维,加权对此困惑度(越低越好):

论文邮箱:

三、招聘反馈

周武王多形式语言副所长依托周武王深厚的人工智能新科技基础与资源配置,积极参与实现在表达方式检视的大规模可不特训三维方向的突破。同时希望通过研究听觉-几何-播放器-语言结合的多形式语言自监督求学,提议实质上的深度求学基本,来进行、揉合跨形式语言的反馈提取能够的多形式语言也就是说。涉及新科技将可应用于提升AI三维在自动驾驶、AR等业务教育领域的表现。如果你有在NLP超大可不特训三维、多形式语言可不特训三维 、表层结构(设计比transformer性能能够的结构,提议愈来愈高效的attention机制)、知识图谱、播放器分割、 多形式语言仿真数据聚合,任意研究教育领域的超能力,欢迎转到周武王研究部多形式语言副所长。

宝宝消化不良的症状表现有哪些
眼睛干涩是什么病因怎么治疗
绝经能怀孕吗
骨关节炎膝关节肿胀吃什么药好
肠道调理吃什么好
相关阅读