【技术实现步骤摘要】
注意力机制的激活函数加速方法、装置和注意力机制电路
[0001]本专利技术属于深度学习
,特别是涉及注意力机制的激活函数加速方法、装置和注意力机制电路。
技术介绍
[0002]注意力机制(Attention Mechanisms)可以帮助模型对输入的每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销。注意力机制既简单,又可以赋予模型更强的辨别能力,还可以用于解释神经网络模型(例如机器翻译中输入和输出文字对齐、图像释义中文字和图像不同区域的关联程度)等。
[0003]目前深度学习神经网络结构中,一般均包含注意力机制,比如Seq2Seq模型中的注意力机制或Transformer模型中的多头注意力机制。
[0004]目前的注意力机制均需采用Softmax的激活函数,其计算方法:;其中是前级输出单元的输出,C为类别个数,为自然底数e的次幂与e的所有元素次幂之和的比值。在Softmax运算中,首先对序列中每个元素计算以自然底数e为底数的次幂,其中 ...
【技术保护点】
【技术特征摘要】
1.一种注意力机制的激活函数加速方法,其特征在于,该方法包括:输入第一向量和包含多个第二向量的第一向量组;基于注意力机制,确定所述第一向量对所述第一向量组中的每个第二向量的注意力分数;对所述注意力分数施加激活函数,所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数;基于预定的缩放因子,对施加所述激活函数的注意力分数进行缩放;输出所述缩放后的注意力分数。2.根据权利要求1所述的注意力机制的激活函数加速方法,其特征在于,还包括:基于所述缩放后的注意力分数和所述第一向量组中的每个第二向量,确定第一向量对第一向量组的兴趣特征向量。3.根据权利要求1所述的注意力机制的激活函数加速方法,其特征在于,所述激活函数包括线性整流函数或基于线性整流函数的变体函数。4.根据权利要求3所述的注意力机制的激活函数加速方法,其特征在于,所述基于线性整流函数的变体函数包括线性整流函数6。5.根据权利要求1
‑
4中任一项所述的注意力机制的激活函数加速方法,其特征在于,所述缩放因子等于所述第一向量组中的第二向量的数目。6.一种注意力机制的激活函数加速装置,其特征在于,包括:输入模块,用于输入第一向量和包含多个第二向量的第一向量组;第一确定模块,用于基于注意力机制,确定所述第一向量对所述第一向量组中的每个第二向量的注意力分数;施加模块,用于对所述注意力分数施加激活函数,所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数;缩放模块,用于基于预定的缩放因子,对施加所述激活函数的注意力分数进行缩放;输出模块,用于输出所述缩放后的注意力分数。7.根据权利要求6所述的注意力机制的激活函数加速装置,其特征在于,还包括:注意力计算模块,用于基于所述缩放后的注意力分...
【专利技术属性】
技术研发人员:钟雨崎,艾国,杨作兴,房汝明,向志宏,
申请(专利权)人:深圳比特微电子科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。