注意力机制的激活函数加速方法、装置和注意力机制电路制造方法及图纸

技术编号:33565285 阅读:13 留言:0更新日期:2022-05-26 23:03
本发明专利技术实施方式提出一种注意力机制的激活函数加速方法、装置和注意力机制电路。方法包括:输入第一向量和包含多个第二向量的第一向量组;基于注意力机制,确定所述第一向量对所述第一向量组中的每个第二向量的注意力分数;对所述注意力分数施加激活函数,所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数;基于预定的缩放因子,对施加所述激活函数的注意力分数进行缩放;输出所述缩放后的注意力分数。本发明专利技术实施方式不再采用Softmax计算注意力机制的激活函数,规避了以自然底数e为底数的、注意力分数为指数的幂运算,提高了注意力机制的运算速度,尤其适用于以硬件方式实现注意力机制。用于以硬件方式实现注意力机制。用于以硬件方式实现注意力机制。

【技术实现步骤摘要】
注意力机制的激活函数加速方法、装置和注意力机制电路


[0001]本专利技术属于深度学习
,特别是涉及注意力机制的激活函数加速方法、装置和注意力机制电路。

技术介绍

[0002]注意力机制(Attention Mechanisms)可以帮助模型对输入的每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销。注意力机制既简单,又可以赋予模型更强的辨别能力,还可以用于解释神经网络模型(例如机器翻译中输入和输出文字对齐、图像释义中文字和图像不同区域的关联程度)等。
[0003]目前深度学习神经网络结构中,一般均包含注意力机制,比如Seq2Seq模型中的注意力机制或Transformer模型中的多头注意力机制。
[0004]目前的注意力机制均需采用Softmax的激活函数,其计算方法:;其中是前级输出单元的输出,C为类别个数,为自然底数e的次幂与e的所有元素次幂之和的比值。在Softmax运算中,首先对序列中每个元素计算以自然底数e为底数的次幂,其中幂为元素值,然后再计算每个元素的计算结果与全部元素的计算结果和的占比。通过Softmax函数,可以将多分类的输出数值转换为相对概率。
[0005]然而,由于需要计算e的次幂,因此注意力机制的激活函数具有速度较慢的缺点。尤其是,如果期望将具有Softmax的网络结构以硬件实现(比如,在边缘端产品中实现)将具有难度。这是因为:以硬件方式确定e的次幂时,一般是靠查表方法实现,具有功耗大和成本高的缺点。

技术实现思路

[0006]本专利技术实施方式提出一种注意力机制的激活函数加速方法、装置和注意力机制电路。
[0007]本专利技术实施方式的技术方案如下:一种注意力机制的激活函数加速方法,该方法包括:输入第一向量和包含多个第二向量的第一向量组;基于注意力机制,确定所述第一向量对所述第一向量组中的每个第二向量的注意力分数;对所述注意力分数施加激活函数,所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数;
基于预定的缩放因子,对施加所述激活函数的注意力分数进行缩放;输出所述缩放后的注意力分数。
[0008]在一个实施方式中,还包括:基于所述缩放后的注意力分数和所述第一向量组中的每个第二向量,确定第一向量对第一向量组的兴趣特征向量。
[0009]在一个实施方式中,所述激活函数包括线性整流函数或基于线性整流函数的变体函数。
[0010]在一个实施方式中,所述基于线性整流函数的变体函数包括线性整流函数6。
[0011]在一个实施方式中,所述缩放因子等于所述第一向量组中的第二向量的数目。
[0012]一种注意力机制的激活函数加速装置,包括:输入模块,用于输入第一向量和包含多个第二向量的第一向量组;第一确定模块,用于基于注意力机制,确定第一向量对包含多个第二向量的第一向量组中的每个第二向量的注意力分数;施加模块,用于对所述注意力分数施加激活函数,所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数;缩放模块,用于基于预定的缩放因子,对施加所述激活函数的注意力分数进行缩放;输出模块,用于输出所述缩放后的注意力分数。
[0013]在一个实施方式中,还包括:注意力计算模块,用于基于所述缩放后的注意力分数和所述第一向量组中的每个第二向量,确定第一向量对第一向量组的兴趣特征向量。
[0014]在一个实施方式中,所述激活函数包括线性整流函数或基于线性整流函数的变体函数。
[0015]在一个实施方式中,所述缩放因子等于所述第一向量组中的第二向量的数目。
[0016]一种注意力机制电路,包括:输入电路,用于输入第一向量和包含多个第二向量的第一向量组;第一算术逻辑单元,用于基于注意力机制,确定所述第一向量对所述第一向量组中的每个第二向量的注意力分数;激活函数电路,用于对所述注意力分数施加激活函数,所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数;缩放电路,用于基于预定的缩放因子,对施加所述激活函数的注意力分数进行缩放;第二算术逻辑单元,用于基于所述缩放后的注意力分数和所述第一向量组中的每个第二向量,确定第一向量对第一向量组的兴趣特征向量;输出电路,用于输出所述缩放后的注意力分数。
[0017]在一个实施方式中,所述激活函数电路包含数字逻辑电路基本单元,所述缩放电路包含乘法系数等于所述缩放因子的乘法器,所述乘法系数等于所述第一向量组中的第二向量的数目。
[0018]一种注意力机制的激活函数加速装置,包括:
存储器;处理器;其中所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上任一项所述的注意力机制的激活函数加速方法。
[0019]一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上任一项所述的注意力机制的激活函数加速方法。
[0020]从上述技术方案可以看出,在本专利技术实施方式中,输入第一向量和包含多个第二向量的第一向量组;基于注意力机制,确定第一向量对第一向量组中的每个第二向量的注意力分数;对注意力分数施加激活函数,激活函数适配于将注意力分数中的负值转变为零且正值保持为正数;基于预定的缩放因子,对施加激活函数的注意力分数进行缩放;输出缩放后的注意力分数。可见,本专利技术实施方式不再采用Softmax计算注意力机制的激活函数,规避了以自然底数e为底数的、注意力分数为指数的幂运算,提高了注意力机制的激活函数运算速度,尤其适用于以硬件方式实现注意力机制。
附图说明
[0021]图1为现有技术中注意力机制的硬件结构图。
[0022]图2为本专利技术实施方式的注意力机制的激活函数加速方法的流程图。
[0023]图3为本专利技术实施方式的注意力机制的第一示范性处理过程示意图。
[0024]图4为本专利技术实施方式的注意力机制的第二示范性处理过程示意图。
[0025]图5为本专利技术实施方式的注意力机制的硬件结构图。
[0026]图6为本专利技术实施方式的注意力机制的激活函数加速装置的结构图。
[0027]图7为本专利技术实施方式的具有存储器

处理器架构的、注意力机制的激活函数加速装置的示范性结构图。
具体实施方式
[0028]为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。
[0029]为了描述上的简洁和直观,下文通过描述若干代表性的实施方式来对本专利技术的方案进行阐述。实施方式中大量的细节仅用于帮助理解本专利技术的方案。但是很明显,本专利技术的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本专利技术的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据
……”
是指“至少根据
……
,但不限于仅根据
……”
。由于汉语的语言习惯,下文中没有特别指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种注意力机制的激活函数加速方法,其特征在于,该方法包括:输入第一向量和包含多个第二向量的第一向量组;基于注意力机制,确定所述第一向量对所述第一向量组中的每个第二向量的注意力分数;对所述注意力分数施加激活函数,所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数;基于预定的缩放因子,对施加所述激活函数的注意力分数进行缩放;输出所述缩放后的注意力分数。2.根据权利要求1所述的注意力机制的激活函数加速方法,其特征在于,还包括:基于所述缩放后的注意力分数和所述第一向量组中的每个第二向量,确定第一向量对第一向量组的兴趣特征向量。3.根据权利要求1所述的注意力机制的激活函数加速方法,其特征在于,所述激活函数包括线性整流函数或基于线性整流函数的变体函数。4.根据权利要求3所述的注意力机制的激活函数加速方法,其特征在于,所述基于线性整流函数的变体函数包括线性整流函数6。5.根据权利要求1

4中任一项所述的注意力机制的激活函数加速方法,其特征在于,所述缩放因子等于所述第一向量组中的第二向量的数目。6.一种注意力机制的激活函数加速装置,其特征在于,包括:输入模块,用于输入第一向量和包含多个第二向量的第一向量组;第一确定模块,用于基于注意力机制,确定所述第一向量对所述第一向量组中的每个第二向量的注意力分数;施加模块,用于对所述注意力分数施加激活函数,所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数;缩放模块,用于基于预定的缩放因子,对施加所述激活函数的注意力分数进行缩放;输出模块,用于输出所述缩放后的注意力分数。7.根据权利要求6所述的注意力机制的激活函数加速装置,其特征在于,还包括:注意力计算模块,用于基于所述缩放后的注意力分...

【专利技术属性】
技术研发人员:钟雨崎艾国杨作兴房汝明向志宏
申请(专利权)人:深圳比特微电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1