注意力机制的激活函数加速方法、装置和注意力机制电路制造方法及图纸

技术编号：33565285 阅读：13 留言：0更新日期：2022-05-26 23:03

本发明专利技术实施方式提出一种注意力机制的激活函数加速方法、装置和注意力机制电路。方法包括：输入第一向量和包含多个第二向量的第一向量组；基于注意力机制，确定所述第一向量对所述第一向量组中的每个第二向量的注意力分数；对所述注意力分数施加激活函数，所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数；基于预定的缩放因子，对施加所述激活函数的注意力分数进行缩放；输出所述缩放后的注意力分数。本发明专利技术实施方式不再采用Softmax计算注意力机制的激活函数，规避了以自然底数e为底数的、注意力分数为指数的幂运算，提高了注意力机制的运算速度，尤其适用于以硬件方式实现注意力机制。用于以硬件方式实现注意力机制。用于以硬件方式实现注意力机制。

全部详细技术资料下载

【技术实现步骤摘要】
注意力机制的激活函数加速方法、装置和注意力机制电路

[0001]本专利技术属于深度学习
，特别是涉及注意力机制的激活函数加速方法、装置和注意力机制电路。

技术介绍

[0002]注意力机制（Attention Mechanisms）可以帮助模型对输入的每个部分赋予不同的权重，抽取出更加关键及重要的信息，使模型做出更加准确的判断，同时不会对模型的计算和存储带来更大的开销。注意力机制既简单，又可以赋予模型更强的辨别能力，还可以用于解释神经网络模型（例如机器翻译中输入和输出文字对齐、图像释义中文字和图像不同区域的关联程度）等。
[0003]目前深度学习神经网络结构中，一般均包含注意力机制，比如Seq2Seq模型中的注意力机制或Transformer模型中的多头注意力机制。
[0004]目前的注意力机制均需采用Softmax的激活函数，其计算方法:；其中是前级输出单元的输出，C为类别个数，为自然底数e的次幂与e的所有元素次幂之和的比值。在Softmax运算中，首先对序列中每个元素计算以自然底数e为底数的次幂，其中幂为元素值，然后再计算每个元素的计算结果与全部元素的计算结果和的占比。通过Softmax函数，可以将多分类的输出数值转换为相对概率。
[0005]然而，由于需要计算e的次幂，因此注意力机制的激活函数具有速度较慢的缺点。尤其是，如果期望将具有Softmax的网络结构以硬件实现（比如，在边缘端产品中实现）将具有难度。这是因为：以硬件方式确定e的次幂时，一般是靠查表方法实现，具有功耗大和成本高的...

【技术保护点】

【技术特征摘要】
1.一种注意力机制的激活函数加速方法，其特征在于，该方法包括：输入第一向量和包含多个第二向量的第一向量组；基于注意力机制，确定所述第一向量对所述第一向量组中的每个第二向量的注意力分数；对所述注意力分数施加激活函数，所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数；基于预定的缩放因子，对施加所述激活函数的注意力分数进行缩放；输出所述缩放后的注意力分数。2.根据权利要求1所述的注意力机制的激活函数加速方法，其特征在于，还包括：基于所述缩放后的注意力分数和所述第一向量组中的每个第二向量，确定第一向量对第一向量组的兴趣特征向量。3.根据权利要求1所述的注意力机制的激活函数加速方法，其特征在于，所述激活函数包括线性整流函数或基于线性整流函数的变体函数。4.根据权利要求3所述的注意力机制的激活函数加速方法，其特征在于，所述基于线性整流函数的变体函数包括线性整流函数6。5.根据权利要求1
‑
4中任一项所述的注意力机制的激活函数加速方法，其特征在于，所述缩放因子等于所述第一向量组中的第二向量的数目。6.一种注意力机制的激活函数加速装置，其特征在于，包括：输入模块，用于输入第一向量和包含多个第二向量的第一向量组；第一确定模块，用于基于注意力机制，确定所述第一向量对所述第一向量组中的每个第二向量的注意力分数；施加模块，用于对所述注意力分数施加激活函数，所述激活函数适配于将所述注意力分数中的负值转变为零且正值保持为正数；缩放模块，用于基于预定的缩放因子，对施加所述激活函数的注意力分数进行缩放；输出模块，用于输出所述缩放后的注意力分数。7.根据权利要求6所述的注意力机制的激活函数加速装置，其特征在于，还包括：注意力计算模块，用于基于所述缩放后的注意力分...

【专利技术属性】
技术研发人员：钟雨崎，艾国，杨作兴，房汝明，向志宏，
申请(专利权)人：深圳比特微电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人