【技术实现步骤摘要】
【国外来华专利技术】用于使用内置注意力训练卷积神经网络的方法和系统
[0001]相关申请案交叉申请
[0002]本专利技术要求于2019年11月13日递交的、第62/934,744号专利技术名称为“用于使用内置注意力训练卷积神经网络的方法和系统”的美国临时专利申请案的在先申请优先权,并且还要求于2020年11月11日递交的、第17/095,257号专利技术名称为“用于使用内置注意力训练卷积神经网络的方法和系统”的美国专利申请案的在先申请优先权,上述申请案的全部内容通过全文引用的方式并入本文中。
[0003]本专利技术涉及一种人工神经网络,包括卷积神经网络及其训练。
技术介绍
[0004]卷积神经网络(convolutional neural network,CNN)基于使用卷积层中的卷积核执行的卷积运算。卷积核包括一组权重,并且训练CNN涉及学习整个CNN中不同权重位置的适当权重值。如果权重未经过适当训练(例如,高值权重因训练而错位),经过训练的CNN的准确度会降低。
[0005]对于深度CNN,可能有很多层,每一层可能 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于在神经网络训练期间更新所述神经网络的卷积层的一组卷积核的权重的方法,其特征在于,所述方法包括:获取所述卷积层的所述一组卷积核;通过执行以下各项中的至少一项,生成一组卷积核,所述一组卷积核具有注意力注入权重:将一组基于位置的注意力乘数应用于所述一组卷积核中的权重;或将基于大小的注意力函数应用于所述一组卷积核中的所述权重;使用所述具有注意力注入权重的一组卷积核对输入激活图执行卷积,以生成输出激活图;使用为所述神经网络计算的损失的反向传播梯度来更新所述一组卷积核中的所述注意力注入权重。2.根据权利要求1所述的方法,其特征在于,所述一组基于位置的注意力乘数被应用于所述一组卷积核中的所述权重,以获取一组位置激励权重,其中,所述基于大小的注意力函数被应用于所述一组位置激励权重。3.根据权利要求1或2所述的方法,其特征在于,还包括:在计算所述神经网络的所述损失之前,将基于通道的注意力函数应用于所述输出激活图。4.根据权利要求1至3中任一项所述的方法,其特征在于,应用所述一组基于位置的注意力乘数还包括:学习所述一组基于位置的注意力乘数。5.根据权利要求4所述的方法,其特征在于,学习所述一组基于位置的注意力乘数包括:执行平均池化,以获取每个卷积核的平均权重;通过一个或多个全连接层馈送所述卷积核的所述平均权重,以学习每个卷积核的所述注意力乘数;将所述注意力乘数扩展至每个相应卷积核中的所有权重,以获取所述一组基于位置的注意力乘数。6.根据权利要求5所述的方法,其特征在于,通过所述一个或多个全连接层馈送所述卷积核的所述平均权重包括:通过第一全连接层馈送所述卷积核的所述平均权重;将第一激活函数应用于所述第一全连接层的输出;将所述第一激活函数的输出馈送至第二全连接层;将第二激活函数应用于所述第二全连接层的输出。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述基于大小的注意力函数对较大的权重应用较多的注意力,对较小的权重应用较少的注意力。8.根据权利要求7所述的方法,其特征在于,所述基于大小的注意力函数是其中,w
m
是卷积核的权重,w
A
是应用基于大小的注意力之后的所述权重,M
A
=(1+∈
A
)*M,
M是卷积层中所有w
m
的最大值,∈
A
是具有选定小值的超参数。9.根据权利要求1至8中任一项所述的方法,其特征在于,还包括:在应用所述一组基于位置的注意力乘数或所述基于大小的注意力函数之前,对所述一组卷积核中的所述权重进行标准化。10.一种处理系统,其特征在于,包括处理设备和存储指令的存储器,所述指令在由所述处理设备执行时使所述处理系统通过以下方式在所述神经网络训练期间更新卷积神经网络的卷积层的一组卷积核的权重:获取所述卷积层的所述一组卷积核;通过执行以下各项中的至少一项,生成一组卷积核,所述一组卷积核具有注意力注入权重:将一组基于位置的注意力乘数应用于所述一组卷积核中的权重;或将基于大小的注意力函数应用于所述一组卷积核中的所述权重;使用所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。