基于注意力的模型训练方法、装置及电子设备制造方法及图纸

技术编号:33448603 阅读:28 留言:0更新日期:2022-05-19 00:33
本公开提供了一种基于注意力的模型训练方法、装置及电子设备,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于图像处理、图像检测等场景。具体实现方案为:获取神经网络模型中注意力模块的注意力输出矩阵,基于神经网络模型的池化层对所述注意力输出矩阵的样本维度和数据块维度进行降维计算,确定池化后的第一输出矩阵;基于神经网络模型的卷积层对第一输出矩阵进行卷积操作,确定卷积后的第二输出矩阵,对第二输出矩阵中各个头的输出值进行归一化处理和加权处理,获得更新后的第二输出矩阵;基于更新后的第二输出矩阵获取更新后的注意力输出矩阵,并基于所述更新后的注意力输出矩阵训练所述神经网络模型。型。型。

【技术实现步骤摘要】
基于注意力的模型训练方法、装置及电子设备


[0001]本公开涉及人工智能
,具体为深度学习、计算机视觉
,可应用于图像处理、图像检测等场景,具体涉及一种基于注意力的模型训练方法、装置及电子设备。

技术介绍

[0002]随着计算机技术的不断发展,各种神经网络模型在诸如图像、文本、语音等领域得到了广泛应用,例如卷积神经网络(Convolutional Neural Network,CNN)作为一种具有深度结构的前馈神经网络,其通过卷积计算实现特征的提取,通过网络结构的加深实现特征从局部到全局的捕获,通过增加通道的方式实现多个维度特征的叠加。目前,技术人员需要具备大量的神经网络结构设计及参数调整经验,耗费大量的硬件资源经多次更换、实验不同结构的神经网络来获得神经网络结构。

技术实现思路

[0003]本公开提供了一种基于注意力的模型训练方法、装置及电子设备。
[0004]根据本公开的第一方面,提供了一种基于注意力的模型训练方法,包括:
[0005]获取神经网络模型中注意力模块的注意力输出矩阵,所述注意力输出矩本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于注意力的模型训练方法,包括:获取神经网络模型中注意力模块的注意力输出矩阵,所述注意力输出矩阵包括头维度、样本维度和数据块维度;基于所述神经网络模型的池化层对所述注意力输出矩阵的样本维度和数据块维度进行降维计算,确定池化后的第一输出矩阵;基于所述神经网络模型的卷积层对所述第一输出矩阵进行卷积操作,确定卷积后的第二输出矩阵,并获取所述第二输出矩阵中各个头的输出值;对所述第二输出矩阵中各个头的输出值进行归一化处理和加权处理,获得更新后的第二输出矩阵;基于所述更新后的第二输出矩阵获取更新后的注意力输出矩阵,并基于所述更新后的注意力输出矩阵训练所述神经网络模型。2.根据权利要求1所述的方法,其中,所述池化后的第一输出矩阵中的样本维度和数据块维度均为1。3.根据权利要求1所述的方法,其中,所述基于所述神经网络模型的卷积层对所述第一输出矩阵进行卷积操作,确定卷积后的第二输出矩阵,并获取所述第二输出矩阵中各个头的输出值,包括:基于所述神经网络模型的卷积层对所述第一输出矩阵中各个头的输出值进行交互学习以实现卷积操作,确定卷积后的第二输出矩阵,并获取所述第二输出矩阵中各个头的输出值;其中,所述第二输出矩阵中目标头的输出值为所述第一输出矩阵中对应的所述目标头的输出值经交互学习后得到的输出值,所述目标头为所述第二输出矩阵中任一个头。4.根据权利要求1所述的方法,其中,所述对所述第二输出矩阵中各个头的输出值进行归一化处理和加权处理,获得更新后的第二输出矩阵,包括:对所述第二输出矩阵中各个头的输出值进行归一化处理,获得所述第二输出矩阵中各个头的权重值;基于所述第二输出矩阵中目标头的权重值对所述目标头的输出值进行加权处理,所述目标头为所述第二输出矩阵中任一个头;基于所述加权处理,获得更新后的第二输出矩阵。5.根据权利要求1所述的方法,其中,所述基于所述更新后的第二输出矩阵获取更新后的注意力输出矩阵,并基于所述更新后的注意力输出矩阵训练所述神经网络模型,包括:对所述注意力输出矩阵及所述更新后的第二输出矩阵进行矩阵乘计算,获取更新后的注意力输出矩阵;基于所述更新后的注意力输出矩阵训练所述神经网络模型。6.一种基于注意力的模型训练装置,包括:获取模块,用于获取神经网络模型中注意力模块的注意力输出矩阵,所述注意力输出矩阵包括头维度、样本维度和数据块维度;池化模块,用于基于所述神经网络模型的...

【专利技术属性】
技术研发人员:王健韩钧宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1