【技术实现步骤摘要】
神经网络训练方法、装置、电子设备、存储介质及芯片
[0001]本公开涉及深度学习
,具体而言,涉及一种神经网络训练方法、装置、电子设备、存储介质及芯片。
技术介绍
[0002]随着深度学习的研究发展,神经网络的应用越来越广泛。在利用神经网络进行推理之前需要对神经网络进行训练,一般的,在神经网络的训练过程中采用单精度数据类型,比如float32数据类型,训练得到的神经网络精度较高,但是采用float32数据类型训练神经网络,使得训练过程中计算资源消耗较高、存储空间占用较大。
[0003]因此,亟需一种可以降低资源占用,提高计算速度,同时不损失神经网络精度的神经网络训练方法。
技术实现思路
[0004]有鉴于此,本公开至少提供一种神经网络训练方法、装置、电子设备、存储介质及芯片。
[0005]第一方面,本公开提供了一种神经网络训练方法,包括:
[0006]在待训练神经网络的训练过程中,获取所述待训练神经网络中任一目标处理层对应的特征数据;
[0007]对所述目标处理层的特征数据进行类型转换处理,得到转换后特征数据;其中,所述特征数据对应的第一数据类型的数据精度高于所述转换后特征数据对应的第二数据类型的数据精度;
[0008]对所述目标处理层对应的所述转换后特征数据进行运算处理,生成所述目标处理层的输出特征数据。
[0009]第二方面,本公开提供了一种芯片,所述芯片包括存储器和运算设备;
[0010]所述存储器,用于存储待训练神经网络中目标处理层 ...
【技术保护点】
【技术特征摘要】
1.一种神经网络训练方法,其特征在于,包括:在待训练神经网络的训练过程中,获取所述待训练神经网络中任一目标处理层对应的特征数据;对所述目标处理层的特征数据进行类型转换处理,得到转换后特征数据;其中,所述特征数据对应的第一数据类型的数据精度高于所述转换后特征数据对应的第二数据类型的数据精度;对所述目标处理层对应的所述转换后特征数据进行运算处理,生成所述目标处理层的输出特征数据。2.根据权利要求1所述的方法,其特征在于,所述特征数据包括权重特征数据和输入特征数据,所述转换后特征数据包括转换后权重特征数据和转换后输入特征数据;所述对所述目标处理层对应的所述转换后特征数据进行运算处理,生成所述目标处理层的输出特征数据,包括:针对所述转换后输入特征数据中任一窗口内的局部特征数据,将所述窗口内的局部特征数据与所述转换后权重特征数据进行点积运算处理,得到各个特征位置分别对应的中间特征值;将所述目标处理层对应的偏移量和所述各个特征位置分别对应的所述中间特征值进行累加运算处理,得到所述窗口对应的输出特征值;基于各个窗口分别对应的所述输出特征值,生成所述目标处理层的输出特征数据。3.根据权利要求2所述的方法,其特征在于,所述中间特征值的数据类型为第二数据类型,所述将所述目标处理层对应的偏移量和所述各个特征位置分别对应的所述中间特征值进行累加运算处理,得到所述窗口对应的输出特征值,包括:将所述各个特征位置分别对应的所述中间特征值进行类型转换处理,得到转换后中间特征值;将所述目标处理层对应的偏移量和所述各个特征位置分别对应的所述转换后中间特征值进行累加运算处理,得到所述窗口对应的输出特征值;其中,所述转换后中间特征值的数据类型及所述输出特征值的数据类型为所述第一数据类型。4.根据权利要求3所述的方法,其特征在于,所述将所述各个特征位置分别对应的所述中间特征值进行类型转换处理,得到转换后中间特征值,包括:基于所述待训练神经网络对应的网络任务和/或网络结构信息,确定所述目标处理层中累加运算对应的数据处理类型;响应于所述数据处理类型指示为所述第一数据类型,将所述各个特征位置分别对应的所述中间特征值进行类型转换处理,得到转换后中间特征值。5.根据权利要求2至4任一所述的方法,其特征在于,所述基于各个窗口分别对应的所述输出特征值,生成所述目标处理层的输出特征数据,包括:在所述输出特征值的数据类型为所述第二数据类型的情况下,将所述输出特征值进行类型转换处理,得到转换后输出特征值;其中,所述转换后输出特征值的数据类型为所述第一数据类型;基于各个窗口分别对应的所述转换后输出特征值,生成所述目标处理层的输出特征数
据。6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:基于所述目标处理层的输出特征数据,确定所述待训练神经网络的输出结果;基于所述输出结果和所述输出结果对应的真值数据,确定所述待训练神经网络的损失值;基于所述损失值,确定所述待训练神经网络中每个网络处理层对应的梯度值;基于各个网络处理层对应的梯度值,对所述网络处理层的网络参数进行调整,直至调整后的神经网络满足训练截止条件,生成目标神经网络。7.根据权利要求6所述的方法,其特征在于,所述待训练神经网络包括N个网络处理层,N为大于1的整数;所述基于所述损失值,确定所述待训练神经网络中每个网络处理层对应的梯度值,包括:基于所述损失值和所述第N个网络处理层对应的特征数据,生成所述第N个网络处理层对应的梯度值;根据下述步骤生成第i个网络处理层对应的梯度值:在所述第i个网络处理层不属于所述目标处理层的情况下,基于第i+1个网络处理层对应的梯度值和所述第i个网络处理层对应的特征数据,生成所述第i个网络处理层对应的梯度值;其中i为小于N、且大于或等于1的整数;在所述第i个网络处理层属于所述目标处理层的情况下,基于第i+1个网络处理层对应的梯度值、和所述第i个网络处理层对应的转换后特征数据,生成所述第i个网络处理层对应的梯度值。8.根据权利要求7所述的方法,其特征在于,所述基于第i+1个网络处理层对应的梯度值、和所述第i个网络处理层对应的转换后特征数据,生成所述第i个网络处理层对应的梯度值,包括:将所述第i+1个网络处理层对应的梯度值进行类型转换处理,得到所述第i+1个网络处理层对应的转换后梯度值;其中,所述转换后梯度值的数据类型为所述第二数据类型;将所述第i+1个网络处理层对应的所述转换后梯度值和所述第i个网络处理层对应的转换后特征数据进行点积运算处理,...
【专利技术属性】
技术研发人员:冯志芳,
申请(专利权)人:上海阵量智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。