神经网络模型的训练和应用方法、装置、系统及存储介质制造方法及图纸

技术编号：27571065 阅读：10 留言：0更新日期：2021-03-09 22:18

本发明专利技术提供一种神经网络模型的训练和应用方法、装置、系统及存储介质。所述训练方法包括：根据神经网络模型的训练迭代次数和计算精度确定约束阈值范围，将权重的梯度约束在所述约束阈值范围内，使得当由于量化误差导致低精度的权重的梯度出现畸变的时候，通过对梯度的约束，修正梯度出现的畸变，使训练后的网络模型能够达到预期的性能。型能够达到预期的性能。型能够达到预期的性能。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络模型的训练和应用方法、装置、系统及存储介质
[0001]本专利技术请求2019年08月29日提交的、申请号为201910807591.6、专利技术创造名称为“神经网络模型的训练和应用方法、装置、系统及存储介质”的中国专利技术申请的优先权，以全文引用方式并入到本文中。

[0002]本专利技术涉及深度神经网络(Deep Neural Networks，DNN)的建模领域，尤其涉及一种适用于不同计算精度的神经网络模型的训练方法。

技术介绍

[0003]深度神经网络是一种具有复杂网络架构的模型，常见的神经网络模型有卷积神经网络(Convolutional Neural Network，CNN)模型、循环神经网络(Recurrent Neural Network，RNN)模型和图神经网络(Graph Neural Network，GNN)模型等。图1例示了一个简单的神经网络模型架构(未示出具体的网络架构)。将待训练的数据x(特征图)输入到神经网络模型F中后，x在网络模型F中至上而下逐层进行运算，最终从模型F输出符合一定分布要求的输出结果y。
[0004]以图2和图3所示的CNN模型为例，假设该模型中存在包括三个权重w1、w2和w3的卷积层，在图2所示的前向传播(Forward Propagation)过程中，该卷积层的输入特征图与权重w1、w2和w3分别进行卷积运算后，得到该卷积层的输出特征图并向下一层输出。通过逐层运算，最终得到网络模型的输出结果y。将该输出结果y与用户期望的输出结果y*进行比较，如果...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型的训练方法，其特征在于，所述训练方法包括：在反向传播中，确定所述神经网络模型中的权重的梯度；针对确定的梯度中的至少一个梯度，执行以下处理：确定梯度是否在约束阈值范围内，并将超出所述约束阈值范围的梯度约束到所述约束阈值范围内，其中，所述约束阈值范围是根据所述神经网络模型的训练迭代次数和计算精度确定的；利用约束后的梯度更新权重。2.根据权利要求1所述的训练方法，其特征在于，其中，在梯度大于所述约束阈值范围的上限值的情况下，将所述梯度约束成所述上限值；在梯度小于所述约束阈值范围的下限值的情况下，将所述梯度约束成所述下限值。3.根据权利要求1所述的训练方法，其特征在于，其中，所述约束阈值范围的上限值在逐次训练中单调递减，所述约束阈值范围的下限值在逐次训练中单调递增。4.根据权利要求1所述的训练方法，其特征在于，所述训练方法还包括：确定所述神经网络模型中各权重的量化误差，并将其中最大的量化误差作为所述神经网络模型的量化误差；利用所述神经网络模型的量化误差和训练迭代次数确定约束阈值范围，其中，确定的所述约束阈值范围用于对所述至少一个梯度进行约束。5.根据权利要求1所述的训练方法，其特征在于，所述训练方法还包括：针对所述神经网络模型中的至少一个权重，确定该权重的量化误差；利用权重的量化误差和训练迭代次数确定约束阈值范围，其中，确定的约束阈值范围用于对该权重的梯度进行约束。6.根据权利要求1所述的训练方法，其特征在于，所述训练方法还包括：针对所述神经网络模型中的至少一个权重，从该权重在本次训练确定的梯度以及该权重在前多次训练约束后的梯度中，确定加权最大值；确定所述加权最大值是否在约束阈值范围内，并将超出所述约束阈值范围的加权最大值约束到所述约束阈值范围内。7.根据权利要求6所述的训练方法，其特征在于，其中，所述神经网络模型的计算精度越低，确定加权最大值时所需的前多次训练的训练次数就越少。8.一种神经网络模型的训练系统，其特征在于，所述训练系统包括：服务器，其存储至少一个第一网络模型，所述第一网络模型提供用于对第二网络模型进行同步的信息，所述服务器用于在反向传播中，确定所述第一网络模型中的权重的梯度，并针对确定的梯度中的一个梯度，执行以下处理：确定梯度是否在约束阈值范围内，并将超出所述约束阈值范围的梯度约束到所述约束阈值范围内，利用约束后的梯度更新权重，并将更新后的权重输出，其中，所述约束阈值范围是根据所述第一网络模型的训练迭代次数和计算精度确定的；
终端，其存储所述第二网络模型，所述终端用于利用服务器输出的权重对所述第二网络模型进行同步。9.根据权利要求8所述的训练系统，其特征在于，其中，所述服务器还用于：确定所述第一网络模型中各权重的量化误差，并将其中最大的量化误差作为所述第一网络模型的量化误差；利用所述第一网络模型的量化误差和训练迭代次数确定约束阈值范围，其中，确定的所述约束阈值范围用于对所述至少一个梯度进行约束。10.根据权利要求8所述的训练系统，其特征在于，其...

【专利技术属性】
技术研发人员：刘俊杰，陈则玮，温东超，陶玮，汪德宇，
申请(专利权)人：佳能株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人