【技术实现步骤摘要】
神经网络模型的训练方法和装置
本公开的实施例涉及计算机
,具体涉及人工智能
,尤其涉及神经网络模型的训练方法和装置。
技术介绍
神经网络模型的量化,是将高位宽的模型参数转换为低位宽的模型参数,以此提升模型的计算速度。通常在高位宽的神经网络模型训练完成之后进行量化。通常量化后得到的低位宽神经网络模型被直接用于执行相应的深度学习任务。然而,由于量化后参数的精度损失较大,可能导致量化后的模型的精度损失超过可接受的范围。
技术实现思路
本公开的实施例提供了神经网络模型的训练方法和装置、电子设备以及计算机可读存储介质。根据第一方面,提供了一种神经网络模型的训练方法,包括执行如下搜索操作:根据预设的截断策略控制器,从预设的截断策略的搜索空间中确定出当前的截断策略,其中,截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数;基于当前的截断策略对待训练的目标神经网络模型进行迭代训练,其中,在训练过程中的每一次迭代,按照当前的截断策略对待训练的目标神经网络模型的参数或中间输出数据的二进 ...
【技术保护点】
1.一种神经网络模型的训练方法,包括执行如下搜索操作:/n根据预设的截断策略控制器,从预设的截断策略的搜索空间中确定出当前的截断策略,其中,所述截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数;/n基于所述当前的截断策略对待训练的目标神经网络模型进行迭代训练,其中,在训练过程中的每一次迭代,按照所述当前的截断策略对所述待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值,通过将所述损失函数值前向传播以更新所述待训练的目标神经网络模型的参数;/n获取基于所述当前的截断策略训练完成的所述目标神 ...
【技术特征摘要】 【专利技术属性】
1.一种神经网络模型的训练方法,包括执行如下搜索操作:
根据预设的截断策略控制器,从预设的截断策略的搜索空间中确定出当前的截断策略,其中,所述截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数;
基于所述当前的截断策略对待训练的目标神经网络模型进行迭代训练,其中,在训练过程中的每一次迭代,按照所述当前的截断策略对所述待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值,通过将所述损失函数值前向传播以更新所述待训练的目标神经网络模型的参数;
获取基于所述当前的截断策略训练完成的所述目标神经网络模型的性能并生成对应的反馈信息;
响应于确定基于所述当前的截断策略训练完成的所述目标神经网络模型未达到预设的收敛条件,基于所述反馈信息迭代更新所述截断策略控制器,以基于更新后的截断策略控制器执行下一次搜索操作。
2.根据权利要求1所述的方法,其中,所述截断策略包括神经网络模型的中间层输出的特征图的二进制表征中被截断的位数;以及
所述按照所述当前的截断策略对所述待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值,包括:
将样本图像数据输入待训练的目标神经网络模型进行特征提取,按照当前的截断策略,对所述待训练的目标神经网络模型的至少一个中间层输出的特征图的二进制表征截断对应的位数,并基于截断后的特征图的二进制表征生成所述待训练的目标神经网络模型的预测结果和损失函数值。
3.根据权利要求2所述的方法,其中,在执行所述搜索操作之前,所述方法还包括:
构建所述预设的截断策略的搜索空间,所述预设的截断策略搜索空间包括所述待训练的目标神经网络模型中的至少一个中间层输出的特征图对应的候选截断位数。
4.根据权利要求1-3任一项所述的方法,其中,所述搜索操作还包括:
响应于确定基于所述当前的截断策略训练完成的所述目标神经网络模型达到预设的收敛条件,对所述基于所述当前的截断策略训练完成的所述目标神经网络模型进行量化,得到量化后的目标神经网络模型。
5.根据权利要求4所述的方法,其中,所述方法还包括:
将所述量化后的目标神经网络模型发送至终端侧,以在终端侧部署所述量化后的目标神经网络模型并利用所述量化后的目标神经网络模型处理对应的任务数据。
6.一种神经网络模型的训练装置,包括搜索单元,被配置为执行搜索操作;
所述搜索单元包括:
确定单元,被配置为执行搜索操作中的如下步骤:根据预设的截断策略控制器,从预设的截断策略的搜索空间中确定出当前的截断策略,其中,所述截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数;
技术研发人员:希滕,张刚,温圣召,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。