神经网络训练方法及装置、可读存储介质及芯片制造方法及图纸

技术编号:38157098 阅读:14 留言:0更新日期:2023-07-13 09:26
本申请提供了一种神经网络训练方法及装置、可读存储介质及芯片。该神经网络用于进行图像任务,该方法包括:对第一神经网络进行模型量化处理,确定第二神经网络;对所述第二神经网络进行量化感知训练,得到第三神经网络;以所述第一神经网络为教师模型,所述第三神经网络为学生模型,对所述第三神经网络进行知识蒸馏训练,以更新所述第三神经网络;确定多个第一候选神经网络,其中,所述多个第一候选神经网络为所述第三神经网络在所述知识蒸馏训练的多个不同迭代周期的训练结果;对所述多个第一候选神经网络进行评估和筛选,确定目标神经网络。经网络。经网络。

【技术实现步骤摘要】
神经网络训练方法及装置、可读存储介质及芯片


[0001]本申请涉及人工智能
,更为具体的,涉及一种神经网络训练方法及装置、可读存储介质及芯片。

技术介绍

[0002]现有技术中,当需要在在手机等边缘设备上部署用于进行图像去噪、去模糊以及图像超分等像素级图像任务的模型时,由于设备的存储和算力资源有线,通常需要通过量化等方法,对模型进行压缩。
[0003]目前广泛采用的QAT量化训练方法得到的量化模型已经能够在普通场景中达到较好的效果;但是,轻量化模型在夜景拍摄等特殊场景中还是存在着一些问题,例如照片的亮部曝光不足、暗部存在明显噪声等问题。

技术实现思路

[0004]本申请提供一种神经网络训练方法及装置、可读存储介质及芯片。下面对本申请实施例涉及的各个方面进行介绍。
[0005]第一方面,提供一种神经网络训练方法,所述神经网络用于进行图像任务,所述方法包括:对第一神经网络进行模型量化处理,确定第二神经网络;对所述第二神经网络进行量化感知训练,得到第三神经网络;以所述第一神经网络为教师模型,所述第三神经网络为学生本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种神经网络训练方法,其特征在于,所述神经网络用于进行图像任务,所述方法包括:对第一神经网络进行模型量化处理,确定第二神经网络;对所述第二神经网络进行量化感知训练,得到第三神经网络;以所述第一神经网络为教师模型,所述第三神经网络为学生模型,对所述第三神经网络进行知识蒸馏训练,以更新所述第三神经网络;确定多个第一候选神经网络,其中,所述多个第一候选神经网络为所述第三神经网络在所述知识蒸馏训练的多个不同迭代周期的训练结果;对所述多个第一候选神经网络进行评估和筛选,确定目标神经网络。2.根据权利要求1所述的方法,其特征在于,所述第一神经网络为浮点模型,所述第二神经网络为定点模型,所述对第一神经网络进行模型量化处理,包括:对所述第一神经网络进行校验,确定所述第二神经网络的初始量化参数。3.根据权利要求1所述的方法,其特征在于,所述对所述第二神经网络进行量化感知训练,包括:根据训练所述第一神经网络所使用的第一损失和所述第二神经网络对训练样本的第二预测结果,对所述第二神经网络进行迭代训练,得到所述第三神经网络。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述第一神经网络对训练样本的第一预测结果和所述第三神经网络对所述训练样本的第三预测结果之间的差异,确定所述第三神经网络的蒸馏损失;根据训练所述第一神经网络所使用的第一损失和所述蒸馏损失,确定所述第三神经网络的全局损失;所述对所述第三神经网络进行知识蒸馏训练,包括:根据所述全局损失和所述第三预测结果,对所述第三神经网络进行迭代训练。5.根据权利要求1所述的方法,其特征在于,所述确定目标神经网络,包括:根据所述多个第一候选神经网络对测试图像的第四预测结果与所述测试图像对应的标签之间的误差,从所述多个第一候选神经网络中确定所述第一误差较小的至少一个第二候选神经网络;对所述至少一个第二候选神经网络对应的第四预测结果进行图像渲染,确定至少一个第一渲染图像;对所述第一神经网络对所述测试图像的第五预测结果进行图像渲染,确定至少一个第二渲染图像;根据所述第一渲染图像与所述第二渲染图像之间的误差,从所述至少一个第二候选神经网络中确定目标神经网络。6.一种神经网络训练装置,其特征在于,所述神经网络用于进行图像任务,所述装置包括:量化单元,被配置为对第一神经网络进行模型量化处理,确定第二神经网络;第一训练单元,被配置为对所述第二神经网络进行量化感知训练,得到第三神经网络;第二训练单元,被配置为以所述第一神经网络为教师模型,所述第三神经网络为学生模型,对所述第三神...

【专利技术属性】
技术研发人员:董旭炯
申请(专利权)人:哲库科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1