模型训练方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:33375037 阅读:24 留言:0更新日期:2022-05-11 22:42
本申请提供一种模型训练方法、装置、电子设备及计算机可读存储介质,方法包括:获取对于原始模型在本轮训练中得到的模型参数;对模型参数进行量化,得到量化参数;将并行模型的模型参数更新为量化参数,并将原始模型在本轮训练中的输入数据,输入至并行模型中进行训练;其中,并行模型与原始模型的模型结构一致;根据原始模型在本轮训练中的损失值,和并行模型在本轮训练中的损失值,确定出本轮训练的综合损失值;在综合损失值不满足预设结束条件时,对原始模型的模型参数进行更新。该方案在训练过程中考虑了模型参数被量化后所产生的损失,使得最终训练得到的模型在被量化后,其损失也在可接受范围内,从而降低了模型量化后的精度损失。的精度损失。的精度损失。

【技术实现步骤摘要】
模型训练方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及人工智能
,具体而言,涉及一种模型训练方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着AI(Artificial Intelligence,人工智能)技术的不断发展,深度神经网络也被不断应用于诸如人脸识别、智能导航、智能问诊、远程通信等等场景中。
[0003]为了满足各种AI应用场景对检测精度的要求,深度神经网络结构的宽度、层数、深度以及各类参数等数量急速上升,导致深度学习模型对于空间的需求变大,推理效率变低。同时商业对模型应用越来越倾向于从云端部署到边缘侧,受限于边缘侧设备的计算资源,需要考虑设备存储、内存、功耗及时延性等问题,特别是在移动终端和嵌入式设备等应用场景更加需要优化。
[0004]作为通用的深度学习优化的手段之一,模型量化将深度学习模型量化为更小的定点模型和更快的推理速度,其适用于绝大数模型和使用场景。
[0005]模型量化以损失推理精度为代价,将网络中连续取值或离散取值的浮点型参数(权重或张量)线性映射为定本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取对于原始模型在本轮训练中得到的模型参数;对所述模型参数进行量化,得到量化参数;将并行模型的模型参数更新为所述量化参数,并将所述原始模型在本轮训练中的输入数据,输入至所述并行模型中进行训练;其中,所述并行模型与所述原始模型的模型结构一致;根据所述原始模型在本轮训练中的损失值,和所述并行模型在本轮训练中的损失值,确定出本轮训练的综合损失值;在所述综合损失值不满足预设结束条件时,对所述原始模型的模型参数进行更新。2.如权利要求1所述的模型训练方法,其特征在于,所述方法还包括:在所述综合损失值满足预设结束条件时,输出模型参数为所述量化参数的原始模型,或输出所述并行模型。3.如权利要求1所述的模型训练方法,其特征在于,所述综合损失值为对所述原始模型在本轮训练中的损失值和所述并行模型在本轮训练中的损失值加权求和得到的值。4.如权利要求1

3任一项所述的模型训练方法,其特征在于,所述原始模型和所述并行模型所采用的损失函数相同。5.如权利要求1

3任一项所述的模型训练方法,其特征在于,所述模型参数包括激活值和权重值;对所述模型参数进行量化,得到量化参数,包括:将所述激活值和权重值映射为目标类型的激活值和权重值,得到所述量化参数;其中,所述目标类型为预先设定的所述量化参数的数据类型。6.如权利要求5所述的模型训练方法,其特征在于,将所述激活值和权重值映射为目标类型的激活值和权重...

【专利技术属性】
技术研发人员:吴建兵沈成赵斌白冰
申请(专利权)人:光子算数北京科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1