一种模型部署方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39261628 阅读:21 留言:0更新日期:2023-10-30 12:14
本申请涉及深度学习技术领域,尤其涉及一种模型部署方法、装置、电子设备及存储介质。该方法为:获取待部署至目标设备的原始模型;基于训练数据,按照预设的量化精度,对原始模型进行再次训练,获得量化模型,并基于预设的模型格式,对量化模型进行格式转化,获得中间模型;基于针对目标设备配置的目标精度,对中间模型包含的各模型参数进行精度调整,获得目标模型;将目标模型部署至目标设备中。这样,根据目标精度对中间模型的精度灵活地进行调整,调整后获得的目标模型可以进行相应的数据处理,只需要管理一个中间模型,实现了一个模型进行多种精度的数据处理,避免了部署和管理多个模型,从而提高了模型部署的效率和节约了管理成本。本。本。

【技术实现步骤摘要】
一种模型部署方法、装置、电子设备及存储介质


[0001]本申请涉及深度学习
,尤其涉及一种模型部署方法、装置、电子设备及存储介质。

技术介绍

[0002]随着深度学习技术的日益发展,在越来越多的生活场景中,可以使用神经网络模型来提供模型服务,以满足相应的业务需求。
[0003]例如,在人脸识别的场景中,可以使用人脸识别模型对待识别对象进行人脸识别;在推荐物品的场景中,可以使用推荐模型对待推荐对象推荐其感兴趣的物品;在智能控制的场景中,可以使用控制类的模型实现对不同待控制对象的智能控制等等。
[0004]相关技术下,使用32位浮点精度进行模型训练,获得训练好的神经网络模型,并进行推理计算。
[0005]具体的,例如,神经网络模型执行浮点精度的推理计算时,通常按照16位浮点精度或8位整数精度,对训练好的神经网络模型进行压缩存储,然后将压缩后的神经网络模型转化为32位浮点精度进行推理计算。在神经网络模型执行8位整数精度的推理计算时,通常先模拟8位整数精度的执行,重新对训练好的神经网络模型进行训练,获得量化的神经网络模型,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型部署方法,其特征在于,包括:获取待部署至目标设备的原始模型,所述原始模型是基于训练数据,按照原始精度进行训练获得的,所述原始精度达到预设的精度阈值;基于所述训练数据,按照预设的量化精度,对所述原始模型进行再次训练,获得量化模型,所述量化精度小于所述原始精度,并基于预设的模型格式,对所述量化模型进行格式转化,获得中间模型;基于针对所述目标设备配置的目标精度,对所述中间模型包含的各模型参数进行精度调整,获得目标模型,所述各模型参数为所述中间模型中各算子各自的运行相关参数;将所述目标模型部署至所述目标设备中。2.如权利要求1所述的方法,其特征在于,所述基于预设的模型格式,对所述量化模型进行格式转化,获得中间模型,包括:按照预设的第一压缩精度,对所述量化模型包含的各影响算子的模型参数进行压缩,所述影响算子:是对所述量化模型大小的影响度达到影响阈值的算子,所述第一压缩精度等于所述量化精度;按照预设的第二压缩精度,对所述量化模型包含的各普通算子的模型参数进行压缩,其中,所述普通算子:是对所述量化模型大小的影响度未达到影响阈值的算子,所述第二压缩精度大于所述量化精度,且小于所述原始精度;将压缩后的量化模型保存至存储设备中,并基于预设的模型格式,对所述压缩后的量化模型中的各算子的格式进行转化,获得中间模型。3.如权利要求2所述的方法,其特征在于,所述按照预设的第一压缩精度,对所述量化模型包含的各影响算子的模型参数进行压缩,包括:针对所述各影响算子,分别执行以下操作:基于一个影响算子对应路径中的伪量化算子的缩放因子和零点偏置因子,将所述一个影响算子的模型参数,从原始值压缩为符合所述第一压缩精度的量化压缩值;其中,所述伪量化算子,用于模拟按照所述量化精度推理计算引起的量化误差,所述缩放因子,用于将所述原始值从所述原始精度压缩为所述第一压缩精度的倍数,所述零点偏置因子,用于将所述原始精度对应的取值区间的零点,映射为符合所述第一压缩精度的数值。4.如权利要求2所述的方法,其特征在于,所述按照预设的第二压缩精度,对所述量化模型包含的各普通算子的模型参数进行压缩,包括:针对所述量化模型包含的各普通算子,分别执行以下操作:按照所述第二压缩精度,将一个普通算子的模型参数,从原始值压缩为符合所述第二压缩精度的转化压缩值。5.如权利要求3所述的方法,其特征在于,所述目标精度不小于所述量化精度且不大于所述原始精度,则所述基于针对所述目标设备配置的目标精度,对所述中间模型包含的各模型参数进行精度调整,包括:若针对所述目标设备配置的目标精度与所述原始精度相同,则将所述各影响算子的模型参数的精度调整为所述原始精度,并将所述各普通算子的模型参数的精度调整为所述原始精度;
若针对所述目标设备配置的目标精度与所述第二压缩精度相同,则将所述各影响算子的模型参数的精度调整为所述第二压缩精度;若针对所述目标设备配置的目标精度与所述量化精度相同,则从所述各影响算子中筛选出符合预设精度条件的至少一个目标影响算子,并将剩余的各影响算子的模型参数和所述各普通算子的模型参数的精度调整为所述原始精度,所述目标影响算子:是对应路径中前后均有伪量化算子的影响算子。6.如权利要求5所述的方法,其特征在于,所述将所述各影响算子的模型参数的精度调整为所述原始精度,包括:针对所述各影响算子,分别执行以下操作:基于一个影响算子对应路径中的伪量化算子的缩放因子和零点偏置因子,将所述一个影响算子的模型参数,从量化压缩值还原为符合所述原始精度的目标值。7.如权利要求5所述的方法,其特征在于,所述将所述各影响算子的模型参数的精度调整为所述第二压缩精度,包括:针对所述各影响算子,分别执行以下操作:基于一个影响算子对应路径中的伪量化算子的缩放因子和零点偏置因子,将所述一个影响算子的模型参数,从量化压缩值还原为符合所述原始精度的中间值;按照所述第二压缩精度,将所述一个影响算子的模型参数,从所述中间值调整为符合所述第二压缩精度的目标值。8.如权利要求3所述的方法,其特征在于,所述基于所述训练数据,按照预设的量化精度,对所述原始模型进行再次训练,获得量化模型,包括:按照预设的量化精度,在所述各影响算子各自对应的路径中插入所述伪量化算子;基于所述训练数据,对所述原始模型进行再次训练,生成所述...

【专利技术属性】
技术研发人员:陶淳马子扬景宗飞
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1