一种模型部署方法、装置、系统及电子设备制造方法及图纸

技术编号:36401163 阅读:21 留言:0更新日期:2023-01-18 10:08
本发明专利技术实施例公开了一种模型部署方法,包括:获取待部署至目标设备的原始模型及目标设备;对原始模型进行剪枝及量化处理,得到中间模型;根据目标设备将中间模型转换为目标模型,并将其部署至目标设备。本实施例的优点如下:1、对原始模型进行剪枝,可以去掉作用较小或无用的层,减少了网络结构的复杂度;2、对原始模型进行量化,可以将模型权重从FP32变为FP16,甚至是INT8,可以达到节省机器资源的目的;3、针对不同的硬件平台,先将模型转换为中间模型(ONNX模型),再转换为对应硬件的部署框架模型,例如针对CPU转换为Openvino模型,针对GPU转换为Tensorrt模型,可充分地利用硬件资源。源。源。

【技术实现步骤摘要】
一种模型部署方法、装置、系统及电子设备


[0001]本专利技术涉及深度学习
,具体涉及一种模型部署方法、装置、系统及电子设备。

技术介绍

[0002]以颜值打分模型应用场景为例,一般模型训练好之后,模型推理时会直接部署原模型(Pytorch模型)。相应的处理流程如图1所示。
[0003]上述方式存在如下缺陷:
[0004](1)没有考虑模型性能,浪费机器资源。以颜值打分模型应用场景为例,训练好的模型里有一些无用的层可以去掉。默认的模型权重是FP32,训练阶段必须用FP32这样的高精度,才能保证模型效果。一旦模型训练好,权重固定下来,到了模型推理阶段,是可以把模型量化为FP16或INT8等低精度,一般模型效果也不会有太大的损失。
[0005](2)没有针对硬件进行模型优化。部署一般使用Intel CPU或Nvidia GPU,Intel的Openvino部署框架可以针对CPU进行加速,Nvidia的Tensorrt部署框架可以针对GPU进行加速。以颜值打分模型为例,如果需要部署CPU,可以把原始的Pytorch模型转本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型部署方法,其特征在于,包括:获取待部署至目标设备的原始模型及目标设备;对所述原始模型进行剪枝及量化处理,得到中间模型;根据所述目标设备将所述中间模型转换为目标模型,并将所述目标模型部署至所述目标设备。2.如权利要求1所述的模型部署方法,其特征在于,获取待部署的目标设备的原始模型具体包括:接收用户通过web浏览器发送的压缩任务包;对所述压缩任务包进行解压,得到配置文件和模型文件;根据所述配置文件对所述模型文件进行验证,若验证成功,则获取所述原始模型。3.如权利要求2所述的模型部署方法,其特征在于,对所述原始模型进行剪枝及量化处理,得到中间模型具体包括:调用所述原始模型中的剪枝接口对所述原始模型进行剪枝;加载剪枝后的所述原始模型,将所述原始模型的权重从FP32调整为FP16或INT8;将剪枝和权重调整后的所述原始模型进行转换,得到中间模型;所述中间模型为ONNX模型。4.如权利要求3所述的模型部署方法,其特征在于,所述目标设备包括CPU、GPU或AI芯片,所述目标模型包括Openvino模型和Tensorrt模型;所述方法包括:若所述配置文件中包括配置版本,则根据所述配置版本选用不同的应用容器引擎,并启动一个GPU节点,以实现将ONNX模型转换为Tensorrt模型,并将Tensorrt模型部署于GPU;若所述配置文件中不包括配置版本,则选用一CPU应用容器引擎,并启动一个CPU节点,以实现将ONNX模型转换为Openvino模型,并将Openvino模型部署于CPU。5.如权利要求4所述的模型部署方法,其特征在于,将所述目标模型部署至所述目标设备之后,所述方法还包括...

【专利技术属性】
技术研发人员:赵武金宋莉莉张祥建
申请(专利权)人:北京视海芯图微电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1