【技术实现步骤摘要】
一种模型部署方法、装置、系统及电子设备
[0001]本专利技术涉及深度学习
,具体涉及一种模型部署方法、装置、系统及电子设备。
技术介绍
[0002]以颜值打分模型应用场景为例,一般模型训练好之后,模型推理时会直接部署原模型(Pytorch模型)。相应的处理流程如图1所示。
[0003]上述方式存在如下缺陷:
[0004](1)没有考虑模型性能,浪费机器资源。以颜值打分模型应用场景为例,训练好的模型里有一些无用的层可以去掉。默认的模型权重是FP32,训练阶段必须用FP32这样的高精度,才能保证模型效果。一旦模型训练好,权重固定下来,到了模型推理阶段,是可以把模型量化为FP16或INT8等低精度,一般模型效果也不会有太大的损失。
[0005](2)没有针对硬件进行模型优化。部署一般使用Intel CPU或Nvidia GPU,Intel的Openvino部署框架可以针对CPU进行加速,Nvidia的Tensorrt部署框架可以针对GPU进行加速。以颜值打分模型为例,如果需要部署CPU,可以把原始的 ...
【技术保护点】
【技术特征摘要】
1.一种模型部署方法,其特征在于,包括:获取待部署至目标设备的原始模型及目标设备;对所述原始模型进行剪枝及量化处理,得到中间模型;根据所述目标设备将所述中间模型转换为目标模型,并将所述目标模型部署至所述目标设备。2.如权利要求1所述的模型部署方法,其特征在于,获取待部署的目标设备的原始模型具体包括:接收用户通过web浏览器发送的压缩任务包;对所述压缩任务包进行解压,得到配置文件和模型文件;根据所述配置文件对所述模型文件进行验证,若验证成功,则获取所述原始模型。3.如权利要求2所述的模型部署方法,其特征在于,对所述原始模型进行剪枝及量化处理,得到中间模型具体包括:调用所述原始模型中的剪枝接口对所述原始模型进行剪枝;加载剪枝后的所述原始模型,将所述原始模型的权重从FP32调整为FP16或INT8;将剪枝和权重调整后的所述原始模型进行转换,得到中间模型;所述中间模型为ONNX模型。4.如权利要求3所述的模型部署方法,其特征在于,所述目标设备包括CPU、GPU或AI芯片,所述目标模型包括Openvino模型和Tensorrt模型;所述方法包括:若所述配置文件中包括配置版本,则根据所述配置版本选用不同的应用容器引擎,并启动一个GPU节点,以实现将ONNX模型转换为Tensorrt模型,并将Tensorrt模型部署于GPU;若所述配置文件中不包括配置版本,则选用一CPU应用容器引擎,并启动一个CPU节点,以实现将ONNX模型转换为Openvino模型,并将Openvino模型部署于CPU。5.如权利要求4所述的模型部署方法,其特征在于,将所述目标模型部署至所述目标设备之后,所述方法还包括...
【专利技术属性】
技术研发人员:赵武金,宋莉莉,张祥建,
申请(专利权)人:北京视海芯图微电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。