一种模型部署方法、装置、系统及电子设备制造方法及图纸

技术编号：36401163 阅读：21 留言：0更新日期：2023-01-18 10:08

本发明专利技术实施例公开了一种模型部署方法，包括：获取待部署至目标设备的原始模型及目标设备；对原始模型进行剪枝及量化处理，得到中间模型；根据目标设备将中间模型转换为目标模型，并将其部署至目标设备。本实施例的优点如下：1、对原始模型进行剪枝，可以去掉作用较小或无用的层，减少了网络结构的复杂度；2、对原始模型进行量化，可以将模型权重从FP32变为FP16，甚至是INT8，可以达到节省机器资源的目的；3、针对不同的硬件平台，先将模型转换为中间模型(ONNX模型)，再转换为对应硬件的部署框架模型，例如针对CPU转换为Openvino模型，针对GPU转换为Tensorrt模型，可充分地利用硬件资源。源。源。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型部署方法、装置、系统及电子设备

[0001]本专利技术涉及深度学习
，具体涉及一种模型部署方法、装置、系统及电子设备。

技术介绍

[0002]以颜值打分模型应用场景为例，一般模型训练好之后，模型推理时会直接部署原模型(Pytorch模型)。相应的处理流程如图1所示。
[0003]上述方式存在如下缺陷：
[0004](1)没有考虑模型性能，浪费机器资源。以颜值打分模型应用场景为例，训练好的模型里有一些无用的层可以去掉。默认的模型权重是FP32，训练阶段必须用FP32这样的高精度，才能保证模型效果。一旦模型训练好，权重固定下来，到了模型推理阶段，是可以把模型量化为FP16或INT8等低精度，一般模型效果也不会有太大的损失。
[0005](2)没有针对硬件进行模型优化。部署一般使用Intel CPU或Nvidia GPU，Intel的Openvino部署框架可以针对CPU进行加速，Nvidia的Tensorrt部署框架可以针对GPU进行加速。以颜值打分模型为例，如果需要部署CPU，可以把原始的...

【技术保护点】

【技术特征摘要】
1.一种模型部署方法，其特征在于，包括：获取待部署至目标设备的原始模型及目标设备；对所述原始模型进行剪枝及量化处理，得到中间模型；根据所述目标设备将所述中间模型转换为目标模型，并将所述目标模型部署至所述目标设备。2.如权利要求1所述的模型部署方法，其特征在于，获取待部署的目标设备的原始模型具体包括：接收用户通过web浏览器发送的压缩任务包；对所述压缩任务包进行解压，得到配置文件和模型文件；根据所述配置文件对所述模型文件进行验证，若验证成功，则获取所述原始模型。3.如权利要求2所述的模型部署方法，其特征在于，对所述原始模型进行剪枝及量化处理，得到中间模型具体包括：调用所述原始模型中的剪枝接口对所述原始模型进行剪枝；加载剪枝后的所述原始模型，将所述原始模型的权重从FP32调整为FP16或INT8；将剪枝和权重调整后的所述原始模型进行转换，得到中间模型；所述中间模型为ONNX模型。4.如权利要求3所述的模型部署方法，其特征在于，所述目标设备包括CPU、GPU或AI芯片，所述目标模型包括Openvino模型和Tensorrt模型；所述方法包括：若所述配置文件中包括配置版本，则根据所述配置版本选用不同的应用容器引擎，并启动一个GPU节点，以实现将ONNX模型转换为Tensorrt模型，并将Tensorrt模型部署于GPU；若所述配置文件中不包括配置版本，则选用一CPU应用容器引擎，并启动一个CPU节点，以实现将ONNX模型转换为Openvino模型，并将Openvino模型部署于CPU。5.如权利要求4所述的模型部署方法，其特征在于，将所述目标模型部署至所述目标设备之后，所述方法还包括...

【专利技术属性】
技术研发人员：赵武金，宋莉莉，张祥建，
申请(专利权)人：北京视海芯图微电子有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人