一种模型部署的方法及装置制造方法及图纸

技术编号：34893875 阅读：18 留言：0更新日期：2022-09-10 13:53

本说明书公开了一种模型部署的方法及装置，该模型部署的方法包括：确定预设模型中包含的需要替换的各网络分支，作为各目标网络分支；根据所述各目标网络分支对应的初始网络参数，确定假设将所述各目标网络分支等效替换为指定网络分支后，所述指定网络分支对应的网络参数；根据所述指定网络分支对应的网络参数更新所述初始网络参数，并对更新后的初始网络参数进行伪量化处理；将经过伪量化处理后的模型中包含的所述各目标网络分支等效替换为指定网络分支，并根据替换后的模型进行模型部署。并根据替换后的模型进行模型部署。并根据替换后的模型进行模型部署。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型部署的方法及装置

[0001]本说明书涉及人工智能领域，尤其涉及一种模型部署的方法及装置。

技术介绍

[0002]随着深度学习技术的发展，神经网络的应用也日益走向成熟。目前神经网络模型已经被广泛应用于工业界和人们日常生活的各个业务场景中。而其中一些领域(如工业领域)通常对神经网络模型的精度与延时有着十分严格的要求，需要部署在终端上的模型能够保持高精度的同时，具有较低的延迟，以充分满足业务需求。为达成这一目标，诸多神经网络压缩及优化技术被深入研究，其中就包括重参数化结构和模型量化两种经典的模型优化方法。
[0003]由于在对模型的网络参数进行量化(即将高精度的网络参数压缩为低精度的网络参数，如将浮点精度的网络参数压缩为整数精度的网络参数)的过程中会产生一定的误差，所以目前通常会采用先对模型训练，再对训练后的模型的多个网络分支进行融合，而后在对融合后的单分支模型进行训练，在这一次训练的过程中会对单分支模型的网络参数进行伪量化处理(即先将高精度的网络参数压缩为带有一定量化误差的低精度的网络参数，再将该带有量化误差的低精度的网络参数还原为高精度的网络参数，但此时的高精度网络参数带有量化误差)，而后再对这一次训练完成后的模型中对应的网络参数进行量化处理。但是这样的优化过程会降低模型的精度，对于一些精度要求较为严格的业务来说无法满足其业务需求。
[0004]因此，如何在保证模型精度的前提下，对模型进行优化，提高模型运行效率，是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种...

【技术保护点】

【技术特征摘要】
1.一种模型部署的方法，其特征在于，包括：确定预设模型中包含的需要替换的各网络分支，作为各目标网络分支；根据所述各目标网络分支对应的初始网络参数，确定假设将所述各目标网络分支等效替换为指定网络分支后，所述指定网络分支对应的网络参数；根据所述指定网络分支对应的网络参数更新所述初始网络参数，并对更新后的初始网络参数进行伪量化处理；将经过伪量化处理后的模型中包含的所述各目标网络分支等效替换为指定网络分支，并根据替换后的模型进行模型部署。2.如权利要求1所述的方法，其特征在于，在将经过伪量化处理后的模型中包含的所述各目标网络分支等效替换为指定网络分支之前，所述方法还包括：将经过伪量化处理后的模型进行训练，得到优化后模型；根据替换后的模型进行模型部署，具体包括：将所述优化后模型进行模型部署。3.如权利要求1或2所述的方法，其特征在于，在根据替换后的模型进行模型部署之前，所述方法还包括：对所述指定网络分支对应的网络参数进行量化处理；根据替换后的模型进行模型部署，具体包括：将经过量化处理后的模型进行部署。4.如权利要求2所述的方法，其特征在于，将经过伪量化处理后的模型进行训练，得到优化后模型，具体包括：获取输入数据；将所述输入数据输入到所述经过伪量化处理后的模型中，确定所述输入数据对应的输出结果；以最小化所述输出结果与所述输入数据对应的实际标签之间的偏差为优化目标，对所述经过伪量化处理后的模型进行训练，得到优化后的模型。5.如权利要求4所述的方法，其特征在于，获取输入数据，具体包括：获取初始输入数据；对所述初始输入数据进行伪量化处理，得到所述输入数据...

【专利技术属性】
技术研发人员：李亮，张勃，田值，初祥祥，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人