一种模型的处理方法、装置及设备制造方法及图纸

技术编号：37709642 阅读：19 留言：0更新日期：2023-06-02 00:01

本说明书实施例公开了一种模型的处理方法、装置及设备，该方法包括：获取待处理的目标模型，所述目标模型中包括卷积层；对所述目标模型中包含的网络层进行分组，得到多个不同的网络层分组；对所述网络层分组中的卷积层和/或所述卷积层中的卷积核进行处理，得到多个不同的处理后的网络层分组；基于多个不同的处理后的网络层分组，对所述处理后的网络层分组中的模型参数进行训练，并基于所述目标模型的增益贡献度对训练后的模型参数进行筛选，得到筛选后的模型参数，基于所述筛选后的模型参数构建所述目标模型。建所述目标模型。建所述目标模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型的处理方法、装置及设备

[0001]本文件涉及计算机
，尤其涉及一种模型的处理方法、装置及设备。

技术介绍

[0002]在需要设置终端设备侧模型的场景下，模型的大小和模型的预测速度要求很高，因为用户的终端设备不能无限的变大模型，并且也不允许模型的执行耗费大量资源。在需要设置云端模型的场景下，往往需要很高的每秒查询率(即QPS)，模型的大小会使得需要的硬件设备成倍地增加，而模型需要的GPU的成本极高，因此极其需要在保证模型效果的前提下进行模型裁剪。为此，需要提供一种更优的模型剪枝方式，从而可以平衡模型参数优化和模型效果。

技术实现思路

[0003]本说明书实施例的目的是提供一种更优的模型剪枝方式，从而可以平衡模型参数优化和模型效果。
[0004]为了实现上述技术方案，本说明书实施例是这样实现的：
[0005]本说明书实施例提供的一种模型的处理方法，所述方法包括：获取待处理的目标模型，所述目标模型中包括卷积层。对所述目标模型中包含的网络层进行分组，得到多个不同的网络层分组。对所述网络层分组中的卷积层和/或所述卷积层中的卷积核进行处理，得到多个不同的处理后的网络层分组。基于多个不同的处理后的网络层分组，对所述处理后的网络层分组中的模型参数进行训练，并基于所述目标模型的增益贡献度对训练后的模型参数进行筛选，得到筛选后的模型参数，基于所述筛选后的模型参数构建所述目标模型。
[0006]本说明书实施例提供的一种模型的处理装置，所述装置包括：模型获取模块，获取待处理的目标模型，...

【技术保护点】

【技术特征摘要】
1.一种模型的处理方法，所述方法包括：获取待处理的目标模型，所述目标模型中包括卷积层；对所述目标模型中包含的网络层进行分组，得到多个不同的网络层分组；对所述网络层分组中的卷积层和/或所述卷积层中的卷积核进行处理，得到多个不同的处理后的网络层分组；基于多个不同的处理后的网络层分组，对所述处理后的网络层分组中的模型参数进行训练，并基于所述目标模型的增益贡献度对训练后的模型参数进行筛选，得到筛选后的模型参数，基于所述筛选后的模型参数构建所述目标模型。2.根据权利要求1所述的方法，所述对所述目标模型中包含的网络层进行分组，得到多个不同的网络层分组，包括：基于预设的Group Lasso算法将所述目标模型中的模型参数以块的形式进行划分，得到多个分块数据；将所述多个分块数据设置到不同的分组中，以对所述目标模型中包含的网络层进行分组，得到多个不同的网络层分组。3.根据权利要求1所述的方法，对所述网络层分组中的卷积层中的卷积核进行处理，得到多个不同的处理后的网络层分组，包括：将所述多个不同的网络层分组中的第一分组中的一个或多个不同的卷积层中的一个或多个不同的卷积核删除，得到多个不同的处理后的网络层分组；和/或，将所述多个不同的网络层分组中的第二分组中的一个或多个不同的卷积层中的一个或多个不同的卷积核的形状进行调整，得到多个不同的处理后的网络层分组；和/或，将所述多个不同的网络层分组中的卷积层中卷积核的一个或多个不同的渠道删除，得到多个不同的处理后的网络层分组。4.根据权利要求1所述的方法，对所述网络层分组中的卷积层进行处理，得到多个不同的处理后的网络层分组，包括：将所述多个不同的网络层分组中的一个或多个不同的网络层删除，得到多个不同的处理后的网络层分组。5.根据权利要求1述的方法，所述基于多个不同的处理后的网络层分组，对所述处理后的网络层分组中的模型参数进行训练，包括：从所述多个不同的处理后的网络层分组中任选一个所述处理后的网络层分组作为第三分组，对所述第三分组进行训练，得到训练后的第三分组；根据所述第三分组在所述目标模型中的位置，从所述多个不同的处理后的网络层分组中获取与所述第三分组相邻的第四分组，将所述第三分组和所述第四分组组合，并对组合后的所述第三分组和所述第四分组进行训练，得到训练后的第四分组；根据所述第四分组在所述目标模型中的位置，从所述多个不同的处理后的网络层分组中获取与所述第四分组相邻的第五分组，将所述第四分组和所述第五分组组合，并对组合后的所述第四分组和所述第五分组进行训练，得到训练后的第五分组，直到所述多个不同的处理后的网络层分组均进行训练，得到训练后的模型参数。6.根据权利要求1所述的方法，所述基于所述目标模型的增益贡献度对训练后的模型参数进行筛选，得到筛选后的模型参数，包括：
确定每个维度的训练后的模型参数对所述目标模型的增益贡献度；获取增益贡献度大于预设阈值的模型参数，将获取的模型参数作为筛选...

【专利技术属性】
技术研发人员：张长浩，申书恒，傅欣艺，王维强，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人