剪枝参数搜索方法及剪枝方法、装置、设备、介质制造方法及图纸

技术编号:31493411 阅读:13 留言:0更新日期:2021-12-18 12:30
本申请的实施例涉及一种剪枝参数搜索方法及剪枝方法、装置、设备、介质,通过根据预设稀疏度值,对所述预训练模型进行剪枝,获得预剪枝模型;根据所述预训练模型中目标隐藏层的输入变量的均值和协方差值,对所述预剪枝模型进行剪枝补偿,获得补偿模型;根据所述补偿模型的准确率损失情况,调整所述预设稀疏度值,并返回所述根据预设稀疏度值,对所述预训练模型进行剪枝,获得预剪枝模型的步骤,直到循环预设次数,获得目标稀疏度值。解决了现有的神经网络模型剪枝时间成本高的技术问题,提高了神经网络模型剪枝的效率。神经网络模型剪枝的效率。神经网络模型剪枝的效率。

【技术实现步骤摘要】
剪枝参数搜索方法及剪枝方法、装置、设备、介质


[0001]本申请涉及机器学习
,具体涉及一种剪枝参数搜索方法及剪枝方法、装置、设备、介质。

技术介绍

[0002]神经网络技术的突飞猛进,为科研、工业、商业、教育、医疗、环保等领域的智能化带来了丰硕成果。在实际应用中,为了加快训练过程收敛,深度神经网络的设计有“过参数化”的倾向,会保留较高的特征通道数,因此,神经网络的隐藏层特征有较多的冗余。
[0003]现有技术中,采用剪枝技术移除部分隐藏层特征通道和关联的模型参数来减小运算量,但必须通过对剪枝后的模型进行重训练来恢复模型的准确率。而剪枝后对模型的重训练,需要耗费大量的时间成本,从而导致剪枝时间成本高。

技术实现思路

[0004]本申请的主要目的在于提供一种剪枝参数搜索方法及剪枝方法、装置、设备、介质,解决现有的神经网络模型剪枝时间成本高的技术问题。
[0005]为实现上述目的,本申请提供一种剪枝参数搜索方法,包括:
[0006]根据预设稀疏度值,对预训练模型进行剪枝,获得预剪枝模型;
[0007]根据所述预训练模型中目标隐藏层的输入变量的均值和目标隐藏层的输入变量的协方差值,对所述预剪枝模型进行剪枝补偿,获得补偿模型;
[0008]根据所述补偿模型的准确率损失情况,调整所述预设稀疏度值,并返回所述根据预设稀疏度值,对预训练模型进行剪枝,获得预剪枝模型的步骤,直到循环预设次数,获得目标稀疏度值。
[0009]可选地,所述根据预设稀疏度值,对预训练模型进行剪枝,获得预剪枝模型的步骤,包括:
[0010]根据所述预设稀疏度值,进行关于剪枝前后准确率损失的优化求解,获得所述目标隐藏层需要剪去的目标变量;
[0011]根据所述目标变量,对所述预训练模型进行剪枝,获得预剪枝模型。
[0012]相较于现有的未考虑剪枝补偿的方法,利用关于剪枝前后准确率损失的优化求解的方式确定需要剪去的目标变量,补偿了单次剪枝对剪枝前后模型准确率影响,从而可以达到提高搜索剪枝参数的效率。
[0013]可选地,所述根据所述预设稀疏度值,进行关于剪枝前后准确率损失的优化求解,获得所述目标隐藏层需要剪去的目标变量的步骤,包括:
[0014]根据所述预设稀疏度值,对下述等式进行优化求解,获得所述目标隐藏层需要剪去的目标变量;
[0015][0016]其中,W表示剪枝前的权重矩阵;|S|表示被剪枝后残留的输入变量的数量;∑
S,S
,∑
C,S
为输入变量集合C的协方差矩阵∑
C,C
的子矩阵;∑
S,S
表示被剪枝后残留的输入变量集合S所在的行和列形成的子矩阵;∑
C,S
表示输入变量集合C所在行和S所在列形成的子矩阵;μ
C
,μ
S
分别表示C和S的均值向量。
[0017]为剪枝前后准确率损失的优化求解的一种具体算法,其原理使优化剪枝输入变量的选择来最小化输出误差(式中正整数k<|C|为需要人工或自动设置的剪枝参数),因此,相较于现有的未考虑剪枝补偿的方法,利用关于剪枝前后准确率损失的优化求解的方式确定需要剪去的目标变量,补偿了单次剪枝对剪枝前后模型准确率影响,从而可以达到提高搜索剪枝参数的效率。
[0018]可选地,所述根据所述预训练模型中目标隐藏层的输入变量的均值和目标隐藏层的输入变量的协方差值,对所述预剪枝模型进行剪枝补偿,获得补偿模型的步骤,包括:
[0019]基于所述输入变量的均值和所述输入变量的协方差值,获得新权重矩阵;
[0020]基于所述新权重矩阵,获得新偏置权重向量;
[0021]利用所述新权重矩阵和所述新偏置权重向量替换所述目标隐藏层的权重矩阵和偏置权重向量,获得补偿模型。
[0022]相较于现有的利用重新练的方式来进行剪枝后的补偿,采用权重矩阵和偏置权重向量更新的方式来进行剪枝补偿,显著节约重新练的时间,进一步提高剪枝参数搜索效率。
[0023]可选地,所述基于所述输入变量的均值和所述输入变量的协方差值,获得新权重矩阵的步骤,包括:
[0024]基于所述输入变量的均值和所述输入变量的协方差值,利用如下述等式,获得新权重矩阵:
[0025]其中,W表示剪枝前的权重矩阵;W

表示新权重矩阵;∑
S,S
,∑
C,S
为输入变量集合C的协方差矩阵∑
C,C
的子矩阵,∑
S,S
表示被剪枝后残留的输入变量集合S所在的行和列形成的子矩阵,∑
C,S
表示输入变量集合C所在行和S所在列形成的子矩阵;
[0026]所述基于所述新权重矩阵,获得新偏置权重向量的步骤,包括:
[0027]基于所述新权重矩阵,利用如下述等式,获得新偏置权重向量:
[0028]b

=μ
C
W

μ
S
W

+b,其中,b

表示新偏置权重向量;b表示剪枝前的偏置权重向量;μ
C
,μ
S
分别表示C和被剪枝后残留的输入变量集合S的均值向量。
[0029]相较于现有的重新练,上述表达式为最优化问题的解析解。这意味着,本实施例的方法不需要采用复杂缓慢的迭代优化方法,而可以直接计算出最优解。这一解析解中包含的W是已知的原隐藏层权重,而其他的值都是通过遍历训练数据来估计得到的统计量(协方差矩阵和均值),因此,可以显著节约时间,进一步提高剪枝参数搜索效率。
[0030]可选地,所述预设稀疏度值为稀疏度上限值和稀疏度下限值的均值;
[0031]所述根据所述补偿模型的准确率损失情况,调整所述预设稀疏度值,并返回所述根据预设稀疏度值,对所述预训练模型进行剪枝,获得预剪枝模型的步骤,直到循环预设次数,获得目标稀疏度值的步骤,包括:
[0032]若所述补偿模型的准确率损失值小于准确率损失上限值,则以第一修改稀疏度值替换所述预设稀疏度值,并返回所述根据预设稀疏度值,对所述预训练模型进行剪枝,获得
预剪枝模型的步骤;所述第一修改稀疏度值为所述稀疏度上限值和所述预设稀疏度值的均值;或,
[0033]若所述补偿模型的准确率损失值大于或等于所述准确率损失上限值,则以第二修改稀疏度值替换所述预设稀疏度,并返回所述根据预设稀疏度值,对所述预训练模型进行剪枝,获得预剪枝模型的步骤;所述第二修改稀疏度值为所述预设稀疏度值和所述稀疏度下限值的均值;
[0034]直到循环至所述预设次数,获得目标稀疏度值。
[0035]相较于现有的剪枝流程中模型各个层次的稀疏度等剪枝参数都依赖于人工设置和调试。因为需要重训练,自动剪枝参数搜索的成本非常高。借助于本实施例方案中的剪枝补偿技术,可以快速恢复剪枝后模型的精度,从而降低了参数搜索的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种剪枝参数搜索方法,其特征在于,包括:根据预设稀疏度值,对预训练模型进行剪枝,获得预剪枝模型;根据所述预训练模型中目标隐藏层的输入变量的均值和目标隐藏层的输入变量的协方差值,对所述预剪枝模型进行剪枝补偿,获得补偿模型;根据所述补偿模型的准确率损失情况,调整所述预设稀疏度值,并返回所述根据预设稀疏度值,对预训练模型进行剪枝,获得预剪枝模型的步骤,直到循环预设次数,获得目标稀疏度值。2.根据权利要求1所述的方法,其特征在于,所述根据预设稀疏度值,对预训练模型进行剪枝,获得预剪枝模型的步骤,包括:根据所述预设稀疏度值,进行关于剪枝前后准确率损失的优化求解,获得所述目标隐藏层需要剪去的目标变量;根据所述目标变量,对所述预训练模型进行剪枝,获得预剪枝模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述预设稀疏度值,进行关于剪枝前后准确率损失的优化求解,获得所述目标隐藏层需要剪去的目标变量的步骤,包括:根据所述预设稀疏度值,对下述等式进行优化求解,获得所述目标隐藏层需要剪去的目标变量;其中,W表示剪枝前的权重矩阵;|S|表示被剪枝后残留的输入变量的数量;∑
S,S
,∑
C,S
为输入变量集合C的协方差矩阵∑
C,C
的子矩阵;∑
S,S
表示被剪枝后残留的输入变量集合S所在的行和列形成的子矩阵;∑
C,S
表示输入变量集合C所在行和S所在列形成的子矩阵;μ
C
,μ
S
分别表示C和S的均值向量。4.根据权利要求1或2所述的方法,其特征在于,所述根据所述预训练模型中目标隐藏层的输入变量的均值和目标隐藏层的输入变量的协方差值,对所述预剪枝模型进行剪枝补偿,获得补偿模型的步骤,包括:基于所述输入变量的均值和所述输入变量的协方差值,获得新权重矩阵;基于所述新权重矩阵,获得新偏置权重向量;利用所述新权重矩阵和所述新偏置权重向量替换所述目标隐藏层的权重矩阵和偏置权重向量,获得补偿模型。5.根据权利要求4所述的方法,其特征在于,所述基于所述输入变量的均值和所述输入变量的协方差值,获得新权重矩阵的步骤,包括:基于所述输入变量的均值和所述输入变量的协方差值,利用如下述等式,获得新权重矩阵:其中,W表示剪枝前的权重矩阵;W

表示新权重矩阵;∑
S,S
,∑
C,S
为输入变量集合C的协方差矩阵∑
C,C
的子矩阵,∑
S,S
表示被剪枝后残留的输入变量集合S所在的行和列形成的子矩阵,∑
C,S
表示输入变量集合C所在行和S所在列形成的子矩阵;所述基于所述新权重矩阵,获得新偏置权重向量的步骤,包括:基于所述新权重矩阵,利用如下述等式,获得新偏置权重向量:
b

=μ
C
W

μ
S
W

+b,其中,b

表示新偏置权重向量;b表示剪枝前的偏置权重向量;μ
C
,μ
S
分别表示C和被剪枝后残留的输入变量集合S的均值向量。6.根据权利要求1所述的方法,其特征在于,所述预设稀疏度值为稀疏度上限值和稀疏度下限值的均值;所述根据所述补偿模型的准确率损失情况,调整所述预设稀疏度值,并返回所述根据预设稀疏度值,对所述预训练模型进行剪枝,获得预剪枝模型的步骤,直到循环预设次数,获得目标稀疏度值的步骤,包括:若所述补偿模型的准确率损失值小于准确率损失上限值,则以第一修改稀疏度值...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:成都数联云算科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1