【技术实现步骤摘要】
一种网络模型裁剪方法、装置、设备及计算机存储介质
[0001]本专利技术属于深度学习领域,尤其涉及一种网络模型裁剪方法、装置、设备及计算机存储介质。
技术介绍
[0002]深度学习是机器学习领域一个重要的分支,深度学习在图像分类、物体检测、自然语言处理等诸多领域中都展现出强大的性能。近年来,随着深度学习的发展,出现了越来越多的处理效果显著的神经网络模型,但随之而来的是神经网络模型越来越复杂,神经网络模型中的参数也越来越多,这就会导致神经网络模型在训练或者使用的过程中,对所使用的硬件要求也越来越高。当硬件设备的配置不够高时,神经网络模型的使用会受到明显的限制。
[0003]为了减少神经网络模型的使用限制,目前,常常对神经网络模型进行剪裁和压缩处理。例如,通过稀疏化训练的方式对神经网络模型进行剪裁和压缩处理,但这种方法不仅导致神经网络的训练速度变慢,以及而且是裁剪后的神经网络模型无法达到原有的精度。
技术实现思路
[0004]本专利技术实施例提供一种网络模型裁剪方法、装置、设备及计算机存储介质,能够裁剪后 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种网络模型裁剪方法,其特征在于,包括:获取预设训练数据集、初始网络参数矩阵、输出精度满足目标精度的第一网络模型和所述第一网络模型的第一网络参数矩阵,其中,所述第一网络模型的裁剪率未达到预设目标裁剪率,所述初始网络参数矩阵为训练所述第一网络模型时的网络参数矩阵;根据所述初始网络参数矩阵设置所述第一网络模型的网络参数,得到第一待训练网络模型;以及,根据所述初始网络参数矩阵和所述第一网络参数矩阵确定所述第一待训练网络模型的第一梯度引导矩阵;根据所述预设训练数据集和所述第一梯度引导矩阵对所述第一待训练网络模型进行训练,当所述第一待训练网络模型的输出精度满足所述目标精度时,将所述第一待训练网络模型作为第二待裁剪网络模型,以及保存所述第二待裁剪网络模型的第二网络参数矩阵;根据所述初始网络参数矩阵和所述第二网络参数矩阵,对所述第二待裁剪网络模型进行裁剪,得到第二网络模型;当所述第二网络模型的裁剪率达到预设目标裁剪率时,将所述第二网络模型作为目标网络模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述初始网络参数矩阵和所述第一网络参数矩阵确定所述第一待训练网络模型的第一梯度引导矩阵,包括:根据梯度引导矩阵公式,计算所述第一梯度引导矩阵,其中,所述梯度引导矩阵公式为:其中,G为第一梯度引导矩阵,θ
j
为第一网络参数矩阵,θ0为初始网络参数矩阵,ρ为预设训练加速系数,n为预设训练总次数,i为当前训练次数,k为预设训练调整参数。3.根据权利要求2所述的方法,其特征在于,所述根据所述预设训练数据集和所述第一梯度引导矩阵对所述第一待训练网络模型进行训练,包括:根据所述第一梯度引导矩阵更新所述第一待训练网络模型的参数矩阵,其中,所述第一待训练网络模型的参数矩阵满足参数更新公式,所述参数更新公式为:其中,θ
i+1
为第i+1次训练第一待训练网络模型的参数矩阵,θ
i
为第i次训练第一待训练网络模型的参数矩阵,η为预设学习速率,G为第一梯度引导矩阵,为梯度。4.根据权利要求1所述的方法,其特征在于,所述根据所述初始网络参数矩阵和所述第二网络参数矩阵,对所述第二待裁剪网络模型进行裁剪,得到第二网络模型,包括:根据所述初始网络参数矩阵和所述第一网络参数矩阵,确定所述第一网络参数矩阵中包括的每个权重值的重要度,得到所述第一网络参数矩阵的参数重要度矩阵;根据所述第一网络参数矩阵的参数重要度矩阵和预设重要度阈值矩阵,确定所述第二待裁剪网络模型的掩码矩阵;根据所述掩码矩阵,对所述第二待裁剪网络模型进行裁剪,得到所述第二网络模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述初始网络参数矩阵和所述第
一网络参数矩阵,确定所述第一网络参数矩阵中包括的每个权重值的重要度,得到所述第一网络参数矩阵的参数重要度矩阵,包括:根据重要度公式计算得到所述第一网络参数矩阵中每个权重值的重要度,得到所述第一网络参数矩阵的参数重要度矩阵,其中,所述重要度公式为:m
j
=μ|θ
j
|+σ|θ
j
‑
θ0|其中,m
技术研发人员:倪茂,周婷,崔芳,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。