神经网络模型压缩方法、装置和系统制造方法及图纸

技术编号:36047246 阅读:49 留言:0更新日期:2022-12-21 10:56
本申请公开一种神经网络模型压缩方法、装置和系统,用于实现非结构化剪枝、量化感知训练、蒸馏训练相结合,可提升模型性能,减少模型的精度损失。模型训练方法包括:根据训练数据集合对第一神经网络模型和第二神经网络模型进行训练直至收敛,第一神经网络模型的第一卷积层包括第一伪量化节点、第二伪量化节点;S2、对第一神经网络模型的第二卷积层进行非结构化剪枝,直至进行非结构化剪枝的第二卷积层的稀疏度均达到第一目标稀疏度;将第二神经网络模型作为老师对第一神经网络模型进行蒸馏量化训练,直到满足蒸馏量化训练结束条件;如果不再进行非结构化剪枝,则结束非结构化剪枝的迭代过程,否则增加第一目标稀疏度,并重新开始执行步骤S2。始执行步骤S2。始执行步骤S2。

【技术实现步骤摘要】
神经网络模型压缩方法、装置和系统


[0001]本申请涉及神经网络领域,尤其涉及一种神经网络模型压缩方法、装置和系统。

技术介绍

[0002]量化感知训练、蒸馏训练和非结构化剪枝是几种神经网络模型的模型压缩技术,上述模型压缩技术可以相结合。不论是量化感知训练还是非结构化剪枝,为了降低训练效果损失,均可以添加大模型进行蒸馏训练,即量化感知训练+蒸馏训练,非结构化剪枝+蒸馏训练。
[0003]如果先对神经网络模型进行量化感知训练,然后再进行非结构化剪枝,由于非结构化剪枝过程仅更新卷积层的参数,而不会同步更新量化模型(经过量化感知训练的带有伪量化节点的神经网络模型)中伪量化节点的参数,会导致量化模型的伪量化节点参数引入新的偏差,影响最终量化模型的精度。
[0004]如果先对神经网络模型进行非结构化剪枝,然后再进行量化感知训练,经过非结构化剪枝后得到的稀疏浮点模型容易加重量化感知训练的不稳定性,影响最终量化模型的精度。
[0005]另外,蒸馏训练往往是用结构更复杂的大模型当老师,在输入相同的训练数据集合的条件下,令神经网络模型的输本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型压缩方法,其特征在于,包括:S1、根据训练数据集合对第一神经网络模型和第二神经网络模型进行训练直至收敛,所述第二神经网络模型的结构复杂度高于所述第一神经网络模型的结构复杂度;训练后的所述第一神经网络模型的第一卷积层中包括第一伪量化节点、第二伪量化节点,所述第一伪量化节点用于在所述第一卷积层的权重和输入的特征图进行卷积运算前,对所述第一卷积层的权重进行量化和反量化,所述第二伪量化节点用于在所述第一卷积层的权重和输入的特征图进行卷积运算前,对输入的特征图进行量化和反量化;S2、对所述第一神经网络模型的第二卷积层进行非结构化剪枝,直至进行非结构化剪枝的第二卷积层的稀疏度均达到第一目标稀疏度;S3、将所述第二神经网络模型作为老师对所述第一神经网络模型进行蒸馏量化训练,直到满足蒸馏量化训练结束条件;S4、判断是否继续进行非结构化剪枝,如果不再进行非结构化剪枝,则结束非结构化剪枝的迭代过程,否则增加所述第一目标稀疏度,并重新开始执行步骤S2。2.根据权利要求1所述的方法,其特征在于,所述蒸馏量化训练的训练轮次随着所述第二卷积层的稀疏度的增加而增加。3.根据权利要求1或2所述的方法,其特征在于,所述判断是否继续进行非结构化剪枝,包括:如果所有进行非结构化剪枝的第二卷积层的稀疏度与增量稀疏度之和均大于第二目标稀疏度,则不再进行非结构化剪枝,否则进行下一轮非结构化剪枝,所述第二目标稀疏度大于或等于所述第一目标稀疏度。4.根据权利要求1或2所述的方法,其特征在于,对所述第二卷积层进行非结构化剪枝时,按照所述第二卷积层的有效权重的绝对值从小到大的顺序对所述第二卷积层的有效权重进行置零,所述有效权重指在之前所有的非结构化剪枝过...

【专利技术属性】
技术研发人员:姚万欣
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1