一种CNN分类模型的压缩方法、装置及介质制造方法及图纸

技术编号：41013732 阅读：2 留言：0更新日期：2024-04-18 21:50

本发明专利技术公开了一种CNN分类模型的压缩方法、装置及介质，所述方法包括：获取目标模型参数；使用初始模型加载目标模型参数，并冻结初始模型的原始参数，得到教师模型；其中，初始模型为CNN模型；通过稀疏训练的方式对教师模型进行剪枝，得到学生模型；对教师模型和学生模型的类激活图进行对齐处理和调参处理；通过对进行对齐处理和调参处理后教师模型和学生模型的参数进行迭代更新，使预设的损失函数收敛，得到压缩后的最终模型。本发明专利技术提出一种CNN分类模型的压缩方法、装置及介质，通过剪枝处理、对齐处理以及使损失函数收敛的方式，即可得到压缩后的最终模型，能够解决在小样本情况下，难以在保证模型性能的同时，有效降低模型的复杂度和大小的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习，特别是涉及一种cnn分类模型的压缩方法、装置及介质。

技术介绍

1、深度学习领域中，同一架构的模型在训练时，参数量大的模型比参数量少的模型能更好地拟合数据集、有更好的泛化能力；在处理噪声和异常值时，也具有更好的鲁棒性、能够保持模型性能，同时可以更好地提取图像特征，完成分类、回归等任务。但参数量大的模型在计算资源受限的设备上的部署和应用比较困难，于此同时，训练参数量大的模型往往需要足够的训练数据以防止其过拟合；在专业领域中，常常伴有数据隐私和安全因素的挑战，因此参数量大的模型往往会受到小样本数据的限制；现有关于小样本的模型压缩技术主要是通过数据清洗、特征工程或者更换模型的方式来应对小样本数据的问题。

2、但是在实际应用中，现有技术手段难以有效解决少样本的问题；在给定每个类别少量样本的情况下，模型在训练集上的表现较差从而会影响模型的泛化能力，以及会导致模型在训练过程中无法充分学习数据的特征，从而降低模型的准确性和鲁棒性，因此现有技术手段难以在保证模型性能的同时，有效降低模型的复杂度和大小。

技术实现思路

1、本专利技术提供一种cnn分类模型的压缩方法、装置及介质，以解决在小样本情况下，难以在保证模型性能的同时，有效降低模型的复杂度和大小的问题。

2、为了解决上述问题，本专利技术提供了一种cnn分类模型的压缩方法，包括：

3、获取目标模型参数；

4、使用预设的初始模型加载所述目标模型参数，并冻结所述初始模型的原始参数

5、通过稀疏训练的方式对所述教师模型进行剪枝，得到学生模型；

6、对所述教师模型和所述学生模型的类激活图进行对齐处理和调参处理；

7、通过对进行对齐处理和调参处理后所述教师模型和学生模型的参数进行迭代更新，使预设的损失函数收敛，得到压缩后的最终模型；其中，所述损失函数由逻辑推理部分的损失函数和类激活图监督部分的损失函数构成。

8、本专利技术通过冻结初始模型的原始参数，能够使所得到的教师模型作为一个容器在容纳目标模型参数的同时，保证教师模型的特征提取能力和分类能力不变；通过稀疏训练的方式对教师模型进行剪枝，可以有效降低学生模型中数据的冗余度，使学生模型中的数据更加紧凑；通过对齐处理和调参处理，能够让教师模型向学生模型兼容，这使得教师模型的知识更容易转移到学生模型；最后通过更新参数使损失函数收敛，可以让模型的性能更加优越、训练结果更加可靠，使教师模型和学生模型的差距达到最小，进而得到压缩后的最终模型。

9、相比于现有技术，本方案通过剪枝处理、对齐处理和调参处理，能够继续保持教师模型不同类别的注意力分布以最大化压缩模型，保证学生模型的数据简洁性和模型性能；通过更新参数使损失函数收敛，可以让学生模型进一步学习到教师模型不同类别的注意力分布，以及减少分层累积的估计误差，有效保证学生的分类能力，所以能够解决在小样本情况下，难以在保证模型性能的同时，有效降低模型的复杂度和大小的问题。

10、作为优选方案，通过稀疏训练的方式对所述教师模型进行剪枝，得到学生模型，具体为：

11、根据所述教师模型中可剪枝的层级关系建立分组矩阵，去除所述分组矩阵中的重复分组数据，得到第一分组；

12、按各通道计算所述第一分组中各分组的平均重要性，得到平均重要性列表；其中，所述各通道是指所述教师模型中的各卷积通道；

13、对所述平均重要性列表中的参数进行所述稀疏训练，得到所述各通道的权值，将权值小于预设阈值的通道从所述教师模型中移除，得到所述学生模型。

14、本优选方案通过去除重复分组数据的方式，能够在不损失模型精度的情况下，大幅度减少模型的参数量和计算量，从而提高模型的运行效率和推理速度；并且，稀疏训练可以有效降低剪枝过程的计算量以及加速剪枝进程，得到各通道的权值；此外，通过将权值小于预设阈值的通道从教师模型中移除，可以有效降低所得到的学生模型中数据的冗余度，使学生模型中的数据更加紧凑。

15、作为优选方案，按各通道计算所述第一分组中各分组的平均重要性，得到平均重要性列表，具体为：

16、从所述第一分组中筛选出包含bn层的分组，得到第二分组；

17、计算所述第二分组中各分组bn层的尺度参数的绝对值大小，得到所述第二分组中各分组的单组重要性；

18、根据所述单组重要性，按所述各通道计算所述第二分组中各分组的平均重要性，得到所述平均重要性列表。

19、本优选方案中，由于尺度参数的绝对值大小反应了参数或者特征的重要程度，所以可以通过对其进行计算，得到各分组的单组重要性；并且本优选方案所构建的平均重要性列表，能够反应模型中所有待衡量目标参数的重要性，为之后将权值小于预设阈值的通道从所述教师模型中移除奠定基础。

20、作为优选方案，对所述教师模型和所述学生模型的类激活图进行对齐处理，具体为：

21、根据所述教师模型和所述学生模型的权重矩阵与特征图，分别计算得到教师模型的类激活图和学生模型的类激活图；

22、使用预设的卷积核对所述教师模型的类激活图进行降维处理，使所述教师模型的类激活图和所述学生模型的类激活图对齐。

23、本优选方案将教师模型的类激活图和学生模型的类激活图对齐，会使得教师模型和学生模型之间的性能差距在极大程度上得到有效减小；也就是说，通过对齐类激活图的方式，能够让教师模型向学生模型兼容，这使得教师模型的知识更容易转移到学生模型。

24、作为优选方案，对所述教师模型和所述学生模型的类激活图进行调参处理，具体为：

25、对进行对齐处理之后所述教师模型的类激活图和所述学生模型的类激活图进行平均池化处理，分别得到第一模型和第二模型；

26、对所述第一模型和所述第二模型进行归一化处理；其中，所述归一化处理是通过l2正则化使所述第一模型的类激活图含义变成类的注意力分布，并使用所述类的注意力分布指导所述第二模型学习不同类别的注意力分布。

27、本优选方案先将类激活图进行自适应平均池化处理，可以缩小类激活图的尺度，以便加快归一化处理的进程；并且，通过平均池化处理和归一化处理，可以降低类激活图的分辨率，提高类激活图的计算性能，使类激活图数值高的区域突出表示输入类别的区分区域，提高模型的分类能力。

28、作为优选方案，通过对进行对齐处理和调参处理后所述教师模型和学生模型的参数进行迭代更新，使预设的损失函数收敛，得到压缩后的最终模型，具体为：

29、使用预设训练集和预设的参数更新公式，通过第一预设方法对进行对齐处理和调参处理后所述教师模型和学生模型的参数进行迭代更新，使所述损失函数收敛；

30、通过在损失函数收敛后保留所述学生模型的分类结果输出、去除所述学生模型的类激活图输出，以及重新加载所述学生模型的权重参数，得到压缩后的所述最终模型。

<本文档来自技高网...

【技术保护点】

1.一种CNN分类模型的压缩方法，其特征在于，包括：

2.如权利要求1所述的一种CNN分类模型的压缩方法，其特征在于，通过稀疏训练的方式对所述教师模型进行剪枝，得到学生模型，具体为：

3.如权利要求2所述的一种CNN分类模型的压缩方法，其特征在于，按各通道计算所述第一分组中各分组的平均重要性，得到平均重要性列表，具体为：

4.如权利要求1所述的一种CNN分类模型的压缩方法，其特征在于，对所述教师模型和所述学生模型的类激活图进行对齐处理，具体为：

5.如权利要求4所述的一种CNN分类模型的压缩方法，其特征在于，对所述教师模型和所述学生模型的类激活图进行调参处理，具体为：

6.如权利要求1所述的一种CNN分类模型的压缩方法，其特征在于，通过对进行对齐处理和调参处理后所述教师模型和学生模型的参数进行迭代更新，使预设的损失函数收敛，得到压缩后的最终模型，具体为：

7.如权利要求1所述的一种CNN分类模型的压缩方法，其特征在于，所述损失函数由逻辑推理部分的损失函数和类激活图监督部分的损失函数构成，具体为：

9.一种CNN分类模型的压缩装置，其特征在于，包括参数获取模块、参数加载模块、模型训练模块、参数调整模块和参数更新模块；

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被计算机调用并执行，实现如上述权利要求1至8任意一种CNN分类模型的压缩方法。

...

【技术特征摘要】

1.一种cnn分类模型的压缩方法，其特征在于，包括：

2.如权利要求1所述的一种cnn分类模型的压缩方法，其特征在于，通过稀疏训练的方式对所述教师模型进行剪枝，得到学生模型，具体为：

3.如权利要求2所述的一种cnn分类模型的压缩方法，其特征在于，按各通道计算所述第一分组中各分组的平均重要性，得到平均重要性列表，具体为：

4.如权利要求1所述的一种cnn分类模型的压缩方法，其特征在于，对所述教师模型和所述学生模型的类激活图进行对齐处理，具体为：

5.如权利要求4所述的一种cnn分类模型的压缩方法，其特征在于，对所述教师模型和所述学生模型的类激活图进行调参处理，具体为：

6.如权利要求1所述的一种cnn分类模型的压缩方法，其特征...

【专利技术属性】
技术研发人员：徐晨，刘哲，陈佳佳，孙晋祥，刘伟鑫，李伟秋，
申请(专利权)人：声瞳科技广州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人