当前位置: 首页 > 专利查询>吉林大学专利>正文

一种用于图像快速识别且基于蒸馏数据集的进化剪枝方法技术

技术编号:39159470 阅读:10 留言:0更新日期:2023-10-23 15:02
本发明专利技术公开了一种用于图像快速识别且基于蒸馏数据集的进化剪枝方法,总体上遵循“评估策略筛选

【技术实现步骤摘要】
一种用于图像快速识别且基于蒸馏数据集的进化剪枝方法


[0001]本专利技术涉及图像识别
,更具体的是,本专利技术涉及一种用于图像快速识别且基于蒸馏数据集的进化剪枝方法。

技术介绍

[0002]深度卷积神经网络(DCNN)模型是深度学习(DL)的核心技术,广泛应用于图像识别、目标检测、工业建模和自然语言处理等领域,DCNN已成为众多前沿技术的基础,是近年来备受关注的研究热点之一。
[0003]由于图像识别任务难度的不断提高,DCNN的规模也不得不相应增加,导致训练DCNN模型需要更高的计算资源,此外,大规模DCNN模型的推理也需要更为复杂的计算和更大的存储空间,使得DCNN模型难以部署在移动设备或物联网设备上。
[0004]压缩DCNN模型是从这种局面脱困的有效方法,目前主流的模型压缩方法包括权重共享、剪枝、量化和知识蒸馏,其中剪枝具有更高的灵活性,是降低网络复杂度最流行的方法之一,从结构上,剪枝可以删除权重、过滤器和层,删除权重的方式无法彻底使某个权重抛离过滤器,因此需要特殊的硬件支持,而删除过滤器和层的方式避免了这种限制,又被称为结构化剪枝。
[0005]现有的结构化剪枝技术主要可以分为两类:基于准则的剪枝技术和基于搜索/学习的剪枝技术。
[0006]基于准则的剪枝技术关键在于评估过滤器的重要性,一般遵循“预训练

剪枝

微调”流程,在这类技术中,根据准则计算过滤器在模型中的重要性指标,从而对过滤器进行排序,重要性指标的计算可以依据过滤器在推理或训练过程中的表现,也可以由过滤器在特征图中的反馈体现,结合计算平台的资源限制,删除卷积层中不重要的过滤器,保留排名靠前的过滤器,从而达成压缩模型的目的,这类技术需要DCNN模型设计经验,必须人工设置剪枝参数,在剪枝过程中进行多次微调,使得剪枝流程融入了过多的人工经验,无法自动剪枝。
[0007]基于搜索/学习的剪枝技术使用进化算法或强化学习执行自动搜索,这类技术的基本原理是引入自动搜索方法查找重要的过滤器,过滤器是否保留一般取决于删除该过滤器后模型的精度变化,剪枝模型的精度恢复既可以采用与基于准则的剪枝技术相同的多次微调方法,也可以在搜索结束之后整体微调、从头训练或知识蒸馏等方法,基于搜索/学习的剪枝技术将剪枝视为优化问题,一般利用进化算法或强化学习搜索最优剪枝模型,使用进化算法作为搜索器进行剪枝的方法也被称为进化剪枝方法,进化剪枝不需要繁杂的先验知识,省去了人工经验,实现了自动剪枝,但剪枝问题的搜索空间巨大,且搜索过程需要成百上千次评估候选剪枝模型,搜索成本过高。

技术实现思路

[0008]本专利技术的目的是设计开发了一种用于图像快速识别且基于蒸馏数据集的进化剪
枝方法,通过蒸馏数据集与进化算法自动搜索剪枝模型,实现低成本的自动剪枝和图像快速识别。
[0009]本专利技术提供的技术方案为:
[0010]一种用于图像快速识别且基于蒸馏数据集的进化剪枝方法,包括如下步骤:
[0011]步骤一、采集待识别的图像作为真实数据集,并将所述真实数据集压缩为蒸馏数据集;
[0012]步骤二、将预训练的DCNN模型随机采样n个剪枝模型,并确定模型评估策略;
[0013]步骤三、对所述预训练的DCNN模型随机采样NP个剪枝模型后随机编码生成NP个个体,组成初始父种群,并使用所述模型评估策略对解码后的NP个剪枝模型进行评估,获得NP个剪枝模型的精度和算力消耗;
[0014]步骤六、对所述初始父种群执行变异操作和交叉操作获得子种群,且约束目标满足:
[0015]minimize:
[0016]subject:
[0017]式中,accuracy(model
pruned
)为剪枝模型的精度,accuracy(model
ori
)为预训练的DCNN模型的精度,flopsmodel
pruned
)为剪枝模型的计算量,flops(model
ori
)为预训练的DCNN模型的计算量,σ为算力降低比例的阈值;
[0018]步骤七、使用所述模型评估策略对子种群解码后的剪枝模型进行评估,获得剪枝模型的精度和算力消耗;
[0019]步骤八、更新父种群和子种群,直至达到评估次数并输出最优个体代表的剪枝模型;
[0020]步骤九、初始化所述最优个体代表的剪枝模型的权重值,使其满足正态分布;
[0021]步骤十、根据最终剪枝模型获得识别的图片。
[0022]优选的是,所述将真实数据集压缩为蒸馏数据集具体包括:
[0023]步骤1、以数据集冷凝方法随机生成蒸馏数据,所述蒸馏数据组成初始化的蒸馏数据集;
[0024]步骤2、以减少真实数据和蒸馏数据训练损失的梯度差距为目标进行优化,获得蒸馏数据集。
[0025]优选的是,所述确定模型评估策略具体包括:
[0026]步骤1、以真实数据集对所述n个剪枝模型进行训练后按照精度从大到小进行排序后获得初始精度集rank
R
,再分别以蒸馏数据集对所述n个剪枝模型进行微调训练和从头训练后,按照精度从大到小进行排序后获得微调精度集rank
sf
和从头训练精度集rank
sc

[0027]步骤2、判断微调精度集、从头训练精度集与初始精度集之间的欧式距离:
[0028]若rank
sf
与rank
R
的欧式距离更小,则选择以蒸馏数据集微调训练作为模型评估策略;
[0029]若rank
sc
与rank
R
的欧式距离更小,则选择以蒸馏数据集从头训练作为模型评估策略。
[0030]优选的是,所述变异操作满足:
[0031]v
i
=x
i
+F
i
·
(x
pbest

x
i
)+F
i
·
(x
r1

x
r2
);
[0032]式中,v
i
为变异操作后的第i个个体,x
i
为父种群中的第i个个体,F
i
为父种群内第i个个体的缩放因子,x
pbest
为精英种群中的随机个体,x
r1
为父种群内的第r1个随机个体,x
r2
为父种群内的第r2个随机个体。
[0033]优选的是,所述父种群内第i个个体的缩放因子的更新满足:
[0034]F
i
=randc(μF,0.1);
[0035]式中,randc为柯西分布,μF为第一中间辅助参数;
[0036]所述第一中间辅助参数初始值为0.5,且第一中间辅助参数的更新满足:
[0037]μF<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于图像快速识别且基于蒸馏数据集的进化剪枝方法,其特征在于,包括如下步骤:步骤一、采集待识别的图像作为真实数据集,并将所述真实数据集压缩为蒸馏数据集;步骤二、将预训练的DCNN模型随机采样n个剪枝模型,并确定模型评估策略;步骤三、对所述预训练的DCNN模型随机采样NP个剪枝模型后随机编码生成NP个个体,组成初始父种群,并使用所述模型评估策略对解码后的NP个剪枝模型进行评估,获得NP个剪枝模型的精度和算力消耗;步骤六、对所述初始父种群执行变异操作和交叉操作获得子种群,且约束目标满足:minimize:subject:式中,accuracy(model
pruned
)为剪枝模型的精度,accuracy(modelo
ri
)为预训练的DCNN模型的精度,flops(model
pruned
)为剪枝模型的计算量,flops(model
ori
)为预训练的DCNN模型的计算量,σ为算力降低比例的阈值;步骤七、使用所述模型评估策略对子种群解码后的剪枝模型进行评估,获得剪枝模型的精度和算力消耗;步骤八、更新父种群和子种群,直至达到评估次数并输出最优个体代表的剪枝模型;步骤九、初始化所述最优个体代表的剪枝模型的权重值,使其满足正态分布;步骤十、根据最终剪枝模型获得识别的图片。2.如权利要求1所述的用于图像快速识别且基于蒸馏数据集的进化剪枝方法,其特征在于,所述将真实数据集压缩为蒸馏数据集具体包括:步骤1、以数据集冷凝方法随机生成蒸馏数据,所述蒸馏数据组成初始化的蒸馏数据集;步骤2、以减少真实数据和蒸馏数据训练损失的梯度差距为目标进行优化,获得蒸馏数据集。3.如权利要求2所述的用于图像快速识别且基于蒸馏数据集的进化剪枝方法,其特征在于,所述确定模型评估策略具体包括:步骤1、以真实数据集对所述n个剪枝模型进行训练后按照精度从大到小进行排序后获得初始精度集rank
R
,再分别以蒸馏数据集对所述n个剪枝模型进行微调训练和从头训练后,按照精度从大到小进行排序后获得微调精度集rank
sf
和从头训练精度集rank
sc
;步骤2、判断微调精度集、从头训练精度集与初始精度集之间的欧式距离:若rank
sf
与rank
R
的欧式距离更小,则选择以蒸馏数据集微调训练作为模型评估策略;若rank
sc
与rank
R
的欧式距离更小,则选择以蒸馏数据集从头训练作为模型评估策略。4.如权利要求3所述的用于图像快速识别且基于蒸馏数据集的进化剪枝方法,其特征在于,所述变异操作满足:v
i
=x
i
+F
i
·
(x
pbest

x
i
)+F
i
·
(x
r1

x
r2
);
式中,v
i
为变异操作后的第i个个体,x
i
为父种群中的第i个个体,F
i
为父种群内第i个个体的缩放因子,x
pbest
为精英种群中的随机个体,x
r1
为父种群内的第r1个随机个体,x
r2
为父种群内的第r2个随机个体。5.如权利要求4所述的用于图像快速识别且基于蒸馏数据集的进化剪枝方法,其特征在于,所述父种群内第i个个体的缩放因子的更新满足:F
i
=randc(μF,0.1);式中,randc为柯西分布,μF为第一中间辅助参数;所述第一中间辅助参数初始值为0.5,且第一中间辅助参数的更新满足:μF
t
=(1

c)
·<...

【专利技术属性】
技术研发人员:王兴旺孙亚峰陈心悦徐海啸
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1