一种适用于无预选框检测模型的知识蒸馏方法及系统技术方案

技术编号:27744590 阅读:48 留言:0更新日期:2021-03-19 13:38
本发明专利技术公开了一种适用于无预选框检测模型的知识蒸馏方法及系统,所述方法包括:分别建立教师模型和学生模型;所述教师模型采用参数固定的大型网络,所述学生模型采用参数可训练的小型网络;对教师模型进行训练得到训练好的教师模型;对学生模型进行预训练得到预训练后的学生模型;通过知识蒸馏方法对预训练后的学生模型通过中间层蒸馏和输出层蒸馏进行重训练,得到训练好的学生模型。本方法针对以往的需要对整幅特征图进行学习,从而导致网络训练关注点过于分散的现状做出改进,为小模型的训练指明了拟合的方向,对资源受限的硬件部署十分友好,具备较高的实用价值。

【技术实现步骤摘要】
一种适用于无预选框检测模型的知识蒸馏方法及系统
本专利技术涉及计算机视觉及光学遥感目标检测领域,尤其涉及一种适用于无预选框检测模型的知识蒸馏方法及系统。
技术介绍
在目标检测领域,深度检测模型可根据有无预选框可分为基于预选框模型和无预选框模型。二者相比,无预选框模型的网络结构更为简单,不需要生成大量的预选框,从而降低了检测难度及提高检测速度,成为实际部署中的一个优先考虑方法。即便如此,无预选框模型仍旧具有深度神经网络模型固有的缺点:层数多,参数量大,计算复杂度高,从而难以在资源受限的硬件平台上部署(如移动设施、星载设备等等)。为了进一步缩减无预选框模型的网络规模,本专利技术采用参数量小计算量少的小检测模型代替原始模型。但小模型无法完美的反映出目标的类别和所处位置,其回归和分类能力都低于原始模型。因此,本专利技术通过所提基于热点图的知识蒸馏的方法提高小模型的检测性能,使之更好地反映目标特征。以往的知识蒸馏的方法大多基于图像分类任务展开,对于检测任务的探究往往适用于基于预选框的检测模型,而本专利技术则提出适用于无预选框检测网络的知识蒸馏方法本文档来自技高网...

【技术保护点】
1.一种适用于无预选框检测模型的知识蒸馏方法,所述方法包括:/n分别建立教师模型和学生模型;所述教师模型采用参数固定的大型网络,所述学生模型采用参数可训练的小型网络;/n对教师模型进行训练得到训练好的教师模型;/n对学生模型进行预训练得到预训练后的学生模型;/n通过知识蒸馏方法对预训练后的学生模型通过中间层蒸馏和输出层蒸馏进行重训练,得到训练好的学生模型。/n

【技术特征摘要】
1.一种适用于无预选框检测模型的知识蒸馏方法,所述方法包括:
分别建立教师模型和学生模型;所述教师模型采用参数固定的大型网络,所述学生模型采用参数可训练的小型网络;
对教师模型进行训练得到训练好的教师模型;
对学生模型进行预训练得到预训练后的学生模型;
通过知识蒸馏方法对预训练后的学生模型通过中间层蒸馏和输出层蒸馏进行重训练,得到训练好的学生模型。


2.根据权利要求1所述的适用于无预选框检测模型的知识蒸馏方法,其特征在于,所述教师模型和学生模型均为检测模型,均采用CenterNet网络,包括主干网络、上采样网络和检测分支网络,所述教师模型和学生模型的输入均为图片,输出均为图片检测结果,其中,
所述教师模型的主干网络为Shufflenet或ResNet或MobileNet,其中ResNet为18层,中间特征图的最大通道数为512;MobileNet的扩张系数为6;
所述学生模型的主干网络为Shufflenet或ResNet或MobileNet,其中ResNet为8层,中间特征图的最大通道数为256;MobileNet的扩张系数为3,最大通道数是教师模型MobileNet最大通道数的1/2的MobileNet。


3.根据权利要求1所述的适用于无预选框检测模型的知识蒸馏方法,其特征在于,所述对教师模式进行训练得到训练好的教师模型;具体包括:
构建训练集;
将训练集中的图片依次输入教师模型,采用损失函数L进行训练:
L=Lcls+λLwh+Loff
其中,Lcls为定位损失函数,Lwh为回归损失函数,Lreg为中心偏移损失函数,λ为调节系数,设置为0.1;
采用Adam作为训练优化器,设置初始学习率为1.25e-4,并在训练的第K次和第L次分别衰减学习率10倍,直至得到训练好的教师模型,其中K小于L。


4.根据权利要求3所述的适用于无预选框检测模型的知识蒸馏方法,其特征在于,所述构建训练集具体包括:
选取复杂背景航天遥感目标检测公开数据集NWPUVHR-10和通用数据集DOTAv1.0中有标注信息的图片作为数据集;
对数据集中的图片进行裁剪处理,裁剪后图片尺寸为640×640,并且每两张图片有140个像素的重叠区域;
检测裁剪后的图片,如果包含中心点,则保留目标框并调整标注的长宽;如果不包含中心点,则抛弃该目标框;
对检测后的图片进行数据增强操作,包括随机左右翻转,上下翻转及比例放缩,得到大小为512×512的图像,构成训练集。


5.根据权利要求4所述的适用于无预选框检测模型的知识蒸馏方法,其特征在于,所述对学生模型进行预训练得到预训练后的学生模型;具体包括:
将训练集中的图片依次输入学生模型,采用损失函数L进行训练:
L=Lcls+λLwh+Loff
其中,λ设置为0.1;
采用Adam作为训练优化器,设置初始学习率为1.25e-4,并在训练到第K次和第L次分别衰减学习率10倍,直至得到预训练好的学生模型。


6.根据权利要求1所述的适用于无预选框检测模型的知识蒸馏方法,其特征在于,所述通过知识蒸馏方法对预训练后的学生模型通过中间层蒸馏和输出层蒸馏进行重训练,得到训练好的学生模型;具体包括:
采用预训练好的学生模型的参数值作为初始值,设置初始学习率为6.25e-4;<...

【专利技术属性】
技术研发人员:张瑞琰安军社姜秀杰
申请(专利权)人:中国科学院国家空间科学中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1