一种基于知识蒸馏的快速行人检测方法技术

技术编号:30530183 阅读:21 留言:0更新日期:2021-10-30 12:27
本发明专利技术涉及计算机视觉、深度学习、目标检测、模型压缩加速等领域,具体是一种在图像或视频中对行人目标进行快速识别和定位的方法。针对行人检测网络参数量计算量较大,无法达到实时检测的问题,本发明专利技术提出一种基于知识蒸馏的快速行人检测方法,将常规的基于卷积神经网络的行人检测模型作为教师模型,通过优化的卷积方式降低其参数量和计算量,得到轻量的检测模型作为学生模型;然后针对检测任务,利用教师模型辅助学生模型的训练,提高轻量模型在复杂场景下的检测性能,从而在不牺牲过多检测精度的基础上加快检测速度,达到实时检测的要求。求。求。

【技术实现步骤摘要】
一种基于知识蒸馏的快速行人检测方法


[0001]本专利技术涉及计算机视觉、深度学习、目标检测、模型压缩加速等领域,具体是一种在图像或视频中对行人目标进行快速识别和定位的方法。

技术介绍

[0002]随着互联网时代数据信息的极大丰富以及计算设备性能的不断提升,基于图像或视频来模拟人类视觉的计算机视觉技术迅猛发展。目标检测是计算机视觉中的基础任务之一,其主要目的是对图像或视频中的物体进行识别和定位。行人检测由于其检测目标的特殊性,一直是通用目标检测的重要分支。鲁棒Robust、快速的行人检测算法在智能交通、自动驾驶、视频监控、人机交互等领域均有着广泛的应用,同时也是目标跟踪、姿态识别、视频分析、场景理解等高级视觉任务的基础。因此,如何在复杂背景的干扰下稳健、快速的检测行人是计算机视觉技术在实际应用中亟待解决的难题。
[0003]卷积神经网络提取的特征相比于手工设计特征具备更好的表达能力和鲁棒性,极大改善了传统行人检测算法在复杂交通场景下由于遮挡、多尺度、光照变化等因素带来的性能降低问题,有效提升了算法的性能。目前基于卷积神经网络的检测算法主要有两类:一是以Faster RCNN为代表的双阶段(two stage)方法和以YOLO(You Only Look Once)为代表的单阶段(one stage)方法。前者首先利用区域建议网络生成可能存在目标的前景区域,然后针对每个区域判断是否是待检测物体,同时进一步微调其位置,是一个由粗到精的过程。后者的基本思路则是利用统一的网络直接回归出待检测物体的类别和位置,本质上是一个密集采样的过程。通常two stage检测算法具备更高的检测精度,但其检测速度相对较慢;得益于更加统一的检测框架,one stage检测算法的检测速度具备一定的优势,但其检测精度会略有降低。在目标检测方法发展的过程中,两类算法相互借鉴、相互融合,算法的性能和速度均取得了长足的进步。
[0004]目前,基于卷积神经网络的行人检测算法性能提升显著,在充足训练样本支持下,经典的检测网络如RetinaNet对于遮挡、杂乱背景等问题也具有较好鲁棒性。但是,这些检测网络的参数量、计算量很大,对计算资源要求很高。例如,精度较高的RetinaNet,即使在配备RTX2080的服务器上,其处理速度也难以达到实时检测。在智能交通、自动驾驶和智能监控等领域的实际应用中,行人检测算法通常需要运行于前端的嵌入式设备,而这些设备的计算和存储能力是非常有限的。因此,如何在保证一定检测精度的前提下,对检测网络进行压缩加速从而提高算法的实时性,是当前行人检测算法研究与应用的重要难点。

技术实现思路

[0005]本专利技术为了解决上述技术问题采用以下技术方案:
[0006]一种基于知识蒸馏的快速行人检测方法,包括如下步骤:
[0007]一种基于知识蒸馏的快速行人检测方法,其特征在于,包括以下步骤:
[0008]一种基于知识蒸馏的快速行人检测方法,其特征在于,包括以下步骤:
[0009]步骤1:教师模型设计,在RetinaNet网络基础上,引入小尺度检测模块以及尺度感知损失函数,改善复杂环境下的行人检测效果;
[0010]步骤2:教师模型训练,对改进后的RetinaNet进行训练,将训练完成的模型作为教师模型,为后续学生模型的训练提供辅助信息;
[0011]步骤3,学生模型生成,通过新型的卷积方式替换教师网络中的传统卷积方式,同时降低生成融合特征图的通道数,生成参数量和计算量较低的轻量学生模型。
[0012]步骤4,知识蒸馏,综合利用教师模型提供的特征信息,分类置信度以及回归偏置作“软标签”指导步骤3中生成的学生模型的训练,通过知识蒸馏缓解轻量学生模型由于容量较低带来的性能降低问题,包括:
[0013]4a)将教师模型的融合特征层经过adaption调整层调节至与学生模型对应特征维度一致,取其中局部重要特征作为标签,与学生模型对应的特征计算特征模拟损失函数Lfeature_imit,进行特征模拟;
[0014]4b)将教师模型的分类支路输出的分类置信度作为标签,与学生模型输出的分类置信度计算分类损失函数Lcls_imit,进行分类模拟;
[0015]4c)在教师模型输出的回归偏置足够可信的情况下,将其作为标签,与学生模型输出的回归偏置计算回归模拟损失函数Lreg_imit,进行回归模拟;
[0016]4d)将学生模型输出的分类置信度和回归偏置与行人的真实标签分别计算分类损失函数Lcls和回归损失函数Lreg,与步骤4a),4b),4c)中得到的Lfeature_imit、Lcls_imit、Lreg_imit加权求和后得到整体损失函数Lall,从而联合地对轻量学生模型进行参数优化,不断迭代得到最终的算法模型。
[0017]步骤5,输出测试结果,将待检测图片输入到已经训练好的轻量学生模型中,设定阈值来滤除置信度较低的预测框,对剩下的预测框采用非极大值抑制法去除重叠程度较高的框,进而得到最终的检测结果。
[0018]进一步的,所述的步骤2.所述步骤1中的小尺度检测模块,是结合多分支结构以及跳跃连接获取具备不同感受野和深度的特征信息,以环境信息弥补小尺度行人特征不足的问题,强化特征的表示能力,具体为尺度感知回归损失函数,其形式如下所示:
[0019][0020][0021]其中:A是所有预设边界框,pn*=1表示仅对判断为正样本的预测框计算回归损失函数,dx,dy,dw,dh分别表示预测框相对于预设边界框的偏移量和缩放比例。Wscalen为尺度感知系数,Wimg,Himg为输入图片尺寸,gwn和ghn分别为第n个预测框对应行人真实框的宽和高。β为控制尺度感知系数影响程度的权值,可根据样本分布调节,本专利技术中设为1。
[0022]进一步的,所述的步骤3中新的卷积方式为非对称深度分离卷积,其将普通3
×
3卷积拆分为3
×
1和1
×
3深度分离卷积,将二者串联后再接1
×
1卷积,构成新的卷积模块后代替原本的3
×
3卷积。此外,为了进一步降低参数量,将RetinaNet融合生成的5个特征层p1~p5的通道数从256降低到128。
[0023]进一步的,5.所述的步骤4中的知识蒸馏方法,对步骤3中得到的轻量学生模型进
行训练,利用知识蒸馏从特征、分类置信度和回归偏置三个维度挖掘教师模型的“知识”,辅助轻量学生模型的训练;
[0024]从特征维度提出的特征模拟损失函数Lfeature_imit形式为:
[0025][0026]其中:k为5个融合特征层,W、H、C分别为融合特征层的宽、高、通道数。I是分类置信度大于阈值θ的预设边界框的重叠区域掩膜,本专利技术中θ设为0.5,Np是掩膜区域所有特征点的个数。fadap为适应层。s和t分别为学生模型特征和教师模型特征;
[0027]从分类置信度维度提出的分类模拟损失函数Lcls_imit形式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的快速行人检测方法,其特征在于,包括以下步骤:步骤1:教师模型设计,在RetinaNet网络基础上,引入小尺度检测模块以及尺度感知损失函数,改善复杂环境下的行人检测效果;步骤2:教师模型训练,对改进后的RetinaNet进行训练,将训练完成的模型作为教师模型,为后续学生模型的训练提供辅助信息;步骤3,学生模型生成,通过新型的卷积方式替换教师网络中的传统卷积方式,同时降低生成融合特征图的通道数,生成参数量和计算量较低的轻量学生模型。步骤4,知识蒸馏,综合利用教师模型提供的特征信息,分类置信度以及回归偏置作“软标签”指导步骤3中生成的学生模型的训练,通过知识蒸馏缓解轻量学生模型由于容量较低带来的性能降低问题,包括:4a)将教师模型的融合特征层经过adaption调整层调节至与学生模型对应特征维度一致,取其中局部重要特征作为标签,与学生模型对应的特征计算特征模拟损失函数Lfeature_imit,进行特征模拟;4b)将教师模型的分类支路输出的分类置信度作为标签,与学生模型输出的分类置信度计算分类损失函数Lcls_imit,进行分类模拟;4c)在教师模型输出的回归偏置足够可信的情况下,将其作为标签,与学生模型输出的回归偏置计算回归模拟损失函数Lreg_imit,进行回归模拟;4d)将学生模型输出的分类置信度和回归偏置与行人的真实标签分别计算分类损失函数Lcls和回归损失函数Lreg,与步骤4a),4b),4c)中得到的Lfeature_imit、Lcls_imit、Lreg_imit加权求和后得到整体损失函数Lall,从而联合地对轻量学生模型进行参数优化,不断迭代得到最终的算法模型。步骤5,输出测试结果,将待检测图片输入到已经训练好的轻量学生模型中,设定阈值来滤除置信度较低的预测框,对剩下的预测框采用非极大值抑制法去除重叠程度较高的框,进而得到最终的检测结果。2.根据权利要求1所述的一种基于知识蒸馏的快速行人检测方法,其特征在于,所述步骤1中的小尺度检测模块,是结合多分支结构以及跳跃连接获取具备不同感受野和深度的特征信息,以环境信息弥补小尺度行人特征不足的问题,强化特征的表示能力,具体为尺度感知回归损失函数,其形式如下所示:感知回归损失函数,其形式如下所示:其中:A是所有预设边界框,pn*=1表示仅对判断为正样本的预测框计算回归损失函数,dx,dy,dw,dh分别表示预测框相对于预设边界框的偏移量和缩放比例。Wscalen为尺度感知系数,Wimg,Himg为输入图片尺寸,gwn和ghn分别为第n个预测框对应行人真实框的宽和高。β为控制尺度感知系数影响程度的权值,可根据样本分布调节,本发明中设为1。3.根据权利要求1所述的一种基于知识蒸馏的快速行人检测方法,其特征在于,所述的步骤2的对改进后的RetinaNet进行训练,主要训练设置包括batch_size,优化器选择,学习率衰减策略。
4.根据权利要求1所述的一种基于知识蒸馏的快速行人检测方法,其特征在于,所述的步骤3中新的卷积方式为非对称深...

【专利技术属性】
技术研发人员:周大可张志伟吴子涵
申请(专利权)人:上海舜瞳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1