一种基于知识蒸馏的快速行人检测方法技术

技术编号：30530183 阅读：21 留言：0更新日期：2021-10-30 12:27

本发明专利技术涉及计算机视觉、深度学习、目标检测、模型压缩加速等领域，具体是一种在图像或视频中对行人目标进行快速识别和定位的方法。针对行人检测网络参数量计算量较大，无法达到实时检测的问题，本发明专利技术提出一种基于知识蒸馏的快速行人检测方法，将常规的基于卷积神经网络的行人检测模型作为教师模型，通过优化的卷积方式降低其参数量和计算量，得到轻量的检测模型作为学生模型；然后针对检测任务，利用教师模型辅助学生模型的训练，提高轻量模型在复杂场景下的检测性能，从而在不牺牲过多检测精度的基础上加快检测速度，达到实时检测的要求。求。求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识蒸馏的快速行人检测方法

[0001]本专利技术涉及计算机视觉、深度学习、目标检测、模型压缩加速等领域，具体是一种在图像或视频中对行人目标进行快速识别和定位的方法。

技术介绍

[0002]随着互联网时代数据信息的极大丰富以及计算设备性能的不断提升，基于图像或视频来模拟人类视觉的计算机视觉技术迅猛发展。目标检测是计算机视觉中的基础任务之一，其主要目的是对图像或视频中的物体进行识别和定位。行人检测由于其检测目标的特殊性，一直是通用目标检测的重要分支。鲁棒Robust、快速的行人检测算法在智能交通、自动驾驶、视频监控、人机交互等领域均有着广泛的应用，同时也是目标跟踪、姿态识别、视频分析、场景理解等高级视觉任务的基础。因此，如何在复杂背景的干扰下稳健、快速的检测行人是计算机视觉技术在实际应用中亟待解决的难题。
[0003]卷积神经网络提取的特征相比于手工设计特征具备更好的表达能力和鲁棒性，极大改善了传统行人检测算法在复杂交通场景下由于遮挡、多尺度、光照变化等因素带来的性能降低问题，有效提升了算法的性能。目前基于卷积神经网络的检测算法主要有两类：一是以Faster RCNN为代表的双阶段(two stage)方法和以YOLO(You Only Look Once)为代表的单阶段(one stage)方法。前者首先利用区域建议网络生成可能存在目标的前景区域，然后针对每个区域判断是否是待检测物体，同时进一步微调其位置，是一个由粗到精的过程。后者的基本思路则是利用统一的网络直接回归出待检测物体的类别和位置，本质上是...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的快速行人检测方法，其特征在于，包括以下步骤：步骤1：教师模型设计，在RetinaNet网络基础上，引入小尺度检测模块以及尺度感知损失函数，改善复杂环境下的行人检测效果；步骤2：教师模型训练，对改进后的RetinaNet进行训练，将训练完成的模型作为教师模型，为后续学生模型的训练提供辅助信息；步骤3，学生模型生成，通过新型的卷积方式替换教师网络中的传统卷积方式，同时降低生成融合特征图的通道数，生成参数量和计算量较低的轻量学生模型。步骤4，知识蒸馏，综合利用教师模型提供的特征信息，分类置信度以及回归偏置作“软标签”指导步骤3中生成的学生模型的训练，通过知识蒸馏缓解轻量学生模型由于容量较低带来的性能降低问题，包括：4a)将教师模型的融合特征层经过adaption调整层调节至与学生模型对应特征维度一致，取其中局部重要特征作为标签，与学生模型对应的特征计算特征模拟损失函数Lfeature_imit，进行特征模拟；4b)将教师模型的分类支路输出的分类置信度作为标签，与学生模型输出的分类置信度计算分类损失函数Lcls_imit，进行分类模拟；4c)在教师模型输出的回归偏置足够可信的情况下，将其作为标签，与学生模型输出的回归偏置计算回归模拟损失函数Lreg_imit，进行回归模拟；4d)将学生模型输出的分类置信度和回归偏置与行人的真实标签分别计算分类损失函数Lcls和回归损失函数Lreg，与步骤4a)，4b)，4c)中得到的Lfeature_imit、Lcls_imit、Lreg_imit加权求和后得到整体损失函数Lall，从而联合地对轻量学生模型进行参数优化，不断迭代得到最终的算法模型。步骤5，输出测试结果，将待检测图片输入到已经训练好的轻量学生模型中，设定阈值来滤除置信度较低的预测框，对剩下的预测框采用非极大值抑制法去除重叠程度较高的框，进而得到最终的检测结果。2.根据权利要求1所述的一种基于知识蒸馏的快速行人检测方法，其特征在于，所述步骤1中的小尺度检测模块，是结合多分支结构以及跳跃连接获取具备不同感受野和深度的特征信息，以环境信息弥补小尺度行人特征不足的问题，强化特征的表示能力，具体为尺度感知回归损失函数，其形式如下所示：感知回归损失函数，其形式如下所示：其中：A是所有预设边界框，pn*＝1表示仅对判断为正样本的预测框计算回归损失函数，dx，dy，dw，dh分别表示预测框相对于预设边界框的偏移量和缩放比例。Wscalen为尺度感知系数，Wimg，Himg为输入图片尺寸，gwn和ghn分别为第n个预测框对应行人真实框的宽和高。β为控制尺度感知系数影响程度的权值，可根据样本分布调节，本发明中设为1。3.根据权利要求1所述的一种基于知识蒸馏的快速行人检测方法，其特征在于，所述的步骤2的对改进后的RetinaNet进行训练，主要训练设置包括batch_size，优化器选择，学习率衰减策略。
4.根据权利要求1所述的一种基于知识蒸馏的快速行人检测方法，其特征在于，所述的步骤3中新的卷积方式为非对称深...

【专利技术属性】
技术研发人员：周大可，张志伟，吴子涵，
申请(专利权)人：上海舜瞳科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人