多姿态人体检测方法、计算机存储介质及电子设备技术

技术编号:23984881 阅读:22 留言:0更新日期:2020-04-29 13:03
本发明专利技术提供了一种执法办案区场景下的多姿态人体检测方法、计算机存储介质及电子设备,所述方法,包括以下步骤:S1、在RefineDet的ARM分支中加入FSAF模块,构成FSAF‑RefineDet网络结构;S2、采集执法办案区场景下的人体图像数据,进行人体信息标注,并将人体信息标注后的所述人体图像数据划分为训练集和测试集;S3、对训练集进行旋转扩增;S4、对旋转扩增后的训练数据尺度归一化后进行随机增强和随机添加噪声;S5、对FSAF‑RefineDet网络进行训练,得到训练模型;S6、将训练模型在测试集上进行测试,选择识别精度最高的训练模型作为最终检测模型。根据本发明专利技术实施例的方法,有效减少算法在执法办案区场景下的误检率和漏检率,提高识别精度,且不增加模型的计算代价。

Multi pose human detection method, computer storage medium and electronic equipment

【技术实现步骤摘要】
多姿态人体检测方法、计算机存储介质及电子设备
本专利技术涉及人体检测领域,更具体地,涉及一种执法办案区场景下的多姿态人体检测方法、计算机存储介质及电子设备。
技术介绍
在执法办案区场景下,办案民警需时刻监控犯罪嫌疑人是否存在异常行为,这往往需要办案民警同时监控多个执法办案区,这种做法费时费力且效率低下。为了提高公安民警在执法办案区场景下的监控效率,提出针对该场景下的一种异常行为识别分析系统,其通过监控视频对嫌疑人的行为进行实时的自动识别。该系统主要包括了人体检测,人体追踪以及行为识别算法。本专利技术主要是针对此应用场景开发的一个高精度,高效率的人体检测算法。目前基于视频图像的人体检测技术主要分为两种,一种是基于传统机器学习方法,另一种是基于深度学习的方法。基于传统机器学习的方法,通常是利用手工设计特征提取算子对图像进行特征提取,然后再将这些特征用于训练分类器,最后在多尺度的图像上使用滑动窗口的方式进行人体检测。例如:公开号为“CN104680134A”的专利技术专利,提出了一种快速的人体检测方法,其提取多尺度的HOG特征训练分类器,并采用三帧差分法确定运动区域,最后结合分类器和运动区域实现人体检测。公开号为“CN103455798A”的专利技术专利,提出了一种最大集合流向直方图的人体检测方法,其通过对图像进行二维小波变换,划分带波bandelet块,获取采样角排序索引,最佳几何流方向以及条带波系数矩阵,进而统计个方向特征训练分类器,最后通过滑动窗口提取特征并分类的方式实现人体检测。公开号为“CN110046601A”的专利技术专利提出了一种针对十字路口场景的行人检测方法,其通过平均背景模型算法建立十字路口场景的背景模型,并采用adaboost算法提取局部shapelet特征,利用改进的级联分类器训练各部位的强分类器,然后再利用KBS算法组合为最终的分类器,以实现人体检测。公开号为“CN105913026A”的专利技术专利公开了一种基于Harr-PCA特征和概率神经网络的行人检测方法,其首先提取样本Haar特征,然后使用PCA进行降维,最后把降维后的特征输入概率神经网络进行训练进而得到行人检测器。该类方法由于人工设计的特征描述子提取的特征表示能力有限,对于复杂多样的执法办案区场景,难以提供鲁棒的特征表示,进而难以获得高精度的人体检测。基于深度学习的方法,通常是通过CNN网络端对端的自动学习,提取图像特征,最后通过直接回归或感兴趣区域分类的方式实现人体检测。例如:公开号为“CN109978035A”的专利技术专利,提出了一种改进的k-means和损失函数的行人检测方法,首先通过改进的k-means算法对训练集进行聚类,然后改进检测网络YOLOv3的损失函数,最后训练YOLOv3模型实现行人检测。公开号为“CN110020688A”的专利技术专利提出了一种基于深度学习的遮挡行人检测方法,其首先基于FasterR-CNN检测算法,利用VGG16网络提取特征,然后融合不同层的特征得到融合特征和非融合特征,再通过构建判别网络选择特征,最后生成候选区域并输出检测结果。公开号为“CN109934121A”的专利技术专利,提出了一种基于YOLOv3算法的果园行人检测方法。其基于YOLOv3算法,通过K-means聚类方法产生anchor-box数预测行人边界框,并使用类似FPN网络的结构进行多尺度的特征融合,最后使用soft-NMS算法过滤重叠框,从而实现人体检测。公开号为“CN109492534A”的专利技术专利,公开了一种基于FasterRCNN的跨场景多姿态的行人检测方法,其通过将行人标注为8个姿态,离线训练FasterRCNN算法,选择最高精度的模型实现行人的在线检测。该类方法通过CNN自动学习提取特征往往能获得更高精度的识别效果,但该类方法无法通过简单的迁移使得在新场景中获得成功应用,即该类方法往往针对不同场景和不同目标需要使用不同的方法和策略才能达到实际上的应用需求。而在执法办案区场景下的人体检测任务中,存在拍摄视角、人体姿态和图像质量的多样性问题,大大增加了识别难度,此外在实际应用中还需要同时考虑算法高精度和高效率,这使得现有技术难以满足执法办案区人体检测的性能需求。现有的大多数基于传统的机器学习的方法和深度学习的方法在人体检测或行人检测技术所针对的场景中,通常拍摄视角固定,人体姿态单一且图像质量较好。但在实际的执法办案场景中,不同房间具有拍摄视角的差异性,人体姿态也存在多样性,同时由于设备老化等问题带来的图像质量的差异性,这使得过去的方法难以获得高精度和高效率的识别性能。另外,公开号为“CN109492534A”的专利技术专利,其中的方法是基于两阶段的目标检测算法FasterR-CNN的,该算法存在识别速度慢,且识别精度较低的问题,此外该专利技术未对场景的特殊性进行算法上的优化,而在实际应用中高效率(速度)和高精度是需要同时考虑的。
技术实现思路
有鉴于此,本专利技术提供一种执法办案区场景下的多姿态人体检测方法、计算机存储介质及电子设备,大大提高了识别精度,降低误检率。为解决上述技术问题,一方面,本专利技术提供一种执法办案区场景下的多姿态人体检测方法,包括以下步骤:S1、在RefineDet(Single-ShotRefinementNeuralNetworkforObjectDetection,单阶段的精细化神经网络目标检测算法)的ARM(Anchorrefinementmodule,锚点精细化模块)分支中加入FSAF(FeatureSelectiveAnchor-FreeModule,无锚点的特征选择模块)模块,构成FSAF-RefineDet网络结构;S2、采集执法办案区场景下的人体图像数据,进行人体信息标注,并将人体信息标注后的所述人体图像数据划分为训练集和测试集;S3、对所述训练集进行旋转扩增;S4、对旋转扩增后的训练数据尺度归一化后进行随机增强和随机添加噪声;S5、对所述FSAF-RefineDet网络进行训练,得到训练模型;S6、将所述训练模型在所述测试集上进行测试,选择识别精度最高的训练模型作为最终检测模型。根据本专利技术实施例的执法办案区场景下的多姿态人体检测方法,通过在RefineDet检测算法中加入FSAF模块设计出FSAF-RefineDet网络结构,该网络结构在RefineDet算法的基础上,对每一个实例为其自动分配用于检测该目标的最佳尺度的特征,相比较于原版的RefineDet网络不仅能获得更佳的识别精度,还保持了原来的高识别速度,并且在执法办案区场景下能增强算法对多尺度目标的检测性能,在识别精度和识别速度方面均有较大提升。另外,通过在训练过程中,数据的旋转扩增、随机增强和随机噪声添加,在执法办案区场景下,能有效增强模型对视角变化、人体姿态变化以及图像质量变化的鲁棒性,有效减少算法在执法办案区场景下的误检率和漏检率,提高识别精度,且不增加模型的计算代价。根据本专利技术的一些实施例,在步骤S1中,所述RefineDet的主干网络为VGG16的全卷积结构,所述主干网络包括17个卷积层,其中,Conv本文档来自技高网
...

【技术保护点】
1.一种执法办案区场景下的多姿态人体检测方法,其特征在于,包括以下步骤:/nS1、在RefineDet的ARM分支中加入FSAF模块,构成FSAF-RefineDet网络结构;/nS2、采集执法办案区场景下的人体图像数据,进行人体信息标注,并将人体信息标注后的所述人体图像数据划分为训练集和测试集;/nS3、对所述训练集进行旋转扩增;/nS4、对旋转扩增后的训练数据尺度归一化后进行随机增强和随机添加噪声;/nS5、对所述FSAF-RefineDet网络进行训练,得到训练模型;/nS6、将所述训练模型在所述测试集上进行测试,选择识别精度最高的训练模型作为最终检测模型。/n

【技术特征摘要】
1.一种执法办案区场景下的多姿态人体检测方法,其特征在于,包括以下步骤:
S1、在RefineDet的ARM分支中加入FSAF模块,构成FSAF-RefineDet网络结构;
S2、采集执法办案区场景下的人体图像数据,进行人体信息标注,并将人体信息标注后的所述人体图像数据划分为训练集和测试集;
S3、对所述训练集进行旋转扩增;
S4、对旋转扩增后的训练数据尺度归一化后进行随机增强和随机添加噪声;
S5、对所述FSAF-RefineDet网络进行训练,得到训练模型;
S6、将所述训练模型在所述测试集上进行测试,选择识别精度最高的训练模型作为最终检测模型。


2.根据权利要求1所述的方法,其特征在于,在步骤S1中,所述RefineDet的主干网络为VGG16的全卷积结构,所述主干网络包括17个卷积层,其中,Conv4_3、Conv5_3、fc7和Conv6_2输出的特征作为ARM分支和ODM的特征金字塔分支的特征输入。


3.根据权利要求2所述的方法,其特征在于,步骤S1包括:
S11、对Conv4_3、Conv5_3、fc7和Conv6_2分别接上一个核为3*3,输出通道为2的卷积层,并接上FocalLoss,以用于预测每一个空间位置2个目标类别的概率;
S12、对Conv4_3、Conv5_3、fc7和Conv6_2分别接上一个核为3*3,输出通道为4的卷积层,并接上IOULoss,以用于预测目标外包围框。


4.根据权利要求1所述的方法,其特征在于,步骤S2包括:
S21、对执法办案区场景下不同人体姿态、不同视角和不同图像清晰度的数据进...

【专利技术属性】
技术研发人员:朱勋沐毛亮林焕凯周谦侯玉清
申请(专利权)人:高新兴科技集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1