YOLO和分块-融合策略结合的稠密人脸检测方法技术

技术编号：27773026 阅读：193 留言：0更新日期：2021-03-23 12:57

YOLO和分块‑融合策略结合的稠密人脸检测方法，包括以下步骤：对人脸训练数据集进行数据增广，扩充密集场景下的人脸样本；构建YOLOv3和分块‑融合策略相结合的YOLOv3网络模型，在检测阶段，将原图进行分块，并将分块得到的子图和原图一同输入到YOLOv3网络模型中分别进行检测；对NMS算法进行改进，解决大尺度人脸融合问题的同时提高小人脸检测的精度。本发明专利技术通过多次NMS在解决人脸融合问题的同时，利用不同分块重叠率下的检测提高小人脸的召回提高最终检测精度。

全部详细技术资料下载

【技术实现步骤摘要】
YOLO和分块-融合策略结合的稠密人脸检测方法
本专利技术涉及机器视觉
，具体涉及一种YOLO和分块-融合策略结合的稠密人脸检测方法。
技术介绍
人脸检测作为机器视觉领域的经典问题，在安防监控、人机交互、移动支付、等领域都有重要的应用价值。当前，随着人们生活水平的提高，人脸检测在日常生活中的需求也越来越广泛，同时，科技水平的发展也使人脸检测的应用范围不断扩大。如密集人群监测，教室人数统计等复杂场景的人脸检测也开始受到人们关注。然而密集人群中的人脸不同于传统人脸识别应用场景中具有清晰特征的人脸，如图1所示，因为受到遮挡、角度、模糊、尺度过小等因素影响，密集场景下的稠密人脸检测难度较大，而尺度过小则是其中尤为明显的问题。针对密集场景下的稠密人脸主要存在的尺度过小的问题，学者们从小尺度人脸检测角度出发。文献[1]ZhangS,ZhuX,ZhenL,etal.S3FD:SingleShotScale-invariantFaceDetector[J],2017:arXiv:1708.05237记载的算法通过使用更小更稠密的Anchor和Anchor尺度补偿策略，为不同尺度的人脸寻找更合适的Anchor，提高了小尺度人脸的检测精度；文献[2]HuP,RamananD.FindingTinyFaces[C].ComputerVision&PatternRecognition,2017:arXiv:1612.04402.通过结合人脸上下文特征来分析人脸，提高了小尺度人脸的检测效果，但更多的上下文...

【技术保护点】
1.一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于包括以下步骤：/n步骤1：对人脸训练数据集进行数据增广，扩充密集场景下的人脸样本；/n步骤2：构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型，在检测阶段，将原图进行分块，并将分块得到的子图和原图一同输入到YOLOv3网络模型中分别进行检测；/n步骤3：对NMS算法进行改进，解决大尺度人脸融合问题的同时提高小人脸检测的精度。/n

【技术特征摘要】
1.一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于包括以下步骤：
步骤1：对人脸训练数据集进行数据增广，扩充密集场景下的人脸样本；
步骤2：构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型，在检测阶段，将原图进行分块，并将分块得到的子图和原图一同输入到YOLOv3网络模型中分别进行检测；
步骤3：对NMS算法进行改进，解决大尺度人脸融合问题的同时提高小人脸检测的精度。

2.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于：所述步骤1中，人脸训练数据集采用WIDERFACE数据集，对原始WIDERFACE数据集中的原图进行分块，获得分块的子图，来实现密集场景下稠密人脸样本的扩充，同时保留有原始分辨率图像的原图。

3.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于：所述步骤1中，在分块时，分割的子图其宽度bw和高度bh的计算公式如下：
bw＝(overlap_rate+1)*w/2(1)；
bh＝(overlap_rate+1)*h/2(2)；
其中：w和h分别为原图的宽和高，overlap_rate为分块边缘重叠率。

4.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于：所述步骤1中，在分块的同时，对图片分块时根据不同的场景采取不同的策略，包括：
(a)对大尺度人脸不分块；
(b)人脸残缺和无人脸的分块舍弃，仅保留人脸完整的分块；
(c)密集场景下保留分块区域，但不完整的大尺度人脸标注将被舍弃；
(d)密集场景下均匀分布人脸且无明显尺度跨越则直接分块。

5.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于：所述步骤2中，构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型，YOLOv3网络模型分为模型训练和目标检测两个阶段，具体如下：
模型训练：
在模型训练阶段使用YOLOv3网络模型进行训练，训练时使用步骤1中数据增广后的人脸数据集，其中；YOLOv3网络训练损失函数如公式(3.1)～(3.6)所示：

YOLOv3损失函数包含边界框中心点坐标损失Losscenter(，如公式(3.2)；
边界框宽高损失Losswh(，如公式(3.3)；
目标置信度损失Lossscore(式，如公式(3.4)、公式(3.5)；
目标类别损失Lossclass(，如公式(3.6)；
式中，各变量的含义如下：其中SxS为网络划分图片的网格数，B为每个网格预测的边界框数目，为网格i中第j个边界框的预测；其中各公式中变量的含义分别为：公式(3.2)λcoord为动态参数，为中心点坐标的真值，Cxyi为中心点坐标预测值；公式(3.3)中，和表示该目标宽度和高度的真实值，wi和hi分别表示该目标高度和宽度的预测值；公式(3.4)和公式(3.5)分别为包含目标时的置信度损失和不含目标时的置信度损失，其中λnoobj为不含目标时网络的误差系数，和Ci分别代表检测目标的置信度真值和置信度预测值；式(3.6)中和为检测目标概率的真值和目标概率的预测值；
目标检测：
在目标检测阶段，利用模型训练阶段得到的权重文件进行检测，检测时首先将输入图片执行带边缘重叠的分块，得到分块与原图共5张图片，之后将分块图片与输入图片一同输入到YOLOv3网络中，在YOLOv3网络中分别对5张图片进行预测；其中，YOLOv3网络对每张图片进行预测的具体过程如下：
首先输入图片经过YOLOv3网络的特征提取网络darknet53，darknet53网络包含53个卷积层，通过darknet53卷积之后，得到输入图片1/32尺寸的特征图；以416*416*3尺寸的输入图片为例，通过darknet53网络卷积后，将得到13*13*255尺寸的特征图，在13*13*255特征图的基础上通过上采样以及与浅层特征融合又分别得到26*26*255、52*52*25尺寸的特征图，这3个尺度下的特征图分别用于对大尺度、中尺度、小尺度目标进行预测；YOLOv3通过在这3个尺度下的特征图上分别预测得到大、中、小3个尺度下的目标，其中YOLOv3网络模型在特征图上的目标检测原理为，YOLOv3网络对特征图上的每个像素对应的网格，都会给出3个anchor进行预测，找到大小最合适的anchor，其中anchor由训练前通过对数据集进行聚类得到，之后网络输出的4个偏移量...

【专利技术属性】
技术研发人员：徐光柱，屈金山，雷帮军，刘鸣，石勇涛，
申请(专利权)人：三峡大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人