当前位置: 首页 > 专利查询>三峡大学专利>正文

YOLO和分块-融合策略结合的稠密人脸检测方法技术

技术编号:27773026 阅读:193 留言:0更新日期:2021-03-23 12:57
YOLO和分块‑融合策略结合的稠密人脸检测方法,包括以下步骤:对人脸训练数据集进行数据增广,扩充密集场景下的人脸样本;构建YOLOv3和分块‑融合策略相结合的YOLOv3网络模型,在检测阶段,将原图进行分块,并将分块得到的子图和原图一同输入到YOLOv3网络模型中分别进行检测;对NMS算法进行改进,解决大尺度人脸融合问题的同时提高小人脸检测的精度。本发明专利技术通过多次NMS在解决人脸融合问题的同时,利用不同分块重叠率下的检测提高小人脸的召回提高最终检测精度。

【技术实现步骤摘要】
YOLO和分块-融合策略结合的稠密人脸检测方法
本专利技术涉及机器视觉
,具体涉及一种YOLO和分块-融合策略结合的稠密人脸检测方法。
技术介绍
人脸检测作为机器视觉领域的经典问题,在安防监控、人机交互、移动支付、等领域都有重要的应用价值。当前,随着人们生活水平的提高,人脸检测在日常生活中的需求也越来越广泛,同时,科技水平的发展也使人脸检测的应用范围不断扩大。如密集人群监测,教室人数统计等复杂场景的人脸检测也开始受到人们关注。然而密集人群中的人脸不同于传统人脸识别应用场景中具有清晰特征的人脸,如图1所示,因为受到遮挡、角度、模糊、尺度过小等因素影响,密集场景下的稠密人脸检测难度较大,而尺度过小则是其中尤为明显的问题。针对密集场景下的稠密人脸主要存在的尺度过小的问题,学者们从小尺度人脸检测角度出发。文献[1]ZhangS,ZhuX,ZhenL,etal.S3FD:SingleShotScale-invariantFaceDetector[J],2017:arXiv:1708.05237记载的算法通过使用更小更稠密的Anchor和Anchor尺度补偿策略,为不同尺度的人脸寻找更合适的Anchor,提高了小尺度人脸的检测精度;文献[2]HuP,RamananD.FindingTinyFaces[C].ComputerVision&PatternRecognition,2017:arXiv:1612.04402.通过结合人脸上下文特征来分析人脸,提高了小尺度人脸的检测效果,但更多的上下文易受遮挡影响,这在密集场景中尤为明显;文献[3]SamDB,PeriSV,SundararamanMN,etal.Locate,SizeandCount:AccuratelyResolvingPeopleinDenseCrowdsviaDetection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2020:1-1.从人群计数角度出发,提出一种新的卷积神经网络框架,该网络用多分辨率特征提取代替典型的多尺度输入,同时其输出的预测分辨率也高于其他人脸检测器,在密集人群检测中取得明显提升;文献[4]BaiY,ZhangY,DingM,etal.FindingTinyFacesintheWildwithGenerativeAdversarialNetwork[C].computervisionandpatternrecognition,2018:21-30.提出利用超分辨率,对于模糊的小人脸利用生成对抗网络实现分辨率的提高,利用超分辨率网络将小人脸放大,实现了小人脸精度的提高;文献[5]中国专利[申请号:202010418338.4]提出一种基于特征融合和视觉感受野网络的多尺度人脸检测方法,以VGG-16为基础网络,由视觉感受野网络、空洞卷积网络共同组成。在不同分辨率的特征层上采用不同的方法提取候选框,在小尺度人脸上取得了较好的效果。但该方案通过增加网络宽度和深度,明显增加了计算量。上述方法为了追求在小尺度人脸上的检测精度,针对特定的网络进行修改,复杂的网络模型导致运算量增加,消耗时间长,具有较大的限制,应用场景较少。中国专利[申请号:201910326673.9]针对密集小人脸检测提出基于级联多尺度的密集人脸检测方法,针对特定尺度范围分别训练不同尺度下的检测器,将这些检测器级联起来,该方案具有良好的扩展性,可以搭载在任何人脸检测深度模型中,然而该方案通过增加检测器数量,模型运算消耗大量时间。文献[6]RedmonJ,DivvalaSK,GirshickR,etal.YouOnlyLookOnce:Unified,Real-TimeObjectDetection[C].computervisionandpatternrecognition,2016:779-788记载的YOLO(Youonlylookonce)是由JosephRedmon提出的基于单个神经网络的目标检测系统。YOLO不同于R-CNN等Two-stage算法需要生成区域建议从而消耗算力导致速度较慢,而是利用单个卷积神经网络,将输入图片分成n*n个网格,对每个网格进行预测,直接对目标进行分类和回归,实现端到端的检测,因此检测速度大幅提升。YOLO在GPU上达到45fps,同时其简化版本达到155fps。之后YOLO为了提高精度,又相继提出:文献[7]RedmonJ,FarhadiA.YOLO9000:Better,Faster,Stronger[C].IEEEConferenceonComputerVision&PatternRecognition,2017:7263-7271中记载YOLO9000;文献[8]RedmonJ,FarhadiA.YOLOv3:AnIncrementalImprovement.arXive-prints,2018:arXiv:1804.02767中记载YOLOv3;文献[9]BochkovskiyA,WangC-Y,LiaoH.YOLOv4:OptimalSpeedandAccuracyofObjectDetection[J].ArXiv,2020,abs/2004.10934中记载YOLOv4。YOLO作为一种性能优异的通用目标检测算法,其在速度上的优势保证了在工程上应用的可行性,因此也有人尝试使用YOLO来解决相关问题。文献[10]邓珍荣,白善今,马富欣,改进YOLO的密集小尺度人脸检测方法[J].计算机工程与设计,2020,v.41;No.399(03):282-287.通过改进YOLO网络模型结构来检测检测密集人脸,通过在不同层级的特征图上进行细粒度的特征融合,提高对小尺度人脸特征的表示能力,但该文献使用YOLO初始版本,受到自身网络限制,特征提取网络结构简单,导致在目标检测中对小目标的检测精度较低。中国专利[申请号:201911235709.9]提出基于YOLO的人脸检测方法,使用MobileNetv2提取图像特征,整个方案具有较快的推断速度,每张图推断时间为0.09秒,但是该方案欠缺精度,在密集场景小人脸检测上存在不足。密集场景的人脸检测因为其存在的遮挡、模糊、尺度过小等原因,使得密集场景的人脸检测存在诸多难点:1)稠密人脸因为其密集分布受到遮挡、角度等的影响导致特征不明显;2)小尺度人脸由于尺度过小,缺少足够的特征信息,难以从背景特征中区分;3)基于CNN的人脸检测算法通常使用下采样操作,使小尺度人脸损失空间信息,其特征也被背景特征淹没。同时当前的算法在密集场景人脸检测中又存在利用复杂的网络模型进行密集人脸检测,导致运算量大,或者使用轻量级网络,拥有较快的检测速度但无法应对密集场景下稠密人脸的检测问题。
技术实现思路
针对密集场景下人脸检测难的问题,本专利技术提供一种YOLO和分块-融合策略结合的稠密人脸检测方法,利用YOLOv3网络的速度优势本文档来自技高网
...

【技术保护点】
1.一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于包括以下步骤:/n步骤1:对人脸训练数据集进行数据增广,扩充密集场景下的人脸样本;/n步骤2:构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型,在检测阶段,将原图进行分块,并将分块得到的子图和原图一同输入到YOLOv3网络模型中分别进行检测;/n步骤3:对NMS算法进行改进,解决大尺度人脸融合问题的同时提高小人脸检测的精度。/n

【技术特征摘要】
1.一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于包括以下步骤:
步骤1:对人脸训练数据集进行数据增广,扩充密集场景下的人脸样本;
步骤2:构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型,在检测阶段,将原图进行分块,并将分块得到的子图和原图一同输入到YOLOv3网络模型中分别进行检测;
步骤3:对NMS算法进行改进,解决大尺度人脸融合问题的同时提高小人脸检测的精度。


2.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤1中,人脸训练数据集采用WIDERFACE数据集,对原始WIDERFACE数据集中的原图进行分块,获得分块的子图,来实现密集场景下稠密人脸样本的扩充,同时保留有原始分辨率图像的原图。


3.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤1中,在分块时,分割的子图其宽度bw和高度bh的计算公式如下:
bw=(overlap_rate+1)*w/2(1);
bh=(overlap_rate+1)*h/2(2);
其中:w和h分别为原图的宽和高,overlap_rate为分块边缘重叠率。


4.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤1中,在分块的同时,对图片分块时根据不同的场景采取不同的策略,包括:
(a)对大尺度人脸不分块;
(b)人脸残缺和无人脸的分块舍弃,仅保留人脸完整的分块;
(c)密集场景下保留分块区域,但不完整的大尺度人脸标注将被舍弃;
(d)密集场景下均匀分布人脸且无明显尺度跨越则直接分块。


5.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤2中,构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型,YOLOv3网络模型分为模型训练和目标检测两个阶段,具体如下:
模型训练:
在模型训练阶段使用YOLOv3网络模型进行训练,训练时使用步骤1中数据增广后的人脸数据集,其中;YOLOv3网络训练损失函数如公式(3.1)~(3.6)所示:


















YOLOv3损失函数包含边界框中心点坐标损失Losscenter(,如公式(3.2);
边界框宽高损失Losswh(,如公式(3.3);
目标置信度损失Lossscore(式,如公式(3.4)、公式(3.5);
目标类别损失Lossclass(,如公式(3.6);
式中,各变量的含义如下:其中SxS为网络划分图片的网格数,B为每个网格预测的边界框数目,为网格i中第j个边界框的预测;其中各公式中变量的含义分别为:公式(3.2)λcoord为动态参数,为中心点坐标的真值,Cxyi为中心点坐标预测值;公式(3.3)中,和表示该目标宽度和高度的真实值,wi和hi分别表示该目标高度和宽度的预测值;公式(3.4)和公式(3.5)分别为包含目标时的置信度损失和不含目标时的置信度损失,其中λnoobj为不含目标时网络的误差系数,和Ci分别代表检测目标的置信度真值和置信度预测值;式(3.6)中和为检测目标概率的真值和目标概率的预测值;
目标检测:
在目标检测阶段,利用模型训练阶段得到的权重文件进行检测,检测时首先将输入图片执行带边缘重叠的分块,得到分块与原图共5张图片,之后将分块图片与输入图片一同输入到YOLOv3网络中,在YOLOv3网络中分别对5张图片进行预测;其中,YOLOv3网络对每张图片进行预测的具体过程如下:
首先输入图片经过YOLOv3网络的特征提取网络darknet53,darknet53网络包含53个卷积层,通过darknet53卷积之后,得到输入图片1/32尺寸的特征图;以416*416*3尺寸的输入图片为例,通过darknet53网络卷积后,将得到13*13*255尺寸的特征图,在13*13*255特征图的基础上通过上采样以及与浅层特征融合又分别得到26*26*255、52*52*25尺寸的特征图,这3个尺度下的特征图分别用于对大尺度、中尺度、小尺度目标进行预测;YOLOv3通过在这3个尺度下的特征图上分别预测得到大、中、小3个尺度下的目标,其中YOLOv3网络模型在特征图上的目标检测原理为,YOLOv3网络对特征图上的每个像素对应的网格,都会给出3个anchor进行预测,找到大小最合适的anchor,其中anchor由训练前通过对数据集进行聚类得到,之后网络输出的4个偏移量...

【专利技术属性】
技术研发人员:徐光柱屈金山雷帮军刘鸣石勇涛
申请(专利权)人:三峡大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1