一种非限定条件下的人脸检测方法技术

技术编号:21362359 阅读:30 留言:0更新日期:2019-06-15 09:32
本发明专利技术提供一种非限定条件下的人脸检测方法,包括如下步骤:S1)图像预处理;S2)设计基于深度卷积的人脸检测网络;S3)人脸检测网络前向传播;S4)采用非极大值抑制算法;S5)得到最终检测结果。本发明专利技术的优点为:适用范围广,效果和速度均可达到state‑of‑art级别,有助于提升行人坐标准确性,降低误检发生概率,缓解深层网络梯度弥散问题,加快网络收敛过程。

A Face Detection Method under Unconstrained Conditions

The invention provides a face detection method under unconstrained conditions, including the following steps: S1) image preprocessing; S2) design a face detection network based on deep convolution; S3) face detection network forward propagation; S4) use non-maximum suppression algorithm; S5) get the final detection result. The advantages of the present invention are: wide application range, high efficiency and speed, which can reach the state of art level, help to improve the accuracy of pedestrian coordinates, reduce the probability of false detection, alleviate the problem of gradient dispersion in deep network, and accelerate the convergence process of network.

【技术实现步骤摘要】
一种非限定条件下的人脸检测方法
本专利技术涉及计算机图像处理
,具体涉及一种基于深度卷积神经网络、结合多尺度特征金字塔的非限定条件下的人脸检测方法。
技术介绍
人脸检测技术作为多种视觉任务的基础,在图像处理与模式识别领域占据十分重要的地位。近些年,伴随着基于神经网络的人工智能的快速发展,人脸检测技术越来越多地应用在各类视觉任务中,例如人证比对、会议签到、人脸闸机、人脸识别等任务的前提即为高精度、高准确率的人脸检测方法。早期的人脸检测技术依赖手工构造特征,配合传统机器学习进行。例如著名的Haar特征和使用AdaBoost算法的人脸检测算法,利用滑动窗口对图像进行扫描,对滑动窗口内的目标提取Haar特征,再使用AdaBoost算法进行分类。该算法不但时间消耗巨大,而且效果也不尽如人意。随着人工智能技术的不断进步,基于神经网络的目标检测方法层出不穷,最具代表性的方法有MTCNN、YOLO、SSD以及FasterRCNN。其中,MTCNN采用小型神经网络分类配合滑动窗口进行快速检测,可达到不错的检测效果和速度,但是泛化性能较差,对特定场景需要重新训练;YOLO和SSD采用深层次的卷积网络,通过一次性对每个特征图的锚点进行分类和偏差回归实现检测过程,此类方法在速度上较快,泛化性能较好,但在精度上有所损失;二阶段的FasterRCNN算法性能相对其他几种是最好的,但是由于全连接层的介入使得计算量极具增加,难以应用于要求实时性的工业应用场景。
技术实现思路
本专利技术的目的是提供一种有助于提升行人坐标准确性、降低误检发生概率、缓解深层网络梯度弥散问题、加快网络收敛过程的非限定条件下的人脸检测方法。为了达到上述目的,本专利技术通过以下技术方案来实现:一种非限定条件下的人脸检测方法,包括如下步骤:S1)图像预处理对于从网上收集到的公开数据集,对所有的图片进行水平翻转作数据增强;对于自行收集的1080p视频数据,提取可用于人脸检测的视频帧,对每一帧进行人脸手工或机器标注,对视频帧中出现的每个人脸进行尺度缩小,在缩小的图像上裁切包含人脸的图像作为最终的训练图像;S2)设计基于深度卷积的人脸检测网络以VGG16作为卷积层提取特征,删除最后的全连接层,增加inception结构和扩张卷积结构;整个网络包含6个block,在低层的3个featuremap相对较大的block使用特征金字塔进行特征融合,在每个融合后的卷积模块后加一个3*3的卷积层,然后将低层的3个输出和其他3个未进行特征融合的卷积模块的最后一层输出均增加分类损失函数和回归损失函数;将人工标注的多尺度的图像样本减去ImageNet均值(104,117,123)并归一化到[0,1],然后通过网络数据层输入到网络中进行训练;对各层的分类损失函数采用均匀分布初始化权重;采用随机梯度下降算法优化网络权重,训练网络模型直至收敛;S3)人脸检测网络前向传播将步骤S1)中得到的训练图像输入到训练好的网络模型中做前向传播操作,计算各层特征金字塔输出的分类结果和回归结果,分类结果表示该锚点的目标是行人或背景的概率,回归结果表示预测结果相对于锚点的偏差;筛选出锚点目标为行人的概率超过阈值的锚点,再去除锚点对应预测的偏差,用预测出的偏差修正锚点坐标,得到初步的预测结果P1;S4)采用非极大值抑制算法对初步得到的检测结果P1按照概率进行排序,过滤掉局部非最大概率的检测结果,得到预测结果P2;S5)得到最终检测结果预测结果为目标框的左上角坐标(x1,y1)与目标框的宽和高(x2,y2),过滤超出图像范围的预测结果;若x2大于图像宽度,x2修改为图像宽度;若y2大于图像高度,y2修改为图像高度;若x1,y1小于0,将x1,y1修正为0;得到最终的检测结果P3。进一步地,在步骤S1)中,所述对视频帧中出现的每个人脸进行的尺度缩小,在原有图像尺寸上分别缩小至[*0.9,*0.8,*0.7],在缩小的图像上截取700*700像素的包含人脸的图像,然后在700*700像素的图像上裁剪640*640像素的图像作为最终的训练图像。本专利技术与现有技术相比,具有以下优点:本专利技术一种非限定条件下的人脸检测方法,以VGG16作为卷积层提取特征,使用特征金字塔结构设计人脸检测网络,再联合各层的分类损失函数和回归损失函数,提升人脸检测的效果,尤其是小目标人脸检测的效果。本专利技术可应用于各种类型的视频监控检测系统,尤其是人脸卡口相机的监控,本专利技术适用范围广,效果和速度均可达到state-of-art级别,有助于提升行人坐标准确性,降低误检发生概率,缓解深层网络梯度弥散问题,加快网络收敛过程。附图说明图1是本专利技术一种非限定条件下的人脸检测方法的流程示意图。图2是本专利技术一种非限定条件下的人脸检测方法的人脸检测网络结构示意图。具体实施方式下面结合附图,对本专利技术的实施例作进一步详细的描述。本专利技术一种非限定条件下的人脸检测方法,经过训练后得到的网络模型,可以实现端到端的人脸检测;当视频帧进入网络,输出检测结果的概率和目标的位置信息;经过非极大值抑制和概率筛选,可得到人脸的具体坐标。一种非限定条件下的人脸检测方法,包括如下步骤:S1)图像预处理对于从网上收集到的公开数据集,采用水平翻转作数据增强;对于自行收集的1080p视频数据,提取可用于人脸检测的视频帧,对每一帧进行人脸手工或机器标注,对视频帧中出现的每个人脸进行尺度缩小,在原有图像尺寸上分别缩小至[*0.9,*0.8,*0.7],在缩小的图像上截取700*700像素的包含人脸的图像,然后在700*700像素的图像上裁剪640*640像素的图像作为最终的训练图像。S2)设计基于深度卷积的人脸检测网络以VGG16作为卷积层提取特征,删除最后的全连接层,增加inception结构和扩张卷积结构;整个网络包含6个block,block是将网络整体截成6个部分,每个部分的featuremap的大小都不一样,在低层的3个block使用特征金字塔进行特征融合,特征金字塔指的是多种尺度的特征,在每个融合后的卷积模块后加一个3*3的卷积层,该卷积层不改变特征图的大小,可防止两个不同层特征融合后发生混叠效应,然后将低层的3个输出和其他3个未进行特征融合的卷积模块的最后一层输出均增加分类损失函数和回归损失函数;将人工标注的多尺度的图像样本减去ImageNet均值(104,117,123)并归一化到[0,1],然后通过网络数据层输入到网络中进行训练,训练数据包含图像以及图像中包含所有人脸的坐标信息;对各层的分类损失函数通过均匀分配的方式配置权重;采用随机梯度下降算法优化网络权重,训练网络模型直至收敛。S3)人脸检测网络前向传播将步骤S1)中得到的训练图像输入到训练好的网络模型中做前向传播操作,利用Softmax函数计算各层特征金字塔输出的分类结果,利用逻辑回归函数计算各层特征金字塔输出的回归结果,分类结果表示该锚点的目标是行人或背景的概率,回归结果表示预测结果相对于锚点的偏差;回归偏差offset={dx,dy,dw,dh},其中dx,dy,dw,dh表示预测结果对于当前设置的anchorbox的横坐标偏移量、纵坐标偏移量、宽度偏移倍数和高度偏移倍数。锚点表示为anchor={x,y,w,h},其中本文档来自技高网...

【技术保护点】
1.一种非限定条件下的人脸检测方法,其特征在于包括如下步骤:S1)图像预处理对于从网上收集到的公开数据集,对所有的图片进行水平翻转作数据增强;对于自行收集的1080p视频数据,提取可用于人脸检测的视频帧,对每一帧进行人脸手工或机器标注,对视频帧中出现的每个人脸进行尺度缩小,在缩小的图像上裁切包含人脸的图像作为最终的训练图像;S2)设计基于深度卷积的人脸检测网络以VGG16作为卷积层提取特征,删除最后的全连接层,增加inception结构和扩张卷积结构;整个网络包含6个block,在低层的3个feature map相对较大的block使用特征金字塔进行特征融合,在每个融合后的卷积模块后加一个3*3的卷积层,然后将低层的3个输出和其他3个未进行特征融合的卷积模块的最后一层输出均增加分类损失函数和回归损失函数;将人工标注的多尺度的图像样本减去ImageNet均值(104,117,123)并归一化到[0,1],然后通过网络数据层输入到网络中进行训练;对各层的分类损失函数采用均匀分布初始化权重;采用随机梯度下降算法优化网络权重,训练网络模型直至收敛;S3)人脸检测网络前向传播将步骤S1)中得到的训练图像输入到训练好的网络模型中做前向传播操作,计算各层特征金字塔输出的分类结果和回归结果,分类结果表示该锚点的目标是行人或背景的概率,回归结果表示预测结果相对于锚点的偏差;筛选出锚点目标为行人的概率超过阈值的锚点,再去除锚点对应预测的偏差,用预测出的偏差修正锚点坐标,得到初步的预测结果P1;S4)采用非极大值抑制算法对初步得到的检测结果P1按照概率进行排序,过滤掉局部非最大概率的检测结果,得到预测结果P2;S5)得到最终检测结果预测结果为目标框的左上角坐标(x1,y1)与目标框的宽和高(x2,y2),过滤超出图像范围的预测结果;若x2大于图像宽度,x2修改为图像宽度;若y2大于图像高度,y2修改为图像高度;若x1,y1小于0,将x1,y1修正为0;得到最终的检测结果P3。...

【技术特征摘要】
1.一种非限定条件下的人脸检测方法,其特征在于包括如下步骤:S1)图像预处理对于从网上收集到的公开数据集,对所有的图片进行水平翻转作数据增强;对于自行收集的1080p视频数据,提取可用于人脸检测的视频帧,对每一帧进行人脸手工或机器标注,对视频帧中出现的每个人脸进行尺度缩小,在缩小的图像上裁切包含人脸的图像作为最终的训练图像;S2)设计基于深度卷积的人脸检测网络以VGG16作为卷积层提取特征,删除最后的全连接层,增加inception结构和扩张卷积结构;整个网络包含6个block,在低层的3个featuremap相对较大的block使用特征金字塔进行特征融合,在每个融合后的卷积模块后加一个3*3的卷积层,然后将低层的3个输出和其他3个未进行特征融合的卷积模块的最后一层输出均增加分类损失函数和回归损失函数;将人工标注的多尺度的图像样本减去ImageNet均值(104,117,123)并归一化到[0,1],然后通过网络数据层输入到网络中进行训练;对各层的分类损失函数采用均匀分布初始化权重;采用随机梯度下降算法优化网络权重,训练网络模型直至收敛;S3)人脸检测网络前向传播将步骤S1)中得到的训...

【专利技术属性】
技术研发人员:王慧燕
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1