一种基于改进的MTCNN人脸检测方法技术

技术编号:36807148 阅读:11 留言:0更新日期:2023-03-09 00:21
本发明专利技术公开了一种基于改进的MTCNN的人脸检测方法。我们首先在通过一种使用生成对抗网络的超分辨率技术——SRGAN,将低像素图像转换为高像素图像,SRGAN使用反学习方法,结合像素均方误差、VGG高维特征均方误差和针对训练损失的深度卷积网络来实现超分辨率恢复。在原有MTCNN网络结构中创新性地引入了InceptionV2网络结构,提高了网络的学习性能,既保留了原有网络结构的优点,又进一步提高了人脸检测算法的效率和准确性。该模块通过对特征图进行三种不同的卷积(1

【技术实现步骤摘要】
一种基于改进的MTCNN人脸检测方法


[0001]本专利技术涉及深度学习中的目标检测领域,具体涉及一种改进的MTCNN人脸检测方法。

技术介绍

[0002]人脸检测技术可以在一张图片中检测出人脸的位置和数量。这种技术可以将检测出的人脸输出到人脸识别的模型中,以便于进行人脸识别的相关工作。其还可以应用在视频监控领域,用来捕获视频中的人脸个数。将其应用在相机中,相机通过检测人脸,可以实现自动对焦。
[0003]传统的人脸检测技术存在着检测准确率低和运行速度慢的问题,而基于深度学习的人脸检测技术可以有效的改善这些问题。现有基于深度学习进行人脸检测的技术包括:R

CNN、Fast R

CNN、Faster R

CNN、MTCNN等等,但MTCNN模型因检测准确度较高,同时运行速度较快而在业界受欢迎。
[0004]MTCNN模型是有三个部分组成的:P

net(Proposal net),R

net(Refine net)和O

net(Output net);P

net是一个小型的卷积网络,可以快速产生大量候选框并进行初步筛选;R

net的网络结构比P

net增加了一个全连接层,P

net的筛选结果输入到R

net中进一步筛选;O

net比R

net多了一层卷积层,对候选框进行最终的筛选,并且给出人脸的五个关键点位置。该模型的运行速度较快,同样的硬件环境下,对于640
×
480大小的图片,GPU的运算速度达到90FPS,而在CPU上也达到了12FPS,已经基本接近了实际的应用要求。但模型还存在改进的空间,从而提高运行速度。

技术实现思路

[0005]为了进一步提高MTCNN人脸检测的精度和运行速度,本专利技术提出了一种基于改进的MTCNN人脸检测方法。
[0006]具体包括以下步骤:
[0007]1.进行图像预处理。由于在实际操作中,人脸检测图像受外部因素的影响很大,通过SRGAN(使用生成对抗网络的超分辨率)技术,超分辨率恢复是将低像素图像转换为高像素图像,SRGAN使用反学习方法,结合像素均方误差、VGG高维特征均方误差和针对训练损失的深度卷积网络来实现超分辨率恢复。网络输入不引入任何随机变量,而是直接输入图像,然后输出图像,其结构类似于自动编码器。生成器首先将输入图像编码为高维特征,然后通过残差网络处理特征,最后对恢复的高像素图像进行解码。通过上述图像预处理过程,使图像中的人脸更加清晰,其应用特征更加突出,更易于检测。
[0008]2.在原有MTCNN网络结构中引入了Inception模块,提高了网络的学习性能,既保留了原有网络结构的优点,又进一步提高了人脸检测算法的效率和准确性。该模块通过对特征图进行三种不同的卷积(1
×
1,3
×
3,5
×
5)来提取更多的特征。不同的卷积检查对不同位置的人脸具有不同的学习效果。使用不同的卷积核进行学习可以更好地达到理想的学习
效果。卷积核卷积后提取的特征图和池化层的结果作为输出进行聚合,但这种结构中参数的快速增加将导致大量的计算量。在改进方案中,在3
×
3,5
×
5卷积之前和池化层之后增加1
×
1卷积以降低维数。它不仅提取了大量的特征,而且减少了计算量。1
×
1卷积核神经元在不改变原始图像信息的情况下,对特征映射进行了维数深化,并在生成的特征映射中引入了非线性因素。本专利技术采用了InceptionV2模块。引入的Inception V2模块在原有MTCNN网络结构的3
×
3卷积核和3
×
3池化层前增加了1
×
1卷积核,并将原有的3
×
3卷积核优化为1
×
3和3
×
1,提高了网络的学习率。
[0009]3.训练改进的MTCNN网络,具体包括:使用交叉熵损失函数确定人脸分类输出损失;使用欧几里德损失函数确定人脸框位置回归输出损失和人脸关键点位置回归输出损失,再将人脸分类输出损失、人脸框位置回归输出损失和人脸关键点位置回归输出损失进行加权求和,确定对应网络层的总损失。
附图说明
[0010]图1为:SRGAN的网络结构示意图。
[0011]图2为:优化后的网络结构示意图。
具体实施方式
[0012]下面结合具体实施方式和说明书附图对本专利技术做出详细的说明。本专利技术提供了一种基于改进的MTCNN模型人脸检测方法,包括以下步骤:
[0013]1、获取待检测人脸图像并对图像基于SRGAN图像处理网络的预处理,SRGAN的网络结构如图1所示;
[0014]2、将人脸图像缩放到不同尺寸,形成一个图像金字塔;
[0015]3、分别在P

Net、R

Net和O

Net中加入InceptionV2模块进行训练;
[0016]4、利用训练后的MTCNN模型对所述人脸图片进行检测人脸位置和人脸关键点位置;得到并输出检测结果。
[0017]其中,所述MTCNN模型三层网络结构中,P

Net、R

Net和O

Net网络层的输出层均为卷积层。本实施例中,将R

Net和O

Net网络层的输出层设置为卷积层可以在保证人脸检测准确度较高的同时提高人脸检测方法的运行速度。优化后的网络结构如图2所示。
[0018]本实施例,P

Net、R

Net和O

Net网络层的输出层均输出三个部分:face classification:对应图像区域为人脸图像的概率;bounding box:输出矩形框位置信息,和facial landmark localization:输入人脸关键点位置。
[0019](1)P

Net网络层将所有训练样本resize转化为shape=(12
×
12
×
3)的图像,通过10个3
×3×
3的卷积核,2
×
2的Max Pooling(stride=2)操作,生成10个5
×
5的特征图;再通过16个3
×3×
10的卷积核,生成16个3*3的特征图,再通过32个3
×3×
16的卷积核,生成32个1
×
1的特征图,最后在输出层,通过2个1
×1×
32的卷积核,生成2个1
×
1的特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进的MTCNN人脸检测方法,其特征在于,包括以下步骤:1.进行图像预处理;由于在实际操作中,人脸检测图像受外部因素的影响很大,通过SRGAN(使用生成对抗网络的超分辨率)技术,超分辨率恢复是将低像素图像转换为高像素图像,SRGAN使用反学习方法,结合像素均方误差、VGG高维特征均方误差和针对训练损失的深度卷积网络来实现超分辨率恢复;网络输入不引入任何随机变量,而是直接输入图像,然后输出图像,其结构类似于自动编码器。生成器首先将输入图像编码为高维特征,然后通过残差网络处理特征,最后对恢复的高像素图像进行解码;通过上述图像预处理过程,使图像中的人脸更加清晰,其应用特征更加突出,更易于检测;2.在原有MTCNN网络结构中引入了Inception模块,提高了网络的学习性能,既保留了原有网络结构的优点,又进一步提高了人脸检测算法的效率和准确性。该模块通过对特征图进行三种不同的卷积(1
×
1,3
×
3,5
×
5)来提取更多的特征。不同的卷积检查对不同位置的人脸具有不同的学习效果;使用不同的卷积核进行学习可以更好地达到理想的学习效果;卷积核卷积后提取的特征图和池化层的结果...

【专利技术属性】
技术研发人员:许文波王树臣贾海涛罗欣常乐冷庚
申请(专利权)人:电子科技大学长三角研究院湖州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1