当前位置: 首页 > 专利查询>东南大学专利>正文

无约束场景下的基于上下文推理的人脸检测方法技术

技术编号:26259834 阅读:30 留言:0更新日期:2020-11-06 17:54
本发明专利技术提供了一种在无约束场景下的基于上下文推理的人脸检测方案,属于多媒体信号处理领域。本发明专利技术将训练集进行数据增广,以VGGNet‑16作为基础特征提取网络,通过低层级特征金字塔网络加权地融合不同层特征,并在预测环节采用上下文辅助预测模块扩充子网络以加深、加宽网络模型,引入自适应锚点取样的数据增强方式和多尺度训练方法,增强了模型对于尺度的适应力。本发明专利技术不仅可提取出最具表达力的描述信息,还能较好地弥补未被充分提取的面部特征,且可优化对面部特征的利用率,适用于检测难度较高的无约束场景,尤其对微小的、模糊的、遮挡的人脸也能实现精准检测。

【技术实现步骤摘要】
无约束场景下的基于上下文推理的人脸检测方法
本专利技术属于图像处理
,涉及一种无约束场景下的基于上下文推理的人脸检测方法。
技术介绍
智能化终端设备的普及深刻地影响着人类的思维方式,对其社交本质有了全新的定义。人脸检测是计算机视觉领域中最贴合日常生活的应用,它将人类从繁重的视觉处理工作中解脱出来,转而用机器去分析和汇总图像、视频中的指定信息,对时代社会的发展产生了深远的影响。在智能手机上,iPhoneX、华为Mate20pro分别在IOS平台、安卓平台实现3D人脸识别解锁,更好地保护了隐私;在安防监控中,可以通过人脸识别技术去追踪和捕获不法分子,加强了治安维护力度;在财产安全方面,支付宝率先推出刷脸支付、信用贷款进行身份认证,提高效率的同时也保证了安全性。早期主流的人脸检测方法,大都基于人工设计的模板匹配技术,对无遮挡的正面清晰人脸的检测效果较好,尽管易于实现,且几乎不受光照、图片成像质量影响,但由于人脸的高可塑性,无法制定出完全有效的人脸模板以适应姿势、尺度等的变化,导致精度受限。仅仅通过机械地比对手工特征与目标人脸之间的自相关性来判定图像中是否存在人脸的传统人脸检测方法并不适用于无约束场景。随着深度学习的飞速发展,基于卷积神经网络的人脸检测方法以其强大的表征学习与非线性建模能力逐步取代了传统人脸检测方法,显著提升了检测性能,尤其对于毫无遮挡的清晰人脸几乎都可以达到百分之百的准确率。但是,在自然场景下的无约束人脸极易受到遮挡、光照、表情、姿态等外部环境因素的干扰,造成面部特征提取、利用不充分;此外,尺寸较小的低分辨率人脸更是瓶颈所在,以小尺寸锚点对小人脸进行密集采样,极易产生过多的背景负样本,造成误检率上升。现有无约束场景下的人脸检测方法其准确率尚显不足,未能取得令人满意的效果。
技术实现思路
为解决上述问题,本专利技术提供了一种无约束场景下的基于上下文推理的人脸检测方法,着重在以下两方面进行改进和优化:一方面,充分提取面部特征,尤其是更具表达力的描述信息,通过低层级特征金字塔网络加权地融合不同层级的特征,并在预测环节采用上下文辅助预测模块扩充子网络,更深、更宽的网络模型可以较好地弥补未被充分提取的面部特征;另一方面,引入自适应锚点取样的数据增强方式和多尺度方法,增强了模型对于尺度的适应力,进而提高对于面部特征的利用率。为了达到上述目的,本专利技术提供如下技术方案:无约束场景下的基于上下文推理的人脸检测方法,包括如下步骤:步骤1,对WIDERFACE(目前最为权威的人脸检测基准)训练集进行数据增广;步骤2,基于步骤1的增广图片,以VGGNet-16(经典的深度卷积神经网络)作为基础特征提取网络,通过低层级特征金字塔网络加权地融合不同层的特征,并在预测环节采用上下文辅助预测模块扩充子网络,进而加深、加宽网络模型;步骤3,在训练参数初始化后,应用多尺度训练方法指导模型的自主学习过程,当损失收敛后保存模型,并进行检测。进一步的,所述步骤1具体包括如下子步骤:步骤1.1:对WIDERFACE训练集中的图片进行水平翻转和随机裁剪,作为初步预处理,具体操作为:首先将输入图像扩展为原先尺寸的4倍,接着再对每一张图片进行镜像水平翻转,最后随机地裁剪出640×640的区域大小,即应用下式进行处理:xpreprocess=Crop(Flip(Extend(xinput)))式中,xinput表示输入的训练集图片,Extend操作是采用填充均值的方式进行图片扩展,Flip操作表示随机地进行水平翻转,Crop为随机裁剪操作,xpreprocess则表示相应的初步预处理结果,其尺寸统一为640×640;步骤1.2:采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰,再次对步骤1.1中得到的初步预处理结果xpreprocess进行不同程度地增强,进而得到综合处理后的增广图片xprocess,如下式所示:式中,Color操作表示色彩抖动方式,Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。步骤1.3:采用自适应锚点取样方法对某图像中的人脸进行重塑,以此引入具有更高概率的更大人脸,具体操作为:在某一图像中选取一个大小为sface的人脸,预设第i层特征图(i=0,1,…,5)上的锚点尺度si如下式所示:si=24+i将第i层特征图上与人脸大小sface最接近的锚点的索引表示为:其中,为第i层特征图的锚点尺度;之后再在集合{max(0,ianchor-1),1,…,min(5,ianchor+1)}中依次选取索引iresult,最后将原图sface调整大小至sresult:以此得到该图像的整体尺寸的缩放比例为s*:s*=sresult/sface通过将原始样本图片按照s*缩放后,再随机裁剪出包含了选中人脸的640×640区域,即为经过自适应锚点取样后的训练样本图片。进一步的,所述步骤2具体包括如下子步骤:步骤2.1:通过VGGNet-16对增广的输入图片进行基础特征抽取,其中分别选取conv3_3、conv4_3、conv5_3、conv_fc7、conv6_2、conv7_2作最后的预测,其特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5;步骤2.2:通过低层级特征金字塔网络加权地融合低层细节特征与高层语义特征,可提取出更具表现力的描述信息,记步骤2.1中用作预测的较浅的、较深的特征图分别为φi、φi+1,H表示作用在较高层级特征图上的2倍上采样操作,θ代表上采样操作的相关参数,则加权融合后所生成的新特征图可表示如下:φ′i=α*φi+β*H(φi;θ)式中,α和β是平衡二者的超参数,等式左侧所得到的新特征图将继续与较低层的特征图递归地进入低层级特征金字塔网络,直至最低层;步骤2.3:将上述步骤中所得到的加权融合后的特征图送入上下文辅助预测模块,各子网络选择拼接方式融合实现通道并联,进而加深、加宽网络模型。进一步的,所述步骤3具体包括如下子步骤:步骤3.1:对训练参数进行初始化;步骤3.2:应用多尺度训练方法,在训练过程中划分三个尺度,分别对应不同分辨率的图像,且每个分辨率下的感兴趣区域都有其指定范围:若真值框的大小在该范围内,则被标记为正确,反之为错误;在生成锚点并为其分配标签时,需要首先检测该锚点是否与某个标记为错误的真值框的重叠部分占比超过一定比例,若存在,则该锚点即被视为错误锚点,否则为正确锚点;被判定为错误的锚点在训练时会被无效化,并不会加入到反向传播的过程中而对参数产生影响;步骤3.3:采用smoothL1损失、softmax损失分别学习和监督位置回归、类别打分,当该二者的损失和不再上升,而是稳定在一个较小值域时,则可停止训练,存储模型,并进行检测;反之,则返回步骤3.1。与本文档来自技高网
...

【技术保护点】
1.无约束场景下的基于上下文推理的人脸检测方法,其特征在于,包括如下步骤:/n步骤1,对WIDERFACE训练集进行数据增广;/n步骤2,基于步骤1的增广图片,以VGGNet-16作为基础特征提取网络,通过低层级特征金字塔网络加权地融合不同层的特征,并在预测环节采用上下文辅助预测模块扩充子网络,进而加深、加宽网络模型;/n步骤3,在训练参数初始化后,应用多尺度训练方法指导模型的自主学习过程,当损失收敛后保存模型,并进行检测。/n

【技术特征摘要】
1.无约束场景下的基于上下文推理的人脸检测方法,其特征在于,包括如下步骤:
步骤1,对WIDERFACE训练集进行数据增广;
步骤2,基于步骤1的增广图片,以VGGNet-16作为基础特征提取网络,通过低层级特征金字塔网络加权地融合不同层的特征,并在预测环节采用上下文辅助预测模块扩充子网络,进而加深、加宽网络模型;
步骤3,在训练参数初始化后,应用多尺度训练方法指导模型的自主学习过程,当损失收敛后保存模型,并进行检测。


2.根据权利要求1所述的无约束场景下的基于上下文推理的人脸检测方法,其特征在于,所述步骤1具体包括如下子步骤:
步骤1.1:对WIDERFACE训练集中的图片进行水平翻转和随机裁剪,作为初步预处理,具体操作为:首先将输入图像扩展为原先尺寸的4倍,接着再对每一张图片进行镜像水平翻转,最后随机地裁剪出640×640的区域大小,即应用下式进行处理:
xpreprocess=Crop(Flip(Extend(xinput)))
式中,xinput表示输入的训练集图片,Extend操作是采用填充均值的方式进行图片扩展,Flip操作表示随机地进行水平翻转,Crop为随机裁剪操作,xpreprocess则表示相应的初步预处理结果,其尺寸统一为640×640;
步骤1.2:采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰,再次对步骤1.1中得到的初步预处理结果xpreprocess进行不同程度地增强,进而得到综合处理后的增广图片xprocess,如下式所示:



式中,Color操作表示色彩抖动方式,Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声;
步骤1.3:采用自适应锚点取样方法对某图像中的人脸进行重塑,以此引入具有更高概率的更大人脸,具体操作为:在某一图像中选取一个大小为sface的人脸,预设第i层特征图上的锚点尺度si如下式所示:
si=24+i
其中,i=0,1,…,5;
将第i层特征图上与人脸大小sface最接近的锚点的索引表示为:



其中,为第i层特征图的锚点尺度;
之后再在集合{max(0,ianchor-1),1,…,min(5,ianchor+1)}中依次选取索引iresult,最后将原图sface调整大小至sresu...

【专利技术属性】
技术研发人员:徐琴珍杨哲邵文韬刘茵茵侯坤林朱颖杨绿溪
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1