当前位置: 首页 > 专利查询>东南大学专利>正文

基于焦点损失和多任务级联的人脸检测方法技术

技术编号:26259830 阅读:29 留言:0更新日期:2020-11-06 17:54
本发明专利技术公开了一种基于焦点损失和多任务级联的人脸检测方法,属于计算机视觉技术领域。本发明专利技术使用深度学习技术,将焦点损失与多任务级联卷积神经网络相结合来进行人脸检测。首先基于深度学习构建多任务级联卷积神经网络模型,对多任务损失函数进行焦点损失优化;并在网络训练阶段使用在线困难样本挖掘和多尺度训练优化。采用我们设计的人脸检测方法可以有效提高在各种无约束场景中进行人脸检测的平均精度。

【技术实现步骤摘要】
基于焦点损失和多任务级联的人脸检测方法
本专利技术属于计算机视觉
,特别是涉及基于焦点损失和多任务级联的人脸检测方法。
技术介绍
自七十年代以来,人脸识别就成为了计算机视觉领域的研究热点之一。传统的人脸识别方法通过手工提取特征,这种方法在对无约束场景中的各种复杂人脸情况进行检测时,有很大的局限性,无法满足实际的应用需求。随着深度学习的兴起,基于卷积神经网络的深度学习方法开始展现出其优越性,基于手工特征和机器学习的传统方法开始被大型数据集训练的深层神经网络所取代。人脸检测是人脸识别的第一步,也是人脸识别系统中最重要的模块之一。它是目标检测的一种特殊场景,同时也是目标检测中最重要和最受关注的研究场景。将卷积神经网络应用到目标检测是目前的研究趋势之一。目前网络上已经能够提供许多公开的大规模人脸数据集,这些数据集中的图像包含了现实世界中的各种复杂情况。使用这些公开数据集来训练神经网络模型,能够实现很高的人脸检测精度。针对人脸检测问题,已经出现了一系列基本的基于卷积神经网络的算法,包括区域卷积神经网络算法、级联卷积神经网络算法等等。如今人脸检测可以很容易地检测到近距离正面的人脸。而对于一些无约束不可控的人脸检测问题依然面临很大的挑战,如遮挡、姿势、表情和光照条件等诸多因素都会导致人脸外观的视觉变化,并可能严重影响人脸检测的准确性。在复杂环境下,比如人口较密集的公共场所,如服务大厅、室外广场等,对于大量不同的人员进行准确及时的人脸检测,相关的方法还需要进一步的研究改进。另外在进行人脸检测时经常会出现类别失衡问题,因为在一张输入图像中,人脸这个需检测的目标所占比例一般远小于背景所占比例,在人脸检测中,认为人脸为正样本,背景等为负样本,所以该分类问题中以负样本为主,带来了类别不平衡问题。因此人脸检测方法的研究依然具有重大意义。基于深度学习的人脸检测方法的主要思想是使用卷积神经网络,用人脸数据集训练深度神经网络,让网络学习到人脸的图像特征并用来检测图像中的所有人脸。同时在复杂的场景下,单独的人脸检测往往无法拥有很好的性能,因为人脸检测是目标检测的一种最常见的特例,不考虑其人脸的特殊性,会忽视人脸相对于普通目标的生物特征。因此可以考虑人脸检测和后续人脸对齐之间的内在联系,将人脸属性识别作为辅助,利用深度卷积神经网络在人脸检测同时考虑人脸对齐,来提高整体的检测性能。
技术实现思路
为了解决无约束场景中人脸检测的问题,本专利技术提供基于焦点损失和多任务级联的人脸检测方法,使用深度学习人脸检测技术,针对复杂场景下的人脸检测问题,将焦点损失与多任务级联卷积神经网络相结合来进行人脸检测,为达此目的,本专利技术提供基于焦点损失和多任务级联的人脸检测方法,具体步骤如下:(1)构建多任务级联卷积神经网络模型,对多任务损失函数进行焦点损失优化,具体步骤为:步骤1.1:先将输入图片调整为不同比例的大小,建立一个图像金字塔,构建多任务级联卷积神经网络第一层建议网络,它是一个全卷积网络,作为人脸区域的区域建议网络用来生成候选框,对于不同缩放比例的图像金字塔,将输入图片resize到大小为12*12,利用全卷积神经网络将输入经过三个卷积层进行初步特征提取,获得候选建议窗口以及它们的边框回归向量,然后使用边框回归向量用来校准候选窗口,再用非极大值抑制合并高度重叠的候选窗口,使用全卷积输出1*1*32的特征,这一步的输出只有N个边界框坐标信息的四个参数和分类得分,坐标信息的四个参数通过边框回归支路的输出进行修正,分类得分为人脸分类支路的输出,代表它是人脸的概率,再对人脸的分类损失函数采取焦点损失优化,得到的人脸分类损失函数和回归损失函数分别为:其中pi表示网络预测结果中样本是人脸的概率,表示表示真实分类标签,α表示不同类别的权重系数,γ表示焦点损失的聚焦参数,表示回归目标并从网络获得,为真实边界框坐标,各有四个参数,包括边界框的左顶点坐标、高度和宽度,因此从而得到该层卷积神经网络目标函数为:其中N是训练样本数量,δ表示该任务在多任务中的重要性权重参数,β代表样本类型;步骤1.2:构建多任务级联卷积神经网络第二层细化网络,相比建议网络增加了一个全连接层,能对输入数据做更进一步的筛选,从而达到高精度过滤和人脸区域优化的效果;将输入图片resize到大小为24*24,上一步的所有候选窗口都被送到该网络,进一步挑选并去除大量的错误候选,然后再用边框回归进行校准,同样再使用非极大值抑制对候选窗进行合并,在最后一个卷积层之后使用了一个128维的全连接层,保留更多的图像特征,这一步的输出只有M个边界框坐标信息的四个参数和分类得分,坐标信息的四个参数也通过边框回归支路的输出进行修正,同样对人脸的分类损失函数采取焦点损失优化,得到的人脸分类损失函数和回归损失函数以及该层卷积神经网络目标函数为分别为:其中参数定义与步骤1.1中相同;步骤1.3:构建多任务级联卷积神经网络第三层输出网络,相比细化网络再多加一个卷积层,使用更复杂的网络对模型性能进行优化,将输入图片resize到大小为48*48,多加的一层卷积层利用更多的监督信息来识别面部的区域,并对人的面部特征点进行回归,最终输出5个确定的人脸关键点的位置,在网络结构的最后同样是一个更大的256维全连接层,输出包含P个边界框坐标信息的四个参数、分类得分和人脸关键点的位置信息,同样对人脸的分类损失函数采取焦点损失优化,得到的人脸分类损失函数回归损失函数和人脸关键点定位损失函数以及该层卷积神经网络目标函数为分别为:其中和的参数定义与步骤1.1中相同,表示从网络中获得的人脸特征点坐标参数,为真实人脸特征点坐标,因为需要检测的人脸特征为人脸上的5个特征点,包括左眼、右眼、鼻子、嘴左边界和嘴右边界,因此一共有10个参数,目标函数增加了人脸关键点定位损失函数,参数定义不变。任务级联卷积神经网络模型,对多任务损失函数进行焦点损失优化,(2)在网络训练阶段使用在线困难样本挖掘和多尺度训练优化;步骤2.1:网络进入训练阶段,进行在线困难样本挖掘。将输入的训练数据分为小批量,在每个小批量中,在前向传播阶段计算所有样本的损失,并对它们进行排序,并选择其中的前70%作为困难样本。然后只计算后向传播阶段的困难样本的梯度,根据这些损失最大的70%样本来后向传播更新网络模型的权重参数;步骤2.2:在训练网络时使用多尺度训练方式,在训练过程中,在训练过程中通过resize调整原始图像的大小,为每张图像设计一个多比例的表示,这样在测试过程中模型对于检测很多低分辨率的人脸目标会更加适应,使用标准的随机梯度下降算法以端到端的方式来训练,将训练得到的网络模型用于人脸检测。有益效果:本专利技术提供基于焦点损失和多任务级联的人脸检测方法,该方法使用深度学习人脸检测技术,针对无约束场景下的人脸检测问题,将焦点损失与多任务级联卷积神经网络相结合来进行人脸检测。首先构建多任本文档来自技高网
...

【技术保护点】
1.基于焦点损失和多任务级联的人脸检测方法,具体步骤如下,其特征在于:/n(1)构建多任务级联卷积神经网络模型,对多任务损失函数进行焦点损失优化,具体步骤为:/n步骤1.1:先将输入图片调整为不同比例的大小,建立一个图像金字塔,构建多任务级联卷积神经网络第一层建议网络,它是一个全卷积网络,作为人脸区域的区域建议网络用来生成候选框,对于不同缩放比例的图像金字塔,将输入图片resize到大小为12*12,利用全卷积神经网络将输入经过三个卷积层进行初步特征提取,获得候选建议窗口以及它们的边框回归向量,然后使用边框回归向量用来校准候选窗口,再用非极大值抑制合并高度重叠的候选窗口,使用全卷积输出1*1*32的特征,这一步的输出只有N个边界框坐标信息的四个参数和分类得分,坐标信息的四个参数通过边框回归支路的输出进行修正,分类得分为人脸分类支路的输出,代表它是人脸的概率,再对人脸的分类损失函数采取焦点损失优化,得到的人脸分类损失函数

【技术特征摘要】
1.基于焦点损失和多任务级联的人脸检测方法,具体步骤如下,其特征在于:
(1)构建多任务级联卷积神经网络模型,对多任务损失函数进行焦点损失优化,具体步骤为:
步骤1.1:先将输入图片调整为不同比例的大小,建立一个图像金字塔,构建多任务级联卷积神经网络第一层建议网络,它是一个全卷积网络,作为人脸区域的区域建议网络用来生成候选框,对于不同缩放比例的图像金字塔,将输入图片resize到大小为12*12,利用全卷积神经网络将输入经过三个卷积层进行初步特征提取,获得候选建议窗口以及它们的边框回归向量,然后使用边框回归向量用来校准候选窗口,再用非极大值抑制合并高度重叠的候选窗口,使用全卷积输出1*1*32的特征,这一步的输出只有N个边界框坐标信息的四个参数和分类得分,坐标信息的四个参数通过边框回归支路的输出进行修正,分类得分为人脸分类支路的输出,代表它是人脸的概率,再对人脸的分类损失函数采取焦点损失优化,得到的人脸分类损失函数和回归损失函数分别为:






其中pi表示网络预测结果中样本是人脸的概率,表示表示真实分类标签,α表示不同类别的权重系数,γ表示焦点损失的聚焦参数,表示回归目标并从网络获得,为真实边界框坐标,各有四个参数,包括边界框的左顶点坐标、高度和宽度,因此从而得到该层卷积神经网络目标函数为:



其中N是训练样本数量,δ表示该任务在多任务中的重要性权重参数,β代表样本类型;步骤1.2:构建多任务级联卷积神经网络第二层细化网络,相比建议网络增加了一个全连接层,能对输入数据做更进一步的筛选,从而达到高精度过滤和人脸区域优化的效果;将输入图片resize到大小为24*24,上一步的所有候选窗口都被送到该网络,进一步挑选并去除大量的错误候选,然后再用边框回归进行校准,同样再使用非极大值抑制对候选窗进行合并,在最后一个卷积层之后使用了一个128维的全连接层,保留更多的图像特征,这一步的输出只有M个边界框坐标信息的四个参数和分类得分,坐标信息的四个参数也通过边框回归支路的输出进行修正,同样对人脸的分类损失函数采取焦...

【专利技术属性】
技术研发人员:杨绿溪王驭扬徐琴珍俞菲李春国黄永明
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1