基于焦点损失和多任务级联的人脸检测方法技术

技术编号：26259830 阅读：29 留言：0更新日期：2020-11-06 17:54

本发明专利技术公开了一种基于焦点损失和多任务级联的人脸检测方法，属于计算机视觉技术领域。本发明专利技术使用深度学习技术，将焦点损失与多任务级联卷积神经网络相结合来进行人脸检测。首先基于深度学习构建多任务级联卷积神经网络模型，对多任务损失函数进行焦点损失优化；并在网络训练阶段使用在线困难样本挖掘和多尺度训练优化。采用我们设计的人脸检测方法可以有效提高在各种无约束场景中进行人脸检测的平均精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于焦点损失和多任务级联的人脸检测方法
本专利技术属于计算机视觉
，特别是涉及基于焦点损失和多任务级联的人脸检测方法。
技术介绍
自七十年代以来，人脸识别就成为了计算机视觉领域的研究热点之一。传统的人脸识别方法通过手工提取特征，这种方法在对无约束场景中的各种复杂人脸情况进行检测时，有很大的局限性，无法满足实际的应用需求。随着深度学习的兴起，基于卷积神经网络的深度学习方法开始展现出其优越性，基于手工特征和机器学习的传统方法开始被大型数据集训练的深层神经网络所取代。人脸检测是人脸识别的第一步，也是人脸识别系统中最重要的模块之一。它是目标检测的一种特殊场景，同时也是目标检测中最重要和最受关注的研究场景。将卷积神经网络应用到目标检测是目前的研究趋势之一。目前网络上已经能够提供许多公开的大规模人脸数据集，这些数据集中的图像包含了现实世界中的各种复杂情况。使用这些公开数据集来训练神经网络模型，能够实现很高的人脸检测精度。针对人脸检测问题，已经出现了一系列基本的基于卷积神经网络的算法，包括区域卷积神经网络算法、级联卷积神经网络算法等等。如今人脸检测可以很容易地检测到近距离正面的人脸。而对于一些无约束不可控的人脸检测问题依然面临很大的挑战，如遮挡、姿势、表情和光照条件等诸多因素都会导致人脸外观的视觉变化，并可能严重影响人脸检测的准确性。在复杂环境下，比如人口较密集的公共场所，如服务大厅、室外广场等，对于大量不同的人员进行准确及时的人脸检测，相关的方法还需要进一步的研究改进。另外在进行人脸检测时经常会出现类别失衡...

【技术保护点】
1.基于焦点损失和多任务级联的人脸检测方法，具体步骤如下，其特征在于：/n(1)构建多任务级联卷积神经网络模型，对多任务损失函数进行焦点损失优化，具体步骤为：/n步骤1.1：先将输入图片调整为不同比例的大小，建立一个图像金字塔，构建多任务级联卷积神经网络第一层建议网络，它是一个全卷积网络，作为人脸区域的区域建议网络用来生成候选框，对于不同缩放比例的图像金字塔，将输入图片resize到大小为12*12，利用全卷积神经网络将输入经过三个卷积层进行初步特征提取，获得候选建议窗口以及它们的边框回归向量，然后使用边框回归向量用来校准候选窗口，再用非极大值抑制合并高度重叠的候选窗口，使用全卷积输出1*1*32的特征，这一步的输出只有N个边界框坐标信息的四个参数和分类得分，坐标信息的四个参数通过边框回归支路的输出进行修正，分类得分为人脸分类支路的输出，代表它是人脸的概率，再对人脸的分类损失函数采取焦点损失优化，得到的人脸分类损失函数

【技术特征摘要】
1.基于焦点损失和多任务级联的人脸检测方法，具体步骤如下，其特征在于：
(1)构建多任务级联卷积神经网络模型，对多任务损失函数进行焦点损失优化，具体步骤为：
步骤1.1：先将输入图片调整为不同比例的大小，建立一个图像金字塔，构建多任务级联卷积神经网络第一层建议网络，它是一个全卷积网络，作为人脸区域的区域建议网络用来生成候选框，对于不同缩放比例的图像金字塔，将输入图片resize到大小为12*12，利用全卷积神经网络将输入经过三个卷积层进行初步特征提取，获得候选建议窗口以及它们的边框回归向量，然后使用边框回归向量用来校准候选窗口，再用非极大值抑制合并高度重叠的候选窗口，使用全卷积输出1*1*32的特征，这一步的输出只有N个边界框坐标信息的四个参数和分类得分，坐标信息的四个参数通过边框回归支路的输出进行修正，分类得分为人脸分类支路的输出，代表它是人脸的概率，再对人脸的分类损失函数采取焦点损失优化，得到的人脸分类损失函数和回归损失函数分别为：

其中pi表示网络预测结果中样本是人脸的概率，表示表示真实分类标签，α表示不同类别的权重系数，γ表示焦点损失的聚焦参数，表示回归目标并从网络获得，为真实边界框坐标，各有四个参数，包括边界框的左顶点坐标、高度和宽度，因此从而得到该层卷积神经网络目标函数为：

其中N是训练样本数量，δ表示该任务在多任务中的重要性权重参数，β代表样本类型；步骤1.2：构建多任务级联卷积神经网络第二层细化网络，相比建议网络增加了一个全连接层，能对输入数据做更进一步的筛选，从而达到高精度过滤和人脸区域优化的效果；将输入图片resize到大小为24*24，上一步的所有候选窗口都被送到该网络，进一步挑选并去除大量的错误候选，然后再用边框回归进行校准，同样再使用非极大值抑制对候选窗进行合并，在最后一个卷积层之后使用了一个128维的全连接层，保留更多的图像特征，这一步的输出只有M个边界框坐标信息的四个参数和分类得分，坐标信息的四个参数也通过边框回归支路的输出进行修正，同样对人脸的分类损失函数采取焦...

【专利技术属性】
技术研发人员：杨绿溪，王驭扬，徐琴珍，俞菲，李春国，黄永明，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人