一种基于深度学习的带中继监督的序列化人脸关键点检测方法技术

技术编号:21772676 阅读:28 留言:0更新日期:2019-08-03 21:50
本发明专利技术公开了一种基于深度学习的带中继监督的序列化人脸关键点检测方法,包括如下步骤:给定已检测出的人脸图像,设计出一种由多模块组成的级联网络结构,该结构通过对各模块的中继监督,实现了关键点的序列化预测;结合软极大值函数在输出的关键点热图上计算关键点坐标的期望,完成热图回归向基于关键点坐标的数值坐标回归的转化,充分发挥了两种回归方法各自的优势。本发明专利技术一方面克服了热图回归方法不能端到端进行训练的缺陷,另一方面省去了额外的数据处理过程,加快了模型训练过程,提升了算法效率;在进行数值坐标回归时采用一种新的分段损失函数,最终获得了较高的定位准确度。

A Serialized Face Key Point Detection Method with Relay Supervision Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的带中继监督的序列化人脸关键点检测方法
本专利技术涉及图像处理与模式识别
,尤其是一种基于深度学习的带中继监督的序列化人脸关键点检测方法。
技术介绍
人脸关键点检测是计算机视觉中的经典问题之一,也是人脸分析过程中的重要组成部分。基于准确的关键点检测结果,可以实现人脸姿态估计、表情分析、美妆特效等应用。目前主流的人脸关键点检测方法,主要分为两大类,分别是基于回归的方法和基于卷积神经网络的方法。基于回归的方法是直接学习从图像外观到关键点位置的映射,其中最具代表性的是级联回归,该方法采用了由粗到精的策略,第k个阶段的形状增量Δs为:Δst=Rt(Φt(I,st-1))其中,st-1表示前阶段的形状预测值,Φt为特征映射函数,Rt为阶段回归器。形状索引特征Φt(I,st-1)依赖于输入图像I和当前的形状估计,可以通过手工设计或者直接学习得到。在训练阶段,可以将若干个弱回归器串联在一起逐步减小训练集上的关键点定位误差。基于卷积神经网络的方法则将通过提取图像的高层特征,对人脸外观到人脸形状的非线性映射进行建模。根据关键点回归方式的不同,又可以细分为数值坐标回归法和热图回归法,前者是通过卷积神经网络直接学习从RGB图像到关键点坐标的映射,而后者是通过预测与关键点对应的热图来间接推断关键点坐标。数值坐标回归法一般模型复杂度较低,速度较快,但往往在关键点数量较多时性能较差;基于热点图的关键点检测算法通过引入关键点热图,隐式建模了关键点的空间位置关系,所以其空间泛化能力较强,但由于其输出的特征图较大,所以该方法是在牺牲一定速度以及增大模型复杂度的情况下获得性能提升的。并且,这种方法需要额外的数据预处理和后处理过程,不能端到端的进行训练。以上两种回归方法中,常用的损失函数为L2损失,即欧氏距离损失,定义如下:其中,s=[x1,...,xL,y1,...,yL]T表示关键点的真实坐标,s′=φ(I)是模型预测的关键点坐标,φ(·)表示映射函数。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种基于深度学习的带中继监督的序列化人脸关键点检测方法,在保证性能的同时,缩短训练过程,加快检测速度。为解决上述技术问题,本专利技术提供一种基于深度学习的带中继监督的序列化人脸关键点检测方法,包括如下步骤:(1)在训练时,手工标定人脸关键点作为训练样本,预先给定标定好或检测出的人脸框,对于每个人脸框,精确标定出每个关键点在框内的二维坐标;(2)根据人脸框对训练样本进行数据预处理,包括数据增强操作以及数据归一化;(3)设计基于中继监督的序列化检测模型,该模型是由三个级联的卷积神经网络模块组成,并且每个阶段的模块都输出大小相同的特征图作为预测关键点响应图;(4)在每个阶段输出的关键点热图上采用软极大值函数,得到预测关键点位置,采用新的分段损失函数根据预测的关键点坐标计算每一阶段的损失值,并将三个阶段的损失值之和作为整个模型的损失值;分段损失函数定义如下:其中,(-w,w)是该函数的非线性区,w为非负数,a控制非线性部分的曲率,C=w2-wln(1+w/a)是线性部分和非线性部分的分界点;(5)在测试时,对于输入的待检测的人脸图像,先进行人脸检测得到人脸框位置,再根据人脸框对图像进行相应预处理,接着将图像送入步骤(3)中的序列化检测模型中获得精确的人脸关键点位置。优选的,步骤(3)中,先设计浅层网络结构,其输入图像大小为256×256,具体结构见下表:优选的,步骤(3)中,在浅层网络之后设计由三个模块组成的级联结构进行关键点的序列化预测,输入特征图大小为32×32,每个模块的输出特征图大小也是32×32。优选的,步骤(4)中,软极大值函数通过分组卷积实现,即将权重矩阵Wx和Wy作为卷积操作中卷积核的权重参数,提高算法效率;分组卷积就是对传统卷积进行分通道隔离,这里的分组个数为通道数,即关键点个数。优选的,在进行网络模型训练时采用分层训练策略,对于浅层网络部分,以基础学习率对权重进行更新,且权值衰减系数为基础权值衰减系数;以基础学习率的2倍对偏置进行更新,且权值衰减系数为0;对于序列化预测部分,以基础学习率的4倍对权重进行更新,且权值衰减系数为基础权值衰减系数;以基础学习率的8倍对偏置进行更新,且权值衰减系数为0。本专利技术的有益效果为:采用序列化的预测模型“由粗到精”预测关键点位置,第一阶段的输出结果为后续阶段提供关键点位置的初始位置,而后的每一阶段都是在此基础上逐步获得更准确的预测结果;对每一阶段的输出计算损失函数,实现对模型的中继监督,相比于只计算网络最后一个模块的损失函数,该方法是对网络中间结果的监督,以此保证最终输出的准确性;设计了更为合理的分段损失函数,优化了小误差和中等误差样本的预测结果;通过引入软极大值函数,解决了热图回归法不能端到端进行训练的缺陷,省去了额外的数据预处理过程,在保证性能的同时,缩短训练过程,加快检测速度。附图说明图1为本专利技术的网络模型结构示意图。图2为本专利技术的检测方法流程示意图。具体实施方式如图2所示,一种基于深度学习的带中继监督的序列化人脸关键点检测方法,包括如下步骤:(1)在训练时,手工标定人脸关键点作为训练样本,预先给定标定好或检测出的人脸框,对于每个人脸框,精确标定出每个关键点在框内的二维坐标;(2)根据人脸框对训练样本进行数据预处理,包括数据增强操作以及数据归一化;(3)设计基于中继监督的序列化检测模型,该模型是由三个级联的卷积神经网络模块组成,并且每个阶段的模块都输出大小相同的特征图作为预测关键点响应图;(4)在每个阶段输出的关键点热图上采用软极大值函数,得到预测关键点位置,采用新的分段损失函数根据预测的关键点坐标计算每一阶段的损失值,并将三个阶段的损失值之和作为整个模型的损失值;分段损失函数定义如下:其中,(-w,w)是该函数的非线性区,w为非负数,a控制非线性部分的曲率,C=w2-wln(1+w/a)是线性部分和非线性部分的分界点;(5)在测试时,对于输入的待检测的人脸图像,先进行人脸检测得到人脸框位置,再根据人脸框对图像进行相应预处理,接着将图像送入步骤(3)中的序列化检测模型中获得精确的人脸关键点位置。如图1所示,中继监督序列化预测模型,具体为:输入RGB图像先经过由若干卷积核大小为3×3的卷积层组成的浅层网络提取特征,作为第一个级联模块的输入;接着网络进入序列化预测阶段,每个级联模块都由卷积核大小为7×7、3×3或1×1的卷积层组成,且除第一个模块外,其他模块都是把第一个模块的输入特征,即原图上提取的浅层特征和上一个模块输出的特征图进行特征融合,共同作为该模块的输入特征,再进行特征提取和关键点预测,模块二与模块三的结构相同。对于软极大值函数的设计,是通过二维平面上的Softmax函数实现的。在基于深度学习的多分类任务中,常用Softmax函数作为网络的最后一层输出每个类别的对应概率值(0~1),作为分类的判断依据,Softmax函数的定义如下:其中,Vi表示数组V中第i个元素,Si表示该元素对应的Softmax值。所有元素的Softmax值累加求和为1。Softmax函数中取指数的操作可以模拟取最大值的行为,并且让大的值更大,可以整个式子进行求导,这一点弥补了Argma本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的带中继监督的序列化人脸关键点检测方法,其特征在于,包括如下步骤:(1)在训练时,手工标定人脸关键点作为训练样本,预先给定标定好或检测出的人脸框,对于每个人脸框,精确标定出每个关键点在框内的二维坐标;(2)根据人脸框对训练样本进行数据预处理,包括数据增强操作以及数据归一化;(3)设计基于中继监督的序列化检测模型,该模型是由三个级联的卷积神经网络模块组成,并且每个阶段的模块都输出大小相同的特征图作为预测关键点响应图;(4)在每个阶段输出的关键点热图上采用软极大值函数,得到预测关键点位置,采用新的分段损失函数根据预测的关键点坐标计算每一阶段的损失值,并将三个阶段的损失值之和作为整个模型的损失值;分段损失函数定义如下:

【技术特征摘要】
1.一种基于深度学习的带中继监督的序列化人脸关键点检测方法,其特征在于,包括如下步骤:(1)在训练时,手工标定人脸关键点作为训练样本,预先给定标定好或检测出的人脸框,对于每个人脸框,精确标定出每个关键点在框内的二维坐标;(2)根据人脸框对训练样本进行数据预处理,包括数据增强操作以及数据归一化;(3)设计基于中继监督的序列化检测模型,该模型是由三个级联的卷积神经网络模块组成,并且每个阶段的模块都输出大小相同的特征图作为预测关键点响应图;(4)在每个阶段输出的关键点热图上采用软极大值函数,得到预测关键点位置,采用新的分段损失函数根据预测的关键点坐标计算每一阶段的损失值,并将三个阶段的损失值之和作为整个模型的损失值;分段损失函数定义如下:其中,(-w,w)是该函数的非线性区,w为非负数,a控制非线性部分的曲率,C=w2-wln(1+w/a)是线性部分和非线性部分的分界点;(5)在测试时,对于输入的待检测的人脸图像,先进行人脸检测得到人脸框位置,再根据人脸框对图像进行相应预处理,接着将图像送入步骤(3)中的序列化检测模型中获得精确的人脸关键点位置。2.如权利要求1所述的基于深度学习的带中继监督的序列化人脸关键...

【专利技术属性】
技术研发人员:薛磊崔馨方薛裕峰
申请(专利权)人:南京云智控产业技术研究院有限公司东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1