当前位置: 首页 > 专利查询>清华大学专利>正文

基于深度强化学习的人脸关键点检测方法及装置制造方法及图纸

技术编号:18764387 阅读:633 留言:0更新日期:2018-08-25 10:46
本发明专利技术公开了一种基于深度强化学习的人脸关键点检测方法及装置,其中,方法包括以下步骤:通过马尔科夫决策过程对人脸关键点检测问题进行数学建模;通过形状推测网络得到一个初始形状,将其通过k近邻,获取该形状候选子集;通过形状决策网络对形状候选子集中每个候选形状进行评价,并获取分数最高的形状;将形状推断网络和形状决策网络通过策略梯度同时优化,获取最终推断决策网络结构,以得到人脸关键点。该方法通过推断决策的框架,能够在形状连续空间中,找到一条最优的形状搜索路径,以最大化形状评价分数,从而有效提高人脸关键点检测的准确性和可靠性。

【技术实现步骤摘要】
基于深度强化学习的人脸关键点检测方法及装置
本专利技术涉及计算机视觉
,特别涉及一种基于深度强化学习的人脸关键点检测方法及装置。
技术介绍
人脸关键点检测旨在对于给定的人脸图像,定位多个特征关键点(如眉毛、眼睛、鼻子、嘴巴、面廓等)的位置。该技术在多个人脸分析人物中起着重要的作用,如人脸识别、头部姿态估计、人脸属性分析等。尽管近年来有一系列方法致力于人脸关键点检测的研究中,但是人脸关键点检测问题依旧具有很大的挑战性。这主要由于在自然开放场景下获得的人脸图像由于大姿态和大表情,具有很大的变化性,使得人脸关键点检测的算法很容易陷入局部最优,很难处理一些极端情况,导致最终关键点检测效果很差。相关技术的主要的研究方法可以分为两类:基于模型的方法,基于级联回归的方法。基于模型的方法主要是通过对于小批量人脸训练数据进行PCA(Principalcomponentsanalysis,主成分分析)主成分分析,获得人脸的形状模型,对于测试图像,通过调整人脸形状模型的点的位置和参数,使得表观能量最大化,得到调整后的模型结果即为检测结果。基于级联回归的方法主要是通过从一个平均人脸形状出发,提取每个关键点的局部特征,通过回归器学习人脸形状的变化量,以级联的方式逐步更新形状。目前基于级联回归的方法取得了最先进的结果也是最流行的人脸关键点检测方法。代表方法有:ESR(ExplicitShapeRegression,显式形状回归),SDM(SpatialDubinModel,监督下降模型),CFSS(CoarsetoFineShapeSearching,由粗到精的形状搜索)。尽管这些方法能实现较高的准确率,但是线性回归的映射方式很难模拟人脸图像像素和人脸形状之间这种复杂非线性的关系。为了处理这个问题,基于深度神经网络的方法也应用到了人脸关键点检测中,这类方法能够直接从原始图像中得到人脸关键点的位置。代表方法有:DCNC(deepconvolutioncascadednetwork,深度卷积级联网络),DSSD(DeconvolutionalSingleShotDetector,深度共享结构化检测器),MDM(memorabledescentmethod,可记忆下降方法)。然而,这种基于级联的处理方式经常对于人脸形状的初始化很敏感,尤其在人脸处于大姿态和大表情形变的条件下。这种级联方法会导致不同级之间的错误累积,最终导致结果偏差。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于深度强化学习的人脸关键点检测方法,该方法可以有效提高人脸关键点检测的准确性和可靠性。本专利技术的另一个目的在于提出一种基于深度强化学习的人脸关键点检测装置。为达到上述目的,本专利技术一方面实施例提出了一种基于深度强化学习的人脸关键点检测方法,包括以下步骤:通过马尔科夫决策过程对人脸关键点检测问题进行数学建模;通过形状推测网络得到一个初始形状,将其通过k近邻,获取该形状候选子集;通过形状决策网络对所述形状候选子集中每个候选形状进行评价,并获取分数最高的形状;将所述形状推断网络和所述形状决策网络通过策略梯度同时优化,获取最终推断决策网络结构,以得到人脸关键点。本专利技术实施例的基于深度强化学习的人脸关键点检测方法,通过推断决策的框架,能够在形状连续空间中,找到一条最优的形状搜索路径,以最大化形状评价分数,从而有效提高人脸关键点检测的准确性和可靠性。另外,根据本专利技术上述实施例的基于深度强化学习的人脸关键点检测方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述马尔科夫决策过程包括动作、状态和奖励,其中,所述动作为提供所有关键点的更新位移量得到的形状偏差,所述状态为通过剪裁人脸图像中关键点附近的图像块得到的人脸局部表观特征,所述奖励为通过归一化的点对点距离得到。进一步地,在本专利技术的一个实施例中,在所述形状推测网络中,第一优化目标为:形状推断网络输出的动作为:相对应到状态空间为:其中,ρπ(x)为状态空间概率分布,X为提取的人脸局部表观特征,为可微策略函数,为期望,为推断网络函数,I为图像,p为人脸关键点形状,d为局部图像块大小。进一步地,在本专利技术的一个实施例中,在所述形状决策网络中,第二优化目标为:其中,Qπ()为决策网络函数,r()为奖励函数。进一步地,在本专利技术的一个实施例中,所述策略梯度的梯度公式为:其中,为决策网络函数。为达到上述目的,本专利技术另一方面实施例提出了一种基于深度强化学习的人脸关键点检测装置,包括:建模模块,用于通过马尔科夫决策过程对人脸关键点检测问题进行数学建模;获取模块,用于通过形状推测网络得到一个初始形状,将其通过k近邻,获取该形状候选子集;评价获取模块,用于通过形状决策网络对所述形状候选子集中每个候选形状进行评价,并获取分数最高的形状;处理模块,用于将所述形状推断网络和所述形状决策网络通过策略梯度同时优化,获取最终推断决策网络结构,以得到人脸关键点。本专利技术实施例的基于深度强化学习的人脸关键点检测装置,通过推断决策的框架,能够在形状连续空间中,找到一条最优的形状搜索路径,以最大化形状评价分数,从而有效提高人脸关键点检测的准确性和可靠性。另外,根据本专利技术上述实施例的基于深度强化学习的人脸关键点检测装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述马尔科夫决策过程包括动作、状态和奖励,其中,所述动作为提供所有关键点的更新位移量得到的形状偏差,所述状态为通过剪裁人脸图像中关键点附近的图像块得到的人脸局部表观特征,所述奖励为通过归一化的点对点距离得到。进一步地,在本专利技术的一个实施例中,在所述形状推测网络中,第一优化目标为:形状推断网络输出的动作为:相对应到状态空间为:其中,ρπ(x)为状态空间概率分布,X为提取的人脸局部表观特征,为可微策略函数,为期望,为推断网络函数,I为图像,p为人脸关键点形状,d为局部图像块大小。进一步地,在本专利技术的一个实施例中,在所述形状决策网络中,第二优化目标为:其中,Qπ()为决策网络函数,r()为奖励函数。进一步地,在本专利技术的一个实施例中,策略梯度的梯度公式为:其中,为决策网络函数。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的基于深度强化学习的人脸关键点检测方法的流程图;图2为根据本专利技术一个具体实施例的基于深度强化学习的人脸关键点检测方法的流程图;图3为根据本专利技术一个实施例的在公开人脸数据库300W中有挑战子集上的部分结果的示意图;图4为根据本专利技术一个实施例的方法与相关技术的对比示意图;图5为根据本专利技术一个实施例的基于深度强化学习的人脸关键点检测装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参照附图描述根据本专利技术实施例提出的基于深度本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的人脸关键点检测方法,其特征在于,包括以下步骤:通过马尔科夫决策过程对人脸关键点检测问题进行数学建模;通过形状推测网络得到一个初始形状,将其通过k近邻,获取该形状候选子集;通过形状决策网络对所述形状候选子集中每个候选形状进行评价,并获取分数最高的形状;以及将所述形状推断网络和所述形状决策网络通过策略梯度同时优化,获取最终推断决策网络结构,以得到人脸关键点。

【技术特征摘要】
1.一种基于深度强化学习的人脸关键点检测方法,其特征在于,包括以下步骤:通过马尔科夫决策过程对人脸关键点检测问题进行数学建模;通过形状推测网络得到一个初始形状,将其通过k近邻,获取该形状候选子集;通过形状决策网络对所述形状候选子集中每个候选形状进行评价,并获取分数最高的形状;以及将所述形状推断网络和所述形状决策网络通过策略梯度同时优化,获取最终推断决策网络结构,以得到人脸关键点。2.根据权利要求1所述的基于深度强化学习的人脸关键点检测方法,其特征在于,所述马尔科夫决策过程包括动作、状态和奖励,其中,所述动作为提供所有关键点的更新位移量得到的形状偏差,所述状态为通过剪裁人脸图像中关键点附近的图像块得到的人脸局部表观特征,所述奖励为通过归一化的点对点距离得到。3.根据权利要求1所述的基于深度强化学习的人脸关键点检测方法,其特征在于,在所述形状推测网络中,第一优化目标为:形状推断网络输出的动作为:相对应到状态空间为:其中,ρπ(x)为状态空间概率分布,X为提取的人脸局部表观特征,为可微策略函数,为期望,为推断网络函数,I为图像,p为人脸关键点形状,d为局部图像块大小。4.根据权利要求1或2所述的基于深度强化学习的人脸关键点检测方法,其特征在于,在所述形状决策网络中,第二优化目标为:其中,Qπ()为决策网络函数,r()为奖励函数。5.根据权利要求1-4任一项所述的基于深度强化学习的人脸关键点检测方法,其特征在于,所述策略梯度的梯度公式为:其中,为决策网络函数。6.一种基于深度强化学习...

【专利技术属性】
技术研发人员:鲁继文周杰刘昊郭明皓
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1