一种头部姿态估计方法、装置、设备以及存储介质制造方法及图纸

技术编号:39324154 阅读:10 留言:0更新日期:2023-11-12 16:03
本申请实施例提供了一种头部姿态估计方法、装置、设备以及存储介质,用于保证头部姿态估计的稳定可靠。包括:获取待识别图像,待识别图像中包括目标人脸图像;将待识别图像输入第一网络模型得到待识别图像中目标人脸图像的二维关键点坐标集合、二维关键点坐标集合中各个二维关键点坐标的不确定度以及目标人脸图像的三维关键点坐标集合,第一网络模型包括第一分支网络和第二分支网络,第一分支网络用于识别得到二维关键点坐标和不确定度,第二分支网络用于识别得到三维关键点坐标;根据二维关键点坐标集合、不确定度和三维关键点坐标集合识别待识别图像中目标人脸图像对应的头部姿态。本申请提供的技术方案可应用于人工智能、计算机视觉领域。计算机视觉领域。计算机视觉领域。

【技术实现步骤摘要】
一种头部姿态估计方法、装置、设备以及存储介质


[0001]本申请涉及图像处理领域,尤其涉及一种头部姿态估计方法、装置、设备以及存储介质。

技术介绍

[0002]在计算机视觉的背景下,头部姿势估计最常被解释为推断人的头部相对于相机视图的方向的能力。因此在视觉动捕中,头部姿态估计是非常重要的一环。精准的头部姿态可以让虚拟形象完美复刻中之人的头部动作,让虚拟人动画更加生动灵巧,写实逼真。当前,比较主流的头部姿态估计方法,多为利用传统的运动传感器,另外就是通过三维(3

dimension,3D)图像获取设备获取头部的三维坐标信息来进行判断,受限于目前主流的视频图像采集设备采集的都是二维(2

dimension,2D)图像信息,所以基于人脸关键点坐标信息,实现2D坐标信息在世界坐标系的3D转换,从而获得人头部姿态的3D坐标信息,再根据坐标的变化来实现对头部姿态的估计以及头部动作的判断。
[0003]上述方法是基于求解3D到2D点对运动的方法(也称为Perspective

n

Point,PnP),该方法首先会估计人脸的2D关键点;然后标定出一个固定3D人头模型中的对应的3D点。通过PnP解算,就可以得到3D点到2D关键点的变换姿态。上述方法大体精度可以,解释性强,但是当人做出大幅度表情时,抖动就会很明显。
[0004]因此目前急需要一种在做大幅度表情时,保证头部姿态估计的稳定可靠的头部姿态估计方法。

技术实现思路

[0005]本申请实施例提供了一种头部姿态估计方法、装置、设备以及存储介质,用于保证头部姿态估计的稳定可靠。
[0006]有鉴于此,本申请一方面提供一种头部姿态估计方法,包括:获取待识别图像,该待识别图像中包括目标人脸图像;将该待识别图像输入第一网络模型得到该待识别图像中目标人脸图像的二维关键点坐标集合、该二维关键点坐标集合中各个二维关键点坐标的不确定度以及该目标人脸图像的三维关键点坐标集合,其中,该第一网络模型包括第一分支网络和第二分支网络,其中,该第一分支网络用于识别得到该二维关键点坐标集合和该不确定度,该第二分支网络用于识别得到该三维关键点坐标集合;根据该二维关键点坐标集合、该不确定度和该三维关键点坐标集合识别该待识别图像中目标人脸图像对应的头部姿态。
[0007]本申请另一方面提供一种头部姿态估计装置,包括:
[0008]获取模块,用于获取待识别图像,该待识别图像中包括目标人脸图像;
[0009]处理模块,用于将该待识别图像输入第一网络模型得到该待识别图像中目标人脸图像的二维关键点坐标集合、该二维关键点坐标集合中各个二维关键点坐标的不确定度以及该目标人脸图像的三维关键点坐标集合,其中,该第一网络模型包括第一分支网络和第
二分支网络,其中,该第一分支网络用于识别得到该二维关键点坐标集合和该不确定度,该第二分支网络用于识别得到该三维关键点坐标集合;
[0010]输出模块,用于根据该二维关键点坐标集合、该不确定度和该三维关键点坐标集合识别该待识别图像中目标人脸图像对应的头部姿态。
[0011]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该输出模块,具体用于根据该不确定度将该二维关键点坐标集合中的各个二维关键点坐标进行排序,将不确定度大于预设阈值的二维关键点坐标从该二维关键点坐标集合中剔除得到中间二维关键点坐标集合;
[0012]根据该中间二维关键点坐标集合从该三维关键点坐标集合中获取中间三维关键点坐标集合;
[0013]根据该中间二维关键点坐标集合和该中间三维关键点坐标集合识别该待识别图像中目标人脸图像对应的头部姿态。
[0014]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该输出模块,具体用于根据该中间二维关键点坐标集合和该中间三维关键点坐标集合利用PnP解算识别该待识别图像中目标人脸图像对应的头部姿态。
[0015]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,还用于获取第一训练样本集,并建立第一初始网络模型,该第一训练样本集标注有人脸图像的真实二维关键点坐标集合和真实三维关键点坐标集合,该第一初始网络模型包括特征提取网络层、初始第一分支网络和初始第二分支网络,该初始第一分支网络用于识别输出二维关键点坐标和不确定度,该初始第一分支网络用于识别输出三维关键点坐标;
[0016]该头部姿态估计装置还包括训练模块,用于将该第一训练样本集合输入该特征提取网络层得到该第一训练样本集合中各个训练样本的特征表示;
[0017]将该特征表示输入该初始第一分支网络得到预测二维关键点坐标集合以及该预测二维关键点坐标对应的预测不确定度,并将该特征表示输入该初始第二分支网络得到预测三维关键点坐标集合;
[0018]根据该预测二维关键点坐标集合、该预测不确定度和该真实二维关键点坐标集合计算第一损失值,根据该预测三维关键点坐标集合和该真实三维关键点坐标集合计算第二损失值;
[0019]根据该第一损失值调整该初始第一分支网络得到该第一分支网络,并根据该第二损失值调整该初始第二分支网络得到该第二分支网络;
[0020]根据该第一分支网络和该第二分支网络得到该第一网络模型。
[0021]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,具体用于通过深度摄像头采集训练图像集合,该训练图像集合中的各个训练图像包括人脸图像的三维点云数据以及真实头部姿态;
[0022]将该三维点云数据进行姿态投影得到该训练图像中人脸图像的二维关键点数据;
[0023]将该训练图像集合输入该图像处理网络中输出该训练样本集。
[0024]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,具体用于将该训练图像集合输入该图像处理网络得到该训练图像中人脸图像的稀疏关键点,该稀疏关键点包括该训练图像中人脸图像的五官点以及人脸轮廓点;
[0025]根据该人脸轮廓点从该训练图像中获取该目标人脸图像;
[0026]根据该五官点将该目标人脸图像水平对齐并缩放至目标尺寸得到该训练样本集合中的训练样本。
[0027]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该稀疏关键点至少五个人脸五官点以及四个人脸轮廓点。
[0028]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该特征提取网络包括残差神经网络ResNet和池化层,该第一分支网络为全连接层,该第二分支网络为全连接层。
[0029]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该训练模块,具体用于利用高斯负对数似然损失根据该预测二维关键点坐标集合、该预测不确定度和该真实二维关键点坐标集合计算第一损失值;利用回归损失函数根据该预测三维关键点坐标集合和该真实三维关键点坐标集合计算第二损失值。...

【技术保护点】

【技术特征摘要】
1.一种头部姿态估计方法,其特征在于,包括:获取待识别图像,所述待识别图像中包括目标人脸图像;将所述待识别图像输入第一网络模型得到所述待识别图像中目标人脸图像的二维关键点坐标集合、所述二维关键点坐标集合中各个二维关键点坐标的不确定度以及所述目标人脸图像的三维关键点坐标集合,其中,所述第一网络模型包括第一分支网络和第二分支网络,其中,所述第一分支网络用于识别得到所述二维关键点坐标集合和所述不确定度,所述第二分支网络用于识别得到所述三维关键点坐标集合;根据所述二维关键点坐标集合、所述不确定度和所述三维关键点坐标集合识别所述待识别图像中目标人脸图像对应的头部姿态。2.根据权利要求1所述的方法,其特征在于,所述根据所述二维关键点坐标集合、所述不确定度和所述三维关键点坐标集合识别所述待识别图像中目标人脸图像对应的头部姿态包括:根据所述不确定度将所述二维关键点坐标集合中的各个二维关键点坐标进行排序,将不确定度大于预设阈值的二维关键点坐标从所述二维关键点坐标集合中剔除得到中间二维关键点坐标集合;根据所述中间二维关键点坐标集合从所述三维关键点坐标集合中获取中间三维关键点坐标集合;根据所述中间二维关键点坐标集合和所述中间三维关键点坐标集合识别所述待识别图像中目标人脸图像对应的头部姿态。3.根据权利要求2所述的方法,其特征在于,所述根据所述中间二维关键点坐标集合和所述中间三维关键点坐标集合识别所述待识别图像中目标人脸图像对应的头部姿态包括:根据所述中间二维关键点坐标集合和所述中间三维关键点坐标集合利用PnP解算识别所述待识别图像中目标人脸图像对应的头部姿态。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:获取第一训练样本集,并建立第一初始网络模型,所述第一训练样本集标注有人脸图像的真实二维关键点坐标集合和真实三维关键点坐标集合,所述第一初始网络模型包括特征提取网络层、初始第一分支网络和初始第二分支网络,所述初始第一分支网络用于识别输出二维关键点坐标和不确定度,所述初始第一分支网络用于识别输出三维关键点坐标;将所述第一训练样本集合输入所述特征提取网络层得到所述第一训练样本集合中各个训练样本的特征表示;将所述特征表示输入所述初始第一分支网络得到预测二维关键点坐标集合以及所述预测二维关键点坐标对应的预测不确定度,并将所述特征表示输入所述初始第二分支网络得到预测三维关键点坐标集合;根据所述预测二维关键点坐标集合、所述预测不确定度和所述真实二维关键点坐标集合计算第一损失值,根据所述预测三维关键点坐标集合和所述真实三维关键点坐标集合计算第二损失值;根据所述第一损失值调整所述初始第一分支网络得到所述第一分支网络,并根据所述第二损失值调整所述初始第二分支网络得到所述第二分支网络;根据所述第一分支网络和所述第二分支网络得到所述第一网络模型。
5.根据权利要求4所述的方法,其特征在于,所述获取第一训练样本集包括:通过深度摄像头采集训练图像集合,所述训练图像集合中的各个训练图像包括人脸图像的三维点云数据以及真实头部姿态;将所述三维点云数据进行姿态投影得到所述训练图像中人脸图像的二维关键点数据;将所述训练图像集合输入所述图像处理网络中输出所述训练样本集。6.根据权利要求5所述的方法,其特征在于,所述将所述训练图像集合通过所述图像处理网络中得到所述训练样本集包括:将所述训练图像集合输入所述图像处理网络得到所述训练图像中人脸图像的稀疏关键点,所述稀疏关键点包括所述训练图像中人脸图像的五官点以及人脸轮廓点;根据所述人脸轮廓点从所述训练图像中获取所述目标人脸图像;根据所述五官点将所述目标人脸图像水平对齐并缩放至目标尺寸得到所述训练样本集合中的训练样本。7.根据权利要求6所述的方法,其特征在于,所述稀疏关键点至少五个人脸五官点以及四个人脸轮廓点。8.根据权利要求4所述的方法,其特征在于,所述特征提取网络包括残差神经网络R...

【专利技术属性】
技术研发人员:卫华威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1