【技术实现步骤摘要】
一种头部姿态估计方法、装置、设备以及存储介质
[0001]本申请涉及图像处理领域,尤其涉及一种头部姿态估计方法、装置、设备以及存储介质。
技术介绍
[0002]在计算机视觉的背景下,头部姿势估计最常被解释为推断人的头部相对于相机视图的方向的能力。因此在视觉动捕中,头部姿态估计是非常重要的一环。精准的头部姿态可以让虚拟形象完美复刻中之人的头部动作,让虚拟人动画更加生动灵巧,写实逼真。当前,比较主流的头部姿态估计方法,多为利用传统的运动传感器,另外就是通过三维(3
‑
dimension,3D)图像获取设备获取头部的三维坐标信息来进行判断,受限于目前主流的视频图像采集设备采集的都是二维(2
‑
dimension,2D)图像信息,所以基于人脸关键点坐标信息,实现2D坐标信息在世界坐标系的3D转换,从而获得人头部姿态的3D坐标信息,再根据坐标的变化来实现对头部姿态的估计以及头部动作的判断。
[0003]上述方法是基于求解3D到2D点对运动的方法(也称为Perspective
‑
n
‑
Point,PnP),该方法首先会估计人脸的2D关键点;然后标定出一个固定3D人头模型中的对应的3D点。通过PnP解算,就可以得到3D点到2D关键点的变换姿态。上述方法大体精度可以,解释性强,但是当人做出大幅度表情时,抖动就会很明显。
[0004]因此目前急需要一种在做大幅度表情时,保证头部姿态估计的稳定可靠的头部姿态估计方法。
技术实现思路
[
【技术保护点】
【技术特征摘要】
1.一种头部姿态估计方法,其特征在于,包括:获取待识别图像,所述待识别图像中包括目标人脸图像;将所述待识别图像输入第一网络模型得到所述待识别图像中目标人脸图像的二维关键点坐标集合、所述二维关键点坐标集合中各个二维关键点坐标的不确定度以及所述目标人脸图像的三维关键点坐标集合,其中,所述第一网络模型包括第一分支网络和第二分支网络,其中,所述第一分支网络用于识别得到所述二维关键点坐标集合和所述不确定度,所述第二分支网络用于识别得到所述三维关键点坐标集合;根据所述二维关键点坐标集合、所述不确定度和所述三维关键点坐标集合识别所述待识别图像中目标人脸图像对应的头部姿态。2.根据权利要求1所述的方法,其特征在于,所述根据所述二维关键点坐标集合、所述不确定度和所述三维关键点坐标集合识别所述待识别图像中目标人脸图像对应的头部姿态包括:根据所述不确定度将所述二维关键点坐标集合中的各个二维关键点坐标进行排序,将不确定度大于预设阈值的二维关键点坐标从所述二维关键点坐标集合中剔除得到中间二维关键点坐标集合;根据所述中间二维关键点坐标集合从所述三维关键点坐标集合中获取中间三维关键点坐标集合;根据所述中间二维关键点坐标集合和所述中间三维关键点坐标集合识别所述待识别图像中目标人脸图像对应的头部姿态。3.根据权利要求2所述的方法,其特征在于,所述根据所述中间二维关键点坐标集合和所述中间三维关键点坐标集合识别所述待识别图像中目标人脸图像对应的头部姿态包括:根据所述中间二维关键点坐标集合和所述中间三维关键点坐标集合利用PnP解算识别所述待识别图像中目标人脸图像对应的头部姿态。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:获取第一训练样本集,并建立第一初始网络模型,所述第一训练样本集标注有人脸图像的真实二维关键点坐标集合和真实三维关键点坐标集合,所述第一初始网络模型包括特征提取网络层、初始第一分支网络和初始第二分支网络,所述初始第一分支网络用于识别输出二维关键点坐标和不确定度,所述初始第一分支网络用于识别输出三维关键点坐标;将所述第一训练样本集合输入所述特征提取网络层得到所述第一训练样本集合中各个训练样本的特征表示;将所述特征表示输入所述初始第一分支网络得到预测二维关键点坐标集合以及所述预测二维关键点坐标对应的预测不确定度,并将所述特征表示输入所述初始第二分支网络得到预测三维关键点坐标集合;根据所述预测二维关键点坐标集合、所述预测不确定度和所述真实二维关键点坐标集合计算第一损失值,根据所述预测三维关键点坐标集合和所述真实三维关键点坐标集合计算第二损失值;根据所述第一损失值调整所述初始第一分支网络得到所述第一分支网络,并根据所述第二损失值调整所述初始第二分支网络得到所述第二分支网络;根据所述第一分支网络和所述第二分支网络得到所述第一网络模型。
5.根据权利要求4所述的方法,其特征在于,所述获取第一训练样本集包括:通过深度摄像头采集训练图像集合,所述训练图像集合中的各个训练图像包括人脸图像的三维点云数据以及真实头部姿态;将所述三维点云数据进行姿态投影得到所述训练图像中人脸图像的二维关键点数据;将所述训练图像集合输入所述图像处理网络中输出所述训练样本集。6.根据权利要求5所述的方法,其特征在于,所述将所述训练图像集合通过所述图像处理网络中得到所述训练样本集包括:将所述训练图像集合输入所述图像处理网络得到所述训练图像中人脸图像的稀疏关键点,所述稀疏关键点包括所述训练图像中人脸图像的五官点以及人脸轮廓点;根据所述人脸轮廓点从所述训练图像中获取所述目标人脸图像;根据所述五官点将所述目标人脸图像水平对齐并缩放至目标尺寸得到所述训练样本集合中的训练样本。7.根据权利要求6所述的方法,其特征在于,所述稀疏关键点至少五个人脸五官点以及四个人脸轮廓点。8.根据权利要求4所述的方法,其特征在于,所述特征提取网络包括残差神经网络R...
【专利技术属性】
技术研发人员:卫华威,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。