头部姿态跟踪方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36953631 阅读：27 留言：0更新日期：2023-03-22 19:14

本申请涉及计算机视觉技术领域，特别涉及一种头部姿态跟踪方法、装置、电子设备及存储介质，其中，方法包括：将待跟踪目标的视频转换为图像序列，并输入预先训练完成的遮挡物识别网络，输出每帧图像中遮挡物的掩码图像；利用掩码图像将图像序列划分为参考帧图像和候选帧图像序列，并利用候选帧图像序列中每帧图像的掩码图像掩盖遮挡区域，生成待补全帧图像序列；将待补全帧图像序列、参考帧图像和掩码图像输入预先训练完成的变形补全网络，输出补全后的图像序列，基于补全图像序列实现待跟踪目标的头部姿态跟踪。由此，解决了相关技术中基于视频实现部姿态的跟踪，容易受到遮挡的影响，鲁棒性较差，从而导致头部姿态的误检和抖动等问题。动等问题。动等问题。

全部详细技术资料下载

【技术实现步骤摘要】
头部姿态跟踪方法、装置、电子设备及存储介质

[0001]本申请涉及计算机视觉
，特别涉及一种头部姿态跟踪方法、装置、电子设备及存储介质。

技术介绍

[0002]随着计算机技术的发展，元宇宙的概念被提出，旨在打造具备社会体系的数字生活空间。头部姿态作为该应用场景下的重要信息，对于相关应用的开发具有重大意义，因彩色相机的高普及度，彩色视频是头部姿态跟踪的常用输入之一。
[0003]头部姿态在人脸重建、人脸动画等领域有诸多应用。例如，一个准确的头部姿态可以为人脸重建算法提供良好的初始值，避免人脸重建过程中用人脸形状信息来补偿头部姿态的偏差，导致错误结果的产生。同时，准确的头部姿态跟踪可以让人脸动画显得更加真实与生动，增强用户的沉浸感与用户体验。另外，头部姿态的准确度还对一些下游任务至关重要。例如，在视线估计任务中，人的视线方向由头部姿态和眼球旋转共同决定，头部姿态的准确度对于最终视线估计的结果具有很大影响。
[0004]相关技术通常是基于神经网络的端到端方法，或者是结合人脸特征点和三维人脸模型的优化法，实现头部姿态的跟踪，但是容易受到遮挡的影响，鲁棒性较差，会造成头部姿态的误检和抖动。

技术实现思路

[0005]本申请提供一种头部姿态跟踪方法、装置、电子设备及存储介质，以解决相关技术中基于视频实现部姿态的跟踪，容易受到遮挡的影响，鲁棒性较差，导致头部姿态的误检和抖动等问题。
[0006]本申请第一方面实施例提供一种头部姿态跟踪方法，包括以下步骤：获取待跟踪目标的视频；将所述视频...

【技术保护点】

【技术特征摘要】
1.一种头部姿态跟踪方法，其特征在于，包括以下步骤：获取待跟踪目标的视频；将所述视频转换为图像序列，将所述图像序列输入预先训练完成的遮挡物识别网络，输出所述图像序列中每帧图像中遮挡物的掩码图像；利用所述掩码图像将所述图像序列划分为参考帧图像和候选帧图像序列，并利用所述候选帧图像序列中每帧图像的掩码图像掩盖遮挡区域，生成待补全帧图像序列；将所述待补全帧图像序列、所述参考帧图像和所述每帧图像的掩码图像输入预先训练完成的变形补全网络，输出所述待补全帧图像序列的补全图像序列，基于所述补全图像序列实现所述待跟踪目标的头部姿态跟踪。2.根据权利要求1所述的方法，其特征在于，所述利用所述掩码图像将所述图像序列划分为参考帧图像和候选帧图像序列，包括：根据所述掩码图像识别所述图像序列中是否存在无遮挡图像；若存在所述无遮挡图像，则选择任意一帧无遮挡图像作为参考帧图像，否则选取所述图像序列中遮挡最少的图像作为参考帧图像，并将所述图像序列中所述参考帧图像以外的剩余帧图像作为候选帧图像序列。3.根据权利要求1所述的方法，其特征在于，所述遮挡物识别网络的训练过程包括：获取未训练遮挡物识别网络的训练数据，其中，所述训练数据包括遮挡物图像和所述遮挡物图像对应的真实掩码图像；将所述遮挡物图像输入所述未训练遮挡物识别网络，输出所述遮挡物图像的训练掩码图像，根据所述真实掩码图像和所述训练掩码图像计算训练损失值，若所述训练损失值大于预设值，则基于所述训练继续迭代训练，否则停止迭代训练，得到训练完成的遮挡物识别网络。4.根据权利要求1所述的方法，其特征在于，所述变形补全网络的训练过程包括：获取无遮挡图像的图像序列；将所述图像序列中任意一帧图像作为参考帧图像，剩余帧为候选帧图像；随机生成不同形状的掩码图像，利用所述掩码图像掩盖所述候选帧图像的随机图像区域，得到待补全帧图像；将所述待补全帧图像、所述参考帧图像和所述掩码图像输入未训练的变形补全网络，利用图像重建损失约束所述变形补全网络输出的补全图像与掩盖前的候选帧图像之间的损失处于预设范围内，利用总变差损失约束参考帧图像与待补全帧图像之间的变形场满足预设刚性变形条件，得到训练完成的变形补全网络。5.一种头部姿态跟踪装置，其特征在于，包括：获取模块，用于获取待跟踪目标的视频；转换模块，用于将所述视频转换为图像序列，将所述图像序列输入预先训练完成的遮挡物识别网络，输出所述图像序列中每帧图像...

【专利技术属性】
技术研发人员：徐枫，吕军锋，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人