【技术实现步骤摘要】
本专利技术涉及图像处理领域,具体设计一种基于transformer结构第一人称rgb视频的三维手部姿态估计和动作识别算法。
技术介绍
1、随着虚拟现实、增强现实等领域的快速发展,手势作为一种自然、舒适的交互接口发挥着越来越重要的作用。基于手势交互技术,人们能够自由地“触摸”和“操纵”各种虚拟对象。三维人手姿态估计是实现手势交互的重要支撑技术。早先的三维人手姿态估计使用生成式方法,该方法将生成的假设手部位姿与观测结果进行对比并构建一个优化问题,优化目标是使得生成的手部位姿观测值与真实观测值之间的差异最小,进而得到三维人手姿态。最常使用的优化算法是粒子群优化算法和迭代最近点算法。数据驱动式方法也是一种常用的三维人手姿态估计方法。在早先的数据驱动式方法中,随机森林算法是一种有效且被广泛使用的算法。随着计算设备性能的提升,深度学习逐渐成为三维人手姿态估计技术的主流方法。
2、在利用rgb图像估计三维人手姿态的过程中,由于rgb图像中缺少深度信息,因此使得从rgb图像中提取三维坐标成为一个不适定问题,即不同的三维坐标可能对应着相同的二
...【技术保护点】
1.一种基于transformer的三维手部姿态估计和动作识别算法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于transformer的三维手部姿态估计和动作识别算法,其特征在于步骤(1)中,获取第一人称手部动作数据集FPHA并进行预处理具体方法为:从数据集中加载每个视频样本序列和与之对应的手部姿态数据标签、训练测试划分标签以及物体分类标签,并将原始图像剪裁为统一尺寸(480*270)。为了提高数据集的加载速度,采用lmdb数据库对视频序列信息进行存储,训练时将文件内容直接映射到进程的地址空间中,并对输入图像序列添加在线增强,通过随机调整色
...【技术特征摘要】
1.一种基于transformer的三维手部姿态估计和动作识别算法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于transformer的三维手部姿态估计和动作识别算法,其特征在于步骤(1)中,获取第一人称手部动作数据集fpha并进行预处理具体方法为:从数据集中加载每个视频样本序列和与之对应的手部姿态数据标签、训练测试划分标签以及物体分类标签,并将原始图像剪裁为统一尺寸(480*270)。为了提高数据集的加载速度,采用lmdb数据库对视频序列信息进行存储,训练时将文件内容直接映射到进程的地址空间中,并对输入图像序列添加在线增强,通过随机调整色调、饱和度、对比度和亮度,以及添加随机高斯模糊和2d平移。最后,将图像像素值归一化到[0,1]范围,提高模型的收敛速度和稳定性,将图像和标签转换为张量格式,适应网络的输入要求。
3.根据权利要求1所述的一种基于transformer的三维手部姿态估计和动作识别算法,其特征在于步骤(2)中建立基于深度学习的包含分层时间融合transformer结构的手部姿态估计与动作识别的多任务学...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。