基于深度学习的三维手部姿态估计和动作识别算法制造技术

技术编号：43548468 阅读：35 留言：0更新日期：2024-12-03 12:30

本发明专利技术提供一种基于深度学习的三维手部姿态估计和动作识别算法，方法包括：获取公开第一人称手部动作数据集FPHA并进行预处理，对于处理好的数据集，根据实验条件按照设定比例取视频样本划分为训练集和测试集；建立基于深度学习包含双层transformer和轻量化姿态平滑网络smoothnet的三维手部姿态估计和动作识别模型；将处理后的第一人称手部动作数据集训练集利用分层移动窗口思想按照设定批次输入姿态估计和动作识别模型进行监督训练，将预处理后的数据送入预训练的ResNet模型进行浅层特征提取，然后送入第一层transformer利用编码短时帧间时序信息进行姿态估计并进行平滑优化，第二层transformer在更长的时间跨度上对二维手部姿态、操作物体分类信息、第一层编码时序信息后的特征图进行融合，建模姿态和动作的语义关系进而判断动作类型。通过本发明专利技术提出的方法，可以对第一人称手部动作视频进行更高精度的三维手部姿态估计和更高准确度的动作类型判断。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理领域，具体设计一种基于transformer结构第一人称rgb视频的三维手部姿态估计和动作识别算法。

技术介绍

1、随着虚拟现实、增强现实等领域的快速发展,手势作为一种自然、舒适的交互接口发挥着越来越重要的作用。基于手势交互技术,人们能够自由地“触摸”和“操纵”各种虚拟对象。三维人手姿态估计是实现手势交互的重要支撑技术。早先的三维人手姿态估计使用生成式方法,该方法将生成的假设手部位姿与观测结果进行对比并构建一个优化问题,优化目标是使得生成的手部位姿观测值与真实观测值之间的差异最小,进而得到三维人手姿态。最常使用的优化算法是粒子群优化算法和迭代最近点算法。数据驱动式方法也是一种常用的三维人手姿态估计方法。在早先的数据驱动式方法中,随机森林算法是一种有效且被广泛使用的算法。随着计算设备性能的提升,深度学习逐渐成为三维人手姿态估计技术的主流方法。

2、在利用rgb图像估计三维人手姿态的过程中,由于rgb图像中缺少深度信息,因此使得从rgb图像中提取三维坐标成为一个不适定问题,即不同的三维坐标可能对应着相同的二...

【技术保护点】

1.一种基于transformer的三维手部姿态估计和动作识别算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于transformer的三维手部姿态估计和动作识别算法，其特征在于步骤(1)中，获取第一人称手部动作数据集FPHA并进行预处理具体方法为：从数据集中加载每个视频样本序列和与之对应的手部姿态数据标签、训练测试划分标签以及物体分类标签，并将原始图像剪裁为统一尺寸(480*270)。为了提高数据集的加载速度，采用lmdb数据库对视频序列信息进行存储，训练时将文件内容直接映射到进程的地址空间中，并对输入图像序列添加在线增强，通过随机调整色调、饱和度、对比度和...

【技术特征摘要】

1.一种基于transformer的三维手部姿态估计和动作识别算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于transformer的三维手部姿态估计和动作识别算法，其特征在于步骤(1)中，获取第一人称手部动作数据集fpha并进行预处理具体方法为：从数据集中加载每个视频样本序列和与之对应的手部姿态数据标签、训练测试划分标签以及物体分类标签，并将原始图像剪裁为统一尺寸(480*270)。为了提高数据集的加载速度，采用lmdb数据库对视频序列信息进行存储，训练时将文件内容直接映射到进程的地址空间中，并对输入图像序列添加在线增强，通过随机调整色调、饱和度、对比度和亮度，以及添加随机高斯模糊和2d平移。最后，将图像像素值归一化到[0,1]范围，提高模型的收敛速度和稳定性，将图像和标签转换为张量格式，适应网络的输入要求。

3.根据权利要求1所述的一种基于transformer的三维手部姿态估计和动作识别算法，其特征在于步骤(2)中建立基于深度学习的包含分层时间融合transformer结构的手部姿态估计与动作识别的多任务学...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人