当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于自监督技术的滑雪运动员三维姿态估计方法技术

技术编号:33778623 阅读:21 留言:0更新日期:2022-06-12 14:32
本发明专利技术涉及一种基于自监督技术的滑雪运动员三维姿态估计方法,与现有技术相比解决了基于视频的滑雪运动员三维姿态难以估计的缺陷。本发明专利技术包括以下步骤:训练数据集的获取;构建三维人体姿态估计网络模型;训练三维人体姿态估计网络模型;获取待估计的滑雪运动图像;获得滑雪运动员三维姿态估计结果。本发明专利技术在不需要三维真实标签的情况下,用二维数据集实现了滑雪运动员三维人体姿态的精确估计。了滑雪运动员三维人体姿态的精确估计。了滑雪运动员三维人体姿态的精确估计。

【技术实现步骤摘要】
一种基于自监督技术的滑雪运动员三维姿态估计方法


[0001]本专利技术涉及三维人体姿态估计
,具体来说是一种基于自监督技术的滑雪运动员三维姿态估计方法。

技术介绍

[0002]滑雪运动以多学科理论为基础,对空中技巧运动成绩的影响因素进行全面剖析,为教练员指导运动训练实践服务。为了让运动员取得更好的成绩和避免不恰当的动作造成关节受伤,对滑雪运动员的姿态估计和分析至关重要。
[0003]人体姿态估计主要是指从图像中检测出人体各关节点位置、骨骼方向以及角度信息,由于大规模的二维人体姿态标注和深度神经网络的出现,近年来二维人体姿态估计问题取得了巨大的成功。相比之下,三维人体姿态估计的进展仍然有限。这一方面是由于从单一图像中恢复三维信息的语义模糊问题,另一方面是由于三维数据集的标注信息获取困难且成本高,缺乏大规模的带有三维地面真实数据标注的数据集。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中基于视频的滑雪运动员三维姿态难以估计的问题,提供一种基于自监督技术的滑雪运动员三维姿态估计方法来解决上述问题。
[0005]为了实现上述目的,本专利技术的技术方案如下:
[0006]一种基于自监督技术的滑雪运动员三维姿态估计方法,包括以下步骤:
[0007]获取训练数据集:用公开数据集MPII和Human3.6M数据集中的图像部分构建二维训练数据集,并进行预处理;
[0008]构建三维人体姿态估计模型:模型以ResNet50和WASP模块为基础,引入了注意力机制CBAM,并利用对极几何知识构建三维标签实现自监督技术;
[0009]训练三维人体姿态估计模型:将三维人体姿态估计模型先在数据集MPII 上做预训练,然后再用Human3.6m数据集进行自监督训练,并在训练时对数据进行合成遮挡处理;
[0010]获取待估计的滑雪运动图像:获取在滑雪场地由高速摄影相机捕获视频数据,再将视频数据逐帧提取成图片,将其作为待估计的滑雪运动图像;
[0011]获得滑雪运动员三维姿态估计结果:将待估计的滑雪运动图像输入训练后的三维人体姿态估计模型的3D姿态估计网络中,得到滑雪运动员三维姿态估计结果,并计算关键关节的空间角度。
[0012]所述构建三维人体姿态估计模型包括以下步骤:
[0013]设定三维人体姿态估计模型包括上分支结构和下分支结构,上分支结构为2D姿态估计网络,下分支结构为3D姿态估计网络;
[0014]设定上分支结构为2D网络,用基础网络来提取特征,通过反卷积操作后得到体积热图H,并将soft argmax应用于体积热图H的两个维度得到二维姿态U:
[0015]采用ResNet50作为基础网络来提取特征,并在ResNet50的Layer1层前和Layer4层
后引入结合空间spatial和通道channel的注意力机制CBAM模块;
[0016]设定在基础网络的ResNet模块后添加基于瀑布模型的空洞空间池化模块 WASP,对提取到的特征使用WASP模块来获取较大视野,捕捉图片的多尺度上下文信息;
[0017]设定在WASP模块后连接一个反卷积网络,将提取的特征作用于反卷积网络,得到体积热图H;
[0018]将体积热图H的x、y两个维度通过soft argmax函数操作后得到二维姿态U;
[0019]设定下分支结构为3D网络,在得到体积热图H后,将soft argmax应用于体积热图H的三个维度得到三维姿态V:
[0020]采用ResNet50作为基础网络来提取特征,并在ResNet50的Layer1层前和Layer4层后引入注意力机制CBAM;
[0021]在基础网络ResNet模块后添加WASP模块,对提取到的特征使用WASP模块捕捉图片的多尺度上下文信息;
[0022]将提取的特征输入反卷积网络,得到体积热图H;
[0023]将soft argmax应用于体积热图H的x、y、z三个维度得到三维姿态V。
[0024]所述训练三维人体姿态估计模型包括以下步骤:
[0025]预训练2D网络:使用数据集MPII对三维人体姿态估计模型的2D网络进行预训练,使网络实现二维人体姿态的准确估计;
[0026]设置训练的超参数:使用ADAM优化器进行训练,学习率设置为0.001,每次训练迭代的批处理大小为16,测试的批处理大小为32,且训练的总迭代轮数设置为140epochs;
[0027]加载预训练模型:将2D网络在MPII数据集上预训练好的模型参数迁移到3D网络中;
[0028]进行数据增强处理:进行加椒盐噪声、高斯噪声、调节亮度处理,对Human3.6m数据集进行合成遮挡处理;
[0029]合成遮挡处理使用Pacal VOC数据集,将Pacal VOC数据集中提取的分割对象过滤掉人和标记为难或截断的对象,将剩下的2638个对象以遮挡的概率Pocc粘贴到Human3.6M数据集的随机位置,合成具有随机遮挡的训练图像,其中,遮挡的概率Pocc设为0.5,遮挡程度在0%~70%之间;
[0030]自监督训练3D姿态估计网络:
[0031]从Human3.6m数据集获取不同视角的图像I
i
、I
i+1
作为输入,同时输入到三维人体姿态估计模型的2D网络和3D姿态估计网络中;
[0032]2D网络运用对极几何知识求得三维标签:2D网络得到二维姿态U
i
和 U
i+1
,对多个二维姿态进行对极几何变换,得到全局坐标系中的三维姿态,并将其缓存下来作为三维真实标签,记作V
gt

[0033]3D姿态估计网络使用上一步得到的三维标签V
gt
去监督训练,实现网络的自监督,得到预测的三维姿态V;
[0034]计算损失函数:损失函数使用smooth L1损失,smooth L1(x)的公式如下式 (1)所示;
[0035]将x=V
gt

V代入smooth L1(x)进行计算,并最小化smooth L1(V
gt

V)来训练3D 姿态估计网络,其中V为投影到对应的相机空间后的3D姿态估计网络预测的三维姿态,V
gt
为2D
网络中由对极几何求得的三维标签,
[0036][0037]所述获得滑雪运动员三维姿态估计结果包括以下步骤:
[0038]将待估计滑雪运动图像输入训练后的三维人体姿态估计模型的3D姿态估计网络中,得到滑雪运动员三维姿态估计,并将其姿态用骨骼图可视化表示;
[0039]根据滑雪运动姿态分析,选取关键的关节和骨骼,计算关节点和躯干的空间角度信息:
[0040]其中,选取膝关节和肘关节的空间角为关键的关节和骨骼,关节点E、 F、G分别为髋关节、膝关节、踝关节,关节点A、B、C分别为肩关节、肘关节本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督技术的滑雪运动员三维姿态估计方法,其特征在于,包括以下步骤:11)获取训练数据集:用公开数据集MPII和Human3.6M数据集中的图像部分构建二维训练数据集,并进行预处理;12)构建三维人体姿态估计模型:模型以ResNet50和WASP模块为基础,引入了注意力机制CBAM,并利用对极几何知识构建三维标签实现自监督技术;13)训练三维人体姿态估计模型:将三维人体姿态估计模型先在数据集MPII上做预训练,然后再用Human3.6m数据集进行自监督训练,并在训练时对数据进行合成遮挡处理;14)获取待估计的滑雪运动图像:获取在滑雪场地由高速摄影相机捕获视频数据,再将视频数据逐帧提取成图片,将其作为待估计的滑雪运动图像;15)获得滑雪运动员三维姿态估计结果:将待估计的滑雪运动图像输入训练后的三维人体姿态估计模型的3D姿态估计网络中,得到滑雪运动员三维姿态估计结果,并计算关键关节的空间角度。2.根据权利要求1所述的一种基于自监督技术的滑雪运动员三维姿态估计方法,其特征在于,所述构建三维人体姿态估计模型包括以下步骤:21)设定三维人体姿态估计模型包括上分支结构和下分支结构,上分支结构为2D姿态估计网络,下分支结构为3D姿态估计网络;22)设定上分支结构为2D网络,用基础网络来提取特征,通过反卷积操作后得到体积热图H,并将soft argmax应用于体积热图H的两个维度得到二维姿态U:221)采用ResNet50作为基础网络来提取特征,并在ResNet50的Layer1层前和Layer4层后引入结合空间spatial和通道channel的注意力机制CBAM模块;222)设定在基础网络的ResNet模块后添加基于瀑布模型的空洞空间池化模块WASP,对提取到的特征使用WASP模块来获取较大视野,捕捉图片的多尺度上下文信息;223)设定在WASP模块后连接一个反卷积网络,将提取的特征作用于反卷积网络,得到体积热图H;224)将体积热图H的x、y两个维度通过soft argmax函数操作后得到二维姿态U;23)设定下分支结构为3D网络,在得到体积热图H后,将soft argmax函数应用于体积热图H的三个维度得到三维姿态V:231)采用ResNet50作为基础网络来提取特征,并在ResNet50的Layer1层前和Layer4层后引入注意力机制CBAM;232)在基础网络ResNet模块后添加WASP模块,对提取到的特征使用WASP模块捕捉图片的多尺度上下文信息;233)将提取的特征输入反卷积网络,得到体积热图H;234)将soft argmax函数应用于体积热图H的x、y、z三个维度得到三维姿态V。3.根据权利要求1所述的一种基于自监督技术的滑雪运动员三维姿态估计方法,其特征在于,所述训练三维人体姿态估计模型包括以下步骤:31)预训练2D网络:使用数据集MPII对三维人体姿态估计模型的2D网络进行预训练,使网络实现二维人体姿态的准确估计;32)设置训练的超参数:使用ADAM优化器进行训练,学习率设置为0.001,每次训练迭代的批处理大小为16,测试的批处理大小为32,且训练的总迭代轮数设置为140epochs;
33)加载预训练模型:将2D网络在MPII数据集上预训练好的模型参数迁移到3D网络中;34)进行数据增强处理:进行加椒盐噪声、高斯噪声、调节亮度处理,对Human3.6m数据集进行合成遮挡处理;合成遮挡处理使用Pacal VOC数据集,将Pacal VOC数据集中提取的分割对象过滤掉人和标记为难或截断的对象,将剩下的2638个对象以遮挡的概率Pocc粘贴到Human3.6M数据集的随机位置,合成具有随机遮挡的训练图像,其中,遮挡的概率Pocc设为0.5,遮挡程度在0%~70%之间;35)自监督训练3D姿态估计网络:351)从Human3.6m数据集获取不同视角的图像I
i
、I
i+1
作为输入,同时输入到三维人体姿态估计模型的2D网络和3D姿态估计网络中;352)2D网络运用对极几何知识求得三维标签:2D网络得到二维姿态U
i
和U
i+1
,对多个二维姿态进行对极几何变换,得到全局坐标系中的三维姿态,并将其缓存下来作为三维真实标签,记作V
gt
;353)3D姿态估计网络使用上一步得到的三维标签V
gt
去监督训练,实现网络的自监督,得到预测的三维姿态V;36)计算损失函数:损失函数使用smooth L1损失,smooth L1(x)的公式如下式(1)所示;将x=V
gt

V代入smooth L1(x)进行计算,并最小化smooth L1(V
gt

V)来训练3D姿态估计网络,其中V为投影到对应的相机空间后的3D姿态估计网络预测的三维姿态,V
gt
为2D网络中由对极几何求得的三维标签,4.根据权利要求1所述的一种基于自监督技术的滑雪运动员三维姿态估计方...

【专利技术属性】
技术研发人员:鲍文霞马中玉王年朱明
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1