当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于对比学习的蹦床运动二维姿态估计方法技术

技术编号:38970687 阅读:38 留言:0更新日期:2023-09-28 09:34
本发明专利技术涉及一种基于对比学习的蹦床运动二维姿态估计方法,包括:对采集的蹦床运动视频进行切帧处理,得到蹦床运动数据集,划分为训练集和测试集;利用对比学习方法,通过孪生网络模型,使用ImageNet公开数据集的图像进行模型训练,获得预训练模型;使用蹦床运动数据集,进行迁移学习,得到SimplebaseLine模型,获取人体关节点坐标信息,计算关节点角度及与关节点相似性OKS。本发明专利技术使用多尺度特征向量预测不同视图,提升了对小尺度目标如踝关节的检测能力,将预训练模型迁移至半监督人体姿态估计框架ESCP,迁移后不仅能提高关节点检测的准确率,还使模型参数的泛化效果更好,减少了对于注释样本需求,解决了蹦床场景注释误差大的问题,检测精度获得提升。检测精度获得提升。检测精度获得提升。

【技术实现步骤摘要】
一种基于对比学习的蹦床运动二维姿态估计方法


[0001]本专利技术涉及二维人体姿态估计
,尤其是一种基于对比学习的蹦床运动二维姿态估计方法。

技术介绍

[0002]蹦床运动消耗能量大,有助于全身血液流通,能很好锻炼身体的协调性。家用蹦床占地面积小,价格实惠,在各个阶段的人群中流行开来。现有的蹦床智能化系统,一般由运动数据采集模块、运动数据处理模块、无线数据传输等模块组成,通过红外传感器或深度相机等设备进行人体动作捕捉,但这些设备造价昂贵,很难大规模推广。
[0003]最近,深度学习取得重大进展,其中的姿态估计技术对运动中的人体进行关节点检测,仅需要普通摄像头就能实时获取关节点的空间位置,相较于红外传感器或深度相机具有部署成本低,检测速度快等优点。使用姿态估计检测所得的关节点位置,还能获取到肢体间的夹角及倾斜角度,纠正使用者的运动姿势,防止因动作不规范而受到伤害。
[0004]但获取蹦床运动的数据集比较困难,由于人体在空中上升、下落的速度较快,许多样本中人体会出现残影,标注关节点时误差较大,会影响训练后模型的性能。并且,使用者弹跳时,脚掌与床面接触位置会大幅度下沉,人体的左右两个踝关节会被蹦床遮挡,进一步增加了数据集的获取及标注难度。

技术实现思路

[0005]为解决蹦床运动数据集样本较难获取,样本注释误差大的问题,本专利技术的目的在于提供一种提高关节点检测的准确率,减少了对于注释样本需求,降低蹦床场景注释误差的基于对比学习的蹦床运动二维姿态估计方法。
[0006]为实现上述目的,本专利技术采用了以下技术方案:一种基于对比学习的蹦床运动二维姿态估计方法,该方法包括下列顺序的步骤:
[0007](1)数据采集与处理:对采集的蹦床运动视频进行切帧处理,得到蹦床运动数据集,将蹦床运动数据集划分为训练集和测试集;
[0008](2)进行预训练:利用对比学习方法,通过孪生网络模型,使用ImageNet公开数据集的图像进行模型训练,获得预训练模型;
[0009](3)进行半监督训练:使用蹦床运动数据集,在预训练模型的基础上通过微调的方式进行迁移学习,得到SimplebaseLine模型,通过SimplebaseLine模型获取人体关节点坐标信息,计算关节点角度及与关节点相似性OKS。
[0010]所述步骤(1)具体包括以下步骤:
[0011](1a)以每秒5帧的帧率,对采集的蹦床运动视频进行切帧,逐帧提取运动图片;
[0012](1b)去除所提取的运动图片中肢体重影、模糊及遮挡的图片,得到第一数据集;
[0013](1c)在第一数据集中筛选出图片中脚踝关节点较为清晰的图片,得到第二数据集;
[0014](1d)在第二数据集中筛选出动作规范的图片,构建标准动作比较库,标准动作比较库中存储标准动作坐标;
[0015](1e)在第二数据集中随机选取10%的图片样本进行关节点注释,得到蹦床运动数据集,将蹦床运动数据集划分为训练集和测试集。
[0016]所述步骤(2)具体包括以下步骤:
[0017](2a)构建包含上、下两条支路的孪生网络模型,在ImageNet公开数据集中随机选取一张图片X,采用不同的数据增强方式,得到不同数据增强的视图X1′
和X2′
分别送入孪生网络模型的上、下两条支路处理,上、下两条支路共享权重;
[0018](2b)孪生网络模型上、下两条支路的主干网络都由ResNet50网络组成,去除ResNet50网络末端的全连接层,将ResNet50网络的Layer2、Layer3、Layer4、Layer5的特征向量f1,f2,f3,f4并行转发给特征金字塔模块FPN进行特征融合,得到融合后的特征向量f1,f2,f3,f4的维度分别是256维、512维、1024维和2048维:
[0019]对于特征向量f1,特征融合公式为:
[0020][0021]对于特征向量f2,f3,f4,特征融合公式为:
[0022][0023]其中,Pool表示最大值池化操作,Conv1和Conv2分别表示卷积内核大小为1、3的卷积操作,Up表示2倍上采样操作,特征向量f1,f2,f3,f4转发给特征金字塔后降维输出的特征维度均为512维;
[0024](2c)将融合后的特征向量转发给投影层编码,得到编码后的特征向量
[0025][0026]其中,i∈{1,2,3,4},Proj(
·
)表示映射编码,FC

BN

ReLU表示多层感知机映射操作,包括全连接映射、批归一化和激活函数,
×
2表示将多层感知机映射重复执行两次,映射层中输入、输出的全连接层是512维,隐藏全连接层是512维;
[0027](2d)将上支路的特征向量F1转发给预测层二次编码,得到编码后的特征向量
[0028][0029]其中,i∈{1,2,3,4},Pred(
·
)表示预测编码,预测层中输入、输出维度是512维,隐藏全连接层是128维,投影层的每个多层感知机层都接有批归一化层,而预测层只有第1个多层感知机接有批归一化层;
[0030]下支路只需恒等映射;
[0031](2e)用表示上支路特征向量,用表示下支路特征向量,对和进行相似度比较:
[0032]把特征向量的负余弦相似度作为损失函数,用上支路的特征向量去预
测下支路的特征向量使主干网络学习到提取多尺度特征的能力,归一化负余弦相似度的计算公式为:
[0033][0034]其中,特征向量的维度是512维,||||2是L2范数等价于L2标准化向量的均方误差,表示特征向量的归一化负余弦相似度,其最小值是

1,表示特征向量的相似程度;
[0035]依照孪生网络对称结构,将视图X1′
和X2′
送入上、下支路的顺序调换,重新编码后生成的归一化负余弦相似度的公式为:
[0036][0037]使用两个负余弦相似度的和作为损失函数如下公式表示:
[0038][0039]其中,stopgrad(
·
)表示停止梯度操作,为常数,不参与网络反向传播梯度的过程;
[0040](2f)为损失函数设置权重,总损失函数的计算公式如下式表示:
[0041][0042]其中,i代表主干网络提取的第i级特征,为第i对特征的损失值,λ
i
为的平衡权重;
[0043](2g)进行预训练,预训练结束后,将孪生网络模型中的主干网络的权重保存,得到预训练模型。
[0044]所述步骤(3)具体包括以下步骤:
[0045](3a)将预训练模型通过微调的方式迁移至半监督人体姿态估计框架ESCP,并使用SimpleBaseline方法来估计热图,得到SimpleBaseline模型;
[0046](3b)迁移学习时,在蹦床运动数据集上一共本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的蹦床运动二维姿态估计方法,其特征在于:该方法包括下列顺序的步骤:(1)数据采集与处理:对采集的蹦床运动视频进行切帧处理,得到蹦床运动数据集,将蹦床运动数据集划分为训练集和测试集;(2)进行预训练:利用对比学习方法,通过孪生网络模型,使用ImageNet公开数据集的图像进行模型训练,获得预训练模型;(3)进行半监督训练:使用蹦床运动数据集,在预训练模型的基础上通过微调的方式进行迁移学习,得到SimplebaseLine模型,通过SimplebaseLine模型获取人体关节点坐标信息,计算关节点角度及与关节点相似性OKS。2.根据权利要求1所述的基于对比学习的蹦床运动二维姿态估计方法,其特征在于:所述步骤(1)具体包括以下步骤:(1a)以每秒5帧的帧率,对采集的蹦床运动视频进行切帧,逐帧提取运动图片;(1b)去除所提取的运动图片中肢体重影、模糊及遮挡的图片,得到第一数据集;(1c)在第一数据集中筛选出图片中脚踝关节点较为清晰的图片,得到第二数据集;(1d)在第二数据集中筛选出动作规范的图片,构建标准动作比较库,标准动作比较库中存储标准动作坐标;(1e)在第二数据集中随机选取10%的图片样本进行关节点注释,得到蹦床运动数据集,将蹦床运动数据集划分为训练集和测试集。3.根据权利要求1所述的基于对比学习的蹦床运动二维姿态估计方法,其特征在于:所述步骤(2)具体包括以下步骤:(2a)构建包含上、下两条支路的孪生网络模型,在ImageNet公开数据集中随机选取一张图片X,采用不同的数据增强方式,得到不同数据增强的视图X1′
和X2′
分别送入孪生网络模型的上、下两条支路处理,上、下两条支路共享权重;(2b)孪生网络模型上、下两条支路的主干网络都由ResNet50网络组成,去除ResNet50网络末端的全连接层,将ResNet50网络的Layer2、Layer3、Layer4、Layer5的特征向量f1,f2,f3,f4并行转发给特征金字塔模块FPN进行特征融合,得到融合后的特征向量f1,f2,f3,f4的维度分别是256维、512维、1024维和2048维:对于特征向量f1,特征融合公式为:对于特征向量f2,f3,f4,特征融合公式为:其中,Pool表示最大值池化操作,Conv1和Conv2分别表示卷积内核大小为1、3的卷积操作,Up表示2倍上采样操作,特征向量f1,f2,f3,f4转发给特征金字塔后降维输出的特征维度均为512维;(2c)将融合后的特征向量转发给投影层编码,得到编码后的特征向量转发给投影层编码,得到编码后的特征向量
其中,i∈{1,2,3,4},Proj(
·
)表示映射编码,FC

BN

ReLU表示多层感知机映射操作,包括全连接映射、批归一化和激活函数,
×
2表示将多层感知机映射重复执行两次,映射层中输入、输出的全连接层是512维,隐藏全连接层是512维;(2d)将上支路的特征向量转发给预测层二次编码,得到编码后的特征向量转发给预测层二次编码,得到编码后的特征向量其中,i∈{1,2,3,4},Pred(
·
)表示预测编码,预测层中输入、输出维度是512维,隐藏全连接层是128维,投影层的每个多层感知机层都接有批归一化层,而预测层只有第1个多层感知机接有批归一化层;下支路只需恒等映射;(2e)用表示上支路特征向量,用表示下支路特征向量,对和进行相似度比较:把特征向量的负余弦相似度作为损失函数,用上支路的特征向量去预测下支路的特征向量使主干网络学习到提取多尺度特征的能力,归一化负余弦相似度的计算公式为:其中,特征向量的维度是...

【专利技术属性】
技术研发人员:鲍文霞林安王年
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1