一种变电站场景下的实时3D人体姿态估计的方法技术

技术编号:33344125 阅读:18 留言:0更新日期:2022-05-08 09:35
本发明专利技术涉及一种变电站场景下的实时3D人体姿态估计的方法,基于自顶向下和自底向上方法融合以及多层Transformer网络架构的3D姿态估计网络,实现了变电站作业场景下的人体3D关节点提取,提出基于自顶向下和自底向上方法融合的策略,分别计算自顶向下和自底向上两种方法生成的2D关节点结果相似度,并与人工设定阈值比较,实现自顶向下和自底向上两种方法的融合并提升了3D人体姿态估计的鲁棒性。本发明专利技术使用Transformer代替卷积神经网络,利用其自监督能力获取输入图像的时序信息与空间信息,改善对于遮挡目标的估计能力,进一步提升人体3D关节点估计的准确性。关节点估计的准确性。关节点估计的准确性。

【技术实现步骤摘要】
一种变电站场景下的实时3D人体姿态估计的方法


[0001]本专利技术涉及实时3D人体姿态估计的方法
,具体是指一种变电站场景下的实时3D人体姿态估计的方法。

技术介绍

[0002]变电站工作场景复杂,存在着大量不安全因素,如违规操作、不正当使用工器具等都极易引起事故发生。目前变电站作业现场普遍缺乏有效的人体动作识别技术手段,仅通过人眼视频监控难以做到及时发现和制止违章行为。人体的3D关节点信息是进行人体动作识别的重要底层信息,若能够通过人工智能技术对作业人员进行准确的人体姿态估计,确定其3D关节点位置,则对于违章行为的发现和预警将起到重要作用。因此,研究变电站场景下新的3D人体姿态估计方法具有重要的理论意义和实用价值。
[0003]鉴于3D人体姿态估计技术的重要作用,国内外专家学者针对该问题提出了众多卓有成效的解决方案。直接估计3D坐标和通过2D坐标映射到3D坐标是当前3D人体姿态估计的主要思路。但是由于3D数据集获取成本较高,而且2D人体姿态估计技术已经达到较为成熟的阶段,可靠性和稳定性均较高,因此由2D映射到3D的方法具有较好的实用性。
[0004]该类方法分为自顶向下和自底向上两大类。自顶向下的方法首先进行行人检测,再对检测到的行人进行2D姿态估计,虽然能够适应作业人员的尺度变化,但对于人员遮挡严重的情况难以做到准确的姿态估计。而自底向上的方法无需借助目标检测网络便可完成姿态估计任务,并且对于部分遮挡的人员具有较好的效果,但是在大尺度变化场景中极易出现人体的漏检。为了提升抗遮挡能力,目前研究主要集中于使用LSTM或者图卷积网络来结合时序信息,从而在图像前后帧中建立联系,实现遮挡关节点的获取。然而无论是LSTM还是图卷积网络,在时间跨度大以及网络较深的情况下,计算消耗均较大,因此在保证算法速度的基础上,提高姿态估计的鲁棒性以及实现遮挡关节点的有效估计是当前姿态估计方法在应用层面所面临的主要问题。

技术实现思路

[0005]本专利针对输电站现场安全监护需求,设计了一种对现场实时监控视频进行3D人体姿态估计技术方法,兼顾了检测实时性与准确性,包括如下操作步骤:
[0006]S1.将摄像机水平放置在作业现场中,使变电站现场运维人员均在相机视野中,得到1920
×
1080分辨率的RGB图像,摄像机高H,单位为米,距离作业人员为L,单位为米,并将所有图像样本按设定尺寸归一化大小为224
×
224;
[0007]S2、将S1中得到的图像作为输入,输入至行人检测网络中,得到带有行人候选框的RGB图像,将图像以候选框为边界进行分割,得到一系列仅包含1个作业人员的子图像;
[0008]S3、直接把S2中得到的图像输入至Resnet

50中进行特征提取,得到2048
×7×
7大小的特征图;将特征图进行展平分块,使其成为2048个1
×7×
7大小的特征图,在经过空间维度的降解,网络将2048个1
×
49大小的特征映射融合其位置信息一同输入至多层
Transformer网络,再将结果输入至上采样网络进行恢复,最终通过2D关节坐标回归网络中得到关节点像素坐标;
[0009]为了使预测结果向真值回归,利用最优二分匹配损失优化结果,代价损失函数Loss如下所示:
[0010][0011]其中Q为关节点个数,y
i
为真值,为预测值,M为匹配函数;
[0012]为了使预测关节点和真值关节点的代价损失更小,在训练过程中引入了新的损失函数F,F的表达式如下:
[0013][0014]其中p为关节点类概率,c
i
为第i个关节点的类标号,d
i
为关节点真值坐标,为关节点预测坐标。最终回归得到更为准确的2D关节点像素坐标。
[0015]S4、在S2和S3的基础上并联基于Transformer的自底向上人体姿态估计网络,将S1得到的图像作为输入,输入至Resnet

50中进行特征提取,得到2048
×7×
7大小的特征图。将特征图进行展平切分,使其降维成2048个1
×7×
7大小的特征图,在经过空间维度的降解,将2048个1
×
49大小的特征映射融合其位置信息一同输入至多层Transformer网络中,通过2D坐标回归网络输出2D关节点的像素坐标;
[0016]S5、为了提升2D关节点的鲁棒性,将S3和S4所生成的2D关节点进行融合,度量S3和S4生成关节点的相似度,相似度公式如下:
[0017][0018]其中Q为总关节点个数,为S4输出第i个人第q个关节点的置信度,为S3输出第j个人第q个关节点置信度,为S3和S4输出关节点的欧氏距离的平方,σ为常数,设定为0.5。
[0019]人工设置阈值为0.6,当计算S
i,j
大于0.6时,将S3和S4中的结果取其一保留;当计算S
i,j
小于0.6时,S3和S4中的结果全部保留。
[0020]S6、该步骤将S5得到的2D关节点提升至3D关节点,将每个关节点2D坐标与位置信息输入至Transformer网络中进行编码,最终输出编码后的特征;
[0021]S7、将S5中得到的连续27帧结果输入经过展平降维后的各个关节点及关节点位置信息输入至空间Transformer中,将其编码输出与位置信息相结合输入至多层Transformer中,利用损失函数L来回归关节点3D坐标,损失函数L公式如下:
[0022][0023]其中Q为关节点个数,G
i
为第i个关节点的深度真值,G
i
为第i个关节点的预测深度值。最终回归得到各个关节点的3D像素坐标,利用Transformer结构和连续帧输入极大地改善了遮挡目标的预测能力。
[0024]进一步的,所述步骤S1中摄像机高H为1.5米到1.8米,距离作业人员L为2米到20米。
[0025]进一步的,所述多层Transformer网络中的Transformer采用Vit Transformer架构,为加入最大池化层对Transformer下采样,池化层大小为2
×
2,步长stride为2,重复三次,在融合时序信息的基础上附加一个上采样操作恢复输入序列长度,将上采样输出与第一个Transformer模块进行信息融合。
[0026]进一步的,所述步骤S5中,人工设置阈值为0.6,当计算S
i,j
大于0.6时,将S3和S4中的结果取其一保留;当计算S
i,j
小于0.6时,S3和S4中的结果全部保留。
[0027]本专利技术具有以下优点:
[0028](1)本专利提出了一种自顶向下和自底向上方法融合的方案。即将两种方法提取到的关节点做相似度计算,并与人工设定阈值比较,判断是否融合两种方法所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种变电站场景下的实时3D人体姿态估计的方法,其特征在于,包括如下操作步骤:S1、将摄像机水平放置在作业现场中,使变电站现场运维人员均在相机视野中,得到1920
×
1080分辨率的RGB图像,摄像机高H,单位为米,距离作业人员为L,单位为米,并将所有图像样本按设定尺寸归一化大小为224
×
224;S2、将S1中得到的图像作为输入,输入至行人检测网络中,得到带有行人候选框的RGB图像,将图像以候选框为边界进行分割,得到一系列仅包含1个作业人员的子图像;S3、直接把S2中得到的图像输入至Resnet

50中进行特征提取,得到2048
×7×
7大小的特征图;将特征图进行展平分块,使其成为2048个1
×7×
7大小的特征图,在经过空间维度的降解,网络将2048个1
×
49大小的特征映射融合其位置信息一同输入至多层Transformer网络,再将结果输入至上采样网络进行恢复,最终通过2D关节坐标回归网络中得到关节点像素坐标;为了使预测结果向真值回归,利用最优二分匹配损失优化结果,代价损失函数Loss如下所示:其中Q为关节点个数,y
i
为真值,为预测值,M为匹配函数;为了使预测关节点和真值关节点的代价损失更小,在训练过程中引入了新的损失函数F,F的表达式如下:其中p为关节点类概率,c
i
为第i个关节点的类标号,d
i
为关节点真值坐标,为关节点预测坐标,最终回归得到更为准确的2D关节点像素坐标。S4、在S2和S3的基础上并联基于Transformer的自底向上人体姿态估计网络,将S1得到的图像作为输入,输入至Resnet

50中进行特征提取,得到2048
×7×
7大小的特征图。将特征图进行展平切分,使其降维成2048个1
×7×
7大小的特征图,在经过空间维度的降解,将2048个1
×<...

【专利技术属性】
技术研发人员:张祥全赵金雄王利平张驯李洪斌马志程聂江龙狄磊刘超张国梁贺洲强卢卫疆陈钊杜泽旭王锋夏天陈维赵连斌朱海涛
申请(专利权)人:国网甘肃省电力公司全球能源互联网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1