基于视频的姿势估计方法、装置、介质及电子设备制造方法及图纸

技术编号:28052704 阅读:64 留言:0更新日期:2021-04-14 13:16
本申请涉及计算机视觉领域,特别地公开了一种基于视频的人体姿势估计方法、装置、介质及电子设备,本申请的基于视频的人体姿势估计方法包括:获取视频中的多帧多人体图像,其中每帧多人体图像中包括有多个人体实例,生成各帧多人体图像中的人体实例的初始人体边界框,基于多人体图像与多人体图像的前一帧图像之间的位置差数据,对多人体图像的初始人体边界框进行校正得到检测人体边界框,其中位置差数据包括多人体图像中的人体实例在前一帧图像和多人体图像中的位置差,基于多人体图像的检测人体边界框识别多人体图像中人体实例的姿态。态。态。

【技术实现步骤摘要】
基于视频的姿势估计方法、装置、介质及电子设备


[0001]本申请涉及计算机视觉领域,特别地公开了一种基于视频的人体姿势估计方法、装置介质及电子设备。

技术介绍

[0002]随着机器视觉和深度学习等人工智能技术的快速发展,人体姿势估计技术也随之快速发展,人体姿势估计在活动识别、运动捕捉等应用领域具有重要意义。如何快速准确的进行人体姿势估计成为人们广泛关注的问题。
[0003]现有技术中,人体姿态估计的方法主要是通过人体检测模型识别人体并生成边界框,再通过姿势估计模型获得人体关节点,然后对关节点分析获得人体姿势。但是,这种方式依赖于人体检测模型和姿势估计模型输出结果的准确性,若边界框或者关节点预测不准确,将导致后续通过关节点估计的姿势不准确。

技术实现思路

[0004]本申请实施例提供了一种基于视频的人体姿势估计方法及其装置、介质和电子设备,能够通过相邻多人体图像之间的光流校正检测出的多帧多人体图像中人体实例的人体边界框和姿势关键点,提高了对多帧多人体图像的视频中的人体实例所检测出的人体边界框和姿势关键点的准确性,并提高人体本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于视频的人体姿势估计方法,其特征在于,包括:获取视频中的多帧多人体图像,其中每帧所述多人体图像中包括有多个人体实例;生成各帧所述多人体图像中的人体实例的初始人体边界框;基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据,对所述多人体图像的初始人体边界框进行校正得到检测人体边界框,其中所述位置差数据包括所述多人体图像中的人体实例在所述前一帧图像和所述多人体图像中的位置差;基于所述多人体图像的检测人体边界框识别所述多人体图像中人体实例的姿态。2.根据权利要求1所述的方法,其特征在于,所述基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据,对所述多人体图像的初始人体边界框进行校正得到检测人体边界框,包括:通过以下公式对所述多帧多人体图像中的第t帧图像中的第i个初始人体边界框进行校正得到第i个检测人体边界框:校正得到第i个检测人体边界框:其中,表示所述多帧多人体图像中的第t-1帧图像中的所述第i个初始人体边界框的坐标点集,F
t-1

t
表示基于所述第t-1帧图像与所述第t帧图像之间的位置差数据,表示基于F
t-1

t
得到的所述第t帧图像中的第i个预测人体边界框的坐标点集,表示所述第t帧图像中的所述第i个初始人体边界框的坐标点集,表示所述第t帧图像中的所述第i个检测人体边界框的坐标点集,α为与合成的权重系数,i和t均为正整数。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述多人体图像的检测人体边界框识别所述多人体图像中人体实例的姿态,包括:基于所述多人体图像的检测人体边界框,生成各帧所述多人体图像中的人体实例的初始姿势关键点;基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据,以及所述多人体图像与所述多人体图像的后一帧图像之间的位置差数据,对所述多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点,其中所述多人体图像与所述后一帧图像之间的位置差数据包括所述多人体图像中的人体实例在所述多人体图像和所述后一帧图像中的位置差;基于所述多人体图像中的检测姿势关键点识别所述多人体图像中人体实例的姿态。4.根据权利要求3所述的方法,其特征在于,所述基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据,以及所述多人体图像与所述多人体图像的后一帧图像之间的位置差数据,对所述多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点,包括:通过以下公式对所述多帧多人体图像中的第t帧图像中的第i个检测人体边界框中的人体实例的初始姿势关键点进行校正得到检测姿势关键点:
其中,表示所述多帧多人体图像中的第t-1帧图像中的所述第i个检测人体边界框中的人体实例的初始姿势关键点的坐标点集,F
t-1

t
表示所述第t-1帧图像与所述第t帧图像之间的位置差数据,为基于F
t-1

t
得到所述第t帧图像中的所述第i个检测人体边界框中的人体实例的预测姿势关键点的坐标点集;表示所述多帧多人体图像中第t+1帧图像中的第i个检测人体边界框中的人体实例的初始姿势关键点的坐标点集;F
t

t+1
表示所述第t帧图像与所述第t+1帧图像之间的位置差数据;为基于F
t

t+1
得到所述第t帧图像中的所述第i个检测人体边界框中的人体实例的预测姿势关键点的坐标点集;表示所述第t帧图像中的所述第i个检测人体边界框中的人体实例的检测姿势关键点的坐标点集,β表示帧图像中的所述第i个检测人体边界框中的人体实例的检测姿势关键点的坐标点集,β表示之间合成的权重系数,i和t均为正整数。5.根据权利要求1所述的方法,其特征在于,所述基于所述多人体图像的检测人体边界框识别所述多人体图像中人体实例的姿态之前,所述方法还包括:生成各帧所述多人体图像中的人体实例的检测人体边界框对应的标识信息,其中一个标识信息用于标识一个人体实例的检测人体边界框。6.根据权利要求5所述的方法,其特征在于,所述基于所述多人体图像的检测人体边界框识别所述多人体图像中人体实例的姿态,包括:基于所述多人体图像的检测人体边界框和检测人体边界框的标识信息,识别所述多人体图像中人体实例的姿态。7.根据权利要求5或6所述的方法,其特征在于,所述生成各帧所述多人体图像中的人体实例的检测人体边界框对应的标识信息,包括:基于各帧所述多人体图像中的人体实例的外观特征和在图像中的位置,生成各帧所述多人体图像中的人体实例的检测人体边界框对应的标识信息。8.根据权利要求5所述的方法,其特征在于,所述方法还包括:基于各帧所述多人体图像中的人体实例的检测人体边界框对应的标识信息,以及人体实例的姿势,在所述多帧多人体图像中进行人体实例跟踪。9.根据权利要求1所述的方法,其特征在于,各帧所述多人体图像中的人体实例的初始人体边界框由第一神经网络模型生成,所述第一神经网络模型的主干网络包括以下至少一种:ResNet152网络,ResNeXt101网络,SeNet154网络。10.根据权利要求3所述的方法,其特征在于,各帧所述多人体图像中的人体实例的初始姿势关键点通过第二神经网络模型生成,所述第二神经网络模型的主干网络包括以下至少一种:HRNet和SimpleNet。11.一种基于视频的人体姿势估计方法,其特征在于,包括:获取视频中的多帧多人体图像,其中每帧所述多人体图像中包括有多个人体实例;生成各帧所述多人体图像中的人体实例的检测人体边界框;
基于所述多人体图像的检测人体边界框,生成各帧所述多人体图像中的人体实例的初始姿势关键点;基于所述多人体图像与所述多人体图像的前一帧图像之间...

【专利技术属性】
技术研发人员:袁粒陈云鹏常舒宁聂学成冯佳时
申请(专利权)人:新加坡依图有限责任公司私有
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1