目标姿态识别方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:38133538 阅读:12 留言:0更新日期:2023-07-08 09:43
本申请公开了目标姿态识别方法、装置、电子设备及可读存储介质。该方法包括:获取待识别视频;其中,待识别视频包括连续的视频帧;对待识别视频进行目标姿态预测,得到每一视频帧对应的初始姿态预测结果;将所有初始姿态预测结果分解得到至少两个不同频率分量;将每一频率分量输入至网络模型,得到每一频率分量对应的子姿态预测结果;根据所有子姿态预测结果得到最终姿态预测结果。通过上述方式,能够提高最终目标姿态识别的准确性。最终目标姿态识别的准确性。最终目标姿态识别的准确性。

【技术实现步骤摘要】
目标姿态识别方法、装置、电子设备及可读存储介质


[0001]本申请涉及姿态识别
,特别是涉及目标姿态识别方法、装置、电子设备及可读存储介质。

技术介绍

[0002]相关的目标姿态估计方法应用于视频场景,预测结果存在显著抖动,其原因主要有以下几点:
[0003]1)视频场景中的目标姿态变化会比静态场景中的变化快得多,这使得传统的目标姿态估计模型难以准确地捕捉视频中的快速变化;
[0004]2)视频场景中的背景噪声会影响模型的预测结果;
[0005]3)目标姿态估计本身缺乏对连续运动的建模能力,导致时序预测结果不连续。

技术实现思路

[0006]本申请提供了目标姿态识别方法、装置、电子设备及可读存储介质,能够提高最终目标姿态识别的准确性。
[0007]第一方面,本申请提供一种目标姿态识别方法,该方法包括:获取待识别视频;其中,待识别视频包括连续的视频帧;对待识别视频进行目标姿态预测,得到每一视频帧对应的初始姿态预测结果;将所有初始姿态预测结果分解得到至少两个不同频率分量;将每一频率分量输入至网络模型,得到每一频率分量对应的子姿态预测结果;根据所有子姿态预测结果得到最终姿态预测结果。
[0008]第二方面,本申请提供一种目标姿态识别装置,该目标姿态识别装置包括:获取模块,用于获取待识别视频;其中,待识别视频包括连续的视频帧;预测模块,用于对待识别视频进行目标姿态预测,得到每一视频帧对应的初始姿态预测结果;分解模块,用于将所有初始姿态预测结果分解得到至少两个不同频率分量;处理模块,用于将每一频率分量输入至网络模型,得到每一频率分量对应的子姿态预测结果;以及根据所有子姿态预测结果得到最终姿态预测结果。
[0009]第三方面,本申请提供一种电子设备,该电子设备包括处理器以及与处理器耦接的存储器和显示界面;其中,存储器用于存储计算机程序,处理器用于执行计算机程序,以实现如上述第一方面提供的方法。
[0010]第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序在被处理器执行时,实现如上述第一方面提供的方法。
[0011]本申请的有益效果是:区别于现有技术的情况,本申请提供的目标姿态识别方法、装置、电子设备及可读存储介质,通过将所有初始姿态预测结果分解得到至少两个不同频率分量,有效抑制噪声,然后将每一频率分量输入至网络模型,得到每一频率分量对应的子姿态预测结果;根据所有子姿态预测结果得到最终姿态预测结果的方式,得到准确的姿态预测结果,能够有效去除初始姿态预测结果的抖动,提高最终目标姿态识别的准确性。
附图说明
[0012]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
[0013]图1是本申请提供的目标姿态识别方法一实施例的流程示意图;
[0014]图2是本申请提供的目标姿态识别方法另一实施例的流程示意图;
[0015]图3是本申请提供的步骤23一实施例的流程示意图;
[0016]图4是本申请提供的目标姿态识别方法另一实施例的流程示意图;
[0017]图5是本申请提供的网络模型训练方法一实施例的流程示意图;
[0018]图6是本申请提供的网络模型训练方法另一实施例的流程示意图;
[0019]图7是本申请提供的目标姿态识别方法另一实施例的流程示意图;
[0020]图8是本申请提供的目标姿态识别方法应用场景示意图;
[0021]图9是本申请提供的目标姿态识别装置一实施例的结构示意图;
[0022]图10是本申请提供的电子设备一实施例的结构示意图;
[0023]图11是本申请提供的电子设备另一实施例的结构示意图;
[0024]图12是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
[0025]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0027]现有的目标姿态估计方法应用于视频场景,预测结果存在显著抖动,其原因主要有以下几点:
[0028]1)视频场景中的目标姿态变化会比静态场景中的变化快得多,这使得传统的人体姿态估计模型难以准确地捕捉视频中的快速变化;
[0029]2)视频场景中的背景噪声会影响模型的预测结果;
[0030]3)目标姿态估计本身缺乏对连续运动的建模能力,导致时序预测结果不连续。
[0031]因此对目标姿态估计模型的预测结果进行去抖动很有必要。
[0032]现有的用于时序目标姿态估计的去抖动方法主要有基于传统滤波器的方法和基于深度学习的方法。传统滤波器可以有效地消除抖动,但是它们具有模型假设和局部性等局限性;而深度学习方法则可以有效地模拟和抑制复杂的抖动,并利用大量的时序数据学习出全局的规律,从而更有效地解决抖动问题。
[0033]传统滤波器,比如高斯滤波、SG滤波等,是最常用于对连续信号进行平滑去抖动处理的方法,传统滤波器去抖动方法简单直观,计算量相对较少,但需要针对具体业务场景进行定制化调参,且容易出现过平滑的情况,另外,传统滤波器往往要求收集较长时间窗口的预测结果来进行滤波,从而限制了实时场景下的去抖动效果。
[0034]基于深度学习的端到端方法可以一步到位,直接给出去抖动平滑之后的时序人体姿态估计结果,但存在人体姿态估计的准确率降低的问题。另一方面,端到端模型要求更多、更高质量的训练集用来训练模型,也导致了端到端模型的训练成本较高、应用场景受限等问题。
[0035]基于此,本申请提出以下任一实施方式,解决上述任一技术问题,具体参阅下述任一实施例。
[0036]参阅图1,图1是本申请提供的目标姿态识别方法一实施例的流程示意图。该方法包括:
[0037]步骤11:获取待识别视频;其中,待识别视频包括连续的视频帧。
[0038]在一些实施例中,待识别视频可以是由单目相机或者双目相机等摄像设备拍摄得到。
[0039]具体地,摄像设备可以是应用于监控场景下的设备。如该摄像设备设置于校园,用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标姿态识别方法,其特征在于,所述方法包括:获取待识别视频;其中,所述待识别视频包括连续的视频帧;对所述待识别视频进行目标姿态预测,得到每一所述视频帧对应的初始姿态预测结果;将所有所述初始姿态预测结果分解得到至少两个不同频率分量;将每一频率分量输入至网络模型,得到每一频率分量对应的子姿态预测结果;根据所有所述子姿态预测结果得到最终姿态预测结果。2.根据权利要求1所述的方法,其特征在于,所述将所有所述初始姿态预测结果分解得到至少两个不同频率分量,包括:按照时间序列将所有所述初始姿态预测结果分解得到至少两个不同频率分量。3.根据权利要求2所述的方法,其特征在于,所述按照时间序列将所有所述初始姿态预测结果分解得到至少两个不同频率分量,包括:从所有所述初始姿态预测结果中确定出初始第一频率分量;对所述初始第一频率分量进行填充操作和均值操作,得到第一频率分量;利用所述初始姿态预测结果和所述第一频率分量得到第二频率分量;其中,所述第一频率分量的频率低于所述第二频率分量的频率。4.根据权利要求3所述的方法,其特征在于,所述网络模型包括第一子网络和第二子网络,所述将每一频率分量输入至网络模型,得到每一频率分量对应的子姿态预测结果,包括:将所述第一频率分量输入至所述第一子网络,得到所述第一频率分量对应的第一子姿态预测结果;以及将所述第二频率分量输入至所述第二子网络,得到所述第二频率分量对应的第二子姿态预测结果。5.根据权利要求4所述的方法,其特征在于,所述根据所有所述子姿态预测结果得到最终姿态预测结果,包括:根据所述第一子姿态预测结果和所述第二子姿态预测结果得到最终姿态预测结果。6.根据权利要求1所述的方法,其特征在于,所述网络模型包括至少两个子网络,其中,所述网络模型采用以下方式进行训练:...

【专利技术属性】
技术研发人员:王雄裴璇
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1