一种基于多视图对比的人体交互行为识别方法及系统技术方案

技术编号:38134332 阅读:10 留言:0更新日期:2023-07-08 09:44
本发明专利技术属于计算机视觉领域,提供了一种基于多视图对比的人体交互行为识别方法及系统,其通过获取视频数据每一帧中人体关节的位置信息;基于每一帧中人体关节的位置信息,构建骨架时空图;基于骨架时空图,通过图卷积神经网络,自适应删除边或节点,构建删除节点或边的增强视图;可以很好的缓解分布不均问题;采用信息瓶颈原则,在每个视图中为行为识别任务保留满足最小的足够信息,增大增强视图与原始骨架时空图之间的差异,同时最大化与行为识别任务相关的信息,得到多视图表示;根据多视图表示得到人体交互行为识别结果。以从不同的方面更好地学习交互行为的多视图表示学习。面更好地学习交互行为的多视图表示学习。面更好地学习交互行为的多视图表示学习。

【技术实现步骤摘要】
一种基于多视图对比的人体交互行为识别方法及系统


[0001]本专利技术属于计算机视觉领域,尤其涉及一种基于多视图对比的人体交互行为识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着高清视频监控的逐步推广和普及,监控视频数据也越来越多。在安防领域,尤其在公共场所,需要对人们的行为实时监控,防止意外的发生。随着计算机视觉技术的快速发展,个体行为识别的准确率得到了很大的提升,但对于多人之间关系复杂的人体活动问题还没有得到充分的解决。而在现实生活中,常见的一些行为大都是一些交互行为,如握手,拥抱,打架等。相比于单人动作,交互动作复杂程度更高,在完成交互动作的过程中,肢体动作种类更多,肢体间的变化也更加多元化。因此,如何高效地提取交互行为的特征,并对交互行为进行建模和分析是一个具有挑战性的问题。
[0004]根据人体运动数据的来源,可将人体行为识别方法分为三类:基于RGB视频的人体行为识别方法、基于深度图的人体行为识别方法、基于骨架序列的人体行为识别方法。RGB视频数据为人体行为识别提供了所需的空间和时间信息,但没有包含分布在三维空间中的人体动作结构信息(如:人体各个关节或身体部位的位置与角度,以及它们之间的相对关系),只能提供人物的二维空间状态,并且容易受背景复杂,光照和视角变化等因素的干扰,导致动作识别精度下降。与RGB视频数据相比,深度图可以提供视点与对象之间的距离、人体各个关节或人体的各个组成部分在三维空间中的坐标、人体在三维空间中的轮廓和纹理等信息,能够将人物从背景中分离,但深度图这类方法需要计算设备具备较大的内存空间和较强的计算能力。而骨架序列可以通过关节点的相对位置信息定义人体姿态,能更真实地表示人体运动模式的几何结构。相比于图像特征,骨架特征更加紧凑,对人体的运动描述也更加的具体,且不易受光照和背景变化的影响。
[0005]综上所述,专利技术人发现现有技术存在以下技术问题:
[0006](1)交互噪声。在交互行为中,由于传感器的误差或遮挡等问题,往往会存在噪声的干扰,导致无法明确地模拟受试者相互作用的身体部位之间的关系,而这是交互识别的关键信息。而基于图卷积的模型容易受到输入图质量的影响,这意味着聚合误导性的邻域信息可能会导致次优性能。
[0007](2)骨架数据具有多样性和复杂性。不同的人可能有不同的身高、体型、姿态和动作方式,同一种行为可能具有不同的执行速度、幅度和角度。这种分布不一致的数据将使基于图卷积的模型容易偏向具有某种或某几种分布的数据,妨碍行为表示的学习。

技术实现思路

[0008]为了解决上述
技术介绍
中存在的至少一项技术问题,本专利技术提供一种基于多视图
对比的人体交互行为识别方法及系统,其能够学习是否删除边或节点,将原始的骨架图转化为相关视图,然后将不同的视图集成为下游行为识别任务的紧凑表示,同时与下游行为识别任务以端到端的方式共同优化,进一步提高模型的鲁棒性。
[0009]为了实现上述目的,本专利技术采用如下技术方案:
[0010]本专利技术的第一个方面提供一种基于多视图对比的人体交互行为识别方法,包括如下步骤:
[0011]获取视频数据每一帧中人体关节的位置信息;
[0012]基于每一帧中人体关节的位置信息,构建骨架时空图;
[0013]基于骨架时空图,通过图卷积神经网络,自适应删除骨架时空图的边或节点,构建删除节点或边的增强视图;
[0014]采用信息瓶颈原则,增大增强视图与原始骨架时空图之间的差异,同时最大化与行为识别任务相关的信息,在每个视图中为行为识别任务保留满足最小的足够信息,得到多视图表示;
[0015]基于得到的多视图表示进行分类得到人体交互行为识别结果。
[0016]本专利技术的第二个方面提供一种基于多视图对比的人体交互行为识别系统,包括:
[0017]关节信息获取模块,其用于获取视频数据每一帧中人体关节的位置信息;
[0018]骨架时空图构建模块,其用于基于每一帧中人体关节的位置信息,构建骨架时空图;
[0019]增强视图构建模块,其用于基于骨架时空图,通过图卷积神经网络,自适应删除骨架时空图的边或节点,构建删除节点或边的增强视图;
[0020]多视图表示模块,其用于采用信息瓶颈原则,增大增强视图与原始骨架时空图之间的差异,同时最大化与行为识别任务相关的信息,在每个视图中为行为识别任务保留满足最小的足够信息,得到多视图表示;
[0021]行为识别模块,其用于基于得到的多视图表示进行分类得到人体交互行为识别结果。
[0022]本专利技术的第三个方面提供一种计算机可读存储介质。
[0023]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种基于多视图对比的人体交互行为识别方法中的步骤。
[0024]本专利技术的第四个方面提供一种计算机设备。
[0025]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种基于多视图对比的人体交互行为识别方法中的步骤。
[0026]与现有技术相比,本专利技术的有益效果是:
[0027]1、本专利技术针对交互图中存在噪声和骨架数据具有多样性和复杂性问题,使用一个有效的增广方式,让不同的视图尽可能多的覆盖最优区域,同时尽可能减少无用信息。通过自适应地删除节点和边来构造优化的图结构,可以很好的缓解分布不均问题;并且在每个视图中为下游行为识别任务保留最小的足够信息,丢弃与行为识别无关的信息,来解决交互噪声问题。这样可以从不同的方面更好地学习交互行为的多视图表示学习,进而更好地实现交互行为的识别。
[0028]2、本专利技术同时考虑到骨骼数据可以减少视点,背景的等不必要的因素带来的影响,而且图卷积神经网络则能够直接处理骨架数据这种拓扑图,能够有效地捕获骨架数据中的时空关系和上下文信息。
[0029]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0030]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0031]图1是本专利技术实施例提供的基于多视图对比的人体交互行为识别方法流程图;
[0032]图2是本专利技术实施例提供的建立的时空图示例;
[0033]图3是本专利技术实施例提供的多视图对比网络的整体结构。
具体实施方式
[0034]下面结合附图与实施例对本专利技术作进一步说明。
[0035]应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0036]需要注意的是,这里所使用的术语仅是为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多视图对比的人体交互行为识别方法,其特征在于,包括如下步骤:获取视频数据每一帧中人体关节的位置信息;基于每一帧中人体关节的位置信息,构建骨架时空图;基于骨架时空图,通过图卷积神经网络,自适应删除骨架时空图的边或节点,构建删除节点或边的增强视图;采用信息瓶颈原则,增大增强视图与原始骨架时空图之间的差异,同时最大化与行为识别任务相关的信息,在每个视图中为行为识别任务保留满足最小的足够信息,得到多视图表示;基于得到的多视图表示进行分类得到人体交互行为识别结果。2.如权利要求1所述的一种基于多视图对比的人体交互行为识别方法,其特征在于,所述基于视频每一帧中人体关节的位置坐标信息,构建骨架时空图,具体包括:在空间维度上,根据每一帧中关节点的坐标信息确定关节点的空间位置,然后按照人体中的自然结构,绘制出相应的边,得到骨架序列的空间拓扑图;在完成对骨架序列的空间拓扑图的构建以后,连接相邻帧中表示同一个关节的节点,就可以构成骨架时空序列图。3.如权利要求1所述的一种基于多视图对比的人体交互行为识别方法,其特征在于,所述基于骨架时空图,通过图卷积神经网络,自适应删除骨架时空图的边或节点,构建删除节点或边的增强视图,具体包括:学习图卷积神经网络的每一层可删除的节点,将有影响的节点屏蔽后创建节点删除视图;同时,学习图卷积神经网络的每一层可删除的边,过滤掉噪声边后创建边删除视图。4.如权利要求3所述的一种基于多视图对比的人体交互行为识别方法,其特征在于,所述学习图卷积神经网络的每一层可删除的节点,将有影响的节点屏蔽后创建节点删除视图的表达式为:式中,v
i
是指第l层网络层中的第i个节点,来自一个参数化后的伯努利分布,它表示是否保留节点v
i
,ε为边的集合。5.如权利要求1所述的一种基于多视图对比的人体交互行为识别方法,其特征在于,所述采用信息瓶颈原则,增大增强视图与原始骨架时空图之间的差异,同时最大化与行为识别任务相关的信息,具体为:通过采用负对比学习损失来最小化增强视图与原始图之间的互信息去除每个视图中的冗余信息,保留剩余的信息。6.如权利要求1所述的一种基于多视图对比的人体交互行为识别方法,其特征在于,骨架时空图输入图卷积神经网络的形式是以邻接矩阵的形式,该邻接矩阵的大小是n...

【专利技术属性】
技术研发人员:吕蕾庞辰耿佩
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1