一种基于骨骼节点的端到端人类行为识别方法与模型技术

技术编号:33786258 阅读:12 留言:0更新日期:2022-06-12 14:41
本发明专利技术提出了一种基于骨骼节点的端到端人类行为识别方法与模型。深度学习网络模型的构建包括:视频序列人体行为跟踪;骨骼关节点检测识别;生成骨骼序列时空图拓扑;骨骼序列训练前预处理;使用深度学习网络训练获得的骨骼时空序列以获取人类行为语义特征表示;在不同层网络结构中对骨骼关节点进行端到端的优化;最终网络分类器识别人类行为类别。本发明专利技术意在从视频序列获取人体骨骼关节点,通过提出一个对骨骼关节实现端到端的优化的方法,在深度学习网络模型框架下对骨骼关节图拓扑进行建模,学习一个更优的骨骼关节图拓扑结构,从而达到更优的行为识别准确率。而达到更优的行为识别准确率。而达到更优的行为识别准确率。

【技术实现步骤摘要】
一种基于骨骼节点的端到端人类行为识别方法与模型


[0001]本专利技术涉及到计算机视觉
,具体涉及一种基于深度学习的人类行为识别方法以及行为识别模型的构建。

技术介绍

[0002]人类行为识别任务是让计算机或其他智能设备依靠提供的视频序列,智能的从中识别人体行为属于何种行为,然后依据识别的个任务特定的需求进行下一步操作的。在对人体行为进行识别与判断的任务中,传统的做法是采用目标检测算法,这类算法无需使用大型数据集进行学习训练,仅仅对视频的行为进行框出和跟踪的低级机器视觉的处理方式。由于人体的行为是高等级的行为特征,这需要对视频序列中的人体进行精确的目标跟踪与行为检测。当前针对行为识别与检测的解决方法主要有背景减法,帧差法,光流法等等,这些方法大多通过特征匹配和像素的亮度变化来对目标进行跟踪识别。
[0003]近几年随着人工智能技术的高速发展,特别是对机器学习和深度学习领域的研究,通过使用各种智能软硬件来识别视频序列中人体行为行为的需求变得旺盛,这也催生各行各业对信息化,智能化更高的要求。视频理解与分类是计算机视觉邻域的基础任务之一,随着各种视频传感器的快速发展和无人检测设备的大量普及,采用机器学习或深度学习以人机交互的模式来实现技术迭代,对视频信息的高级处理。这类方法通过学习和训练人类行为特征,生成易被神经网络识别的特征表示来实现行为分类,因其杰出的表现与高效的性能越来越受到广大研究者的关注。由于背景杂波、部分遮挡、尺度、视角、光照和外观变化等原因,从视频序列中识别人类行为是一项极具挑战性的任务。智能化的识别人体行为行为这一有价值的研究能应用到不同的工作中,例如视频监控,视频分类与检索,人机交互,医学看护等。
[0004]早期利用人体骨骼进行动作识别的方法,仅仅是利用单个时间步长的关节坐标来形成特征向量,并对其进行时间分析,而这类方法的能力是有限的,因为它们没有显式地利用关节之间的空间关系,这是理解人类行为的关键。之后出现了一些考虑关节连接的方法,并得到了效果的提升,但大多数依赖于手工设计的规则来进行分析,难以推广。此外人体骨骼是以图的形式出现的,而不是类似图片那样的二维或者三维像素网格。利用图卷积网络(Graph Convolutional Network,GCN)来建模,将图神经网络扩展到时空图模型,即时空语义信息图卷积网络(Spatial

Temporal Graph ConvolutionalNetworks,时空语义信息图卷积网络),该模型是建立在一系列骨骼图之上的,其中每个节点对应于人体的一个关节。有两种类型的边,一种是符合关节自然连通性的空间边,另一种是跨越连续时间步长连接同一关节的时间边。并在此基础上构造了多个时空图卷积层,实现了信息在时空维度上的集成。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于骨骼节点的端到端人体行为识别方
法,以解决现有行为识别方法存在视频序列背景图像噪声较多,骨骼关节节点提取困难,导致深度学习玩过模型对噪声标签缺乏鲁棒性,进而识别效果不如预期等问题。
[0006]为了实现上述目的,本专利技术在第一方面实施例提供了一种人体骨骼关节节点检测方法。从RGB视频中得到骨骼关节节点就很重要,人类骨骼关节节点检测就是自动获取给定图像或视频中行人的主要骨骼节点坐标的过程,该过程主要分为针对单人的骨骼节点检测和针对多人的骨骼节点检测,包括:
[0007]针对简单场景中图像中只有一个人的情况可以采用单人骨骼关节节点检测,单人骨骼关节节点检测骨骼关节节点坐标的方式大致分为两类:基于回归的方法和基于热图的方法。基于回归的方法就是利用提取的特征图直接回归得到骨骼关节节点坐标,基于热图的方法就是首先生成热图,热图就是用像素值表示该位置为骨骼关节节点的概率,然后在热图的基础上得到骨骼关节节点。多人骨骼关节节点检测分为自上而下和自底而上两种方法。自上而下的方法是在建立单人骨骼关节节点检测的基础上,首先得到行人位置,然后针对每一个行人进行单人骨骼关节节点检测。自底而上的方法是先找到图像中所有的骨骼关节节点,接着对这些离散的骨骼关节节点进行分组,确定是哪一个行人的,最后匹配到每个行人骨骼上。与传统方法相比,基于深度学习的方法得到图像中更有鲁棒性和判别性的特征,它的性能也要比传统方法优秀。
[0008]本专利技术的第二方面提供了一种基于骨骼节点的数据预处理策略,所述骨骼节点的数据预处理策略,包括数据增强模块,用于通过所述数据预处理策略将输入的原始骨骼样本进行随机数据增强与时空维度矩阵变换,获得一个扩展骨骼序列。
[0009]本专利技术的第三方面提供了一种时空语义信息图卷积网络模型架构,所述时空语义信息图卷积网络模型架构使用基于在网络中明确地引入了关节的高级语义(关节类型和框架索引),以增强特征表示能力。此外,我们还通过两个模块对节点之间的关系进行了层次化的开发,为同一框架内各节点的相互关系建模的关节级模块,为将同一框架内各节点作为一个整体建模的框架立面模块,将整个网络学习模型分为骨骼关节点获取、数据预处理、带有关节等级(Joint

level)和帧等级(Frame

level)语义信息的神经网络模块、线性分类器模块,其中:
[0010]数据预处理获取骨骼时空序列特征图的骨骼关节特征提取器,将骨骼时空序列图的关节按照不同的关节节点,相同关节节点在不同时间帧中的索引以及空间坐标向量进行样本标记;
[0011]数据预处理将骨骼数据原始样本进行数据增强操作;
[0012]将数据增强后的样本输入到带有Joint

level和Frame

level语义信息的神经网络模块,其中Joint

level语义信息神经网络模块包含一个Joint Type串联层,三个图卷积网络层,两个骨骼关节节点端到端优化模块。Frame

level语义信息的神经网络模块包含一个Frame Index信息累积层,一个空间信息池化层,两个卷积网络层和一个时间信息池化层,最后获得骨骼关节序列特征表示;
[0013]端到端语义引导神经网络的框架,由联合级模块和框架级模块组成。在数据预处理中,通过融合关节的位置和速度信息来学习关节的动力学表示。两种类型的语义,即分别将关节类型和框架索引纳入关节级模块和框架级模块。在联合级模块中,使用了三个图卷积网络层来建模关节的依赖关系。为了建模帧之间的依赖关系,我们使用了两个卷积神经
网络层。
[0014]本专利技术的第四方面提供了一个线性分类器网络,将进过所述时空语义信息图卷积网络学习到的特征输入到线性分类器中,线性分类器网络是一个带有修正线性单元(Rectified LinearUnit,ReLU)的全连接层(Fully

Connected layers,FC);
[0015]之后将分类器网络获得的特征向量输入到一个SoftMax激活函数得到的分类百分比概率,然本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人体骨骼关节点检测的方法,其特征在于,包括:根据光线变化结合维度信息从复杂背景中捕捉人体行为图像,通过识别像素点的方式将被测者的身体区域与其所处背景进行分离;根据解刨特征和运动检测解刨人体骨骼结构,获取骨骼时空序列特征图的骨骼关节特征提取器,将骨骼时空序列图的关节按照不同的关节节点,相同关节节点在不同时间帧中的索引以及空间坐标向量进行样本标记;根据所述骨骼数据原始样本进行数据增强操作,将数据增强后的样本输入到有监督对比学习表征网络,以此获得行为特征表征;通过共享网络共享时空对比学习表征网络编码器参数,联合全连接层对所述视频序列进行行为识别。2.一种人体骨骼时空序列数据预处理方法,其特征在于,包括:根据每个输入骨骼序列,数据预处理阶段应用两次数据增强,以获得两个输入样本副本,生成两个随机增广骨骼序列,每个序列表示数据的不同视图;对同一输入骨骼序列样本的随机变换保留了相似的行为模式,并隐含了原始骨骼序列中的信息子集。3.一种时空语义信息图卷积网络模型架构,其特征在于,获取行为特征表示的具体步骤,包括:根据所述数据预处理模块,经数据增强操作后,输入样本变为原始样本的两倍,将两份增强样本沿批次维度串联;根据所述线性回归函数构建输入样本骨骼信息在高维空间的特征映射,将映射到高维空间的特征表示经过时空特征提取器后,学习行为特征归一化后的单位超球面向量,获得特征投影网络所需的关键信息;将经过所述的时空特征提取器模块训练后的表示向量投影到较低维空间,同时将所学习到的特征送入到投影器网络,投影网络是一个带有ReLU多层感知器。4.如权利要求2所述的样本数据预处理模型的构建方法,其特征在于,包括:根据骨...

【专利技术属性】
技术研发人员:邓泽林周浩
申请(专利权)人:长沙理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1