基于多层感知机的轻量化人体骨骼交互行为推理网络结构制造技术

技术编号:37052759 阅读:23 留言:0更新日期:2023-03-29 19:30
本发明专利技术提供了一种基于多层感知机的轻量化人体骨骼交互行为推理网络结构,属于行为识别技术领域;解决了视频中人体行为识别难以正确分辨参与者之间的复杂关系、计算量大的问题;包括:模块1:双人交互行为信息特征提取器,模块2:单人行为信息特征提取器,模块3:基于TRN/LSTM的时序分类器:将模块1和模块2的数据进行合理拼接整合,并计算各时间段内的交互双方间的平均距离信息,将上述的所有信息送入特定的TRN/LSTM的时序分类器进行分类识别,分类器采用多时段的RNs进行推理验证,最终得到学习推理后的分类结果;模块4:注意力模块:依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算;本发明专利技术应用于视频中交互行为识别。为识别。为识别。

【技术实现步骤摘要】
基于多层感知机的轻量化人体骨骼交互行为推理网络结构


[0001]本专利技术提供了一种基于多层感知机的轻量化人体骨骼交互行为推理网络结构,属于计算机技术的深度学习、模式识别、人体交互行为识别


技术介绍

[0002]视频中人类交互(相互行为)的识别是一项异常重要的计算机视觉任务,它可以帮助我们为监控、机器人、人机界面、基于内容的检索等一系列应用开发提供解决方案。特别是,人类交互识别是视频理解的关键组成部分,也是不可或缺的,因为它经常在真实视频中被观察到。虽然在过去的几十年里已经有了许多作品,但这仍然是一个具有挑战性的问题,特别是当视频提供非常规的条件时,例如不寻常的视角和杂乱的背景。视频中的人类行为识别是人类活动分析的一个重要研究分支,并已提出了许多行为识别的方法。目前该领域的解决方案通常由复杂的体系结构和机制(主要由CNN、GCNs和LSTM主导)组成,且由于对视频的计算花销远超图片的计算花销,因此在移动设备上的应用受到限制。此外在不同的环境或者视频角度变动的情况下,也会对行为识别产生较大的干扰。
[0003]人类交互识别困难的主要原因是,我们需要同时考虑人们的单个行为和共生的单体活动,以理解参与者之间的复杂关系。这项任务成功的关键是如何提取能够有效捕捉每个人在空间和时间上的运动特征的区别性特征。一般的方法是视频的隐式表示,例如基于词袋(BOW)的模型。BOW方法通过对时空图像块特征进行聚类来描述整个帧,这些特征是从兴趣点、预设属性或视频的关键姿势中提取的。在最近的研究中,基于深度神经网络的视频分类方法,如3D卷积神经网络(CNN)、双流CNN或多流CNN,在视频表示方面显示了良好的结果。这种方法的一个优点是,表示对于关键点提取失败是健壮的,因为它是组成整个图像的像素的整体分布,而不是特定点。然而,这种方法缺乏高级信息,这可能是理解人类行为的关键属性。
[0004]与单纯的单一动作或关注多个对象之间关系的群体活动不同,人类交互行为既包括个人动作,也包括关系,两者同等重要。作用对象直接影响相互作用的对象,反应取决于作用对象的个体运动。在互动的情况下,细微的差异,例如每个人的身体部位如何与其他人的身体部位互动,可以改变活动类别。
[0005]此外,针对视频的人体行为识别,已存在各种各样的神经网络框架,效果有好有坏,但都为该方向的发展推进提供了足够的主力,然而不可否认的是当下主流的框架在处理视频信息时其计算量庞大、检测速度慢等效率问题也逐渐成为诟病的中心。

技术实现思路

[0006]本专利技术为了解决以下问题:1.视频中人体行为识别,既要考虑单人行为信息,同时也要考虑交互双方的互动信息,当前现有方法难以正确分辨参与者之间的复杂关系;2.在计算量方面,视频具有丰富的可训练信息,这虽然保证了信息的充分,但也导致了计算量指数性质的上升,存在实时性、时效性不足等问题;3.视频中交互双方的站位与拍摄视角的不
同,同样会对视频中的行为识别产生较大的影响。因此,提出了一种基于多层感知机的轻量化人体骨骼交互行为推理网络结构。
[0007]为了解决上述技术问题,本专利技术采用的技术方案为:一种基于多层感知机的轻量化人体骨骼交互行为推理网络结构,包括多GPU服务器,所述多GPU服务器上设置有多个处理器、显卡和显存,所述多GPU服务器上搭载有基于多层感知机的轻量化人体骨骼交互行为推理网络的计算机程序,所述处理器用于执行上述轻量化人体骨骼交互行为推理网络的程序,所述轻量化人体骨骼交互行为推理网络包括:模块1:双人交互行为信息特征提取器:包含多个小型数据流,分别处理交互双方的各肢体部位的交互行为信息,求和取平均处理后进行拼接并通过MLP实现数据的再编码;模块2:单人行为信息特征提取器:包含两种相似的数据流,分别是交互双方每个行为人的整体姿势信息,身体的各部位按照特定的顺序进行拼接,经过多层感知机进行特征编码与认知,形成双方行为信息的新表征,继而进行求和操作,得到单人行为信息;模块3:基于TRN/LSTM的时序分类器:将模块1和模块2的数据进行合理拼接整合,并计算各时间段内的交互双方间的平均距离信息,将上述的所有信息送入特定的TRN/LSTM的时序分类器进行分类识别,分类器采用多时段的RNs进行推理验证,最终得到学习推理后的分类结果;模块4:注意力模块:依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算。
[0008]所述交互双方的各肢体部位具体划分为:头、身、左手臂、右手臂、左脚腿、右脚腿部位,每个人的每个部位不仅能与另一人的相同部位交互,还能与另一人的其他部位进行交互,并对同部位交互赋予较大的权重,异部位交互根据交互部位的运动激烈程度进行权重的调整,交互双方的各部位的行为信息由关节速度、关节角度组成。
[0009]所述双人交互行为信息特征提取器包含两层MLP,以及一层平均池化层,所有交互部位能够共用一个大的MLP,或者每对部位独享一个MLP。
[0010]所述单人行为信息特征提取器包含两层MLP,以及一层平均池化层。
[0011]在活动的每个时间段内,依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算;在活动的每个时间段内,依据交互的双方活动量的剧烈程度,将两方的特征权重重新分配,以达到注意力的机制;将每个独立运动划分为多段短时序信息,每段包含一定的信息量,采用正态分布形式的随机值给予各段初始权重,采用活动量计算方式得到数据潜藏权重,两种权重互相补充,相互配合,计算得出各段应有的权重。
[0012]依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算的公式如下:
;上式中,p
l
表示交互部位中的一方,p
r
表示交互部位的另一方,A
i
表示第i个交互对的注意力权重。
[0013]双人交互行为中,当单个人作为整体时,交互双方不同的运动状态同样具有不同的可参考意义,在活动的每个时间段内,依据交互的双方活动量的剧烈程度,将两方的特征权重重新分配,以达到注意力的机制的计算公式如下:;上式中:PA
i
表示第i个人总特征权重值,i表示第i个人,S
i
表示单人速度信息,PS
i
表示第i人速度权重,S
part
表示第i个人某部位速度。
[0014]将每个独立运动划分为多段短时序信息,每段包含一定的信息量,每段的重要程度随时间的递进先增加后下降,活动的中间段是活动可参考性最大的段;采用正态分布形式的随机值给予各段初始权重,采用活动量计算方式得到数据潜藏权重,两种权重互相补充,相互配合,计算得出各段应有的权重,上述过程的计算公式如下:;上式中:x
j
表示第j段短时序对应的分布值,x表示短时序对应的分布值的集合,j表示第j段短时序信息,Vol
j
表示第j段短时序信息的权重值。
[0015]本专利技术相对于现有技术具备的有益效果为:本专利技术提供的基于多层感知机的轻量化人体骨骼交互行为推理网络借助本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多层感知机的轻量化人体骨骼交互行为推理网络结构,其特征在于:包括多GPU服务器,所述多GPU服务器上设置有多个处理器、显卡和显存,所述多GPU服务器上搭载有基于多层感知机的轻量化人体骨骼交互行为推理网络的计算机程序,所述处理器用于执行上述轻量化人体骨骼交互行为推理网络的计算机程序,所述轻量化人体骨骼交互行为推理网络包括:模块1:双人交互行为信息特征提取器:包含多个小型数据流,分别处理交互双方的各肢体部位的交互行为信息,求和取平均处理后进行拼接并通过MLP实现数据的再编码;模块2:单人行为信息特征提取器:包含两种相似的数据流,分别是交互双方每个行为人的整体姿势信息,身体的各部位按照特定的顺序进行拼接,经过多层感知机进行特征编码与认知,形成双方行为信息的新表征,继而进行求和操作,得到单人行为信息;模块3:基于TRN/LSTM的时序分类器:将模块1和模块2的数据进行合理拼接整合,并计算各时间段内的交互双方间的平均距离信息,将上述的所有信息送入特定的TRN/LSTM的时序分类器进行分类识别,分类器采用多时段的RNs进行推理验证,最终得到学习推理后的分类结果;模块4:注意力模块:依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算。2.根据权利要求1所述的基于多层感知机的轻量化人体骨骼交互行为推理网络结构,其特征在于:所述交互双方的各肢体部位具体划分为:头、身、左手臂、右手臂、左脚腿、右脚腿部位,每个人的每个部位不仅能与另一人的相同部位交互,还能与另一人的其他部位进行交互,并对同部位交互赋予较大的权重,异部位交互根据交互部位的运动激烈程度进行权重的调整,交互双方的各部位的行为信息由关节速度、关节角度组成。3.根据权利要求2所述的基于多层感知机的轻量化人体骨骼交互行为推理网络结构,其特征在于:所述双人交互行为信息特征提取器包含两层MLP,以及一层平均池化层,所有交互部位能够共用一个大的MLP,或者每对部位独享一个MLP。4.根据权利要求2所述的基于多层感知机的轻量化人体骨骼交互行为推理网络结构,其特征在于:所述单人行为信息特征提取器包含两层MLP,以及一层平均池化层。5.根据权利要求2所述的基于多层感知机的轻量化人体骨骼交互行为推理网...

【专利技术属性】
技术研发人员:王程陈哲董丽芳胡顺顺
申请(专利权)人:山西清众科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1