一种场景点云中的人体行为预测方法技术

技术编号:37127852 阅读:17 留言:0更新日期:2023-04-06 21:26
一种场景点云中的人体行为预测方法。第一步,通过硬件三维扫描或软件三维重建的方式,将人体所在的周围场景表示为三维点云的形式;第二部,设计带有多重注意力建模机制的特征编码器,以提取人体骨架数据内部的动作依赖、场景点云内部的几何结构依赖以及其二者之间的人体

【技术实现步骤摘要】
Spatio

Temporal Graph Neural Networks for 3D Skeleton

Based Motion Prediction.IEEE Trans.Image Process.
[0008][6]Cao,Z.;Gao,H.;Mangalam,K.;Cai,Q.;Vo,M.;and Malik,J.2020.Long

Term Human Motion Prediction with Scene Context.In ECCV.
[0009][7]Adeli,V.;Adeli,E.;Reid,I.;Niebles,J.C.;and Rezatofighi,H.2020.Socially and Contextually Aware Human Motion and Pose Forecasting.IEEE Robotics Autom.Lett.
[0010][8]Mohamed,A.;Chen,H.;Wang,Z.;and Claudel,C.G.2021.Skeleton

Graph:Long

Term 3D Motion Prediction From 2D Observations Using Deep Spatio

Temporal Graph CNNs.In ICCVW.

技术实现思路

[0011]为了解决上述现有技术存在的问题,本专利技术的目的在于提供一种场景点云中的人体行为预测方法,首先将人体行为预测任务重新定义为一个基于3D历史人体运动信息和3D当前场景结构信息的联合推理问题,并设计了一个多重注意力编码网络来联合建模人体运动模式,场景几何模式,以及人景交互模式。结果显示该方法在使用较少参数的情况下实现了更高预测准确度,同时,也提高了预测结果的可解释能力。
[0012]为达到以上目的,本专利技术采用如下的技术方案:
[0013]一种场景点云中的人体行为预测方法,第一步,通过硬件三维扫描或软件三维重建的方式,将场景信息表示为三维点云数据人体运动信息表示为三维骨架序列其中N
s
为场景点云S中所含有的点的数量,N
b
为每个人体骨架中所含有的关节点数,T为动作序列中所含有的骨架帧数;第二步,由于人体运动不易受到距其较远场景物体的影响,因此,通过关键区域选取对场景点云S进行关键区域裁剪,从而降低冗余性;第三步,考虑到人体骨架B和场景点云S的二者内部、二者之间体现着不同性质的依赖关系,即人体骨架B内部所体现的动作特征,场景点云S内部的几何结构特征,以及人体骨架与场景点云之间存在的人景交互特征,因此,通过设计带有多重注意力建模机制的编码器,通过自注意力和交叉注意力两种机制来对以上不同的依赖关系联合建模,提取多重注意力特征;第四步,时序卷积网络组成的解码器将对提取到的多重注意力特征进行解码,最终输出所预测的未来人体的运动姿态和轨迹。
[0014]所述的场景点云中的人体行为预测方法,构建全新的基于3D点云的场景感知范式,通过三维扫描或三维重建,将场景感知的人体动作预测任务重新定义为一个基于历史3D人体运动信息和当前3D场景结构信息的联合推理问题,从而有效地预测出既在自身动作上连贯流畅,又与周围环境相容的未来人体动作序列。
[0015]所述的场景点云中的人体行为预测方法,通过关键区域选取来减少场景点云数据的冗余:基于人体运动的连续性特点,未来一段时间中人体的运动范围通常会随着运动时间的延续而线性扩大;因此,将过去时间段内的人体在场景中运动范围作为锚点,根据未来所预测运动的时长与已知历史运动的时长的比值进行线性放缩,从而裁剪出场景中的关键区域。
[0016]所述的场景点云中的人体行为预测方法,构建包含自注意力和交叉注意力层的多重注意力建模机制的编码器,由于在人体骨架B和场景点云S各自内部与两者之间存在者三类不同的依赖关系,即人体运动特征、场景结构特征以及人景交互特征,这就要求所设计的编码器能够同时联合建模这三种不同的模式;具体而言,将人体骨架B和场景点云S分别输入两个独立的自注意力层;对于以处理场景点云的第l+1层的自注意力模型,用C
l
表示自注意力模型输入场景特征维度,故自注意力模型输入特征表示为将S
l
通过三个独立的多层感知机进行线性变换,分别得到场景点查询项场景点键值项和场景点值项在对场景结构的自注意力编码机制中,与的相似性作为对加权求和的系数:
[0017][0018]同时,通过多头注意力机制来一次性变换得到h个不同的将第k个自注意力头的场景结构特征输出表示为通过合并来自于h个自注意力头的输出来提高场景结构特征的表征能力:
[0019][0020]其中,为输出映射矩阵,在对于处理人体关节点的第l+1层自注意力模型,其输入特征为将B
l
通过三个独立的多层感知机进行线性变换,分别得到关节点查询项关节点键值项关节点值项与之间的相似性作为对加权求和的系数:
[0021][0022]将第k个自注意力头的人体动作特征输出表示为通过合并来自于h个自注意力头的输出来提高人体动作特征的表征能力:
[0023][0024]在经过第l+1层的场景点云和人体关节点的自注意力建模之后,场景结构特征由更新为人体运动特征由更新为C
l+1
表示输出时的特征维度;
[0025]与自注意力层不同的是,在交叉注意力层中,人体骨架数据则会被视为交叉注意力查询项用于度量每个身体关节点与场景点云间的交互关系因此,交叉注意力机制则被定义为:
[0026][0027][0028]其中:将第k个交叉注意力头的人景交互特征输出表示为通过合并来自于h个交叉注意力头的输出来提高人景交互特征I
l+1
的表征能力;
[0029]最后,将以上场景结构特征S
l+1
、人体运动特征B
l+1
、人景交互特征I
l+1
合并成多重
注意力编码并将其送入到由时序卷积网络组成的解码器中,以预测出自身运动合理,场景交互契合的人体未来运动姿态和轨迹。本专利技术与现有专利技术相比,具有一下优点:
[0030]传统的场景感知下的人体行为预测方法,使用基于RGB像素的图片或者视频作为场景信息的输入,由于此类输入受场景表观信息的影响较大,例如,即使在场景结构布局不变的情况下,场景中物体的颜色,纹理,形状等变化后,都会造成最终提取到的场景表征发生变化,因此,此类算法难以提取到鲁棒的场景信息。其次,场景信息对于人体行为预测而言的主要作用是将场景的几何结构布局作为轨迹先验信息用于约束所预测的未来人体动作,因此,相较于基于RGB图像的场景输入,本专利技术3D点云场景下的人体行为预测框架可以有效的感知场景结构信息。此外,本专利技术可以弥补现有方法在人体行为预测结果可解释性方面的不足,探索3D历史人体动作和3D场景结构是如何对未来人体动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场景点云中的人体行为预测方法,其特征在于:第一步,通过硬件三维扫描或软件三维重建的方式,将场景信息表示为三维点云数据人体运动信息表示为三维骨架序列其中N
s
为场景点云S中所含有的点的数量,N
b
为每个人体骨架中所含有的关节点数,T为动作序列中所含有的骨架帧数;第二步,由于人体运动不易受到距其较远场景物体的影响,因此,通过关键区域选取对场景点云S进行关键区域裁剪,从而降低冗余性;第三步,考虑到人体骨架B和场景点云S的二者内部、二者之间体现着不同性质的依赖关系,即人体骨架B内部所体现的动作特征,场景点云S内部的几何结构特征,以及人体骨架与场景点云之间存在的人景交互特征,因此,通过设计带有多重注意力建模机制的编码器,通过自注意力和交叉注意力两种机制来对以上不同的依赖关系联合建模,提取多重注意力特征;第四步,时序卷积网络组成的解码器将对提取到的多重注意力特征进行解码,最终输出所预测的未来人体的运动姿态和轨迹。2.根据权利要求1所述的场景点云中的人体行为预测方法,其特征在于:构建全新的基于3D点云的场景感知范式,通过三维扫描或三维重建,将场景感知的人体动作预测任务重新定义为一个基于历史3D人体运动信息和当前3D场景结构信息的联合推理问题,从而有效地预测出既在自身动作上连贯流畅,又与周围环境相容的未来人体动作序列。3.根据权利要求1所述的场景点云中的人体行为预测方法,其特征在于:通过关键区域选取来减少场景点云数据的冗余:基于人体运动的连续性特点,未来一段时间中人体的运动范围通常会随着运动时间的延续而线性扩大;因此,将过去时间段内的人体在场景中运动范围作为锚点,根据未来所预测运动的时长与已知历史运动的时长的比值进行线性放缩,从而裁剪出场景中的关键区域。4.根据权利要求1所述的场景点云中的人体行为预测方法,其特征在于:构建包含自注意力和交叉注意力层的多重注意力建模机制的编码器,由于在人体骨架B和场景点云S各自内部与两者之间存在者三类不同的依赖关系,即人体运动特征、场景结构特征...

【专利技术属性】
技术研发人员:杨旸高学浩李宗赟
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1