一种基于肢体层次结构的动作识别方法技术

技术编号:28839485 阅读:75 留言:0更新日期:2021-06-11 23:37
一种基于肢体层次结构的动作识别方法,包括以下步骤:1)将人体骨架分为三层,人体骨架分解成肢体,并使用RRV描述符描述了每个肢体;2)将肢体假设为刚体,然后逐层顺序地将所有肢体的RRV描述符进行连接,构建一个单向量作为人体动作的HRRV描述符;3)使用FV编码技术对HRRV描述符的统计特性进行编码,形成分层模型的动作表示;4)构建分层肢体学习框架,实现同一尺度下显著性肢体的挖掘和不同尺度下的特征融合,在处理复杂环境下人体动作识别任务中实现了较好的效果。本发明专利技术在仅使用人体骨架的单个特征模态时,就可实现卓越的性能;有效地降低了计算复杂度,并且对于多个关节上的遮挡和干扰具有一定的鲁棒性。

【技术实现步骤摘要】
一种基于肢体层次结构的动作识别方法
本专利技术涉及到计算机视觉中动作识别任务,具体地涉及一种基于肢体层次结构的动作识别方法。
技术介绍
人体动作识别一直是计算机视觉,模式识别和机器人技术等各个领域活跃的研究领域。尽管在基于RGB视频的传统动作识别领域已有了较多的研究成果,但3D视觉信息(例如深度图和人体骨架)可以提供获取更好的人体动作特征,并且对光照变化和杂乱的背景具有更好的鲁棒性。然而,现有基于3D视觉信息的方法多使用单个3D视觉模态。在涉及视点变化、遮挡和噪声的情况下,这种基于单个3D视觉模态的动作识别系统无法获取较高的识别性能。虽然,一些现有方法可以通过融合异构多模态视觉数据(RGB视频,深度图视频,人体骨架序列)来克服上述局限性,但融合多模态特征会带来较高的的计算成本。根据使用的视觉特征,从3D视觉信息中识别现有动作的方法可以分为两类:基于深度图的方法和基于骨架的方法。在基于深度图的方法类别中,通常从深度图中提取动作特征,例如深度HoG、深度STIP和超法向矢量描述。虽然这些方法可以取得较好的识别性能,但与基于骨架的方法相比,它们对人体位置和外观的变化不具有鲁棒性。基于骨架的方法通常是是从组成人体骨架的3D关节位置提取时空几何特征。例如,一些方法通过计算当前帧的骨架的关节成对距离、当前帧的骨架与先前帧骨架之间的关节距离以及当前帧的骨架与特定参考骨架之间的关节距离。进一步,通过组合上述三种距离来表示人体姿势特征。为了获得更丰富的视觉特征,一些方法将基于骨架的特征和基于深度图的特征融合在一起,以形成更加丰富的人体动作特征表示。例如将关节的成对位置和深度LOP描述组合一起形成一种有效的动作特征表示。还有通过多核学习MKL框架同时地挖掘不同模态特征之间的共享特征分量与各个模态特征内在的特定分量,其中多模态特征分别是从人体骨架关节,深度图和RGB序列中提取的异构特征。但是,这些基于多模态特征的融合方法带来了较高的计算成本,不利于动作识别的实时性要求。近年来,很多基于深度学习模型(例如3DCNN和时空LSTM)的方法取得了较高的动作识别准确性。然而,基于深度学习模型的动作识别方法具有一定的局限性。首先,深度模型具有大量的参数,在较小规模的动作识别数据上易于过拟合。其次,大多数用于动作识别的深度学习模型都具有复杂的拓扑结构设计,因此模型并不容易训练。而且,这些深度模型同样不能很好地推广到具有较小规模的动作数据场景。
技术实现思路
为了解决上述动作识别的技术问题,本专利技术提出了一种基于肢体层次结构的动作识别方法,该方法将人体动作视为在人体骨架的多个肢体上的一组并发运动,其中肢体被定义为人体骨架的相邻关节之间的连接部件。基于此,将人体骨架分解为不同尺度的肢体,其中在更小尺度上,人体骨架可被分解为更多的运动肢体。为了表示肢体的这种层次结构,该方法相应的构建了分层旋转和相对速度(HRRV)描述符,并提出一种分层肢体学习框架,以实现同一尺度下显著性肢体的挖掘和不同尺度下的特征融合,在处理复杂环境下人体动作识别任务中实现了较好的效果。本专利技术解决其技术问题所采用的技术方案是:一种基于肢体层次结构的动作识别方法,所述方法包括以下步骤:1)建立肢体的层次结构:将人体骨架分为三层,人体骨架分解成肢体,并使用RRV描述符描述了每个肢体;2)构建HRRV描述符:将肢体假设为刚体,并且在刚体上附加一个局部三维坐标系来参数化其运动轨迹,然后使用RRV描述符对每个肢体进行运动表示,最后逐层顺序地将所有肢体的RRV描述符进行连接,构建一个单向量作为人体动作的HRRV描述符;3)计算分层动作表示:使用FV编码技术对HRRV描述符的统计特性进行编码,形成分层模型的动作表示,FV编码利用生成模型GMM拟合特征,然后对GMM模型的对数似然性相对于其模型参数的导数进行编码;4)构建多层次肢体学习框架,挖掘同尺度下的显著性肢体和融合不同尺度下的特征:通过在回归模型中构造混合范数正则化来实现同一尺度显著性肢体和不同尺度肢体的分组融合,在回归模型中,该混合范数同时在分层肢体特征相对应的权重中加入稀疏性和耦合效应。进一步,所述步骤1)中,人体骨架可以分解为许多肢体,人体动作则可以视为这些肢体关节运动的组合,不同动作的主要区分在于肢体运动不同,所以该方法提出了肢体的层次结构,并使用RRV描述符描述了每个肢体。该方法将人体骨架在三个层次上分解为不同尺度的肢体,其中在更高层上,人体骨架可以以更小的尺度被分解得到更多的肢体。设人体骨架为P,本专利技术将其分为三个层次,即P={p1,...,pL},,此处L=3。在每一层上,骨架可被分解为一组运动肢体pl,其中Kl=|pl|是集合pl的基数,表示当前l层的肢体个数。再进一步,所述步骤2)中,构建HRRV描述符的过程为:首先,人体肢体被合理地假设为运动刚体。为了在三维空间参数化刚体的运动轨迹,在刚体上附加一个局部三维坐标系{B},并将局部坐标系的原点定义为刚体上的运动参考点;令刚体的运动轨迹为m(t)=[Γ(t),Θ(t)],t∈[1,...N],其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量。更具体地说,其中Γ(t)=[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量,Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量,通常由3×3的旋转矩阵R表示;RRV描述符是一个由四元数和相对速度的组合向量,用于描述每个时刻肢体的旋转和平移:其中四元数q(t)=[qw(t),qx(t),qy(t),qz(t)],表示肢体沿时间的旋转量。{R}vl(t)=R(t)Rvg(t)表示局部相对速度,是通过将世界坐标系中肢体参考点的平方根速度矢量vg(t)投影到局部坐标系中相对速度矢量而获得的局部相对速度,其定义为根据欧拉旋转定理,一组连续的旋转量等效于围绕某一单位矢量旋转一个角度β的单个旋转量,因此,四元数提供一种简单的方法来编码这种轴角表示方法:这种四元数表示参数通过肢体的旋转矩阵来求解,给定旋转矩阵单位矢量w通过下面的公式计算:其中和trace(R)是指矩阵R的对角元素总和,向量q,标量β和矩阵R都为时间序列,这里为了表示方便,只是忽略了变量t的标示;最后,逐层地将所有肢体的RRV描述符进行连接,从而构建成一个向量,作为人体动作的HRRV描述符,如下所示:所述步骤3)中,构建分层动作表示的过程如下:使用FisherVector(FV)技术对HRRV描述符的统计特性进行编码,形成一个有效的动作表示,FV编码利用生成模型GMM(高斯混合模型)拟合描述特征,此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示,令表示从动作序列中提取的N个局部特征描述符,基于以上FV编码,此动作被表示为:其中θ={πk,μk,δk,k=1,...,K}表本文档来自技高网
...

【技术保护点】
1.一种基于肢体层次结构的动作识别方法,其特征在于,所述方法包括以下步骤:/n1)建立肢体的层次结构:/n将人体骨架分为三层,人体骨架分解成肢体,并使用RRV描述符描述了每个肢体;/n2)构建HRRV描述符:/n将肢体假设为刚体,并且在刚体上附加一个局部三维坐标系来参数化其运动轨迹,然后使用RRV描述符对每个肢体进行运动表示,最后逐层顺序地将所有肢体的RRV描述符进行连接,构建一个单向量作为人体动作的HRRV描述符;/n3)计算分层动作表示:/n使用FV编码技术对HRRV描述符的统计特性进行编码,形成分层模型的动作表示,FV编码利用生成模型GMM拟合特征,然后对GMM模型的对数似然性相对于其模型参数的导数进行编码;/n4)构建多层次肢体学习框架,挖掘同尺度下的显著性肢体和融合不同尺度下的特征:/n通过在回归模型中构造混合范数正则化来实现同一尺度显著性肢体和不同尺度肢体的分组融合,在回归模型中,该混合范数同时在分层肢体特征相对应的权重中加入稀疏性和耦合效应。/n

【技术特征摘要】
1.一种基于肢体层次结构的动作识别方法,其特征在于,所述方法包括以下步骤:
1)建立肢体的层次结构:
将人体骨架分为三层,人体骨架分解成肢体,并使用RRV描述符描述了每个肢体;
2)构建HRRV描述符:
将肢体假设为刚体,并且在刚体上附加一个局部三维坐标系来参数化其运动轨迹,然后使用RRV描述符对每个肢体进行运动表示,最后逐层顺序地将所有肢体的RRV描述符进行连接,构建一个单向量作为人体动作的HRRV描述符;
3)计算分层动作表示:
使用FV编码技术对HRRV描述符的统计特性进行编码,形成分层模型的动作表示,FV编码利用生成模型GMM拟合特征,然后对GMM模型的对数似然性相对于其模型参数的导数进行编码;
4)构建多层次肢体学习框架,挖掘同尺度下的显著性肢体和融合不同尺度下的特征:
通过在回归模型中构造混合范数正则化来实现同一尺度显著性肢体和不同尺度肢体的分组融合,在回归模型中,该混合范数同时在分层肢体特征相对应的权重中加入稀疏性和耦合效应。


2.如权利要求1所述的一种基于肢体层次结构的动作识别方法,其特征在于,所述步骤1)中,设人体骨架为P,将其分为三个层次,即P={p1,...,pL},此处L=3,在每一层上,骨架可被分解为一组运动肢体pl,其中Kl=|pl|是集合pl的基数,表示当前l层的肢体个数。


3.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法,其特征在于,所述步骤2)中,构建HRRV描述符的过程为:
首先,人体肢体被合理地假设为运动刚体,为了在三维空间参数化刚体的运动轨迹,在刚体上附加一个局部三维坐标系{B},并将局部坐标系的原点定义为刚体上的运动参考点;令刚体的运动轨迹为m(t)=[Γ(t),Θ(t)],t∈[1,...N],其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量,其中Γ(t)=[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量,Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量,由3×3的旋转矩阵R表示;
RRV描述符是一个由四元数和相对速度的组合向量,用于描述每个时刻肢体的旋转和平移:



其中四元数q(t)=[qw(t),qx(t),qy(t),qz(t)],表示肢体沿时间的旋转量,{R}vl(t)=R(t)Rvg(t)表示局部相对速度,是通过将世界坐标系中肢体参考点的平方根速度矢量vg(t)投影到局部坐标系中相对速度矢量而获得的局部相对速度,其定义为
根据欧拉旋转定理,一组连续的旋转量等效于围绕某一单位矢量旋转一个角度β的单个旋转量,因此,四元数提供一种简单的方法来编码这种轴角表示方法:



这种四元数表示参数通过肢体的旋转矩阵来求解,给定旋转矩阵单位矢量w通过下面的公式计算:



其中和trace(R)是指矩阵R的对角元素总和,向量q,标量β和矩阵R都为时间序列,这里为了表示方便,只是忽略了变量t的标示;
最后,逐层地将所有肢体的RRV描述符进行连接,从而构建成一个向量,作为人体动作的HRRV描述符,如下所示:





4.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法,其特征在于,所述步骤3)中,构建分层动作表示的过程如下:
使用FisherVector(FV)技术对HRRV描述符的统计特性进行编码,形成一个有效的动作表示,FV编码利用生成模型GMM(高斯混合模型)拟合描述特征,此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示,令表示从动作序列中提取的N个局部特征...

【专利技术属性】
技术研发人员:邵展鹏刘鹏胡超群周小龙
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1