一种基于肢体层次结构的动作识别方法技术

技术编号：28839485 阅读：75 留言：0更新日期：2021-06-11 23:37

一种基于肢体层次结构的动作识别方法，包括以下步骤：1)将人体骨架分为三层，人体骨架分解成肢体，并使用RRV描述符描述了每个肢体；2)将肢体假设为刚体，然后逐层顺序地将所有肢体的RRV描述符进行连接，构建一个单向量作为人体动作的HRRV描述符；3)使用FV编码技术对HRRV描述符的统计特性进行编码，形成分层模型的动作表示；4)构建分层肢体学习框架，实现同一尺度下显著性肢体的挖掘和不同尺度下的特征融合，在处理复杂环境下人体动作识别任务中实现了较好的效果。本发明专利技术在仅使用人体骨架的单个特征模态时，就可实现卓越的性能；有效地降低了计算复杂度，并且对于多个关节上的遮挡和干扰具有一定的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于肢体层次结构的动作识别方法
本专利技术涉及到计算机视觉中动作识别任务，具体地涉及一种基于肢体层次结构的动作识别方法。
技术介绍
人体动作识别一直是计算机视觉，模式识别和机器人技术等各个领域活跃的研究领域。尽管在基于RGB视频的传统动作识别领域已有了较多的研究成果，但3D视觉信息(例如深度图和人体骨架)可以提供获取更好的人体动作特征，并且对光照变化和杂乱的背景具有更好的鲁棒性。然而，现有基于3D视觉信息的方法多使用单个3D视觉模态。在涉及视点变化、遮挡和噪声的情况下，这种基于单个3D视觉模态的动作识别系统无法获取较高的识别性能。虽然，一些现有方法可以通过融合异构多模态视觉数据(RGB视频，深度图视频，人体骨架序列)来克服上述局限性，但融合多模态特征会带来较高的的计算成本。根据使用的视觉特征，从3D视觉信息中识别现有动作的方法可以分为两类：基于深度图的方法和基于骨架的方法。在基于深度图的方法类别中，通常从深度图中提取动作特征，例如深度HoG、深度STIP和超法向矢量描述。虽然这些方法可以取得较好的识别性能，但与基于骨架的方法相比，它们对人体位置和外观的变化不具有鲁棒性。基于骨架的方法通常是是从组成人体骨架的3D关节位置提取时空几何特征。例如，一些方法通过计算当前帧的骨架的关节成对距离、当前帧的骨架与先前帧骨架之间的关节距离以及当前帧的骨架与特定参考骨架之间的关节距离。进一步，通过组合上述三种距离来表示人体姿势特征。为了获得更丰富的视觉特征，一些方法将基于骨架的特征和基于深度图的特征融合在一起，以形...

【技术保护点】
1.一种基于肢体层次结构的动作识别方法，其特征在于，所述方法包括以下步骤：/n1)建立肢体的层次结构：/n将人体骨架分为三层，人体骨架分解成肢体，并使用RRV描述符描述了每个肢体；/n2)构建HRRV描述符：/n将肢体假设为刚体，并且在刚体上附加一个局部三维坐标系来参数化其运动轨迹，然后使用RRV描述符对每个肢体进行运动表示，最后逐层顺序地将所有肢体的RRV描述符进行连接，构建一个单向量作为人体动作的HRRV描述符；/n3)计算分层动作表示：/n使用FV编码技术对HRRV描述符的统计特性进行编码，形成分层模型的动作表示，FV编码利用生成模型GMM拟合特征，然后对GMM模型的对数似然性相对于其模型参数的导数进行编码；/n4)构建多层次肢体学习框架，挖掘同尺度下的显著性肢体和融合不同尺度下的特征：/n通过在回归模型中构造混合范数正则化来实现同一尺度显著性肢体和不同尺度肢体的分组融合，在回归模型中，该混合范数同时在分层肢体特征相对应的权重中加入稀疏性和耦合效应。/n

【技术特征摘要】
1.一种基于肢体层次结构的动作识别方法，其特征在于，所述方法包括以下步骤：
1)建立肢体的层次结构：
将人体骨架分为三层，人体骨架分解成肢体，并使用RRV描述符描述了每个肢体；
2)构建HRRV描述符：
将肢体假设为刚体，并且在刚体上附加一个局部三维坐标系来参数化其运动轨迹，然后使用RRV描述符对每个肢体进行运动表示，最后逐层顺序地将所有肢体的RRV描述符进行连接，构建一个单向量作为人体动作的HRRV描述符；
3)计算分层动作表示：
使用FV编码技术对HRRV描述符的统计特性进行编码，形成分层模型的动作表示，FV编码利用生成模型GMM拟合特征，然后对GMM模型的对数似然性相对于其模型参数的导数进行编码；
4)构建多层次肢体学习框架，挖掘同尺度下的显著性肢体和融合不同尺度下的特征：
通过在回归模型中构造混合范数正则化来实现同一尺度显著性肢体和不同尺度肢体的分组融合，在回归模型中，该混合范数同时在分层肢体特征相对应的权重中加入稀疏性和耦合效应。

2.如权利要求1所述的一种基于肢体层次结构的动作识别方法，其特征在于，所述步骤1)中，设人体骨架为P，将其分为三个层次，即P＝{p1,...,pL}，此处L＝3，在每一层上，骨架可被分解为一组运动肢体pl，其中Kl＝|pl|是集合pl的基数，表示当前l层的肢体个数。

3.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法，其特征在于，所述步骤2)中，构建HRRV描述符的过程为：
首先，人体肢体被合理地假设为运动刚体，为了在三维空间参数化刚体的运动轨迹，在刚体上附加一个局部三维坐标系{B}，并将局部坐标系的原点定义为刚体上的运动参考点；令刚体的运动轨迹为m(t)＝[Γ(t),Θ(t)],t∈[1,...N]，其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量，其中Γ(t)＝[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量，Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量，由3×3的旋转矩阵R表示；
RRV描述符是一个由四元数和相对速度的组合向量，用于描述每个时刻肢体的旋转和平移：

其中四元数q(t)＝[qw(t),qx(t),qy(t),qz(t)]，表示肢体沿时间的旋转量，{R}vl(t)＝R(t)Rvg(t)表示局部相对速度，是通过将世界坐标系中肢体参考点的平方根速度矢量vg(t)投影到局部坐标系中相对速度矢量而获得的局部相对速度，其定义为
根据欧拉旋转定理，一组连续的旋转量等效于围绕某一单位矢量旋转一个角度β的单个旋转量，因此，四元数提供一种简单的方法来编码这种轴角表示方法：

这种四元数表示参数通过肢体的旋转矩阵来求解，给定旋转矩阵单位矢量w通过下面的公式计算：

其中和trace(R)是指矩阵R的对角元素总和，向量q，标量β和矩阵R都为时间序列，这里为了表示方便，只是忽略了变量t的标示；
最后，逐层地将所有肢体的RRV描述符进行连接，从而构建成一个向量，作为人体动作的HRRV描述符，如下所示：

4.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法，其特征在于，所述步骤3)中，构建分层动作表示的过程如下：
使用FisherVector(FV)技术对HRRV描述符的统计特性进行编码，形成一个有效的动作表示，FV编码利用生成模型GMM(高斯混合模型)拟合描述特征，此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示，令表示从动作序列中提取的N个局部特征...

【专利技术属性】
技术研发人员：邵展鹏，刘鹏，胡超群，周小龙，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人