基于关节点时空简单循环网络和注意力机制的动作分类方法技术

技术编号:20426233 阅读:16 留言:0更新日期:2019-02-23 08:51
本发明专利技术涉及一种基于关节点时空简单循环网络和注意力机制的动作分类方法。首先,将普通的SRU模型进行空间维度扩展,设计了一种同时在时间和空间两个维度上进行迭代计算的ST‑SRU模型。然后,在所提ST‑SRU模型基础上,引入全局上下文注意力机制,提出了GCA‑ST‑SRU方法。最后,将所提方法用于人体行为识别,先用深度网络提取人体关节点的特征,再采用GCA‑ST‑SRU方法对提取的特征进行识别。本发明专利技术方法能够降低训练耗时和提升分类准确率,具有明显的效率优势。本发明专利技术方法快速地推断速度有利于实时动作识别系统的设计,适合运行在计算能力有限的平台上,在计算机视觉、智能监控、人机交互等领域具有广阔的应用前景。

【技术实现步骤摘要】
基于关节点时空简单循环网络和注意力机制的动作分类方法
本专利技术属于模式识别领域,是一种利用时空简单循环网络对用关节点表示的动作进行建模、并结合注意力机制的优势进行动作分类的方法。
技术介绍
动作识别广泛应用在智能视频监控、人机交互、医疗辅助、异常行为检测等领域。动作识别是指对一段视频中的人物的行为进行分类,一段视频可以分解为连续的多张图片,所以动作识别也可以看作是对图片序列进行分类的问题。近年来动作识别的一个热门研究方向是,通过深度相机等传感器捕获人在做动作时身体关节点的三维空间坐标,然后对人体关节点坐标序列分类,人体关节点坐标不受画面中人物的复杂背景环境等噪声的影响,提供了在一个动作中身体运动的高层次信息,基于人体关节点坐标的行为识别取得了很好的成果。随着深度学习的发展,涌现了很多基于循环网络和人体关节点的行为动作识别研究,包括长短期记忆网络(LSTM)、门控循环单元(GRU)、简单循环单元(SRU)、时空长短期记忆网络(ST-LSTM)和全局上下文注意力长短期记忆网络(GCA-LSTM)。Zhu和Lan等人认为人在做动作时,一些关节点之间存在固有的共现性,即同时有多个关节点对判断动作的类别起到了关键作用,这些有共现性的关节点构成了一个集合,不同的行为动作有不同的关节点集合,采用叠加的LSTM学习关节点之间的共现性特征,实现了对行为动作的分类。FabianBaradel等人同时用到了RGB图像数据和人体关节点数据,从每一帧图像中截取手部区域的子图片,然后用卷积神经网络提取特征,再输入到GRU对该特征序列进行分类,最后引入了注意力机制,从手部关节点的运动中计算关节点的速度和加速度,从中学习到注意力权重赋给GRU的输入;从人体全部关节点运动的速度和加速度中得到注意力权重赋给GRU的输出。由于普通的LSTM和GRU模型一般用于处理时间序列数据,而忽略了关节点之间的空间关系。ST-LSTM是一种对LSTM的空间维度扩展,认为人体关节点之间存在空间依赖,ST-LSTM将行为识别问题处理为有时空维度的二维序列分类问题,实验结果显示ST-LSTM在多个行为识别数据集上取得了很好的准确率。Liu和Wang等人认为不同的关节点对动作识别提供的信息重要程度时不同的,在ST-LSTM的基础上引入了注意力机制,提出了GCA-LSTM方法,进一步提高了ST-LSTM的分类准确率,在五个流行的基于骨骼关节点的动作识别数据集上取得了目前最好的性能。Zheng和An等人是较早将SRU用于动作识别的研究,先用卷积神经网络对图片序列中的每张图片提取特征,然后用SRU对提取出的特征序列进行分类,和传统的CNN-RNN模型相比有更低的复杂度和更高的效率,在两个公开动作识别数据集上取得了目前最好的结果。以上方法都很好的利用了各种循环网络模型进行基于人体关节点的行为识别的研究,但是基于LSTM、GRU的方法在处理人体关节点序列时,存在大量依赖于时序的计算,这些计算不能独立完成。例如LSTM、GRU在计算当前时间步的隐含状态时,由于存在依赖,必须先计算出上一个时间步的隐含状态,这限制了序列处理的速度,随着LSTM模型的规模和超参数数量的增加,训练时间也越来越长,对参数的调整也将花费更多的时间。
技术实现思路
针对上述问题,本专利技术提出了一种基于时空维度和注意力机制的GCA-ST-SRU方法,并应用于人体行为识别。本专利技术首先,将普通的SRU模型进行空间维度扩展,设计了一种同时在时间和空间两个维度上进行迭代计算的ST-SRU模型,相比ST-LSTM大幅减少了训练时间。然后,在所提ST-SRU模型基础上,引入全局上下文注意力机制,提出了GCA-ST-SRU方法。最后,将所提方法用于人体行为识别,先用深度网络提取人体关节点的特征,再采用GCA-ST-SRU方法对提取的特征进行识别。为了实现以上目的,本专利技术方法主要包括以下步骤:步骤(1)设有连续的T帧图像表示了一个动作,每帧图像对应J个关节点的三维坐标。将同一帧的不同关节点的坐标输入到特征提取层中,通过深度神经网络寻找关节点之间的关系,输出J个提取后的特征信息。对T帧的关节点坐标做同样的操作。步骤(2)将特征提取层的输出作为第一层ST-SRU的输入,然后第一层ST-SRU的输出作为第二层ST-SRU的输入。ST-SRU单元在时间和空间两个方向上迭代,计算状态信息。步骤(3)引入注意力机制,全局上下文记忆单元将控制第一层ST-SRU到第二层ST-SRU的信息流入,加大重要关节点所占信息的比重,同时减少不重要关节点所占信息的比重,从而进一步提高行为分类的准确率。本专利技术与已有的基于人体关节点的动作分类方法相比,具有如下特点:1、采用时空简单循环网络对基于人体关节点的动作进行特征分类很多的循环网络模型都被应用于基于人体关节的动作分类中,都取得了一定的研究成果,其中包括:LSTM、GRU、ST-LSTM以及GCA-LSTM。但是这些方法由于存在计算上的顺序依赖,无法并行化计算,导致训练时间较长,这不利于超参数调整。同样,缓慢的推断速度也不利于实时行为识别系统的设计。本专利技术提出了ST-SRU方法,克服了已有方法计算速度慢的问题,并进一步引入全局上下文注意力模型,提出了GCA-ST-SRU,使得行为分类的准确率得以提升,所以本专利技术在提升模型计算速度的同时也提升了分类准确率。2、使用深度学习方法从关节点坐标中提取特征本专利技术提出的ST-SRU在时间和空间两个维度上迭代计算,每个时空步输入的原始数据是一个关节点的三维坐标,表示动作的关节点数据在时间维度按时间顺序排列,在空间维度上需要设计一种特征提取方法,从同一视频帧的不同关节点坐标上提取特征。与已有的手工设计特征的方法相比,本专利技术采用了深度学习方法挖掘关节点之间的空间关系,能够自动提取特征,可以提高行为分类的准确率。附图说明图1为本专利技术的实施流程图。具体实施方式下面结合附图详细描述本专利技术基于关节点时空简单循环网络和注意力机制的动作分类方法,图1为实施流程图。如图1,本专利技术方法的实施主要包括三个步骤:(1)用深度学习方法从表示动作的关节点数据中提取特征;(2)将步骤(1)中提取的特征输入到两层ST-SRU模型中进行计算;(3)将步骤(2)中ST-SRU的输出用来更新全局上下文记忆单元的状态,对步骤(2)中第二层的ST-SRU的信息量流入起到门控作用,当注意力模型迭代更新过程结束,得到最后的分类结果。下面逐一对各步骤进行详细说明。步骤一:用深度学习方法从关节点数据中提取特征将第k时刻的J个关节点的三维坐标x1,k,x2,k,...,xJ,k通过下面的公式转换为特征I1,k,I2,k,...,IJ,k:其中WU1、WU2和WU3是深度神经网络的全连接层的权重矩阵。当对双人交互动作进行识别时,输入的是两个人的骨架数据除了找出单个人的关节点之间的关系,还需要找出两个人的关节点之间的关系,则用下面的公式进行特征提取:步骤二:在时空方向上迭代计算ST-SRU的隐含状态用j=1,2,...,J,t=1,2,...,T表示关节点和图像帧的下标,时空简单循环单元(Spatio-TemporalSimpleRecurrentUnit,ST-SRU)的隐含状态包含内部状态cj,t和输出状态本文档来自技高网
...

【技术保护点】
1.基于关节点时空简单循环网络和注意力机制的动作分类方法,其特征在于该方法包括以下主要步骤:步骤(1):用深度学习方法从关节点数据中提取特征将第k时刻的J个关节点的三维坐标x1,k,x2,k,...,xJ,k通过下面的公式转换为特征I1,k,I2,k,...,IJ,k:

【技术特征摘要】
1.基于关节点时空简单循环网络和注意力机制的动作分类方法,其特征在于该方法包括以下主要步骤:步骤(1):用深度学习方法从关节点数据中提取特征将第k时刻的J个关节点的三维坐标x1,k,x2,k,...,xJ,k通过下面的公式转换为特征I1,k,I2,k,...,IJ,k:其中,WU1、WU2和WU3是深度神经网络的全连接层的权重矩阵,ReLu是激活函数;步骤(2):在时空方向上迭代计算时空简单循环单元的隐含状态用j=1,2,...,J,t=1,2,...,T表示关节点和图像帧的下标,时空简单循环单元的隐含状态包含内部状态cj,t和输出状态hj,t,其中内部状态cj,t的计算有三个输入:分别是第t帧图像中对应的第j个关节点的特征xj,t、同一个关节点在上一帧的内部状态cj,t-1以及前一个关节点在当前帧的内部状态cj-1,t;时空简单循环单元从j=1,t=1时开始计算内部状态cj,t,直到j=J,t=T时停止,迭代计算出所有的内部状态cj,t和输出状态hj,t,计算公式如下:rj,t=sigmoid(Wrxj,t+br)(9)hj,t=rj,t⊙tanh(cj,t)+(1-rj,t)⊙xj,t(11)其中,时空简单循环单元拥有两个不同的遗忘门对应两个不同维度的历史信息:对应空间维度,对应时间维度;rj,t是重置门,用于调整输出状态;sigmoid和tanh是激活函数,⊙表示矩阵点乘;最后,将两个时空简单循环单元叠加起来,即对于j=1,2,...,J,t=1,2,...,T,将第一层时空简单循环单元的输出状态hj,t作为第二层时空简单循环单元的输入xj,t,...

【专利技术属性】
技术研发人员:佘青山穆高原
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1