一种基于全局时空注意力模型的动作识别方法技术

技术编号:19389121 阅读:62 留言:0更新日期:2018-11-10 02:06
本发明专利技术公开了一种基于全局时空注意力模型的动作识别方法,属于动作识别领域;首先,构建全局时空注意力模型,所述全局时空注意力模型包括依次连接的全局空间注意力模型、累加式曲线模型ALC和分类层;再利用人体动作序列对所述全局时空注意力模型依次进行训练、验证和测试;当测试效果最佳的模型精度达到设定的阈值,则完成训练并将测试效果最佳的模型作为最终模型,否则继续进行训练;最后将待检测人体动作序列输入所述最终模型进行动作识别,得出识别结果;将全局空间注意力模型、全局时间注意力模型和主干网融为一体,结构更加简单、训练更加容易、收敛速度更快,直接采用end to end的训练方式即可,无需任何额外的步骤。

An action recognition method based on global spatio-temporal attention model

The invention discloses an action recognition method based on global spatiotemporal attention model, which belongs to the field of action recognition. Firstly, a global spatiotemporal attention model is constructed. The global spatiotemporal attention model includes the sequentially connected global spatial attention model, the accumulative curve model ALC and the classification layer, and then human action is utilized. The global spatiotemporal attention model is trained, validated and tested sequentially. When the accuracy of the model with the best test effect reaches the set threshold, the training is completed and the model with the best test effect is taken as the final model, otherwise the training is continued. Finally, the human action sequence to be detected is input into the final model. Action recognition is carried out to get the recognition results. The global spatial attention model, global temporal attention model and backbone network are integrated, which makes the structure simpler, training easier and convergence faster. The end-to-end training method can be directly adopted without any additional steps.

【技术实现步骤摘要】
一种基于全局时空注意力模型的动作识别方法
本专利技术涉及动作识别领域,具体涉及一种基于全局时空注意力模型的动作识别方法。
技术介绍
随着人工智能的快速发展,基于深度学习的动作识别获得了越来越多研究群体的关注。其中,注意力模型能有效提升动作识别的精度,获得了广泛的应用。目前,在动作识别领域,主要有两类注意力模型:一类是时间注意力模型,它的主要作用是标识出动作序列中哪些帧在识别中具有更重要的作用,哪些帧的作用相对较小;另一类是空间注意力模型,它主要是标识出人体哪些关节点在识别动作中具有更加重要的作用,哪些关节点具有的作用相对较小。同时,按采用信息的不同,注意力模型还可分为:局部注意力模型和全局注意力模型。所谓局部注意力模型是指以局部的两帧或多帧序列来构建注意力。与之相对的是全局注意力模型,以整个动作序列为基础来构建注意力。目前在动作识别领域中,常用的是局部注意力模型,该类模型主要存在以下问题:其本质上是利用动作序列的前后两帧或多帧之间的差异来实现注意力,对动作序列来说,只有全部看完整个序列后才能准确的给出每帧动作的重要性、每个关节点的重要性,局部注意力模型无法给出准确的注意力权重;用于动作识别的局部时空注意力模型(包括局部空间注意力模型和局部时间注意力模型)由主干网、空间注意力和时间注意力3部分构成,结构复杂,训练过程繁琐,导致识别效果一般较差。
技术实现思路
本专利技术的目的在于:提供一种基于全局时空注意力模型的动作识别方法,解决了目前利用局部时空注意力模型进行动作识别,模型结构复杂、训练过程繁琐、识别效果差的技术问题。本专利技术采用的技术方案如下:一种基于全局时空注意力模型的动作识别方法,包括以下步骤:步骤1:构建全局时空注意力模型,所述全局时空注意力模型包括依次连接的全局空间注意力模型、累加式曲线模型ALC和分类层;步骤2:利用人体动作序列对所述全局时空注意力模型依次进行训练、验证和测试;步骤3:当测试效果最佳的模型精度达到预设的阈值时,则完成训练并将测试效果最佳的模型作为最终模型,否则继续进行训练;步骤4:将待检测人体动作序列输入所述最终模型进行动作识别,得出识别结果。进一步的,所述步骤1中全局时空注意力模型的构建方法如下:步骤11:构建全局空间注意力模型,用于输入人体动作序列X,输出人体动作序列X的空间注意力权重a,a=(a1,...,ai,...,aK)=f(X),人体动作序列X表示为:X={Xt=(Xt,1,...,Xt,i...,Xt,K)|t=1,...,n},其中,t表示人体动作序列中动作的时刻,n表示人体动作序列的长度,K表示人体关节点的个数,i表示人体关节点的序号;步骤12:构建累加式曲线模型ALC,用于输入利用空间注意力权重a进行权重分配后的人体动作序列X′,输出人体动作序列具有时间注意力权重βt的特征ot,步骤13:构建分类层,用于输入特征ot,输出人体动作序列X分类结果。进一步的,所述步骤11中,全局空间注意力模型包括依次连接的LSTM层、全连接层、ReLU层和Normalize层;LSTM层:用于提取所述人体动作序列X中每一动作的特征;全连接层:用于对输入该层的特征进行降维;ReLU层:用于增强全局空间注意力模型的非线性化;Normalize层:用于规格化数据。进一步的,所述步骤12中,累加式曲线模型ALC包括依次连接的三层LSTM层和权重层,三层LSTM层:用于对X′进行动作特征提取,得到提取的特征ht;权重层:用于对所述特征ht赋予权重βt,得到结果ot,ot=βtht。进一步的,所述分类层包括全连接层和Softmax分类层。进一步的,所述步骤2中,训练、验证和测试的具体步骤如下:步骤21:将由人体关节点数据形成的人体动作序列分为训练集、验证集和测试集;步骤22:将所述训练集中的人体动作序列输入全局时空注意力模型中进行训练,得到H个模型;步骤23:将所述验证集输入所述H个模型进行测试,将准确率排名前Q的模型作为测试模型;步骤24:将所述测试集中的测试数据输入所述测试模型,得到测试效果,若测试效果最佳的测试模型精度达到阈值,则完成训练得到最终模型并跳转至步骤25;否则跳转至步骤22;步骤25:将待识别动作序列输入所述最终模型,得到识别结果。进一步的,所述步骤22中,对所述利用全局时空注意力模型进行训练时,采用二阶正则化策略来缓解过拟合,其中,带有二阶正则化的损失函数为:其中,yi表示所述人体动作序列的真实动作类型,C表示动作的类别数量;表示全局时空注意力模型预测出的动作类型,i表示人体关节点的序号,表示全局空间注意力模型参数的二阶正则化,表示累加式曲线模型ALC参数的二阶正则化,λ1和λ2均表示平衡因子。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1.利用整个序列来决定空间注意力和时间注意力的权重,使得注意力的权重更加准确,也更符合人类的认知。2.将全局空间注意力模型、全局时间注意力模型和主干网融为一体,结构更加简单、训练更加容易、收敛速度也更快,直接采用endtoend的训练方式即可,无需任何额外的步骤。3.整体计算量更小,稳定性好,识别精度的更高,在多个主流的数据集上进行了测试,在单流架构下,实现了目前最好的识别效果,具体为:在目前最大的RGB-D动作数据集NTURGB+D上,仅仅使用LSTM架构的识别率为66.8%,采用局部时空注意力的识别率是73%,本专利技术的识别率达到80%。附图说明本专利技术将通过例子并参照附图的方式说明,其中:图1是本专利技术的整体流程图;图2是本专利技术中全局时空注意力模型的整体架构图。具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。下面结合图1、图2对本专利技术作详细说明。一种基于全局时空注意力模型的动作识别方法,包括以下步骤:步骤1:构建全局时空注意力模型,所述全局时空注意力模型包括依次连接的全局空间注意力模型、累加式曲线模型ALC和分类层;步骤2:利用人体动作序列对所述全局时空注意力模型依次进行训练、验证和测试;步骤3:当测试效果最佳的模型精度达到设定的阈值,则完成训练并将测试效果最佳的模型作为最终模型,否则继续进行训练;步骤4:将待检测人体动作序列输入所述最终模型进行动作识别,得出识别结果。进一步的,所述步骤1中全局时空注意力模型的构建方法如下:步骤11:构建全局空间注意力模型,用于输入人体动作序列X,输出人体动作序列X的空间注意力权重a,a=(a1,...,ai,...,aK)=f(X),人体动作序列X表示为:X={Xt=(Xt,1,...,Xt,i...,Xt,K)|t=1,...,n},其中,t表示人体动作序列中动作的时刻,n表示人体动作序列的长度,K表示人体关节点的个数,i表示人体关节点的序号;步骤12:构建累加式曲线模型ALC,用于输入利用空间注意力权重a进行权重分配后的人体动作序列X′,输出人体动作序列具有时间注意力权重βt的特征ot,步骤13:构建分类层,用于输入特征ot,输出人体动作序列X分类结果。进一步的,所述步骤11中,全局空间注意力模型包括依次连接的LSTM层、全连接层、ReLU层和Normalize层;LSTM层:用于提取所述人体动作序列X中本文档来自技高网...

【技术保护点】
1.一种基于全局时空注意力模型的动作识别方法,其特征在于:包括以下步骤:步骤1:构建全局时空注意力模型,所述全局时空注意力模型包括依次连接的全局空间注意力模型、累加式曲线模型ALC和分类层;步骤2:利用人体动作序列对所述全局时空注意力模型依次进行训练、验证和测试;步骤3:当测试效果最佳的模型精度达到设定的阈值,则完成训练并将测试效果最佳的模型作为最终模型,否则继续进行训练;步骤4:将待检测人体动作序列输入所述最终模型进行动作识别,得出动作序列的识别结果。

【技术特征摘要】
1.一种基于全局时空注意力模型的动作识别方法,其特征在于:包括以下步骤:步骤1:构建全局时空注意力模型,所述全局时空注意力模型包括依次连接的全局空间注意力模型、累加式曲线模型ALC和分类层;步骤2:利用人体动作序列对所述全局时空注意力模型依次进行训练、验证和测试;步骤3:当测试效果最佳的模型精度达到设定的阈值,则完成训练并将测试效果最佳的模型作为最终模型,否则继续进行训练;步骤4:将待检测人体动作序列输入所述最终模型进行动作识别,得出动作序列的识别结果。2.根据权利要求1所述的一种基于全局时空注意力模型的动作识别方法,其特征在于:所述步骤1中全局时空注意力模型的构建方法如下:步骤11:构建全局空间注意力模型,用于输入人体动作序列X,输出人体动作序列X的空间注意力权重a,a=(a1,...,ai,...,aK)=f(X),人体动作序列X表示为:X={Xt=(Xt,1,...,Xt,i...,Xt,K)|t=1,...,n},其中,t表示人体动作序列中动作的时刻,n表示人体动作序列的长度,K表示人体关节点的个数,i表示人体关节点的序号;步骤12:构建累加式曲线模型ALC,用于输入利用空间注意力权重a进行权重分配后的人体动作序列X′,输出人体动作序列具有时间注意力权重βt的特征ot,步骤13:构建分类层,用于输入特征ot,输出人体动作序列X的分类结果。3.根据权利要求2所述的一种基于全局时空注意力模型的动作识别方法,其特征在于:所述步骤11中,全局空间注意力模型包括依次连接的LSTM层、全连接层、ReLU层和Normalize层;LSTM层:用于提取所述人体动作序列X中每一动作的特征;全连接层:用于对输入该层的特征进行降维;ReLU层:用于增强全局空间注意力模型的非...

【专利技术属性】
技术研发人员:韩云吕小英
申请(专利权)人:内江师范学院
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1