【技术实现步骤摘要】
基于注意力机制的多流分段网络人体动作识别方法及系统
本专利技术涉及图像处理领域,具体涉及人体动作识别的分析研究,更具体地涉及一种基于注意力机制的多流分段网络的人体动作识别方法及系统。
技术介绍
随着人工智能领域的快速发展,极大地方便了人们的日常生活。计算机视觉作为其中重要的部分在交通、医疗、支付等领域有着更富创造性发展。传统的动作识别方法是将视频或者图片处理后,输入简单卷积网络进行特征的提取,再进行分类。传统方法在处理的角度上通常是二维的,处理的多为静态的特征信息,这使得特征提取不够精准,没有更好的利用视频的动态特征,导致识别准确率很低。而一些深度学习的方法如GoogLeNet(GoogleInceptionNet)和VGGNet,作为CNN卷积网络的进化,在使用中也存在着一定的问题。对于VGGNet来说,其使用的参数数量太多,若训练数据集有限,容易过拟合,且网络越大其计算复杂度越大,网络越深其梯度越往后传越容易消失,难以优化模型及应用。对于GoogLeNet来说,虽然在不同深度处增加了两个损失函数来保证梯度回传消失的现象, ...
【技术保护点】
1.一种基于注意力机制的多流分段网络人体动作识别方法,其特征在于,包括以下步骤:/nS1.将输入的长视频分割为多段,对每段进行采样得到一个片段,每个片段包含一帧RGB图像和两个光流特征图;/nS2.将S1中每个片段的RGB图像输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,并进行特征提取,得到空间流上的特征片段序列;/nS3.将S1中每个片段的光流特征图输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,并进行特征提取,得到时间流上的特征片段序列;/nS4.将S1中每个片段的RGB图像输入基于OpenPose的关节点估计网络,采用部分亲和力场,对每个 ...
【技术特征摘要】
1.一种基于注意力机制的多流分段网络人体动作识别方法,其特征在于,包括以下步骤:
S1.将输入的长视频分割为多段,对每段进行采样得到一个片段,每个片段包含一帧RGB图像和两个光流特征图;
S2.将S1中每个片段的RGB图像输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,并进行特征提取,得到空间流上的特征片段序列;
S3.将S1中每个片段的光流特征图输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,并进行特征提取,得到时间流上的特征片段序列;
S4.将S1中每个片段的RGB图像输入基于OpenPose的关节点估计网络,采用部分亲和力场,对每个片段的RGB图像进行自下而上的人体姿态估计,得到姿态估计上的特征片段序列;
S5.对所述空间流上的特征片段序列、所述时间流上的特征片段序列和所述姿态估计上的特征片段序列的特征分类分数,通过分段一致性函数分别产生三路中的每一路的段共识,获得空间流一致性预测结果、时间流一致性预测结果和姿态估计一致性预测结果;
S6.对所述空间流一致性预测结果、所述时间流一致性预测结果和所述姿态估计一致性预测结果默认采用加权求均值的合并方式进行分数融合,其中空间流一致性预测结果:时间流一致性预测结果:姿态估计一致性预测结果的权重比值为1:1.5:1;
S7.将分数融合的结果通过softmax函数分类,得到输入视频的全局分类识别。
2.根据权利要求1所述的方法,其特征在于,S2或S3所述由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络进行特征提取的具体步骤为:
S21.卷积注意力机制模块从通道和空间两个维度计算特征图的注意力图,然后将注意力图与特征图相乘进行自适应学习,整个过程如下:
对于一个中间层的特征图F∈RC*H*W,CBAM将顺序推出一维的通道注意力图MC∈RC*1*1,以及二维的空间注意力图MS∈R1*H*W;
其中C表示通道,H表示高度,W表示宽度;
S22.然后将一维通道注意力图与所述特征图相乘得到F':
S23将F'与所述二维空间注意力图相乘得到最终的输出F”:
式中,表示元素相乘。
3.根据权利要求1所述的方法,其特征在于,S4所述OpenPose进行的关节点估计为采用部分亲和力场进行自下而上的人体姿态估计,其具体步骤为:
S41.将一张图片输入以VGG19的前10层为主干的网络,生成一组特征图;
S42.将S41生成的特征图分别输入两个卷积网络,分别得到预测的...
【专利技术属性】
技术研发人员:叶青,谭泽贤,张永梅,
申请(专利权)人:北方工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。