【技术实现步骤摘要】
一种基于时空注意力增强特征融合网络的行为识别方法
本专利技术属于机器视觉领域,特别涉及一种基于时空注意力增强特征融合网络的行为识别方法。
技术介绍
随着机器视觉在理论上和实践上的广泛研究,基于RGB视频的行为识别也逐渐成为具有挑战性的一个分支。目前,面向RGB视频的行为识别主要使用双流网络架构,并且发展趋势十分良好。在双流架构中,深度神经网络通过在RGB外观流上和光流运动流上分别训练各自的深度卷积网络来得到有效特征。但是传统的联合RGB外观流和光流运动流训练的双流网络仍旧面临以下问题:(1)对双流网络中不同分支中得到的特征或分数进行简单融合不能有效地利用不同分支的特性,同时在单个分支中会存在特征过拟合的情况。(2)网络中具有丰富细节特征的初始输入空间特征和具有高层语义信息的高层空间特征沿着通道维度聚合。如何增强重要通道特征的代表性是一个重要的问题。(3)在通过时序分段网络TSN分段随机采样策略选择的帧序列中,包含了长距离的时序信息。因此,需要建立帧与帧之间的相互关系得到有效的时序特征,从而提升网络中帧序列进行分段融合方法的效 ...
【技术保护点】
1.一种基于时空注意力增强特征融合网络的行为识别方法,其特征在于,步骤如下:/n步骤一、获取外观流的RGB静态帧:将数据集中的每个视频等分成N
【技术特征摘要】
1.一种基于时空注意力增强特征融合网络的行为识别方法,其特征在于,步骤如下:
步骤一、获取外观流的RGB静态帧:将数据集中的每个视频等分成N1个片段,从每一个片段中随机选择帧,这些从不同片段中选出的RGB静态帧构成帧序列N′1为RGB帧序列中的帧数,其中
步骤二、计算运动流的光流帧:对于每个数据集中的每个视频等分成N2个片段,在每一个片段中随机选择连续的帧RGB静态帧,在这些连续的RGB静态帧上两两应用TV-L1算法进行计算,在每一个片段中得到x方向和y方向上共帧堆叠的光流帧,最终得到整个视频的光流帧:N′2为光流帧序列中的帧数,其中
步骤三、通过输入通道注意力引导模块ICGA分别计算RGB外观流和光流运动流的输入通道自适应权重:将原始特征Frgb和Fopt分别输入RGB外观流和光流运动流对应的输入通道注意力引导模块ICGA;ICGA通过全局池化和非局部建模形成RGB外观流输入通道和光流运动流输入通道的自适应权重,然后分别将自适应权重与对应支流的输入特征相加,得到该模块的输出结果,RGB外观流和光流运动流中的输入通道注意力引导模块ICGA的结果,分别表示为ICGArgb和ICGAopt;
步骤四、通过IceptionV3深度特征提取网络对RGB特征和光流特征进行深度特征提取:将步骤三得到的ICGArgb和ICGAopt分别输入对应的RGB外观流和光流运动流中的IceptionV3深度特征提取网络,得到具有丰富语义信息的高层特征;在使用IceptionV3提取特征的过程中,选取4层对应的高层RGB特征和高层光流特征,分别表示为和
步骤五、通过高层通道分组注意力模块HCGA对RGB外观流和光流运动流中的高层通道特征进行增强:将步骤四中选择的第四个高层特征和分别输入RGB外观流和光流运动流对应的高层通道分组注意力模块HCGA;HCGA首先将C个高层通道分成G组,在每组中执行组内局部通道关系建模;然后,建立G个分组之间的全局关系,再将其映射到每个高层通道上,得到全局通道自适应权重,再与输入该模块的原始高层特征相乘;RGB外观流和光流运动流中的高层通道分组注意力模块HCGA的输出结果,分别表示为HCGArgb和HCGAopt;
步骤六、在RGB外观流和光流运动流中通过时序注意力增强模块TEA对分段融合进行增强并且分别计算单个流的分类得分:将步骤四中选择的第四个高层特征和分别输入RGB外观流和光流运动流的时序注意力增强模块TEA;通过时序卷积网络TCN进行时序特征建模,得到不同帧的自适应权重值,增强重要的帧在分段融合中的作用,获得的时序注意力增强的特征表示为TEArgb和TEAopt;再将步骤五中得到的高层通道分组注意力模块HCGA的结果和时序注意力增强模块TEA得到的结果分别相加,即在RGB外观流中将特征HCGArgb和TEArgb相加得到FLrgb,在光流运动流中将特征HCGAopt和TEAopt相加得到FLopt;将FLrgb和FLopt通过平均融合的方法对帧序列进行分段融合,分别得到Finalrgb和Finalopt;之后将Finalrgb和Finalopt输入线性分类层中分别得到RGB外观流和光流运动流的分类得分scorergb和scoreopt;
步骤七、通过多层特征融合块MFBlock对RGB外观流和光流运动流IceptionV3深度特征提取过程中的3个高层中间层特征进行融合:将从步骤四IceptionV3深度网络中提取的3个高层中间层特征和对应层相加之后使用多层特征融合块MFBlock得到将三层融合结果相加得到中间层融合特征J1;
步骤八、通过注意力融合块AFBlock对RGB外观流和光流运动流IceptionV3深度特征提取过程中的最后一层高层特征进行注意力融合:将步骤四中得到第四层特征和通过注意力融合块AFBlock进行融合得到融合特征J2;
步骤九、计算注意力增强的多层特征融合流中的高层特征:将步骤七和步骤八中得到的中间层融合特征J1和注意力增强的融合特征J2相加得到融合高层特征J;
步骤十、通过高层通道分组注意力模块HCGA对特征融合流上的通道特征进行增强:将步骤九的融合高层特征J输入高层通道分组注意力模块中得到通道自适应权重,该模块增强的高层通道特征表示为HCGAfusion;
步骤十一、通过时序注意力增强模块TEA对特征融合流上的分段融合进行增强并且计算分类得分:将步骤九得到的融合高层特征J输入时序注意力增强模块TEA得到每一帧的自适应权重,该模块增强的高层时序特征表示为TEAfusion;将步骤十的结果HCGAfusion和时序注意力增强模块TEA的结果TEAfusion相加得到融合流中注意力模块增强后的高层特征FLfusion;之后将FLfusion通过平均融合方式对帧序列进行分段融合得到Finalfusion,最后输入到线性分类层中得到特征融合流分类得分scorefusion;
步骤十二、计算RGB外观流,光流运动流和特征融合流的分类得分加权平均融合结果...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。