基于交叉注意力的2D卷积网络的动作识别方法及系统技术方案

技术编号:38501708 阅读:14 留言:0更新日期:2023-08-15 17:09
本发明专利技术公开了一种基于交叉注意力的2D卷积网络的动作识别方法及系统,所述动作识别方法包括:读取RGB视频,将视频分成多段,在每段中随机采样一帧,生成动作识别的图像序列,并处理使之符合神经网络的输入要求;将交叉注意力模块添加至2D

【技术实现步骤摘要】
基于交叉注意力的2D卷积网络的动作识别方法及系统


[0001]本专利技术涉及计算机视觉视频理解
,尤其涉及一种基于交叉注意力的2D卷积网络的动作识别方法及系统。

技术介绍

[0002]目前视频的动作识别通过RNN、3D

CNN、Transformer、2D

CNN和TSM得到,但视频光流等时序特征,作为一种图像像素运动的表达方式,需要经过大量计算得到,往往需要花费更多的存储或者计算资源才能使用;使用RNN则使网络损失了一定的并行能力,训练和推演速度都会损失;3D

CNN的网络参数相较于2D

CNN更多,更加难以训练,计算复杂度也更高;基于Transformer的方法对训练数据的需求更多,模型规模更大,需要的硬件成本也相对较高;因此,现有方法存在获取动作的时序信息花费计算资源较高的问题。若采用2D

CNN构架,2D

CNN相对而言需要的计算资源较少,但时序信息的建模能力相对较弱。因此,需要构建一种既保留时序信息的同时,降低网络计算复杂度的视频动作识别方法。

技术实现思路

[0003](一)要解决的技术问题
[0004]基于上述问题,本专利技术提供一种基于交叉注意力的2D卷积网络的动作识别方法及系统,解决视频的时序特征的网络计算复杂度较高的问题,降低网络计算复杂度的同时,感受时序信息的变化。
[0005](二)技术方案
[0006]基于上述的技术问题,本专利技术提供一种基于交叉注意力的2D卷积网络的动作识别方法,包括:
[0007]S1、读取RGB视频,将视频分成多段,在每段中随机采样一帧,生成动作识别的图像序列,并处理使之符合神经网络的输入要求;
[0008]S2、将交叉注意力模块添加至2D

CNN的主干架构中,得到交叉注意力网络,包括将所述主干架构的输入经TSM时间转移模块输出的时序通道特征交互后的特征输入所述交叉注意力模块中的前向注意力模块和后向注意力模块,经前向截取和前向零值填充得到的前α帧对当前帧的注意力特征,即前向注意力特征,同时经后向截取和后向零值填充得到的后α帧对当前帧的注意力特征,即后向注意力特征,将所述前向注意力特征和后向注意力特征加权得到交叉注意力特征,将所述交叉注意力特征和所述时序通道特征交互后的特征相加后输出到主干架构,α为设定的注意力步长;再利用数据集数据对网络进行训练得到交叉注意力网络中各个层的参数;
[0009]S3、将处理后的所述图像序列输入训练后的交叉注意力网络,得到动作识别的分类特征,再根据所述分类特征输出识别结果。
[0010]进一步的,步骤S2中,所述经前向截取和前向零值填充得到的前α帧对当前帧的注意力特征,即前向注意力特征,同时经后向截取和后向零值填充得到的后α帧对当前帧的注
意力特征,即后向注意力特征,包括:将输入的所述时序通道特征交互后的特征先按帧数T分成T个x,即x1,x2,

,x
T
,再对各个x分别经Conv2d卷积填充后,得到对应的a,即a1,a2,

,a
T
,对于前向注意力特征,0<i≤α时,α<i≤T时,对于后向注意力特征,0<i≤T

α时,α时,T

α<i≤T时,得到将各个合成得到前向注意力特征或后向注意力特征。
[0011]进一步的,步骤S2中,所述交叉注意力模块添加至主干架构各层的个数不超过8个。
[0012]进一步的,步骤S2中,所述将交叉注意力模块添加至2D

CNN的主干架构中包括:所述2D

CNN的主干构架为ResNet50网络,有4个层,每层包括4个Bottle Neck,每个Bottle Neck包括输入特征依次经过1
×
1卷积、3
×
3卷积、1
×
1卷积后,与输入特征加权后输出到下一个Bottle Neck,在每层的最后两个Bottle Neck插入所述交叉注意力模块。
[0013]进一步的,所述α设定为1或2。
[0014]进一步的,步骤S1中,所述处理包括归一化和正则化处理。
[0015]进一步的,步骤S1中,所述处理还包括:将一个批次的样本特征(N,T,C,H,W)进行形变得到(N*T,C,H,W),其中T表示从视频样本中采样的帧数,C表示视频图像通道数,H、W分别表示视频图像的高和宽,N表示批次中样本的数量。
[0016]进一步的,步骤S1中,所述将视频分成多段,包括8段或16段。
[0017]进一步的,步骤S3中,所述再根据所述分类特征输出识别结果包括:通过Softmax函数获得输入的图像序列属于每个动作类别的分数,判断输入的所述图像序列最有可能属于的类别并输出。
[0018]本专利技术也公开了一种基于交叉注意力的2D卷积网络的动作识别系统,包括:
[0019]至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
[0020]所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行所述的基于交叉注意力的2D卷积网络的动作识别方法。
[0021](三)有益效果
[0022]本专利技术的上述技术方案具有如下优点:
[0023](1)本专利技术基于2D

CNN的动作识别网络,将应用在图像中的注意力机制引入到视频之中,从相邻的时序帧中学习当前帧的交叉注意力特征,对当前帧的特征进行加权,使得交叉注意力特征可以更好地融合视频中的时序信息,2D

CNN降低了动作识别的深度神经网络的计算复杂度,交叉注意力特征感受时序信息的变化,从而提高视频动作识别的准确度;
[0024](2)本专利技术在TSM的基础上,交叉注意力模块增加了从相邻帧中学习时空注意力的机制,更好地感受时空的特征变换,交叉注意力模块将学习到的图像序列的空间注意力特征进行前向或后向移动,并通过注意力步长提升模块时序感知范围的能力,进一步加强交叉注意力特征感受视频中的时序信息的能力;
[0025](3)本专利技术对在2D

CNN中添加交叉注意力模块的数量同样进行了限制,不在2D

CNN的所有主干构架中添加交叉注意力模块,保证时序信息感受范围的同时,减少网络使用时序感受模块时额外造成的延时损失,使网络更加轻量化。
附图说明
[0026]通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:
[0027]图1为本专利技术实施例的基于交叉注意力的2D卷积网络的动作识别方法的流程图;
[0028]图2为本专利技术实施例的交叉注意力模块的网络结构示意图,包括前向注意力(Fron本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于交叉注意力的2D卷积网络的动作识别方法,其特征在于,包括:S1、读取RGB视频,将视频分成多段,在每段中随机采样一帧,生成动作识别的图像序列,并处理使之符合神经网络的输入要求;S2、将交叉注意力模块添加至2D

CNN的主干架构中,得到交叉注意力网络,包括将所述主干架构的输入经TSM时间转移模块输出的时序通道特征交互后的特征输入所述交叉注意力模块中的前向注意力模块和后向注意力模块,经前向截取和前向零值填充得到的前α帧对当前帧的注意力特征,即前向注意力特征,同时经后向截取和后向零值填充得到的后α帧对当前帧的注意力特征,即后向注意力特征,将所述前向注意力特征和后向注意力特征加权得到交叉注意力特征,将所述交叉注意力特征和所述时序通道特征交互后的特征相加后输出到主干架构,α为设定的注意力步长;再利用数据集数据对网络进行训练得到交叉注意力网络中各个层的参数;S3、将处理后的所述图像序列输入训练后的交叉注意力网络,得到动作识别的分类特征,再根据所述分类特征输出识别结果。2.根据权利要求1所述的基于交叉注意力的2D卷积网络的动作识别方法,其特征在于,步骤S2中,所述经前向截取和前向零值填充得到的前α帧对当前帧的注意力特征,即前向注意力特征,同时经后向截取和后向零值填充得到的后α帧对当前帧的注意力特征,即后向注意力特征,包括:将输入的所述时序通道特征交互后的特征先按帧数T分成T个x,即x1,x2,

,x
T
,再对各个x分别经Conv2d卷积填充后,得到对应的a,即a1,a2,

,a
T
,对于前向注意力特征,0<i≤α时,x
i
,α<i≤T时,对于后向注意力特征,0<i≤T

α时,T

α<i≤T时,得到将各个合成得到前向注意力特征或后向注意力特征。3.根据权利要求2所述的基于交叉注意力的2D卷积网络的动作识别方法,其特征在于,步骤S2中,所述交叉...

【专利技术属性】
技术研发人员:张钰莎孙圣雷军军张何猛钟杰彭豁富李海龙
申请(专利权)人:中大智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1