基于交叉注意力的2D卷积网络的动作识别方法及系统技术方案

技术编号：38501708 阅读：14 留言：0更新日期：2023-08-15 17:09

本发明专利技术公开了一种基于交叉注意力的2D卷积网络的动作识别方法及系统，所述动作识别方法包括：读取RGB视频，将视频分成多段，在每段中随机采样一帧，生成动作识别的图像序列，并处理使之符合神经网络的输入要求；将交叉注意力模块添加至2D

全部详细技术资料下载

【技术实现步骤摘要】
基于交叉注意力的2D卷积网络的动作识别方法及系统

[0001]本专利技术涉及计算机视觉视频理解
，尤其涉及一种基于交叉注意力的2D卷积网络的动作识别方法及系统。

技术介绍

[0002]目前视频的动作识别通过RNN、3D
‑
CNN、Transformer、2D
‑
CNN和TSM得到，但视频光流等时序特征，作为一种图像像素运动的表达方式，需要经过大量计算得到，往往需要花费更多的存储或者计算资源才能使用；使用RNN则使网络损失了一定的并行能力，训练和推演速度都会损失；3D
‑
CNN的网络参数相较于2D
‑
CNN更多，更加难以训练，计算复杂度也更高；基于Transformer的方法对训练数据的需求更多，模型规模更大，需要的硬件成本也相对较高；因此，现有方法存在获取动作的时序信息花费计算资源较高的问题。若采用2D
‑
CNN构架，2D
‑
CNN相对而言需要的计算资源较少，但时序信息的建模能力相对较弱。因此，需要构建一种既保留时序信息的同时，降低网络计算复杂度的视频动作识别方法。

技术实现思路

[0003](一)要解决的技术问题
[0004]基于上述问题，本专利技术提供一种基于交叉注意力的2D卷积网络的动作识别方法及系统，解决视频的时序特征的网络计算复杂度较高的问题，降低网络计算复杂度的同时，感受时序信息的变化。
[0005](二)技术方案
[0006]基于上述的技术问题，本专利...

【技术保护点】

【技术特征摘要】
1.一种基于交叉注意力的2D卷积网络的动作识别方法，其特征在于，包括：S1、读取RGB视频，将视频分成多段，在每段中随机采样一帧，生成动作识别的图像序列，并处理使之符合神经网络的输入要求；S2、将交叉注意力模块添加至2D
‑
CNN的主干架构中，得到交叉注意力网络，包括将所述主干架构的输入经TSM时间转移模块输出的时序通道特征交互后的特征输入所述交叉注意力模块中的前向注意力模块和后向注意力模块，经前向截取和前向零值填充得到的前α帧对当前帧的注意力特征，即前向注意力特征，同时经后向截取和后向零值填充得到的后α帧对当前帧的注意力特征，即后向注意力特征，将所述前向注意力特征和后向注意力特征加权得到交叉注意力特征，将所述交叉注意力特征和所述时序通道特征交互后的特征相加后输出到主干架构，α为设定的注意力步长；再利用数据集数据对网络进行训练得到交叉注意力网络中各个层的参数；S3、将处理后的所述图像序列输入训练后的交叉注意力网络，得到动作识别的分类特征，再根据所述分类特征输出识别结果。2.根据权利要求1所述的基于交叉注意力的2D卷积网络的动作识别方法，其特征在于，步骤S2中，所述经前向截取和前向零值填充得到的前α帧对当前帧的注意力特征，即前向注意力特征，同时经后向截取和后向零值填充得到的后α帧对当前帧的注意力特征，即后向注意力特征，包括：将输入的所述时序通道特征交互后的特征先按帧数T分成T个x，即x1,x2,
…
,x
T
，再对各个x分别经Conv2d卷积填充后，得到对应的a，即a1,a2,
…
,a
T
，对于前向注意力特征，0<i≤α时，x
i
，α<i≤T时，对于后向注意力特征，0<i≤T
‑
α时，T
‑
α<i≤T时，得到将各个合成得到前向注意力特征或后向注意力特征。3.根据权利要求2所述的基于交叉注意力的2D卷积网络的动作识别方法，其特征在于，步骤S2中，所述交叉...

【专利技术属性】
技术研发人员：张钰莎，孙圣，雷军军，张何猛，钟杰，彭豁富，李海龙，
申请(专利权)人：中大智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人