【技术实现步骤摘要】
一种基于并联注意力和双流权重自适应的动作识别方法
[0001]本申请属于人体动作识别
,特别涉及一种基于并联注意力和双流权重自适应的动作识别方法。
技术介绍
[0002]人体动作识别在视频理解中起着重要作用,常应用于人机交互、智能监控、目标检测等领域。基于单模态的识别算法虽在捕获动作时空信息方面做了很多探究,但其模态信息的单一性在一定程度上限制了算法准确度。不同模态拥有相同的高层次语义,有效融合后能比单模态提供更丰富的特征信息。
[0003]注意力在人类感知中起着重要作用。人类视觉系统倾向于关注图像中辅助判断的部分信息,并忽略掉不相关信息。与之相似地,注意力机制能告诉我们关注哪里,也能够改变特征大小。因此CNN网络中常利用注意力机制来提高算法性能。但现有注意力模块多针对传统2D卷积网络,没有考虑到时间维度的注意力生成,对3D卷积网络来说不够全面。
[0004]同时随着人工智能的发展和深度传感器的普及,基于RGB
‑
D的动作识别算法成为了研究者们重点关注的研究方向之一。作为多模态算法中的 ...
【技术保护点】
【技术特征摘要】
1.一种基于并联注意力和双流权重自适应的动作识别方法,其特征在于,所述的基于并联注意力和双流权重自适应的动作识别方法,包括:选取原始视频数据中的RGB图像和深度图像作为输入数据,并进行数据预处理,得到RGB图像序列和深度图像序列;采用三维度并联注意力卷积网络,分别提取RGB图像序列和深度图像序列对应的RGB特征Fa和深度特征Fd,以及RGB图像序列和深度图像序列对应的共同特征Fc;使用时间卷积模块分别对RGB特征Fa和深度特征Fd进行通道对齐操作,得到具有相同通道数的RGB特征Fa
′
和深度特征Fd
′
;使用卷积门控模块对共同特征Fc进行处理得到门控矩阵G;将门控矩阵G和1
‑
G分别作为RGB特征Fa
′
和深度特征Fd
′
的权重协调因子,得到最终的融合特征F;融合特征F在经过全连接层后,输入到动作分类器中,输出动作识别结果。2.根据权利要求1所述的基于并联注意力和双流权重自适应的动作识别方法,其特征在于,所述选取原始视频数据中的RGB图像和深度图像作为输入数据,并进行数据预处理,得到RGB图像序列和深度图像序列,包括:采用间隔取帧策略选取原始视频数据中的RGB图像帧和深度图像帧;调整RGB图像帧和深度图像帧的尺寸大小,进行多尺度裁剪和随机水平翻转处理,生成RGB图像序列和深度图像序列;其中,所述间隔取帧策略包括:将原始视频数据总帧数除以所需帧数后得到平均间隔,在每个间隔内随机选取一帧组成所需图像帧;所述多尺度裁剪技术包括:在一定范围内随机选择裁剪区域的宽度和高度,对输入数据进行统一尺度裁剪;所述随机水平翻转技术包括:随机决定是否对数据统一进行水平翻转操作。3.根据权利要求1所述的基于并联注意力和双流权重自适应的动作识别方法,其特征在于,所述三维度并联注意力卷积网络,包括:第一特征提取模块、第二特征提取模块、第三特征提取模块、第四特征提取模块和第五特征提取模块;所述RGB图像序列依次经过第一特征提取模块和第二特征提取模块,输出RGB特征Fa;所述深度图像序列依次经过第三特征提取模块和第四特征提取模块,输出深度特征Fd;将第一特征提取模块和第三特征提取模块输出的特征相加,然后输入到第五特征提取模块,输出共同特征Fc。4.根据权利要求3所述的基于并联注意力和双流权重自适应的动作识别方法,其特征在于,所示第一特征提取模块和第三特征提取模块分别包括ResNet的初始卷积层和第一、二个瓶颈层,并在每个瓶颈层前添加三维度并联注意力模块,每个瓶颈层的输出特征与该瓶颈层之前三维度并联注意力模块的输出进行逐元素相加作为该瓶颈层最终的输出;所示第二特征提取模块、第四特征提取模块...
【专利技术属性】
技术研发人员:刘盛,姚璐,李超楠,邹思宇,陈胜勇,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。