当前位置: 首页 > 专利查询>江南大学专利>正文

基于多径时空特征强化融合的三支流网络行为识别方法技术

技术编号:25757396 阅读:41 留言:0更新日期:2020-09-25 21:06
基于多径时空特征强化融合的三支流网络行为识别方法。该方法采用一种基于时空双流网络的网络框架,称为多径时空特征强化融合网络。针对双流网络仅融合顶层时空特征导致的双流信息利用不充分、特征融合阶段位于全局采样层之后导致特征融合交互不够的问题,本发明专利技术利用压缩双线性算法,对来自双流网络多层对应时空特征进行降维,然后进行融合,在减少融合特征所需内存的同时,增加融合特征之间的交互,增强融合效果。此外,本发明专利技术在融合流中提出多尺度通道‑空间注意力模块,对融合特征中有效特征进行增强,对无效特征进行抑制。最后,本发明专利技术还结合时间分段网络TSN的思想对视频中长期时间信息进行捕捉,进一步提高了行为识别模型的鲁棒性。

【技术实现步骤摘要】
基于多径时空特征强化融合的三支流网络行为识别方法
本专利技术属于机器视觉领域,特别涉及一种基于多径时空特征强化融合的三支流网络行为识别方法。
技术介绍
随着社会的发展,机器视觉领域的知识越来越多地被应用到实际生活中,而行为识别是机器视觉领域中一个重要的研究方向。行为识别可以应用于人机交互、医疗监护、视频智能监控等场景中,但由于光照条件、物体遮挡、复杂背景、穿着衣物等因素的影响,行为识别还有许多需要解决的问题。目前存在的行为识别方法主要有(1)基于RGB视频;(2)基于骨骼节点;(3)基于RGB+D视频。由于RGB视频数据获取途径较多,获取成本较低,所以本专利技术选择以RGB视频为研究对象,以提取融合视频中时间特征和空间特征为目的,提出包含独特融合流的三支流网络方法来有效识别人体行为。目前,以RGB视频作为数据进行行为识别的方法主要使用双流网络。在双流网络中,通过两个分离卷积神经网络中卷积操作的堆积来提取RGB图像中的空间特征和光流图片中的时间特征,最后对两个网络提取的顶层特征进行加权融合,得到最终的结果。但是传统的双流网络仍然存在以下三个问题:(1)双流网络融合阶段位于全局平均采样层之后,而提取的特征经过全局平均采样层之后存在信息损失的情况,如何最大化保留融合特征中的有效的信息是一个值得解决的问题;(2)双流网络仅融合网络顶层的特征,而卷积神经网络顶层特征虽然包含丰富的全局信息,但是缺少对行为分类也有帮助的局部信息;(3)双流网络对待融合特征上的各个部分使用相同的优先级,即使用相同的权重对特征的各个部分进行加权,而融合特征的各个部分对行为识别的分类的有效性是不相同的。基于以上考虑,本专利技术提出一种基于多径时空特征强化融合的三支流网络行为识别方法。首先,将融合阶段提前到全局平均采样层之前,在信息损失发生之前使用压缩双线性算法对特征进行融合,最大化特征交互的同时减少融合所需计算量。其次,融合采用的特征选用包括来自网络顶层在内的多层特征,保证有足够的全局以及局部特征提供给行为识别。最后,提出多尺度注意力模块对所得的融合特征各个部分进行优先级调整增强整个网络的鲁棒性。
技术实现思路
本专利技术的主要目的是提出一种基于多径时空特征强化融合的三支流网络行为识别方法,对传统双流网络的多层对应的时空特征融合后进行增强,得到更具辨识性的信息,以进行更加高效的行为识别。为了实现上述目的,本专利技术提供如下技术方案:基于多径时空特征强化融合的三支流网络行为识别方法,步骤如下:步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧N+1为视频总帧数;步骤二、计算光流图:应用TVL1算法对按时序排序的RGB原始帧frgb两两进行计算得到光流图步骤三、将视频在时间尺度上分为k段:按时间顺序将RGB原始帧frgb及光流图fopt各分为等长的k份,分别为和其中j={1,2,…,k},floor(·)表示向下取整函数,特别地,N0=0;步骤四、构建包括k个并行时间分段网络在内的多时间分段融合网络,每个分段网络包括一个空间流网络、一个时间流网络和一个融合流网络。步骤五、对每个分段融合网络分别计算空间流预测概率分布:针对第k个时间分段融合网络,基于双流网络中的空间流网络获取多层空间特征和空间流预测概率分布从第k段视频原始帧中随机选取一帧RGB图片输入双流网络中的空间流网络中,从空间流网络中最后M个卷积模块输出中可以得到多层空间特征空间流网络最后输出的结果就是空间流预测概率分布步骤六、对每个分段融合网络分别计算时间流预测概率分布:针对第k个时间分段融合网络,基于双流网络中的时间流网络获取多层时间特征和时间流预测概率分布从第k段视频光流图中选取时间上对应于步骤五中RGB图片的连续五张光流图片,输入双流网络中的时间流网络中,从时间流网络中最后M个卷积模块输出中可以得到多层时间特征时间流网络最后输出的结果就是时间流预测概率分布步骤七、时空特征融合:使用M个多径压缩双线性融合模块DCBF分别融合M对时间流网络、空间流网络对应层特征得到M个压缩时空特征;步骤八、多径特征融合:使用多径压缩双线性融合模块DCBF融合M个压缩时空特征得到多径压缩时空特征;步骤九、使用注意力机制增强多径压缩时空特征:使用多尺度通道-空间注意力模块CSA对多径压缩时空特征进行特征权重调整,最后经过全局平均采样层和全连接层,得到融合流预测概率分布步骤十、重复上述步骤五到步骤九k次获得对应视频不同时间分段的k段预测结果步骤十一、计算空间流最终概率预测分布Pspa、时间流最终概率预测分布Ptem和融合流最终概率预测分布Pfus:对三个流的各个时间分段结果进行融合,计算方法为加和平均。步骤十二、计算加权融合三个流的预测概率分布P:本专利技术使用加权平均融合方法对三个最终概率预测分布进行融合。与现有的技术相比,本专利技术具有以下有益效果:1.传统的双流网络识别行为仅使用网络得到的顶层特征,步骤五和步骤六取来自基础双流网络多层空间特征和时间特征,步骤七中使用这些特征,在保留重要的全局信息的同时,还使用对行为识别有帮助的局部信息,相比传统的双流网络,增加了有效信息利用率,有效地提升了行为识别效率;2.步骤七和步骤八中采用多径压缩双线性融合,显著降低了直接融合所需计算代价,同时最大化了特征之间的交互,有利于产生更多有效的融合特征;3.步骤九中使用的多尺度通道-空间注意力模块可以进一步通过权重调整对融合特征中有效信息部分进行增强,对无效信息部分以及噪声进行抑制,提高整个网络行为识别的效果,使网络更加关注于原图片中与行为相关的物体和人;4.与基础的双流网络相比,本专利技术的识别准确率更高,而且仅需增加一个较浅的融合网络。附图说明图1为本专利技术的算法流程图;图2为结合TSN思想后本专利技术的总体模型图;图3为本专利技术的算法模型图(单个时间分段);图4为多尺度通道-空间注意力模块图;图5(a)为通道注意力(上);图5(b)为多尺度空间注意力(下);图6为不同情况下连续两帧RGB帧和对应的一帧光流图;其中,(a-1)至(d-1)表示RGB帧1,(a-2)至(d-2)表示RGB帧2,(a-3)至(d-3)表示光流图x通道,(a-4)至(d-4)表示光流图y通道;图7为DCBF模块1、DCBF模块2和DCBF模块3的通用结构图;图8为DCBF模块4;图9为不同情况下的原RGB帧、加入注意力模块前普通双流网络中空间流注意力热力图和加入注意力模块后空间流注意力热力图;其中,(a-1)至(d-1)表示原RGB帧空间流输入,(a-2)至(d-2)表示加入注意力模块前普通双流网络中空间流注意力热力图,(a-3)至(d-4)表示加入注意力模块后空间流注意力热力图。具体实施方式为了对本专利技术进行更好的说明,下面以公开的行为数据集UCF101为例进行阐述,在本实例中采用k=3对整个视频本文档来自技高网
...

【技术保护点】
1.基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,步骤如下:/n步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧

【技术特征摘要】
1.基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,步骤如下:
步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧N+1为视频总帧数;
步骤二、计算光流图:应用TVL1算法对按时序排序的RGB原始帧frgb两两进行计算得到光流图
步骤三、将视频在时间尺度上分为k段:按时间顺序将RGB原始帧frgb及光流图fopt各分为等长的k份,分别为和其中j={1,2,…,k},floor(·)表示向下取整函数,特别地,N0=0;
步骤四、构建包括k个并行时间分段网络在内的多时间分段融合网络,每个分段网络包括一个空间流网络、一个时间流网络和一个融合流网络;
步骤五、对每个分段融合网络分别计算空间流预测概率分布:针对第k个时间分段融合网络,从第k段视频原始帧中随机选取一帧RGB图片输入双流网络中的空间流网络中,从空间流网络中最后M个卷积模块输出中得到多层空间特征空间流网络最后输出的结果就是空间流预测概率分布
步骤六、对每个分段融合网络分别计算时间流预测概率分布:针对第k个时间分段融合网络,从第k段视频光流图中选取时间上对应于步骤五中RGB图片的连续五张光流图片,输入双流网络中的时间流网络中,从时间流网络中最后M个卷积模块输出中得到多层时间特征时间流网络最后输出的结果就是时间流预测概率分布
步骤七、时空特征融合:使用M个多径压缩双线性融合模块DCBF分别融合M对时间流网络、空间流网络对应层特征,得到M个压缩时空特征;
步骤八、多径特征融合:使用多径压缩双线性融合模块DCBF融合M个压缩时空特征得到多径压缩时空特征;
步骤九、使用注意力机制增强多径压缩时空特征:使用多尺度通道-空间注意力模块对多径压缩时空特征进行特征权重调整,最后经过全局平均采样层和全连接层,得到融合流预测概率分布
步骤十、重复上述步骤五到步骤九k次获得对应视频不同时间分段的k段预测结果
步骤十一、计算空间流最终概率预测分布Pspa、时间流最终概率预测分布Ptem和融合流最终概率预测分布Pfus:对三个流的各个时间分段结果进行融合,计算方法为加和平均;
步骤十二、计算加权融合三个流的预测概率分布P:使用加权平均融合方法对三个最终概率预测分布进行融合。


2.根据权利要求1所述的基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,所述的空间流网络和时间流网络使用的是InceptionV3网络,融合流网络使用的多层特征来自于InceptionV3的...

【专利技术属性】
技术研发人员:孔军邓浩阳蒋敏
申请(专利权)人:江南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1