【技术实现步骤摘要】
基于注意力机制的双模态任务学习的暴力视频识别方法
本专利技术涉及基于注意力机制的双模态任务学习的暴力视频识别方法,属于自然交互及图像智能识别
技术介绍
互联网技术的快速发展给我们的生活带来了便利,也带来了各种隐患,暴力视频就是其中一个隐患。血腥暴力视频在互联网上肆意的传播严重破坏了健康良好的网络环境,不利于青少年身心的健康发展。因此暴力视频智能化识别水平的提升具有非常重要的意义。其中,如何提取并有效融合音视频特征是暴力视频检测技术中亟待解决的关键问题。从以往的暴力视频检测技术来看,主要还存在两种不足。首先是对暴力场景的描述能力不够,主要表现为没有充分提取暴力特征。在视频特征提取方面:要么基于传统的手工特征提取方法,要么提取、拼凑众多的手工特征和深度学习获得的特征,而不是针对暴力场景的特点,提取更具有暴力场景描述能力的音视频特征。另外就是在对长视频这样的数据进行建模时,由于无法更好的提取到全局信息使得不能进行有效的建模:目前大多数研究采用3D卷积网络作为视频数据建模的基础网络,但是卷积神经网络在模拟人 ...
【技术保护点】
1.基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于含有以下步骤:首先以分析暴力场景视频的特点为出发点,提取适合暴力场景描述的、具有时空相关性的视频特征;而后以捕捉全局特征信息为原则,为暴力视频特征建立注意力机制模块;最后融合带有全局注意力关系的时空特征从而实现多模态信息互补为出发点,研究基于暴力视频特征的注意力机制和暴力视频分类的多任务学习的暴力视频识别步骤,构成了一个完整的暴力视频识别的检测框架。/n
【技术特征摘要】
1.基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于含有以下步骤:首先以分析暴力场景视频的特点为出发点,提取适合暴力场景描述的、具有时空相关性的视频特征;而后以捕捉全局特征信息为原则,为暴力视频特征建立注意力机制模块;最后融合带有全局注意力关系的时空特征从而实现多模态信息互补为出发点,研究基于暴力视频特征的注意力机制和暴力视频分类的多任务学习的暴力视频识别步骤,构成了一个完整的暴力视频识别的检测框架。
2.根据权利要求1所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于在深度神经网络中添加注意力机制模块,用来捕捉特征之间的相互依赖关系,从而提高有用的特征的表观性;利用带有注意力机制模块的深度神经网络分别提取暴力视频在单帧图像、运动光流上的特征;采用后融合的平均融合策略实现对暴力血腥视频的最终分类决策。
3.根据权利要求2所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于采用的基础神经卷积网络是TSN网络,该网络是由空间流卷积神经网络和时间流卷积神经网络组成的,分别在两个模态的网络中添加注意力机制模块进行全局特征关系的捕捉,获得注意力关系权重,其中注意力机制模块是GCNet模块,在空间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b层中添加注意力机制模块,在时间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b层中添加注意力机制模块。
4.根据权利要求3所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于对正负样本组成的暴力视频样本库进行分帧处理,保存视频的单帧图像数据,然后将单帧数据送入带有注意力机制的深度神经网络中进行分类训练,得到基于空间流的带有注意力关系的特征提取模型。
5.根据权利要求3所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于对正负样本组成的暴力视频样本库做光流提取处理,保存视频的光流数据,然后将光流数据送入带有注意力机制模块的深度神经网络进行分类训练,得到基于运动光流的特征提取模型。
6.根据权利要求2所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于经过模型后给出每个模态下的暴力决策得分结果,最后将两个模态下的决策得分进行后融合给出最终的视频决策结果,其中后融合主要是通过平均融合的方法来实现的。
7.根据权利要求1所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于包括以下步骤:
步骤1:在空间流深度神经网络中添加注意力机制模块捕捉静态帧图片的暴力特征之间的相互依赖关系,形成注意力机制权重;
步骤2:在时间流深度神经网络中添加注意力机制模块捕捉光流时序图的暴力特征之间的相互依赖关系,形成注意力机制权重;
步骤3:提取暴力视频在单帧图像上的特征信息,建立基于单帧图像的暴力视频识别模型;
步骤4:提取暴力视频在运动光流上的特征信息,建立基于运动光流的暴力视频识别模型;
步骤5:时空特征融合;利用平均融合方法,将基于单帧图像的暴力视频识别模型下的得分策略与基于运动光流的暴力视频识别模型的得分策略进行融合给出最终的暴力分类得分。
8.根据权利要求7所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于在空间流深度神经网络中添加注意力机制模块步骤如下:
步骤11:构建基于空间流的暴力注意力关系捕捉的深度神经网络;利用TSN网络作为基础网络,将注意力机制模块GCNet嵌入网络的conv_bn_3c和conv_bn_4e以及c...
【专利技术属性】
技术研发人员:吴晓雨,侯聪聪,顾超男,杨磊,
申请(专利权)人:中国传媒大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。