【技术实现步骤摘要】
一种暴力视频识别方法、计算机系统和存储介质
本专利技术属于图像识别
,尤其涉及一种基于音视频语义一致性度量及多任务学习的暴力视频识别方法、计算机系统和存储介质。
技术介绍
互联网技术的快速发展给我们的生活带来了便利,也带来了各种隐患,暴力视频就是其中一个隐患。血腥暴力视频在互联网上肆意的传播严重破坏了健康良好的网络环境,不利于青少年身心的健康发展。因此暴力视频智能化识别水平的提升具有非常重要的意义。其中,如何提取并有效融合音视频特征是暴力视频检测技术中亟待解决的关键问题。从以往的暴力视频检测技术来看,主要还存在以下两种不足。首先是对暴力场景的描述能力不够,主要表现为没有充分提取暴力特征。在音视频特征提取方面:要么基于传统的手工特征提取方法,要么提取、拼凑众多的手工特征和深度学习获得的特征,而不是针对暴力场景的特点,提取更具有暴力场景描述能力的音视频特征。其次特征融合策略有待完善:目前大多数研究采用信息有限的决策层后融合方法为主,没有建立起各模态特征之间的交互作用;而且在利用前融合的方案中,多数文献是通过音视频特征的简单拼接实现特征层面的前融合,未从理论上探索合理的特征子空间构建方法,也没有在融合时考虑度量音视频特征的语义一致性(即具有相同的语义概念)。在多模态融合问题上,各模态数据在某些情况下是互补的,但在有些情况下是互相干扰的(如著名的“麦格克效应”-McGurkeffect)。如何度量暴力音视频的语义一致性,采用合理的融合方案降低模态间干扰、提升模态间信息的互补性,从而提高暴力检测识 ...
【技术保护点】
1.一种暴力视频识别方法,其特征在于,包括以下步骤:/nS100,获取样本视频数据流,并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流;/nS200,将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征;/nS300,将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合,以构建特征融合向量;/nS400,基于所述特征融合向量进行暴力视频分类学习,以构建暴力视频分类模型;/nS500,基于所述特征融合向量进行暴力音视频语义一致性度量分类学习,以构建暴力音视频语义一致性度量分类模型;/nS600,将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型,以判断所述待识别的视频属于暴力视频还是非暴力视频。/n
【技术特征摘要】
1.一种暴力视频识别方法,其特征在于,包括以下步骤:
S100,获取样本视频数据流,并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流;
S200,将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征;
S300,将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合,以构建特征融合向量;
S400,基于所述特征融合向量进行暴力视频分类学习,以构建暴力视频分类模型;
S500,基于所述特征融合向量进行暴力音视频语义一致性度量分类学习,以构建暴力音视频语义一致性度量分类模型;
S600,将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型,以判断所述待识别的视频属于暴力视频还是非暴力视频。
2.根据权利要求1所述的暴力视频识别方法,其特征在于,在所述步骤S200中,将所述单帧图像数据流输入对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征,具体包括以下步骤:
通过P3D网络与LSTM网络拼接的方式构建用于单帧图像分类的深度神经网络;
利用暴力视频样本数据对用于单帧图像分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对单帧图像数据流的特征提取网络模型;
将单帧图像数据流输入针对单帧图像数据流的特征提取网络模型,以提取描述暴力场景的单帧图像特征。
3.根据权利要求1所述的暴力视频识别方法,其特征在于,在所述步骤S200中,将所述运动光流数据流输入对应的特征提取网络模型,以提取描述暴力场景的运动光流特征,具体包括以下步骤:
通过P3D网络与LSTM网络拼接的方式构建基于运动光流分类的深度神经网络;
利用暴力视频样本数据对基于运动光流分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对运动光流数据流的特征提取网络模型;
将运动光流数据流输入针对运动光流数据流的特征提取网络模型,以提取描述暴力场景的运动光流特征。
4.根据权利要求1所述的暴力视频识别方法,其特征在于,在所述步骤S200中,将所述音频数据流输入对应的特征提取网络模型,以提取描述暴力场景的音频信息特征,具体包括以下步骤:
利用VGGish网络构建基于音频分类的深度神经网络;<...
【专利技术属性】
技术研发人员:吴晓雨,徐星宇,顾超男,杨磊,侯聪聪,
申请(专利权)人:中国传媒大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。