一种暴力视频识别方法、计算机系统和存储介质技术方案

技术编号:23025242 阅读:19 留言:0更新日期:2020-01-03 16:59
本发明专利技术提供了一种暴力视频识别方法、计算机系统和存储介质。该方法根据暴力视频在单帧图像、运动光流和音频上的特征信息,构建基于多特征融合的暴力视频多任务学习网络,通过在多特征融合过程中,利用构建共享特征子空间的方式,保留各特征之间以及特征向量内部的数据结构,同时在特征映射变换过程中保证多特征之间的语义信息以及同一模态下的各特征点之间的语义信息不变。由于同时考虑到音视频语义一致性问题,增加多特征融合网络中对音视频语义一致性的度量任务,因此进一步了提升暴力视频分类系统的泛化能力。

A violence video recognition method, computer system and storage medium

【技术实现步骤摘要】
一种暴力视频识别方法、计算机系统和存储介质
本专利技术属于图像识别
,尤其涉及一种基于音视频语义一致性度量及多任务学习的暴力视频识别方法、计算机系统和存储介质。
技术介绍
互联网技术的快速发展给我们的生活带来了便利,也带来了各种隐患,暴力视频就是其中一个隐患。血腥暴力视频在互联网上肆意的传播严重破坏了健康良好的网络环境,不利于青少年身心的健康发展。因此暴力视频智能化识别水平的提升具有非常重要的意义。其中,如何提取并有效融合音视频特征是暴力视频检测技术中亟待解决的关键问题。从以往的暴力视频检测技术来看,主要还存在以下两种不足。首先是对暴力场景的描述能力不够,主要表现为没有充分提取暴力特征。在音视频特征提取方面:要么基于传统的手工特征提取方法,要么提取、拼凑众多的手工特征和深度学习获得的特征,而不是针对暴力场景的特点,提取更具有暴力场景描述能力的音视频特征。其次特征融合策略有待完善:目前大多数研究采用信息有限的决策层后融合方法为主,没有建立起各模态特征之间的交互作用;而且在利用前融合的方案中,多数文献是通过音视频特征的简单拼接实现特征层面的前融合,未从理论上探索合理的特征子空间构建方法,也没有在融合时考虑度量音视频特征的语义一致性(即具有相同的语义概念)。在多模态融合问题上,各模态数据在某些情况下是互补的,但在有些情况下是互相干扰的(如著名的“麦格克效应”-McGurkeffect)。如何度量暴力音视频的语义一致性,采用合理的融合方案降低模态间干扰、提升模态间信息的互补性,从而提高暴力检测识别性能,这仍需要开展进一步的理论方法研究。现有的研究方法基本上只以视频标签为监督信号,构建并训练带有特征融合层的网络结构以得到视频暴力/非暴力的标签,却忽略了融合的特征应具有语义一致性的约束,这使得学习的分类器在有限的暴力视频训练数据库上容易产生过拟合现象,影响了分类器的泛化能力。
技术实现思路
针对上述问题,本专利技术提出了一种暴力视频识别方法、计算机系统和存储介质。根据本专利技术的第一个方面,本专利技术的一种基于音视频语义一致性度量及多任务学习的暴力视频识别方法,具体包括以下步骤:S100,获取样本视频数据流,并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流;S200,将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征;S300,将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合,以构建特征融合向量;S400,基于所述特征融合向量进行暴力视频分类学习,以构建暴力视频分类模型;S500,基于所述特征融合向量进行暴力音视频语义一致性度量分类学习,以构建暴力音视频语义一致性度量分类模型;S600,将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型,以判断所述待识别的视频属于暴力视频还是非暴力视频。根据本专利技术的实施例,在所述步骤S200中,将所述单帧图像数据流输入对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征,具体包括以下步骤:通过P3D网络与LSTM网络拼接的方式构建用于单帧图像分类的深度神经网络;利用暴力视频样本数据对用于单帧图像分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对单帧图像数据流的特征提取网络模型;将单帧图像数据流输入针对单帧图像数据流的特征提取网络模型,以提取描述暴力场景的单帧图像特征。根据本专利技术的实施例,在所述步骤S200中,将所述运动光流数据流输入对应的特征提取网络模型,以提取描述暴力场景的运动光流特征,具体包括以下步骤:通过P3D网络与LSTM网络拼接的方式构建基于运动光流分类的深度神经网络;利用暴力视频样本数据对基于运动光流分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对运动光流数据流的特征提取网络模型;将运动光流数据流输入针对运动光流数据流的特征提取网络模型,以提取描述暴力场景的运动光流特征。根据本专利技术的实施例,在所述步骤S200中,将所述音频数据流输入对应的特征提取网络模型,以提取描述暴力场景的音频信息特征,具体包括以下步骤:利用VGGish网络构建基于音频分类的深度神经网络;利用暴力视频样本数据对基于音频分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对音频数据流的特征提取网络模型;将音频数据流输入针对音频数据流的特征提取网络模型,以提取描述暴力场景的音频信息特征。根据本专利技术的实施例,所述P3D网络与LSTM网络拼接,具体包括:截取P3D网络的最后一个平均池化层;将所述P3D网络的最后一个平均池化层后面连接LSTM网络。根据本专利技术的实施例,所述VGGish网络为,采用全局平均池化层代替原始VGGish网络中最后两个全连接层之后所获得的改进后的VGGish网络。根据本专利技术的实施例,所述步骤S300包括以下步骤:将单帧图像特征和运动光流特征分别送入两个第一全连接层,其中,每个所述第一全连接层后面分别接有一个第一ReLU激活函数,用以实现非线性变换;将经过非线性变换的单帧图像特征和运动光流特征拼接在一起,以组成一个基于视觉层面的视觉通道特征;将音频信息特征和视觉通道特征分别送入两个第二全连接层,其中,每个所述第二全连接层后面分别接有一个第二ReLU激活函数,用以实现非线性变换;将经过非线性变换的音频信息特征和视觉通道特征拼接在一起,以组成最终的特征融合向量。根据本专利技术的实施例,在所述步骤S600中,所述联合分类任务模型的总体损失函数为所述暴力视频分类模型的损失函数与所述暴力音视频语义一致性度量分类模型的损失函数之和。根据本专利技术的实施例,在所述步骤S600中,所述暴力视频分类模型的损失函数为二值交叉熵损失函数。根据本专利技术的实施例,在所述步骤S600中,所述暴力音视频语义一致性度量分类模型的损失函数为余弦相似度损失函数此外,本专利技术还提供一种计算机存储介质,其中存储有用于实现上述方法的计算机程序。此外,本专利技术还一种计算机设备,其包括存储器和处理器,所述处理器用于执行所述存储器中存储的计算机程序,所述计算机程序用于实现上述方法。与现有技术相比,本专利技术提供的基于音视频语义一致性度量及多任务学习的暴力视频识和系统等具有如下优点或有益效果:本专利技术根据暴力视频在单帧图像、运动光流和音频上的特征信息,设计了基于多特征融合的暴力视频多任务学习网络。在多特征融合过程中,利用构建共享特征子空间的方式,既保留了各特征之间及特征向量内部的数据结构,同时在特征映射变换过程中也保证了多特征之间的语义信息及同一模态下各特征点之间的语义信息不变;同时考虑到音视频语义一致性问题,增加多特征融合网络中对音本文档来自技高网
...

【技术保护点】
1.一种暴力视频识别方法,其特征在于,包括以下步骤:/nS100,获取样本视频数据流,并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流;/nS200,将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征;/nS300,将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合,以构建特征融合向量;/nS400,基于所述特征融合向量进行暴力视频分类学习,以构建暴力视频分类模型;/nS500,基于所述特征融合向量进行暴力音视频语义一致性度量分类学习,以构建暴力音视频语义一致性度量分类模型;/nS600,将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型,以判断所述待识别的视频属于暴力视频还是非暴力视频。/n

【技术特征摘要】
1.一种暴力视频识别方法,其特征在于,包括以下步骤:
S100,获取样本视频数据流,并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流;
S200,将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征;
S300,将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合,以构建特征融合向量;
S400,基于所述特征融合向量进行暴力视频分类学习,以构建暴力视频分类模型;
S500,基于所述特征融合向量进行暴力音视频语义一致性度量分类学习,以构建暴力音视频语义一致性度量分类模型;
S600,将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型,以判断所述待识别的视频属于暴力视频还是非暴力视频。


2.根据权利要求1所述的暴力视频识别方法,其特征在于,在所述步骤S200中,将所述单帧图像数据流输入对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征,具体包括以下步骤:
通过P3D网络与LSTM网络拼接的方式构建用于单帧图像分类的深度神经网络;
利用暴力视频样本数据对用于单帧图像分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对单帧图像数据流的特征提取网络模型;
将单帧图像数据流输入针对单帧图像数据流的特征提取网络模型,以提取描述暴力场景的单帧图像特征。


3.根据权利要求1所述的暴力视频识别方法,其特征在于,在所述步骤S200中,将所述运动光流数据流输入对应的特征提取网络模型,以提取描述暴力场景的运动光流特征,具体包括以下步骤:
通过P3D网络与LSTM网络拼接的方式构建基于运动光流分类的深度神经网络;
利用暴力视频样本数据对基于运动光流分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对运动光流数据流的特征提取网络模型;
将运动光流数据流输入针对运动光流数据流的特征提取网络模型,以提取描述暴力场景的运动光流特征。


4.根据权利要求1所述的暴力视频识别方法,其特征在于,在所述步骤S200中,将所述音频数据流输入对应的特征提取网络模型,以提取描述暴力场景的音频信息特征,具体包括以下步骤:
利用VGGish网络构建基于音频分类的深度神经网络;<...

【专利技术属性】
技术研发人员:吴晓雨徐星宇顾超男杨磊侯聪聪
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1