一种暴力视频识别方法、计算机系统和存储介质技术方案

技术编号：23025242 阅读：19 留言：0更新日期：2020-01-03 16:59

本发明专利技术提供了一种暴力视频识别方法、计算机系统和存储介质。该方法根据暴力视频在单帧图像、运动光流和音频上的特征信息，构建基于多特征融合的暴力视频多任务学习网络，通过在多特征融合过程中，利用构建共享特征子空间的方式，保留各特征之间以及特征向量内部的数据结构，同时在特征映射变换过程中保证多特征之间的语义信息以及同一模态下的各特征点之间的语义信息不变。由于同时考虑到音视频语义一致性问题，增加多特征融合网络中对音视频语义一致性的度量任务，因此进一步了提升暴力视频分类系统的泛化能力。

A violence video recognition method, computer system and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种暴力视频识别方法、计算机系统和存储介质
本专利技术属于图像识别
，尤其涉及一种基于音视频语义一致性度量及多任务学习的暴力视频识别方法、计算机系统和存储介质。
技术介绍
互联网技术的快速发展给我们的生活带来了便利，也带来了各种隐患，暴力视频就是其中一个隐患。血腥暴力视频在互联网上肆意的传播严重破坏了健康良好的网络环境，不利于青少年身心的健康发展。因此暴力视频智能化识别水平的提升具有非常重要的意义。其中，如何提取并有效融合音视频特征是暴力视频检测技术中亟待解决的关键问题。从以往的暴力视频检测技术来看，主要还存在以下两种不足。首先是对暴力场景的描述能力不够，主要表现为没有充分提取暴力特征。在音视频特征提取方面：要么基于传统的手工特征提取方法，要么提取、拼凑众多的手工特征和深度学习获得的特征，而不是针对暴力场景的特点，提取更具有暴力场景描述能力的音视频特征。其次特征融合策略有待完善：目前大多数研究采用信息有限的决策层后融合方法为主，没有建立起各模态特征之间的交互作用；而且在利用前融合的方案中，多数文献是通过音视频特征的简单拼接实现特征层面的前融合，未从理论上探索合理的特征子空间构建方法，也没有在融合时考虑度量音视频特征的语义一致性(即具有相同的语义概念)。在多模态融合问题上，各模态数据在某些情况下是互补的，但在有些情况下是互相干扰的(如著名的“麦格克效应”-McGurkeffect)。如何度量暴力音视频的语义一致性，采用合理的融合方案降低模态间干扰、提升模态间信息的互补性，从而提高暴力检测识...

【技术保护点】
1.一种暴力视频识别方法，其特征在于，包括以下步骤：/nS100，获取样本视频数据流，并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流；/nS200，将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型，以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征；/nS300，将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合，以构建特征融合向量；/nS400，基于所述特征融合向量进行暴力视频分类学习，以构建暴力视频分类模型；/nS500，基于所述特征融合向量进行暴力音视频语义一致性度量分类学习，以构建暴力音视频语义一致性度量分类模型；/nS600，将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型，以判断所述待识别的视频属于暴力视频还是非暴力视频。/n

【技术特征摘要】
1.一种暴力视频识别方法，其特征在于，包括以下步骤：
S100，获取样本视频数据流，并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流；
S200，将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型，以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征；
S300，将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合，以构建特征融合向量；
S400，基于所述特征融合向量进行暴力视频分类学习，以构建暴力视频分类模型；
S500，基于所述特征融合向量进行暴力音视频语义一致性度量分类学习，以构建暴力音视频语义一致性度量分类模型；
S600，将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型，以判断所述待识别的视频属于暴力视频还是非暴力视频。

2.根据权利要求1所述的暴力视频识别方法，其特征在于，在所述步骤S200中，将所述单帧图像数据流输入对应的特征提取网络模型，以提取描述暴力场景的单帧图像特征，具体包括以下步骤：
通过P3D网络与LSTM网络拼接的方式构建用于单帧图像分类的深度神经网络；
利用暴力视频样本数据对用于单帧图像分类的深度神经网络进行训练，将通过训练获得的深度神经网络模型作为针对单帧图像数据流的特征提取网络模型；
将单帧图像数据流输入针对单帧图像数据流的特征提取网络模型，以提取描述暴力场景的单帧图像特征。

3.根据权利要求1所述的暴力视频识别方法，其特征在于，在所述步骤S200中，将所述运动光流数据流输入对应的特征提取网络模型，以提取描述暴力场景的运动光流特征，具体包括以下步骤：
通过P3D网络与LSTM网络拼接的方式构建基于运动光流分类的深度神经网络；
利用暴力视频样本数据对基于运动光流分类的深度神经网络进行训练，将通过训练获得的深度神经网络模型作为针对运动光流数据流的特征提取网络模型；
将运动光流数据流输入针对运动光流数据流的特征提取网络模型，以提取描述暴力场景的运动光流特征。

4.根据权利要求1所述的暴力视频识别方法，其特征在于，在所述步骤S200中，将所述音频数据流输入对应的特征提取网络模型，以提取描述暴力场景的音频信息特征，具体包括以下步骤：
利用VGGish网络构建基于音频分类的深度神经网络；<...

【专利技术属性】
技术研发人员：吴晓雨，徐星宇，顾超男，杨磊，侯聪聪，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人