基于多线索融合的暴恐音视频识别方法及装置制造方法及图纸

技术编号:19635483 阅读:39 留言:0更新日期:2018-12-01 16:08
本发明专利技术涉及计算机视频分类领域,提出了一种基于多线索融合的暴恐音视频识别方法,旨在解决音视频识别中,单一媒体模态分析音视频造成的大量误检和漏检问题。该方法包括:对用于进行暴恐识别的待检测音视频进行分割,提取音频帧序列和视频帧序列;按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息;如果所述音频帧序列和/或视频序帧列包含暴恐信息,确定所述待检测音视频为暴恐音视频。本发明专利技术基于多个线索对音视频进行分级检测,能够快速、准确的从大量的音视频中识别出暴恐视频。

Video and Audio Recognition Method and Device for Violent Terror Based on Multi-cue Fusion

The invention relates to the field of computer video classification, and proposes a method of violent audio and video recognition based on multi-clue fusion, aiming at solving a large number of false detection and missed detection problems caused by single media modal analysis in audio and video recognition. The method includes: dividing the audio and video to be detected for the recognition of violent terror, extracting the audio frame sequence and the video frame sequence; detecting whether the audio frame sequence and the video frame sequence contain violent terror information in accordance with the predetermined detection sequence; and if the audio frame sequence and/or the video sequence frame sequence contain violent terror information. The audio and video to be detected is determined to be a riot audio and video. The invention detects audio and video based on multiple clues, and can quickly and accurately recognize the riot video from a large number of audio and video.

【技术实现步骤摘要】
基于多线索融合的暴恐音视频识别方法及装置
本专利技术涉及计算机视觉
,特别涉及视频分类领域,具体涉及一种基于多线索融合的暴恐音视频识别方法及装置。
技术介绍
暴恐音视频是指含有宣扬恐怖活动等非法内容的音频或视频。随着网络技术的飞速发展,移动互联网时代随之而来,这使得越来越多的多媒体数据呈现在人们的眼前,暴恐视频也得以大量传播和扩散。网络暴恐音视频的识别技术,可以保障互联网视频内容安全、遏制恐怖主义的传播扩散、维护国家稳定。网络音视频作为一种极具感染力和表现力的媒体模态,在形式上和内容上都具有很强的复杂性,这造成了对特定音视频内容理解与识别困难。在形式上,视频融合了声音、图像、文本等多种媒体模态,需要分析视频中各模态的语义信息并相互补充和协同,才可以准确判断视频内容的性质;在内容上,暴恐的定义是无法从单一维度给出的,很多暴恐音视频与正常视频极为相似,因此需要充分挖掘视频中的特殊标识、特殊声音和特定人物等局部线索,并对多种维度的线索进行融合分析,才能够推理出视频内容的性质。现有的音视频内容理解与识别多为从某单一媒体模态分析视频,例如仅从音频角度或者图像角度,缺少不同模态形式的协同,并且没有充分挖掘视频中的局部线索,仅仅对视频整体做分类,不仅会存在大量误检和漏检情况,而且无法精确定位视频中的可疑区域和对应类别。同时,大多数音视频识别算法也并未充分考虑互联网环境下视频的数量大、来源广、编码格式复杂多样等特点,在计算速度、运行鲁棒性和资源消耗等方面难以满足真实互联网环境下的音视频内容理解与识别任务需求。
技术实现思路
为了解决现有技术中的上述问题,即为了解决暴恐音视频识别中由于无法充分挖掘视频中的局部线索,存在大量误检和漏检情况,无法精确定位视频中的可疑区域和对应类别的问题。本申请提供了一种基于多线索融合的暴恐音视频识别方法,以解决上述问题。第一方面,本申请提供了基于多线索融合的暴恐音视频识别方法,该方法包括如下步骤:对待检测音视频进行镜头分割,提取音频帧序列和视频帧序列;按照预先指定的检测顺序检测上述音频帧序列和视频帧序列中是否包含暴恐信息;如果所述音频帧序列和/或视频序帧列包含暴恐信息,则确定所述待检测音视频为暴恐音视频。在一些示例中,在“对待检测音视频进行镜头分割,提取音频帧序列和视频帧序列”中提取视频帧序列的方法为:提取上述待检测音视频的每帧视频帧的直方图,对相邻视频帧的直方图进行差异比较,以确定上述待检测视频的镜头边界;根据所确定的镜头边界,选取上述待检测视频各镜头的起始帧、中间帧、结束帧作为关键视频帧;由上述关键视频帧生成上述待检测音视频的视频帧序列。在一些示例中,“按照预先指定的检测顺序检测上述音频帧序列和视频帧序列中是否包含暴恐信息”,包括:利用预先构建的视频识别模型对上述视频帧序列进行暴恐识别,确定上述视频帧序列中是否包含暴恐信息;上述视频识别模型基于深度卷积神经网络构建;利用预先构建的音频识别模型对上述音频帧序列进行暴恐识别,确定上述音频帧序列中是否包含暴恐信息;上述音频识别模型基于连接时序深度卷积神经网络构建。在一些示例中,上述预先构建的视频识别模型包括对具有特殊标志的视频帧进行检测的第一视频识别子模型;以及,“利用预先构建的视频识别模型对上述视频帧序列进行暴恐识别,确定上述视频帧序列中是否包含暴恐信息”,包括:利用上述第一视频识别子模型检测上述视频帧序列中是否包含预先指定标志的信息;根据上述第一视频识别子模型检测结果,确定上述视频帧序列中是否包含暴恐信息。一些示例中,上述预先构建的视频识别模型包括对具有特殊人物的视频帧进行检测的第二视频识别子模型;以及,“利用预先构建的视频识别模型对上述视频帧序列进行暴恐识别,确定上述视频帧序列中是否包含暴恐信息”,包括:利用第二视频识别子模型检测上述视频帧序列中是否包含预先指定人物的信息;根据上述第二视频识别子模型检测结果,确定上述视频帧序列中是否包含暴恐信息。在一些示例中,上述预先构建的视频识别模型包括对具有特殊物体的视频进行检测的第三视频识别子模型;以及,“利用预先构建的视频识别模型对上述视频帧序列进行暴恐识别,确定上述视频帧序列中是否包含暴恐信息”,包括:利用第三视频识别子模型检测上述视频帧序列中是否包含预先指定物体的信息;根据上述第三视频识别子模型检测结果,确定上述视频帧序列中是否包含暴恐信息。在一些示例中,“按照预先指定的检测顺序检测上述音频帧序列和视频帧序列中是否包含暴恐信息”,包括:上述视频识别模型中的各子识别模型以及音频识别模型按照预先指定的检测顺序分级检测上述音频帧序列和/或视频帧序列的暴恐信息;检测级别排序在先的识别模型检测到上述音频帧序列和/或视频帧序列包含暴恐信息,停止检测级别排序在后各识别模型的检测。在一些示例中,“如果所述音频帧序列和/或视频帧序列包含暴恐信息,确定上述待检测音视频为包括音视频”,包括:接收各识别模型的检测结果,并判断上述检测结果中是否包含暴恐信息;确定包含暴恐信息的音频帧序列和/或视频帧序列所在的待检测音视频为包括音视频。第二方面,本申请提供一种存储装置,在该存储装置中存储有多条程序,上述程序适于由处理器加载并执行以实现上述第一方面所述的基于多线索融合的暴恐音视频识别方法。第三方面,本申请提供一种处理装置,包括处理器,适于执行各条程序;以及,存储设备,适于存储多条程序;上述程序适于由处理器加载并执行以实现:上述第一方面所述的基于多线索融合的暴恐音视频识别方法。本申请提供的基于多线索融合的暴恐音视频识别方法及装置,通过对进行暴恐检测的音视频进行结构化分析,从该待检测的音视频中提取出视频帧序列和音频帧序列;然后,利用预先构建的多个识别模型,按照预先设定的检测顺序进行暴恐信息识别,最后,根据检测结果确定出待检测音视频是否为暴恐音视频。本专利技术中对待检测音视频进行结构化分析,提取出视频帧序列和音频帧序列,实现在镜头检测的精度和速度间达到很好的平衡;利用预设检测顺序检测上述视频帧序列和音频帧序列中是否包含暴恐信息实现了对暴恐信息的分级检测,提高了检测效率以及检测的粒度,实现快速、准确识别暴恐音视频。附图说明图1是本申请可以应用于其中的示例性系统架构图;图2是本申请的基于多线索融合的暴恐音视频识别方法的一个实施例的流程示意图;图3根据本申请的基于多线索融合的暴恐音视频识别方法实施例中基于识别模型进行多线索识别的示例性流程图;图4,本申请的基于多线索融合的暴恐音视频识别方法实施例中基于识别模型进行多线索识别的示例性流程图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的基于多线索融合的暴恐音视频识别方法实施例的示例性系统架构示意图。如图1所示,系统架构可以包括终端设备101,网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101本文档来自技高网...

【技术保护点】
1.一种基于多线索融合的暴恐音视频识别方法,其特征在于,所述方法包括:对待检测音视频进行镜头分割,提取音频帧序列和视频帧序列;按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息;如果所述音频帧序列和/或视频序帧列包含暴恐信息,则确定所述待检测音视频为暴恐音视频。

【技术特征摘要】
1.一种基于多线索融合的暴恐音视频识别方法,其特征在于,所述方法包括:对待检测音视频进行镜头分割,提取音频帧序列和视频帧序列;按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息;如果所述音频帧序列和/或视频序帧列包含暴恐信息,则确定所述待检测音视频为暴恐音视频。2.根据权利里要求1所述的基于多线索融合的暴恐音视频识别方法,其特征在于,在“对待检测音视频进行分割,提取音频帧序列和视频帧序列”中提取视频帧序列的方法为:提取所述待检测音视频的每帧视频帧的直方图,对相邻视频帧的直方图进行差异比较,以确定所述待检测视频的镜头边界;根据所确定的镜头边界,选取所述待检测视频各镜头的起始帧、中间帧、结束帧作为关键视频帧;由所述关键视频帧生成所述待检测音视频的视频帧序列。3.根据权利要求1所述的基于多线索融合的暴恐音视频识别方法,其特征在于,“按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息”,包括:利用预先构建的视频识别模型对所述视频帧序列进行暴恐识别,确定所述视频帧序列中是否包含暴恐信息;所述视频识别模型基于深度卷积神经网络构建;利用预先构建的音频识别模型对所述音频帧序列进行暴恐识别,确定所述音频帧序列中是否包含暴恐信息;所述音频识别模型基于连接时序深度卷积神经网络构建。4.根据权利要求3所述的基于多线索融合的暴恐音视频识别方法,其特征在于,所述预先构建的视频识别模型包括对具有特殊标志的视频帧进行检测的第一视频识别子模型;以及,“利用预先构建的视频识别模型对所述视频帧序列进行暴恐识别,确定所述视频帧序列中是否包含暴恐信息”,包括:利用所述第一视频识别子模型检测所述视频帧序列中是否包含预先指定标志的信息;根据所述第一视频识别子模型检测结果,确定所述视频帧序列中是否包含暴恐信息。5.根据权利要求3所述的基于多线索融合的暴恐音视频识别方法,其特征在于,所述预先构建的视频识别模型包括对具有特殊人物的视频帧进行检测的第二视频识别子模型;以及,“利...

【专利技术属性】
技术研发人员:李兵胡卫明王博原春锋余昊楠
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1