The invention relates to the field of computer video classification, and proposes a method of violent audio and video recognition based on multi-clue fusion, aiming at solving a large number of false detection and missed detection problems caused by single media modal analysis in audio and video recognition. The method includes: dividing the audio and video to be detected for the recognition of violent terror, extracting the audio frame sequence and the video frame sequence; detecting whether the audio frame sequence and the video frame sequence contain violent terror information in accordance with the predetermined detection sequence; and if the audio frame sequence and/or the video sequence frame sequence contain violent terror information. The audio and video to be detected is determined to be a riot audio and video. The invention detects audio and video based on multiple clues, and can quickly and accurately recognize the riot video from a large number of audio and video.
【技术实现步骤摘要】
基于多线索融合的暴恐音视频识别方法及装置
本专利技术涉及计算机视觉
,特别涉及视频分类领域,具体涉及一种基于多线索融合的暴恐音视频识别方法及装置。
技术介绍
暴恐音视频是指含有宣扬恐怖活动等非法内容的音频或视频。随着网络技术的飞速发展,移动互联网时代随之而来,这使得越来越多的多媒体数据呈现在人们的眼前,暴恐视频也得以大量传播和扩散。网络暴恐音视频的识别技术,可以保障互联网视频内容安全、遏制恐怖主义的传播扩散、维护国家稳定。网络音视频作为一种极具感染力和表现力的媒体模态,在形式上和内容上都具有很强的复杂性,这造成了对特定音视频内容理解与识别困难。在形式上,视频融合了声音、图像、文本等多种媒体模态,需要分析视频中各模态的语义信息并相互补充和协同,才可以准确判断视频内容的性质;在内容上,暴恐的定义是无法从单一维度给出的,很多暴恐音视频与正常视频极为相似,因此需要充分挖掘视频中的特殊标识、特殊声音和特定人物等局部线索,并对多种维度的线索进行融合分析,才能够推理出视频内容的性质。现有的音视频内容理解与识别多为从某单一媒体模态分析视频,例如仅从音频角度或者图像角度,缺少不同模态形式的协同,并且没有充分挖掘视频中的局部线索,仅仅对视频整体做分类,不仅会存在大量误检和漏检情况,而且无法精确定位视频中的可疑区域和对应类别。同时,大多数音视频识别算法也并未充分考虑互联网环境下视频的数量大、来源广、编码格式复杂多样等特点,在计算速度、运行鲁棒性和资源消耗等方面难以满足真实互联网环境下的音视频内容理解与识别任务需求。
技术实现思路
为了解决现有技术中的上述问题,即为了解决暴恐音 ...
【技术保护点】
1.一种基于多线索融合的暴恐音视频识别方法,其特征在于,所述方法包括:对待检测音视频进行镜头分割,提取音频帧序列和视频帧序列;按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息;如果所述音频帧序列和/或视频序帧列包含暴恐信息,则确定所述待检测音视频为暴恐音视频。
【技术特征摘要】
1.一种基于多线索融合的暴恐音视频识别方法,其特征在于,所述方法包括:对待检测音视频进行镜头分割,提取音频帧序列和视频帧序列;按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息;如果所述音频帧序列和/或视频序帧列包含暴恐信息,则确定所述待检测音视频为暴恐音视频。2.根据权利里要求1所述的基于多线索融合的暴恐音视频识别方法,其特征在于,在“对待检测音视频进行分割,提取音频帧序列和视频帧序列”中提取视频帧序列的方法为:提取所述待检测音视频的每帧视频帧的直方图,对相邻视频帧的直方图进行差异比较,以确定所述待检测视频的镜头边界;根据所确定的镜头边界,选取所述待检测视频各镜头的起始帧、中间帧、结束帧作为关键视频帧;由所述关键视频帧生成所述待检测音视频的视频帧序列。3.根据权利要求1所述的基于多线索融合的暴恐音视频识别方法,其特征在于,“按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息”,包括:利用预先构建的视频识别模型对所述视频帧序列进行暴恐识别,确定所述视频帧序列中是否包含暴恐信息;所述视频识别模型基于深度卷积神经网络构建;利用预先构建的音频识别模型对所述音频帧序列进行暴恐识别,确定所述音频帧序列中是否包含暴恐信息;所述音频识别模型基于连接时序深度卷积神经网络构建。4.根据权利要求3所述的基于多线索融合的暴恐音视频识别方法,其特征在于,所述预先构建的视频识别模型包括对具有特殊标志的视频帧进行检测的第一视频识别子模型;以及,“利用预先构建的视频识别模型对所述视频帧序列进行暴恐识别,确定所述视频帧序列中是否包含暴恐信息”,包括:利用所述第一视频识别子模型检测所述视频帧序列中是否包含预先指定标志的信息;根据所述第一视频识别子模型检测结果,确定所述视频帧序列中是否包含暴恐信息。5.根据权利要求3所述的基于多线索融合的暴恐音视频识别方法,其特征在于,所述预先构建的视频识别模型包括对具有特殊人物的视频帧进行检测的第二视频识别子模型;以及,“利...
【专利技术属性】
技术研发人员:李兵,胡卫明,王博,原春锋,余昊楠,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。