一种视频文件识别方法及装置制造方法及图纸

技术编号:15226415 阅读:56 留言:0更新日期:2017-04-27 06:33
本发明专利技术公开了一种视频文件识别方法及装置,该方法首先从待识别视频文件中获取音频信息,通过对音频信息进行分段提取音频指纹,与训练样本进行音频匹配来判断是否是目标视频;然后对于无法确认的可疑视频文件,继续通过图像匹配来做进一步的识别。本发明专利技术的装置包括音频预处理模块、音频指纹匹配模块、音频判断模块、图像预处理模块、图像预处理模块和综合判断模块。本发明专利技术的方法及装置处理效率高,识别率高。

【技术实现步骤摘要】

本专利技术属于计算机数据处理
,尤其涉及一种视频文件识别方法及装置。
技术介绍
随着互联网的普及,越来越多用户开始利用互联网服务提供商提供的云服务器来存储个人的视频文件,一些互联网服务提供商还允许用户上传视频文件用来共享给网络中的其他用户。但是法律对于网上传播的视频文件有严格的审查要求,不能涉黄涉暴。因此互联网服务提供商有责任和义务对用户上传及服务商自己提供的视频文件按国家规范进行审核和监管。现有技术对于视频文件的审核都是基于视频图像,通过抓取视频图像中的图片帧进行审核,存在如下问题:处理效率低:视频图像抓帧范围无法有效定位,若想全面审核,抓帧量极大,处理效率低下;识别手段单一,识别率不高:单一借助图片识别,存在漏识别和错误识别概率很高。
技术实现思路
本专利技术的目的是提供一种视频文件识别方法及装置,借助音频指纹识别和采用视频图像抓帧技术进一步进行图片识别,最终给出识别结果,有效提高处理效率。为了实现上述目的,本专利技术技术方案如下:一种视频文件识别方法,用于审核待识别视频文件,所述方法包括:从待识别视频文件中获取音频信息;将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹;将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配,记录音频匹配结果;根据音频匹配结果,判断待识别视频文件是否是目标视频,当判断为目标视频或判断为不是目标视频时,终止识别,当判断为可疑视频文件时,进入下一步继续识别;根据音频匹配结果,从匹配成功的音频分段的起始时间开始对视频文件进行抓帧,抓取视频图像,对抓取的视频图像进行图像匹配,记录图片匹配结果;根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频。本专利技术将获取的音频信息进行分段的一种实现方式,包括:对音频信息在时域上找出超出指定阀值的所有音量峰值点;依次从各峰值点开始按固定时长进行采样得到各音频分段。本专利技术将获取的音频信息进行分段的另一种实现方式,包括:对音频信息按固定时长进行采样得到各音频分段。进一步第,所述音频匹配结果包括:匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息;所述标注信息包括:样本时长、内容等级以及人工分类标签。进一步地,所述根据音频匹配结果,判断待识别视频文件是否是目标视频,包括:当匹配成功的次数大于第一阈值,判断待识别视频文件是目标视频;当匹配成功的次数小于第二阈值,判断待识别视频文件不是目标视频;当匹配成功的次数在第一阈值与第二阈值之间时,计算本次匹配结果对应的音频匹配概率,当计算得到的匹配概率大于设定的第三阈值,判断待识别视频文件是目标视频,否则将待识别视频文件视为可疑视频文件。其中,所述计算本次匹配结果对应的音频匹配概率,包括:根据匹配成功的次数X与所有音频分段的总数Z,计算两者的比值P1为:计算本次匹配结果对应的音频匹配概率R1,计算公式如下:R1=P1*P(Y)其中,R1为本次匹配结果对应的音频匹配概率,P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和。进一步地,所述根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频,包括:根据图像匹配结果,计算图像匹配概率R2,R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值;根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′,如果综合匹配概率超过第四阈值,则判断待识别视频文件为目标视频,否则判定为正常视频;其中,综合匹配概率R′的计算公式如下:R′=R1*α+R2*β其中,α和β分别为音频匹配概率和视频匹配概率的权重。本专利技术还提出了一种视频文件识别装置,用于审核待识别视频文件,所述装置包括:音频预处理模块,用于从待识别视频文件中获取音频信息,将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹;音频指纹匹配模块,用于将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配,记录音频匹配结果;音频判断模块,用于根据音频匹配结果,判断待识别视频文件是否是目标视频,当判断为目标视频或判断为不是目标视频时,终止识别,当判断为可疑视频文件时,由图像预处理模块继续处理;图像预处理模块,用于根据音频匹配结果,从匹配成功的音频分段的起始时间开始对视频文件进行抓帧,抓取视频图像;图像匹配模块,用于对抓取的视频图像进行图像匹配,记录图像匹配结果;综合判断模块,用于根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频。本专利技术提出的一种视频文件识别方法及装置,借助音频指纹识别将视频文件的语音快速识别出来,并记录匹配上的起始时间点,然后在该起始时间点范围内间隔抓帧进一步进行图片识别,最终给出识别结果。具有处理效率高,识别率高的特点。附图说明图1为本专利技术视频文件识别方法流程图;图2为本专利技术视频文件识别装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术技术方案做进一步详细说明,以下实施例不构成对本专利技术的限定。视频文件目前流行的格式很多,包括AVI格式、MOV格式、MPEG模式、RM格式、ASF格式等,一个完整的视频文件包括视频图像和音频信息两部分。本专利技术的总体思路是从视频文件中提取出音频信息,对提取的音频信息进行识别,然后根据识别结果再进行视频图像的抓帧,对抓取的视频图像进行进一步的识别。以下以识别涉黄涉暴的视频为例来进行说明,对于其他类型的视频文件同样适用。如图1所示,一种视频文件识别方法,包括如下步骤:步骤S1、从待识别视频文件中获取音频信息。本实施例从待识别视频文件中获取音频信息,可以直接对视频文件进行解码,提取出音频信息。也可以直接通过其他第三方软件进行音频信息的提取。对于音频信息的提取,已经是比较成熟的技术,这里不再赘述。步骤S2、将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹。将获取的音频信息分段,并对每一个音频分段进行指纹提取,获得每个音频分段对应的音频指纹。本专利技术对音频信息的识别基于音频指纹(Audiofingerprintingtechnology),音频指纹是指可以代表一段声音重要声学特征的基于内容的紧致数字签名,其主要目的是建立一种有效机制来比较两个音频文件的感知听觉质量,可用在音频识别、内容完整性校验等应用中。将音频信息从视频文件中剥离出来后,可以获得该音频信息播放的总时长T(毫秒),以及提取出来的音频信息的总长度L(bytes)。然后将音频信息切分为多个音频分段,对每一个音频分段进行指纹提取,将提取的音频指纹与训练样本进行比对。训练样本也是按照同样的方法进行音频分段,通过训练得到。以下通过两个实施例来阐述具体的音频信息切分方法:方法一:根据时域上音量高低切分。音频信息在时域上沿时间轴音量高低不同,表现为有起有伏的波形,设定一个音量的阈值,可以对音频信息在时域上找出超出指定阀值的所有音量峰值点,记为(k1,k2,k3,....,kn),并记录下各峰值点对应的时间轴上坐标,该时间轴上的坐标就是峰值点在音频信息中的时间偏移量p。然后依次从各峰值点开始按本文档来自技高网...
一种视频文件识别方法及装置

【技术保护点】
一种视频文件识别方法,用于审核待识别视频文件,其特征在于,所述方法包括:从待识别视频文件中获取音频信息;将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹;将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配,记录音频匹配结果;根据音频匹配结果,判断待识别视频文件是否是目标视频,当判断为目标视频或判断为不是目标视频时,终止识别,当判断为可疑视频文件时,进入下一步继续识别;根据音频匹配结果,从匹配成功的音频分段的起始时间开始对视频文件进行抓帧,抓取视频图像,对抓取的视频图像进行图像匹配,记录图片匹配结果;根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频。

【技术特征摘要】
1.一种视频文件识别方法,用于审核待识别视频文件,其特征在于,所述方法包括:从待识别视频文件中获取音频信息;将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹;将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配,记录音频匹配结果;根据音频匹配结果,判断待识别视频文件是否是目标视频,当判断为目标视频或判断为不是目标视频时,终止识别,当判断为可疑视频文件时,进入下一步继续识别;根据音频匹配结果,从匹配成功的音频分段的起始时间开始对视频文件进行抓帧,抓取视频图像,对抓取的视频图像进行图像匹配,记录图片匹配结果;根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频。2.根据权利要求1所述的视频文件识别方法,其特征在于,所述将获取的音频信息进行分段,包括:对音频信息在时域上找出超出指定阀值的所有音量峰值点;依次从各峰值点开始按固定时长进行采样得到各音频分段。3.根据权利要求1所述的视频文件识别方法,其特征在于,所述将获取的音频信息进行分段,包括:对音频信息按固定时长进行采样得到各音频分段。4.根据权利要求1所述的视频文件识别方法,其特征在于,所述音频匹配结果包括:匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息;所述标注信息包括:样本时长、内容等级以及人工分类标签。5.根据权利要求4所述的视频文件识别方法,其特征在于,所述根
\t据音频匹配结果,判断待识别视频文件是否是目标视频,包括:当匹配成功的次数大于第一阈值,判断待识别视频文件是目标视频;当匹配成功的次数小于第二阈值,判断待识别视频文件不是目标视频;当匹配成功的次数在第一阈值与第二阈值之间时,计算本次匹配结果对应的音频匹配概率,当计算得到的匹配概率大于设定的第三阈值,判断待识别视频文件是目标视频,否则将待识别视频文件视为可疑视频文件。6.根据权利要求5所述的视频文件识别方法,其特征在于,所述计算本次匹配结果对应的音频匹配概率,包括:根据匹配成功的次数X与所有音频分段的总数Z,计算两者的比值P1为:P1=XZ;]]>计算本次匹配结果对应的音频匹配概率R1,计算公式如下:R1=P1*P(Y)其中,R1为本次匹配结果对应的音频匹配概率,P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和。7.根据权利要求6所述的视频文件识别方法,其特征在于,所述根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频,包括:根据图像匹配结果,计算图像匹配概率R2,R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值;根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′,如果综合匹配概率超过第四阈值,则判断待识别视频文件为目标视频,否则判定为正常视频;其中,综合匹配概率R′的计算公式如下:R′=R1*α+R2*β其中,α和β分别为音频匹配概率和视频匹配概率的权重。8.一种视频文件识别装置,用于审核待识别视频文件,其特征在于,所述装置包括:音频预处理模块,用于从待识别视频...

【专利技术属性】
技术研发人员:谷长信
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1