一种视频文件识别方法及装置制造方法及图纸

技术编号：15226415 阅读：56 留言：0更新日期：2017-04-27 06:33

本发明专利技术公开了一种视频文件识别方法及装置，该方法首先从待识别视频文件中获取音频信息，通过对音频信息进行分段提取音频指纹，与训练样本进行音频匹配来判断是否是目标视频；然后对于无法确认的可疑视频文件，继续通过图像匹配来做进一步的识别。本发明专利技术的装置包括音频预处理模块、音频指纹匹配模块、音频判断模块、图像预处理模块、图像预处理模块和综合判断模块。本发明专利技术的方法及装置处理效率高，识别率高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机数据处理
，尤其涉及一种视频文件识别方法及装置。
技术介绍
随着互联网的普及，越来越多用户开始利用互联网服务提供商提供的云服务器来存储个人的视频文件，一些互联网服务提供商还允许用户上传视频文件用来共享给网络中的其他用户。但是法律对于网上传播的视频文件有严格的审查要求，不能涉黄涉暴。因此互联网服务提供商有责任和义务对用户上传及服务商自己提供的视频文件按国家规范进行审核和监管。现有技术对于视频文件的审核都是基于视频图像，通过抓取视频图像中的图片帧进行审核，存在如下问题：处理效率低：视频图像抓帧范围无法有效定位，若想全面审核，抓帧量极大，处理效率低下；识别手段单一，识别率不高：单一借助图片识别，存在漏识别和错误识别概率很高。
技术实现思路
本专利技术的目的是提供一种视频文件识别方法及装置，借助音频指纹识别和采用视频图像抓帧技术进一步进行图片识别，最终给出识别结果，有效提高处理效率。为了实现上述目的，本专利技术技术方案如下：一种视频文件识别方法，用于审核待识别视频文件，所述方法包括：从待识别视频文件中获取音频信息；将获取的音频信息进行分段，对分段后的音频分段进行指纹提取，得到音频分段的音频指纹；将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配，记录音频匹配结果；根据音频匹配结果，判断待识别视频文件是否是目标视频，当判断为目标视频或判断为不是目标视频时，终止识别，当判断为可疑视频文件时，进入下一步继续识别；根据音频匹配结果，从匹配成功的音频分段的起始时间开始对视频文件进行抓帧，抓取视频图像，对抓取的视频图像进行图像...
一种视频文件识别方法及装置

【技术保护点】
一种视频文件识别方法，用于审核待识别视频文件，其特征在于，所述方法包括：从待识别视频文件中获取音频信息；将获取的音频信息进行分段，对分段后的音频分段进行指纹提取，得到音频分段的音频指纹；将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配，记录音频匹配结果；根据音频匹配结果，判断待识别视频文件是否是目标视频，当判断为目标视频或判断为不是目标视频时，终止识别，当判断为可疑视频文件时，进入下一步继续识别；根据音频匹配结果，从匹配成功的音频分段的起始时间开始对视频文件进行抓帧，抓取视频图像，对抓取的视频图像进行图像匹配，记录图片匹配结果；根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频。

【技术特征摘要】
1.一种视频文件识别方法，用于审核待识别视频文件，其特征在于，所述方法包括：从待识别视频文件中获取音频信息；将获取的音频信息进行分段，对分段后的音频分段进行指纹提取，得到音频分段的音频指纹；将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配，记录音频匹配结果；根据音频匹配结果，判断待识别视频文件是否是目标视频，当判断为目标视频或判断为不是目标视频时，终止识别，当判断为可疑视频文件时，进入下一步继续识别；根据音频匹配结果，从匹配成功的音频分段的起始时间开始对视频文件进行抓帧，抓取视频图像，对抓取的视频图像进行图像匹配，记录图片匹配结果；根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频。2.根据权利要求1所述的视频文件识别方法，其特征在于，所述将获取的音频信息进行分段，包括：对音频信息在时域上找出超出指定阀值的所有音量峰值点；依次从各峰值点开始按固定时长进行采样得到各音频分段。3.根据权利要求1所述的视频文件识别方法，其特征在于，所述将获取的音频信息进行分段，包括：对音频信息按固定时长进行采样得到各音频分段。4.根据权利要求1所述的视频文件识别方法，其特征在于，所述音频匹配结果包括：匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息；所述标注信息包括：样本时长、内容等级以及人工分类标签。5.根据权利要求4所述的视频文件识别方法，其特征在于，所述根
\t据音频匹配结果，判断待识别视频文件是否是目标视频，包括：当匹配成功的次数大于第一阈值，判断待识别视频文件是目标视频；当匹配成功的次数小于第二阈值，判断待识别视频文件不是目标视频；当匹配成功的次数在第一阈值与第二阈值之间时，计算本次匹配结果对应的音频匹配概率，当计算得到的匹配概率大于设定的第三阈值，判断待识别视频文件是目标视频，否则将待识别视频文件视为可疑视频文件。6.根据权利要求5所述的视频文件识别方法，其特征在于，所述计算本次匹配结果对应的音频匹配概率，包括：根据匹配成功的次数X与所有音频分段的总数Z，计算两者的比值P1为：P1=XZ;]]>计算本次匹配结果对应的音频匹配概率R1，计算公式如下：R1＝P1*P(Y)其中，R1为本次匹配结果对应的音频匹配概率，P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和。7.根据权利要求6所述的视频文件识别方法，其特征在于，所述根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频，包括：根据图像匹配结果，计算图像匹配概率R2，R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值；根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′，如果综合匹配概率超过第四阈值，则判断待识别视频文件为目标视频，否则判定为正常视频；其中，综合匹配概率R′的计算公式如下：R′＝R1*α+R2*β其中，α和β分别为音频匹配概率和视频匹配概率的权重。8.一种视频文件识别装置，用于审核待识别视频文件，其特征在于，所述装置包括：音频预处理模块，用于从待识别视频...

【专利技术属性】
技术研发人员：谷长信，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人