音视频文件检测管理方法及装置制造方法及图纸

技术编号:11856081 阅读:88 留言:0更新日期:2015-08-11 02:34
本发明专利技术提供了一种音视频文件检测管理方法及装置。该方法包括:从存储有音视频文件的网站获取所述音视频文件对应的音视频元数据;根据预设规则对所述音视频元数据进行初步筛选,以对所述音视频文件进行分类;依据分类结果对所述音视频文件中的至少一部分进行深度分析,得到针对被分析音视频文件的判别结果;根据所述判别结果检测所述被分析音视频文件是否为特定类型的音视频文件。采用本发明专利技术能够提高互联网安全。

【技术实现步骤摘要】

本专利技术涉及互联网应用领域,特别是涉及一种音视频文件检测管理方法及装置
技术介绍
互联网带来信息的爆炸,与此同时,人们越来越多的参与到互联网的使用当中。随着互联网被越来越频繁的使用,催生了互联网存储模式,例如各种云盘存储应用,视频网站的流行等等。云盘存储应用或者视频网站都会存在大量的数据存储,尤其是信息量较大且简单易懂易于被用户理解的音视频类数据存储。相应地,由用户产生的音视频文件也越来越多,这些文件被保存在提供相关服务(例如上文提及的云盘存储应用和/或视频网站)的服务器上,并与用户账户相关联。音视频文件的互联网存储虽然为用户其提供大信息量、简单易懂的数据,但是,相对于简单的文字文件,音视频文件因其音视频的信息复杂性存在难以检测的问题,进而可能会为用户以及整个互联网时代带来一定的安全隐患。例如,用户可能将包含木马/病毒/不当的宣传资料等的音视频文件上传至云盘存储应用,随后,将账号告知其他人,其他人就可以利用账号查看、下载等方式获取到包含木马/病毒/不当的宣传资料的音视频文件,进而对互联网安全造成威胁。或者,用户可以将上述文件直接发到视频网站,供他人观看,均会对互联网安全造成一定的威胁。目前各网站采用人工审核的方式对互联网存储的音视频文件进行检测。图1示出了现有技术的人工审核视频的流程示意图。由图1可以看出,注册用户上传视频之后,网站将其转入人工审核系统进行安全性判别,在此同时,该视频可以继续传播,由其他用户获取。仅仅在人工审核系统判别出其安全性确实有问题时,才对该视频进行相应处置。但是,考虑到互联网的大数据性,云盘存储应用或者视频网站每天都会接收到用户上传的大量音视频资源,完全靠人工审核费时费力,并且会造成大量遗漏。另外,人工审核使得每个网站的审核系统均自成体系,没有一个统一的标准,标准的不完善也进一步会对互联网安全造成影响。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的音视频文件检测管理方法和相应的装置。基于本专利技术的一个方面,本专利技术实施例提供了一种音视频文件检测管理方法,包括:从存储有音视频文件的网站获取所述音视频文件对应的音视频元数据;根据预设规则对所述音视频元数据进行初步筛选,以对所述音视频文件进行分类;依据分类结果对所述音视频文件中的至少一部分进行深度分析,得到针对被分析音视频文件的判别结果;根据所述判别结果检测所述被分析音视频文件是否为特定类型的音视频文件。可选地,所述依据分类结果对所述音视频文件中的至少一部分进行深度分析,得到针对被分析音视频文件的判别结果的步骤进一步包括:根据所述分类结果获取所述被分析音视频文件;提取所述被分析音视频文件的至少一个特征数据;对提取的特征数据进行信息识别操作,以判断所述提取的特征数据中是否包含特定类型的信息;依据所述信息识别操作的结果,得到所述判别结果。可选地,所述从存储有音视频文件的网站获取所述音视频文件对应的音视频元数据的步骤进一步包括:通过网站数据上传接口向各网站发送元数据获取请求,并通过各网站数据上传接口接收各网站应答所述元数据获取请求所上传的音视频元数据;或者通过与各网站对应的网站数据上传接口接收各网站主动上传的音视频元数据。可选地,在一定的时间段内,各网站所更新的音视频资源在其数据库中所占存储比达到一定的百分比时主动上传音视频元数据;或者,在一定的时间段内,各网站所更新的音视频资源的总量达到一定的数值时主动上传音视频元数据;或者每隔固定或不定时间段,各网站主动上传音视频元数据。可选地,所述网站数据上传接口的数量为一个或多个,当所述网站数据上传接口为一个时,通过该网站数据上传接口接收各网站上传的音视频元数据;当所述各网站数据上传接口为多个时,根据包括网站数据上传接口与各网站绑定关系的预配置信息,通过各网站数据上传接口分别接收与各网站数据上传接口绑定的各网站上传的音视频元数据。可选地,所述根据预设规则对所述音视频元数据进行初步筛选的步骤进一步包括:根据预设的黑白名单规则对所述音视频元数据进行初步筛选对比;若所述音视频元数据与黑名单规则匹配,则筛选其为不可信任数据;若所述音视频元数据与白名单规则匹配,则筛选其为可信任数据;若所述音视频元数据与黑白名单规则均不匹配,则筛选其为需进一步深度分析的未识别数据。可选地,设置所述黑白名单规则的参数包括下列至少之一:所述音视频元数据的IP地址;所述音视频元数据的email来源;所述音视频元数据的MD5标识;所述音视频元数据的后缀名;所述音视频元数据的下载地址; 所述音视频元数据的文件摘要。可选地,所述提取所述被分析音视频文件的至少一个特征数据的步骤进一步包括:对于视频文件,提取其中的至少一帧画面和/或至少一个语音片段作为特征数据;和/或对于音频文件,提取其中的至少一个语音片段作为特征数据。可选地,所述对于视频文件,提取其中的至少一帧画面作为特征数据的步骤进一步包括:根据视频文件的时间轴走向,在至少一个时间点提取对应帧的画面作为特征数据。可选地,根据视频文件的时间轴走向,在至少一个时间点提取对应帧的画面的步骤进一步包括下列至少之一:在所述时间轴上随机选择任意时间点,提取对应帧的画面;集中在所述时间轴的某个时间段内进行提取若干帧的画面;每隔固定时间在对应时间点提取对应帧的画面以生成规则样本选集;间隔不固定时间在对应时间点提取对应帧的画面以生成不规则样本选集。可选地,所述对提取的特征数据进行信息识别操作,以判断所述提取的特征数据中是否包含特定类型的信息的步骤进一步包括:对作为特征数据的帧画面进行信息识别,得到所述帧画面的表达信息,其中,所述表达信息包括所述帧画面上的文字信息和/或所述帧画面的图形信息;对所述表达信息进行识别操作,以判断出该帧画面上是否以文字和/或图形的方式包含特定类型的信息。可选地,所述表达信息包括徽标LOGO。可选地,所述对于音频文件和/或视频文件,提取其中的至少一个语音片段作为特征数据的步骤进一步包括:根据音频文件和/或视频文件的时间轴走向,提取至少一个时间段的语音片段作为特征数据。可选地,所述根据音频文件和/或视频文件的时间轴走向,提取至少一个时间段的语音片段的步骤进一步包括:在所述时间轴上随机选择任意时间段,提取对应的语音片段;集中在所述时间轴的某个时间段内进行提取若干语音片段;每隔固定时间段提取固定时长的语音片段以生成规则样本选集,;间隔不固定时间段提取固定时长或可变时长的语音片段以生成不规则样本选集;若视频文件提取了至少一帧画面作为特征数据时,提取与所述至少一帧画面对应的语音片段。所述对提取的特征数据进行信息识别操作,以判断所述提取的特征数据中是否包含特定类型的信息的步骤进一步包括:对作为特征数据的语音片段进行解析,得到语音片段的语音信息;对所述语音信息进行识别操作,以判断该语音片段中是否包含特定类型的信息。可选地,所述对作为特征数据的语音片段进行解析,得到语音片段的语音信息的步骤进一步包括:对所述语音片段进行语音与文本间的转换,得到语音信息;或者对所述语音片段进行语音提取识别,得到其中的语音信息。可选地,所述依据所述信息识别操作的结果,得到所述判别结果的步骤进一步包括:对每个特征数据的识别结果赋予对应权值并设定在判别结果本文档来自技高网
...
音视频文件检测管理方法及装置

【技术保护点】
一种音视频文件检测管理方法,包括:从存储有音视频文件的网站获取所述音视频文件对应的音视频元数据;根据预设规则对所述音视频元数据进行初步筛选,以对所述音视频文件进行分类;依据分类结果对所述音视频文件中的至少一部分进行深度分析,得到针对被分析音视频文件的判别结果;根据所述判别结果检测所述被分析音视频文件是否为特定类型的音视频文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈超杨银波孙全刚王宁
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1