视频识别方法和装置制造方法及图纸

技术编号:18913561 阅读:72 留言:0更新日期:2018-09-12 02:58
本发明专利技术实施例提出一种视频识别方法和装置。该方法包括:从目标视频中提取目标音频;从目标音频中提取第一音频特征;查询索引库中是否存在与第一音频特征匹配的第二音频特征,所述索引库中包括各音频特征与其所属的视频的索引关系;如果查询到与第一音频特征匹配的第二音频特征,则获取第二音频特征所属的候选视频。本发明专利技术实施例根据索引库中各音频特征与其所属的视频的索引关系,能够根据目标视频的音频特征查找匹配的候选视频,从而有利于识别出于目标视频相似的视频,以便于后续对重复视频进行去除、筛选等处理。

Video recognition method and device

The embodiment of the invention provides a video recognition method and device. The method includes: extracting the target audio from the target video; extracting the first audio feature from the target audio; querying whether there is a second audio feature matching the first audio feature in the index library, which includes the index relationship between each audio feature and the video to which it belongs; and querying if there is a first audio feature matching the index library. The matching second audio feature obtains the candidate video belonging to the second audio characteristic. According to the indexing relationship between the audio features in the index library and the video to which the audio features belong, the embodiment of the present invention can find the matching candidate video according to the audio features of the target video, thereby facilitating the identification of video similar to the target video, and facilitating the subsequent processing of removing and filtering duplicate video.

【技术实现步骤摘要】
视频识别方法和装置
本专利技术涉及视频
,尤其涉及一种视频识别方法和装置。
技术介绍
采用feed(馈送)流可以将广告等插入要发布的信息中同时发布。在feed流的视频中,有很多非原创的重复视频。去除重复视频的方式可以是,通过对视频进行图像识别,以检索是否有重复的视频。但图像识别的方式,需要比对的视频的帧图像数据量大,识别效率低,不能很好的处理掉重复视频。
技术实现思路
本专利技术实施例提供一种视频识别装置,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种视频识别方法,其特征在于,包括:从目标视频中提取目标音频;从目标音频中提取第一音频特征;查询索引库中是否存在与第一音频特征匹配的第二音频特征,所述索引库中包括各音频特征与其所属的视频的索引关系;如果查询到与第一音频特征匹配的第二音频特征,则获取第二音频特征所属的候选视频。结合第一方面,本专利技术实施例在第一方面的第一种实现方式中,还包括:根据目标视频包括的各音频特征与候选视频包括的各音频特征,比较候选视频与目标视频是否相似。结合第一方面的第一种实现方式,本专利技术实施例在第一方面的第二种实现方式中,根据目标视频包括的各音频特征与候选视频包括的各音频特征,比较候选视频与目标视频是否相似,包括:如果候选视频与目标视频的相同音频特征在目标视频的音频特征中所占的比例大于设定阈值,则确定候选视频与目标视频相似。结合第一方面,本专利技术实施例在第一方面的第三种实现方式中,查询索引库中是否存在与第一音频特征匹配的第二音频特征,包括:向各服务器分发查询请求,所述查询请求中包括第一音频特征,所述查询请求用于指示各所述服务器在自身保存的索引库中查询是否存在与第一音频特征匹配的第二音频特征;接收各服务器返回的查询结果,所述查询结果中包括与第一音频特征匹配的第二音频特征。结合第一方面或第一方面的任意一种实现方式中,本专利技术实施例在第一方面的第四种实现方式中,还包括:从各样本视频中提取样本音频;从各样本音频中提取样本音频特征;在各服务器的索引库中,分布式地保存各样本视频与各样本音频特征之间的索引关系。第二方面,本专利技术实施例提供了一种视频识别装置,包括:第一音频提取模块,用于从目标视频中提取目标音频;第一特征提取模块,用于从目标音频中提取第一音频特征;特征查询模块,用于查询索引库中是否存在与第一音频特征匹配的第二音频特征,所述索引库中包括各音频特征与其所属的视频的索引关系;视频获取模块,用于如果查询到与第一音频特征匹配的第二音频特征,则获取第二音频特征所属的候选视频。结合第二方面,本专利技术实施例在第二方面的第一种实现方式中,还包括:比较模块,用于根据目标视频包括的各音频特征与候选视频包括的各音频特征,比较候选视频与目标视频是否相似。结合第二方面的第一种实现方式,本专利技术实施例在第二方面的第二种实现方式中,所述比较模块还用于如果候选视频与目标视频的相同音频特征在目标视频的音频特征中所占的比例大于设定阈值,则确定候选视频与目标视频相似。结合第二方面,本专利技术实施例在第二方面的第三种实现方式中,所述特征查询模块包括:请求分发子模块,用于向各服务器分发查询请求,所述查询请求中包括第一音频特征,所述查询请求用于指示各所述服务器在自身保存的索引库中查询是否存在与第一音频特征匹配的第二音频特征;结果接收子模块,用于接收各服务器返回的查询结果,所述查询结果中包括与第一音频特征匹配的第二音频特征。结合第二方面或第二方面的任意一种实现方式中,本专利技术实施例在第二方面的第四种实现方式中,还包括:第二音频提取模块,用于从各样本视频中提取样本音频;第二特征提取模块,用于从各样本音频中提取样本音频特征;索引库模块,用于在各服务器的索引库中,分布式地保存各样本视频与各样本音频特征之间的索引关系。第三方面,本专利技术实施例提供了一种视频识别装置,包括:所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,视频识别装置的结构中包括处理器和存储器,所述存储器用于存储支持视频识别装置执行上述第一方面中视频识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述视频识别装置还可以包括通信接口,用于视频识别装置与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于视频识别装置所用的计算机软件指令,其包括用于执行上述视频识别方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:根据索引库中各音频特征与其所属的视频的索引关系,能够根据目标视频的音频特征查找匹配的候选视频,从而有利于识别出于目标视频相似的视频,以便于后续对重复视频进行去除、筛选等处理。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1示出根据本专利技术一实施例的视频识别方法的流程图。图2示出根据本专利技术另一实施例的视频识别方法的流程图。图3示出根据本专利技术另一实施例的视频识别方法中构建索引的示意图。图4示出根据本专利技术另一实施例的视频识别方法中构建索引的示意图。图5示出根据本专利技术一实施例的视频识别装置的结构框图。图6示出根据本专利技术另一实施例的视频识别装置的结构框图。图7示出根据本专利技术另一实施例的视频识别装置的结构框图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。图1示出根据本专利技术一实施例的视频识别方法的流程图。如图1所示,该视频识别方法包括以下步骤:101、从目标视频中提取目标音频;102、从目标音频中提取第一音频特征;103、查询索引库中是否存在与第一音频特征匹配的第二音频特征,所述索引库中包括各音频特征与其所属的视频的索引关系;104、如果查询到与第一音频特征匹配的第二音频特征,则获取第二音频特征所属的候选视频。在本专利技术实施例中,音频特征包括但不限于MFCC(Mel-FrequencyCepstralCoefficients,梅尔频率倒谱系数)、Fbank(Filter-bank,对数谱特征)、基于FFT(FastFourierTransformation,快速傅里叶变换)的语谱图等特征。从目标音频中提取的目标音频的数量可能是一个,也可能是多个。从每个目标音频中可以对应的提取一个或多个音频特征。根据每一种不同的音频特征提取方法,提取得到的音频特征数量可能不同。在建立音频索引库时,可以采用一种或多种音频特征提取方法提取音频特征。然后在索引库中保存视频与其所包括的音频特征的索引关系。在索引库中,能够根据音频特征查找到该音频特征所属的视频,也能够根据视频查找到该视频所包括的音频特征。例如,从视频V1中提取音频A1本文档来自技高网...

【技术保护点】
1.一种视频识别方法,其特征在于,包括:从目标视频中提取目标音频;从目标音频中提取第一音频特征;查询索引库中是否存在与第一音频特征匹配的第二音频特征,所述索引库中包括各音频特征与其所属的视频的索引关系;如果查询到与第一音频特征匹配的第二音频特征,则获取第二音频特征所属的候选视频。

【技术特征摘要】
1.一种视频识别方法,其特征在于,包括:从目标视频中提取目标音频;从目标音频中提取第一音频特征;查询索引库中是否存在与第一音频特征匹配的第二音频特征,所述索引库中包括各音频特征与其所属的视频的索引关系;如果查询到与第一音频特征匹配的第二音频特征,则获取第二音频特征所属的候选视频。2.根据权利要求1所述的方法,其特征在于,还包括:根据目标视频包括的各音频特征与候选视频包括的各音频特征,比较候选视频与目标视频是否相似。3.根据权利要求2所述的方法,其特征在于,根据目标视频包括的各音频特征与候选视频包括的各音频特征,比较候选视频与目标视频是否相似,包括:如果候选视频与目标视频的相同音频特征在目标视频的音频特征中所占的比例大于设定阈值,则确定候选视频与目标视频相似。4.根据权利要求1所述的方法,其特征在于,查询索引库中是否存在与第一音频特征匹配的第二音频特征,包括:向各服务器分发查询请求,所述查询请求中包括第一音频特征,所述查询请求用于指示各所述服务器在自身保存的索引库中查询是否存在与第一音频特征匹配的第二音频特征;接收各服务器返回的查询结果,所述查询结果中包括与第一音频特征匹配的第二音频特征。5.根据权利要求1至4中任一项所述的方法,还包括:从各样本视频中提取样本音频;从各样本音频中提取样本音频特征;在各服务器的索引库中,分布式地保存各样本视频与各样本音频特征之间的索引关系。6.一种视频识别装置,其特征在于,包括:第一音频提取模块,用于从目标视频中提取目标音频;第一特征提取模块,用于从目标音频中提取第一音频特征;特征查询模块,用于查询索引库中是否存在与第一音频特征匹配的第二音频...

【专利技术属性】
技术研发人员:王知践钱胜
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1