音频指纹的生成方法、装置及存储介质制造方法及图纸

技术编号:19936704 阅读:24 留言:0更新日期:2018-12-29 05:27
本发明专利技术公开了一种音频指纹的生成方法、装置及存储介质,属于多媒体技术领域。所述方法包括:将目标音频划分为M帧音频,确定M帧音频每帧音频的N个频域能量,对于M帧音频中任一帧音频A,根据音频A的N个频域能量,确定音频A的指纹序列,得到与M帧音频一一对应的M个指纹序列。也即是,在本发明专利技术实施例中,每帧音频对应一个指纹序列,且每帧音频的指纹序列仅仅与该帧音频的N个频域能量相关,与相邻帧的音频的频域能量没有关系,这样的话,如果目标音频中某一帧音频中混入杂音,只会影响该帧音频的指纹序列,对其他的指纹序列不会产生影响,提高了音频指纹的抗干扰性。

【技术实现步骤摘要】
音频指纹的生成方法、装置及存储介质
本专利技术涉及多媒体
,特别涉及一种音频指纹的生成方法、装置及存储介质。
技术介绍
音频指纹是根据音频生成的一个摘要,该摘要可以为哈希序列,每个音频的音频指纹用于表征对应的音频的特征。后续当需要对比两个音频的相似性时,只需对比这两个音频的音频指纹即可,以提高处理音频的效率。相关技术中,生成目标音频的音频指纹的实现方式可以为:将目标音频划分为M帧音频,对于任一帧音频,确定该帧音频的N个频域能量,分别标记为第1个频域能量、第2个频域能量、…、第N个频域能量,每个频域能量用于描述该帧音频在一段频率区间上的能量加和值,确定相邻的两个频域能量之间的差值,依次标记为(1-2)频域能量差值、(2-3)频域能量差值、…、((N-1)-N)频域能量差值。对于第一帧音频和第二帧音频,如果第一帧音频中的(1-2)频域能量差值大于第二帧音频中的(1-2)频域能量差值,则将第一个比特位上的数值设置为1,否则设置为0,依次类推,可以得到针对第一帧音频和第二帧音频的、且比特位数为N-1的指纹序列。当对M帧音频均执行上述操作时,可以得到(M-1)个指纹序列,这(M-1)个指纹序列即为目标音频的音频指纹。在上述方法中,生成的音频指纹与相邻两帧音频中指定的一对Bark域能量差值之间的大小密切相关,如果目标音频中某一帧音频中混入杂音,此时根据上述方法确定出的音频指纹中与该帧音频相关的两个指纹序列都将发生明显的变化,导致上述方法确定的音频指纹的抗干扰性较弱。
技术实现思路
本专利技术实施例提供了一种音频指纹的生成方法、装置及存储介质,可以用于解决相关技术中确定的音频指纹的抗干扰性较弱的问题。所述技术方案如下:第一方面,提供了一种音频指纹的生成方法,所述方法包括:将需要确定音频指纹的目标音频划分为M帧音频,M为大于或等于1的正整数;确定所述M帧音频中每帧音频的N个频域能量,每个频域能量对应一个频率区间,N为大于或等于1的正整数;对于所述M帧音频中任一帧音频A,根据所述音频A的N个频域能量,确定所述音频A的指纹序列,得到与所述M帧音频一一对应的M个指纹序列,并将所述M个指纹序列作为所述目标音频的音频指纹。可选地,每帧音频的指纹序列的比特位数为P,P为大于或等于1的正整数;所述根据所述音频A的N个频域能量,确定所述音频A的指纹序列,包括:根据所述音频A包括的N个频域能量,确定第一频域能量集合和第二频域能量集合,每个频域能量集合包括P个频域能量,且所述第一频域能量集合和所述第二频域能量中包括的P个频域能量按照对应的频率区间从小到大的顺序排列之后,所述第一频域能量集合中的任一个频域能量对应的频率区间小于所述第二频域能量集合中相同排序的频域能量对应的频率区间;根据所述第一频域能量集合和所述第二频域能量集合,确定所述音频A的指纹序列。可选地,所述根据所述音频A包括的N个频域能量,确定第一频域能量集合和第二频域能量集合,包括:将所述音频A包括的N个频域能量按照对应的频率区间从小到大的顺序进行排列;将排序后的第1个频域能量至第P个频域能量作为所述第一频域能量集合中的频域能量,并将第(N-P+1)个频域能量至第N个频域能量作为所述第二频域能量集合中的频域能量。可选地,所述根据所述第一频域能量集合和所述第二频域能量集合,确定所述音频A的指纹序列,包括:将所述第一频域能量集合和所述第二频域能量集合中包括的P个频域能量均按照对应的频率区间从小到大的顺序排列;对于所述第一频域能量集合和所述第二频域能量集合中的第i个频域能量,如果所述第一频域能量集合中第i个频域能量大于所述第二频域能量集合中第i个频域能量,则将所述指纹序列中第i位的比特值设置为1,否则设置为0,所述i为大于或等于1且小于或等于P的正整数。可选地,所述确定所述M帧音频中每帧音频的N个频域能量,包括:对于所述M帧音频中任一帧音频B,将所述音频B进行傅里叶变换,得到所述音频B的频谱,所述频谱用于描述所述音频B在每个频点上的能量值;根据所述音频B的频谱,确定所述音频B的N个频域能量。第二方面,提供一种音频指纹的生成装置,所述装置包括:划分模块,用于将需要确定音频指纹的目标音频划分为M帧音频,M为大于或等于1的正整数;第一确定模块,用于确定所述M帧音频中每帧音频的N个频域能量,每个频域能量对应一个频率区间,N为大于或等于1的正整数;第二确定模块,用于对于所述M帧音频中任一帧音频A,根据所述音频A的N个频域能量,确定所述音频A的指纹序列,得到与所述M帧音频一一对应的M个指纹序列,并将所述M个指纹序列作为所述目标音频的音频指纹。可选地,每帧音频的指纹序列的比特位数为P,P为大于或等于1的正整数;所述第二确定模块包括:第一确定单元,用于根据所述音频A包括的N个频域能量,确定第一频域能量集合和第二频域能量集合,每个频域能量集合包括P个频域能量,且所述第一频域能量集合和所述第二频域能量中包括的P个频域能量按照对应的频率区间从小到大的顺序排列之后,所述第一频域能量集合中的任一个频域能量对应的频率区间小于所述第二频域能量集合中相同排序的频域能量对应的频率区间;第二确定单元,用于根据所述第一频域能量集合和所述第二频域能量集合,确定所述音频A的指纹序列。可选地,所述第一确定单元,具体用于:将所述音频A包括的N个频域能量按照对应的频率区间从小到大的顺序进行排列;将排序后的第1个频域能量至第P个频域能量作为所述第一频域能量集合中的频域能量,并将第(N-P+1)个频域能量至第N个频域能量作为所述第二频域能量集合中的频域能量。可选地,所述第二确定单元,具体用于:将所述第一频域能量集合和所述第二频域能量集合中包括的P个频域能量均按照对应的频率区间从小到大的顺序排列;对于所述第一频域能量集合和所述第二频域能量集合中的第i个频域能量,如果所述第一频域能量集合中第i个频域能量大于所述第二频域能量集合中第i个频域能量,则将所述指纹序列中第i位的比特值设置为1,否则设置为0,所述i为大于或等于1且小于或等于P的正整数。可选地,所述第一确定模块,具体用于:对于所述M帧音频中任一帧音频B,将所述音频B进行傅里叶变换,得到所述音频B的频谱,所述频谱用于描述所述音频B在每个频点上的能量值;根据所述音频B的频谱,确定所述音频B的N个频域能量。第三方面,提供另一种音频指纹的生成装置,所述装置包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述第一方面所述的任一项方法的步骤。第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述第一方面所述的任一项方法的步骤。第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的任一方法的步骤。本专利技术实施例提供的技术方案带来的有益效果是:在本专利技术实施例中,将目标音频划分为M帧音频,确定M帧音频每帧音频的N个频域能量,对于M帧音频中任一帧音频A,根据音频A的N个频域能量,确定音频A的指纹序列,得到与M帧音频一一对应的M个指纹序列。也即是,在本专利技术实施例中,每帧音频对应一个指纹序列,且每帧音频的指纹序列仅仅与该帧音频的N个频域能量相关,与相邻帧的音频的频域能量没有关系本文档来自技高网...

【技术保护点】
1.一种音频指纹的生成方法,其特征在于,所述方法包括:将需要确定音频指纹的目标音频划分为M帧音频,M为大于或等于1的正整数;确定所述M帧音频中每帧音频的N个频域能量,每个频域能量对应一个频率区间,N为大于或等于1的正整数;对于所述M帧音频中任一帧音频A,根据所述音频A的N个频域能量,确定所述音频A的指纹序列,得到与所述M帧音频一一对应的M个指纹序列,并将所述M个指纹序列作为所述目标音频的音频指纹。

【技术特征摘要】
1.一种音频指纹的生成方法,其特征在于,所述方法包括:将需要确定音频指纹的目标音频划分为M帧音频,M为大于或等于1的正整数;确定所述M帧音频中每帧音频的N个频域能量,每个频域能量对应一个频率区间,N为大于或等于1的正整数;对于所述M帧音频中任一帧音频A,根据所述音频A的N个频域能量,确定所述音频A的指纹序列,得到与所述M帧音频一一对应的M个指纹序列,并将所述M个指纹序列作为所述目标音频的音频指纹。2.如权利要求1所述的方法,其特征在于,每帧音频的指纹序列的比特位数为P,P为大于或等于1的正整数;所述根据所述音频A的N个频域能量,确定所述音频A的指纹序列,包括:根据所述音频A包括的N个频域能量,确定第一频域能量集合和第二频域能量集合,每个频域能量集合包括P个频域能量,且所述第一频域能量集合和所述第二频域能量中包括的P个频域能量按照对应的频率区间从小到大的顺序排列之后,所述第一频域能量集合中的任一个频域能量对应的频率区间小于所述第二频域能量集合中相同排序的频域能量对应的频率区间;根据所述第一频域能量集合和所述第二频域能量集合,确定所述音频A的指纹序列。3.如权利要求2所述的方法,其特征在于,所述根据所述音频A包括的N个频域能量,确定第一频域能量集合和第二频域能量集合,包括:将所述音频A包括的N个频域能量按照对应的频率区间从小到大的顺序进行排列;将排序后的第1个频域能量至第P个频域能量作为所述第一频域能量集合中的频域能量,并将第(N-P+1)个频域能量至第N个频域能量作为所述第二频域能量集合中的频域能量。4.如权利要求2所述的方法,其特征在于,所述根据所述第一频域能量集合和所述第二频域能量集合,确定所述音频A的指纹序列,包括:将所述第一频域能量集合和所述第二频域能量集合中包括的P个频域能量均按照对应的频率区间从小到大的顺序排列;对于所述第一频域能量集合和所述第二频域能量集合中的第i个频域能量,如果所述第一频域能量集合中第i个频域能量大于所述第二频域能量集合中第i个频域能量,则将所述指纹序列中第i位的比特值设置为1,否则设置为0,所述i为大于或等于1且小于或等于P的正整数。5.如权利要求1至权利要求4任一权利要求所述的方法,其特征在于,所述确定所述M帧音频中每帧音频的N个频域能量,包括:对于所述M帧音频中任一帧音频B,将所述音频B进行傅里叶变换,得到所述音频B的频谱,所述频谱用于描述所述音频B在每个频点上的能量值;根据所述音频B的频谱,确定所述音频B的N个频域能量。6.一种音频指纹的生成装置,其特征在于,所述装置包括:划分模块,用于将需要确定音频指纹的目标音频划分为M帧音...

【专利技术属性】
技术研发人员:肖纯智
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1