音频指纹的生成方法、装置及存储介质制造方法及图纸

技术编号：19936704 阅读：24 留言：0更新日期：2018-12-29 05:27

本发明专利技术公开了一种音频指纹的生成方法、装置及存储介质，属于多媒体技术领域。所述方法包括：将目标音频划分为M帧音频，确定M帧音频每帧音频的N个频域能量，对于M帧音频中任一帧音频A，根据音频A的N个频域能量，确定音频A的指纹序列，得到与M帧音频一一对应的M个指纹序列。也即是，在本发明专利技术实施例中，每帧音频对应一个指纹序列，且每帧音频的指纹序列仅仅与该帧音频的N个频域能量相关，与相邻帧的音频的频域能量没有关系，这样的话，如果目标音频中某一帧音频中混入杂音，只会影响该帧音频的指纹序列，对其他的指纹序列不会产生影响，提高了音频指纹的抗干扰性。

全部详细技术资料下载

【技术实现步骤摘要】
音频指纹的生成方法、装置及存储介质
本专利技术涉及多媒体
，特别涉及一种音频指纹的生成方法、装置及存储介质。
技术介绍
音频指纹是根据音频生成的一个摘要，该摘要可以为哈希序列，每个音频的音频指纹用于表征对应的音频的特征。后续当需要对比两个音频的相似性时，只需对比这两个音频的音频指纹即可，以提高处理音频的效率。相关技术中，生成目标音频的音频指纹的实现方式可以为：将目标音频划分为M帧音频，对于任一帧音频，确定该帧音频的N个频域能量，分别标记为第1个频域能量、第2个频域能量、…、第N个频域能量，每个频域能量用于描述该帧音频在一段频率区间上的能量加和值，确定相邻的两个频域能量之间的差值，依次标记为(1-2)频域能量差值、(2-3)频域能量差值、…、((N-1)-N)频域能量差值。对于第一帧音频和第二帧音频，如果第一帧音频中的(1-2)频域能量差值大于第二帧音频中的(1-2)频域能量差值，则将第一个比特位上的数值设置为1，否则设置为0，依次类推，可以得到针对第一帧音频和第二帧音频的、且比特位数为N-1的指纹序列。当对M帧音频均执行上述操作时，可以得到(M-1)个指纹序列，这(M-1)个指纹序列即为目标音频的音频指纹。在上述方法中，生成的音频指纹与相邻两帧音频中指定的一对Bark域能量差值之间的大小密切相关，如果目标音频中某一帧音频中混入杂音，此时根据上述方法确定出的音频指纹中与该帧音频相关的两个指纹序列都将发生明显的变化，导致上述方法确定的音频指纹的抗干扰性较弱。
技术实现思路
本专利技术实施例提供了一种音频指纹的生成方法、装置及存储介质，可以用于解决相关技术中确...

【技术保护点】
1.一种音频指纹的生成方法，其特征在于，所述方法包括：将需要确定音频指纹的目标音频划分为M帧音频，M为大于或等于1的正整数；确定所述M帧音频中每帧音频的N个频域能量，每个频域能量对应一个频率区间，N为大于或等于1的正整数；对于所述M帧音频中任一帧音频A，根据所述音频A的N个频域能量，确定所述音频A的指纹序列，得到与所述M帧音频一一对应的M个指纹序列，并将所述M个指纹序列作为所述目标音频的音频指纹。

【技术特征摘要】
1.一种音频指纹的生成方法，其特征在于，所述方法包括：将需要确定音频指纹的目标音频划分为M帧音频，M为大于或等于1的正整数；确定所述M帧音频中每帧音频的N个频域能量，每个频域能量对应一个频率区间，N为大于或等于1的正整数；对于所述M帧音频中任一帧音频A，根据所述音频A的N个频域能量，确定所述音频A的指纹序列，得到与所述M帧音频一一对应的M个指纹序列，并将所述M个指纹序列作为所述目标音频的音频指纹。2.如权利要求1所述的方法，其特征在于，每帧音频的指纹序列的比特位数为P，P为大于或等于1的正整数；所述根据所述音频A的N个频域能量，确定所述音频A的指纹序列，包括：根据所述音频A包括的N个频域能量，确定第一频域能量集合和第二频域能量集合，每个频域能量集合包括P个频域能量，且所述第一频域能量集合和所述第二频域能量中包括的P个频域能量按照对应的频率区间从小到大的顺序排列之后，所述第一频域能量集合中的任一个频域能量对应的频率区间小于所述第二频域能量集合中相同排序的频域能量对应的频率区间；根据所述第一频域能量集合和所述第二频域能量集合，确定所述音频A的指纹序列。3.如权利要求2所述的方法，其特征在于，所述根据所述音频A包括的N个频域能量，确定第一频域能量集合和第二频域能量集合，包括：将所述音频A包括的N个频域能量按照对应的频率区间从小到大的顺序进行排列；将排序后的第1个频域能量至第P个频域能量作为所述第一频域能量集合中的频域能量，并将第(N-P+1)个频域能量至第N个频域能量作为所述第二频域能量集合中的频域能量。4.如权利要求2所述的方法，其特征在于，所述根据所述第一频域能量集合和所述第二频域能量集合，确定所述音频A的指纹序列，包括：将所述第一频域能量集合和所述第二频域能量集合中包括的P个频域能量均按照对应的频率区间从小到大的顺序排列；对于所述第一频域能量集合和所述第二频域能量集合中的第i个频域能量，如果所述第一频域能量集合中第i个频域能量大于所述第二频域能量集合中第i个频域能量，则将所述指纹序列中第i位的比特值设置为1，否则设置为0，所述i为大于或等于1且小于或等于P的正整数。5.如权利要求1至权利要求4任一权利要求所述的方法，其特征在于，所述确定所述M帧音频中每帧音频的N个频域能量，包括：对于所述M帧音频中任一帧音频B，将所述音频B进行傅里叶变换，得到所述音频B的频谱，所述频谱用于描述所述音频B在每个频点上的能量值；根据所述音频B的频谱，确定所述音频B的N个频域能量。6.一种音频指纹的生成装置，其特征在于，所述装置包括：划分模块，用于将需要确定音频指纹的目标音频划分为M帧音...

【专利技术属性】
技术研发人员：肖纯智，
申请(专利权)人：广州酷狗计算机科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人