【技术实现步骤摘要】
【国外来华专利技术】基于音频能量特性的音频指纹识别
本公开总体涉及音频内容识别(ACR),更具体地涉及根据音频能量特性生成音频指纹。
技术介绍
在各种应用中,越来越多地用到对音频内容的实时识别。例如,可以识别未知歌曲的名称、艺术家和/或专辑,或者可以从特定电影的声道识别出该电影。ACR算法包括声学指纹识别,其工作原理为:分析一段音频(音乐、电影等)并根据该音频的特性生成所谓的指纹。为了识别一条音频内容,将根据该条音频生成的音频指纹与参考音频指纹的数据库进行比较。目前存在几种广泛使用的声学指纹算法。一个常见的例子是Shazaam应用,它利用声学指纹来识别用户正在听的歌曲。其他例子包括Gracenote和MusicBrainz。然而,传统音频内容识别至少有以下限制:传统方案无法检测或对准内容的时序,即相对于内容的总时间的当前时间位置。传统音频内容识别的其他限制包括指纹的大小相对较大、内容识别过程相对复杂以及内容识别中存在延迟。
技术实现思路
本公开提供了解决这些问题的方法、设备和系统。本公开描述了音频内容识别算法,并具体地描述了指纹生成算法,该指纹生成算法允许检测音频内容中相对于该内容总时间的位置。例如,本文公开的专利技术不仅可以识别一条内容的身份(即正在观看的电影是Goodfellas),还可以识别该电影当前处于3:30标记处。另外,与传统技术相比,所公开的专利技术提供了大小相对小的指纹和相对简单的内容识别过程,从而减少了内容识别的延迟,解决了传统音频内容识别的限制。并入说明书并构成说明书的一部分的附图图示了各个示例系统、方法等,这些示例系统、方法等说明了本专利技术的各个方面的各个 ...
【技术保护点】
1.一种音频指纹识别的方法,包括:获取一段音频的音频样本,所述音频样本中的每一个对应一个特定时间;生成所述音频样本的频率表示,所述频率表示被划分为频带;识别所述频带中的能量区域,所述能量区域中的每一个是能量增加区域和能量减少区域中的一个,能量增加区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间增加,能量减少区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间减少;分析所识别的能量区域出现在时间窗口内的部分,以生成该段音频的特征的散列,特征的每个散列对应于所识别的能量区域出现在相应时间窗口中的部分,每个特征被定义为对信息编码的数值,所述信息表示:出现在所述相应时间窗口中的能量区域的频带、出现在所述相应时间窗口中的所述能量区域是否为能量增加区域或者出现在所述相应时间窗口中的所述能量区域是否为能量减少区域、出现在所述相应时间窗口中的所述能量区域的位置,出现在所述相应时间窗口中的所述能量区域的位置对应于以下中的一个:出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在 ...
【技术特征摘要】
【国外来华专利技术】2016.04.08 US 15/094,5381.一种音频指纹识别的方法,包括:获取一段音频的音频样本,所述音频样本中的每一个对应一个特定时间;生成所述音频样本的频率表示,所述频率表示被划分为频带;识别所述频带中的能量区域,所述能量区域中的每一个是能量增加区域和能量减少区域中的一个,能量增加区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间增加,能量减少区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间减少;分析所识别的能量区域出现在时间窗口内的部分,以生成该段音频的特征的散列,特征的每个散列对应于所识别的能量区域出现在相应时间窗口中的部分,每个特征被定义为对信息编码的数值,所述信息表示:出现在所述相应时间窗口中的能量区域的频带、出现在所述相应时间窗口中的所述能量区域是否为能量增加区域或者出现在所述相应时间窗口中的所述能量区域是否为能量减少区域、出现在所述相应时间窗口中的所述能量区域的位置,出现在所述相应时间窗口中的所述能量区域的位置对应于以下中的一个:出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口之后结束,出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口内结束,出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口之后结束,和出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口内结束;以及将特征的每个散列与所述特定时间一起存储。2.根据权利要求1所述的方法,包括:将特征的每个散列转换为所述特征的MinHash表示或MinHash值;以及将所述MinHash值与所述特定时间一起存储。3.根据权利要求1所述的方法,包括:将特征的每个散列转换为所述特征的MinHash表示,所述MinHash表示具有一百个MinHash值;以分片大小五对所述一百个MinHash值进行分片,以获得二十行或二十组五个MinHash分片值;将行或组内的五个MinHash分片值组合成64比特数,以获得具有二十个64比特数的指纹散列;以及将所述指纹散列与所述特定时间一起存储。4.根据权利要求1所述的方法,其中获取一段音频的音频样本包括:使用4096个样本的采样窗口大小和31/32的窗口重叠在8kHz下对该段音频进行采样。5.根据权利要求1所述的方法,其中所述频带包括四十四个频带,所述四十四个频带为以200Hz开始的第一频带到以3300Hz结束的第四十四频带。6.根据权利要求1所述的方法,其中所述频带包括四十四个频带,所述四十四个频带的带宽从以200Hz开始的第一频带到以3300Hz结束的第四十四频带以对数方式减小。7.根据权利要求1所述的方法,其中所述时间窗口中的每一个的窗口大小为1000毫秒并且窗口重叠为950毫秒。8.一种用于音频指纹识别的系统,包括:采样器,配置成获取一段音频的音频样本,所述音频样本中的每一个对应一个特定时间;转换器,配置成将所述音频样本转换为所述音频样本的频率表示,所述频率表示被划分为频带;能量带识别器,配置成识别所述频带中的能量区域,所述能量区域中的每一个是能量增加区域和能量减少区域中的一个,能量增加区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间增加,能量减少区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间减少;能量散列器,配置成分析所识别的能量区域出现在时间窗口内的部分,以生成该段音频的特征的散列,特征的每个散列对应于所识别的能量区域出现在相应时间窗口中的部分,每个特征被定义为对信息编码的数值,所述信息表示:出现在所述相应时间窗口中的能量区域的频带、出现在所述相应时间窗口中的所述能量区域是否为能量增加区域或者出现在所述相应时间窗口中的所述能量区域是否为能量减少区域、出现在所述相应时间窗口中的所述能量区域的位置,出现在所述相应时间窗口中的所述能量区域的位置对应于以下中的一个:出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口之后结束,出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口内结束,出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口之后结束,和出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口内结束;以及非暂时性存储介质,配置成将特征的每个散列与所述特定时间一起存储。9.根据权利要求8所述的系统,包括:MinHash散列器,配置成将特征的每个散列转换为所述特征的MinHash表示或MinHash值;以及所述非暂时性存储介质或另一非暂时性存储介质,配置成存储所述MinHash值和所述特定时间。10.根据权利要求8所述的系统,包括:MinHash散列器,配置成将特征的每个散列转换为所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。