基于音频能量特性的音频指纹识别制造技术

技术编号:20887576 阅读:22 留言:0更新日期:2019-04-17 13:46
音频指纹识别包括:获取一段音频的音频样本,生成音频样本的频率表示,识别频率表示的频带中能量增加区域和能量减少区域,以及生成该段音频的特征的散列。特征的每个散列对应于所识别的能量区域出现在相应时间窗口中的部分。每个特征都定义为对信息编码的数值,所述信息表示:出现在相应时间窗口中的能量区域的频带、出现在相应时间窗口中的能量区域是否为能量增加区域或者出现在相应时间窗口中的能量区域是否为能量减少区域、出现在相应时间窗口中的能量区域的位置。

【技术实现步骤摘要】
【国外来华专利技术】基于音频能量特性的音频指纹识别
本公开总体涉及音频内容识别(ACR),更具体地涉及根据音频能量特性生成音频指纹。
技术介绍
在各种应用中,越来越多地用到对音频内容的实时识别。例如,可以识别未知歌曲的名称、艺术家和/或专辑,或者可以从特定电影的声道识别出该电影。ACR算法包括声学指纹识别,其工作原理为:分析一段音频(音乐、电影等)并根据该音频的特性生成所谓的指纹。为了识别一条音频内容,将根据该条音频生成的音频指纹与参考音频指纹的数据库进行比较。目前存在几种广泛使用的声学指纹算法。一个常见的例子是Shazaam应用,它利用声学指纹来识别用户正在听的歌曲。其他例子包括Gracenote和MusicBrainz。然而,传统音频内容识别至少有以下限制:传统方案无法检测或对准内容的时序,即相对于内容的总时间的当前时间位置。传统音频内容识别的其他限制包括指纹的大小相对较大、内容识别过程相对复杂以及内容识别中存在延迟。
技术实现思路
本公开提供了解决这些问题的方法、设备和系统。本公开描述了音频内容识别算法,并具体地描述了指纹生成算法,该指纹生成算法允许检测音频内容中相对于该内容总时间的位置。例如,本文公开的专利技术不仅可以识别一条内容的身份(即正在观看的电影是Goodfellas),还可以识别该电影当前处于3:30标记处。另外,与传统技术相比,所公开的专利技术提供了大小相对小的指纹和相对简单的内容识别过程,从而减少了内容识别的延迟,解决了传统音频内容识别的限制。并入说明书并构成说明书的一部分的附图图示了各个示例系统、方法等,这些示例系统、方法等说明了本专利技术的各个方面的各个示例实施例。应当理解,图中所示的元素边界(例如,框、框组或其他形状)表示边界的一个示例。本领域普通技术人员可以理解,一个元素可以被设计为多个元素,或者多个元素可以被设计为一个元素。作为另一元素的内部组件示出的元素可以实现为外部组件,反之亦然。此外,元素可以不按比例绘制。图1示出了用于音频指纹识别的示例性系统的框图。图2示出了图1中用于音频指纹识别的系统的详细框图。图2A示出了示例性采样过程。图2B为电影的一部分的示例性能量区域的示意图。图2C为示例性能量散列器的示意图。图2D为示例性散列、分片MinHash和指纹散列的示意图。图3示出了在音频内容识别环境中的图1中用于音频指纹识别的系统。图4示出了用于音频指纹识别的示例性方法的流程图。图5示出了用于音频指纹识别的示例性机器或设备的框图。具体实施方式图1示出了用于音频内容识别的示例性系统1的框图。通常,系统1通过如下方式工作:分析一段音频(例如歌曲、电影声道等)并根据音频的声学特性生成指纹。例如,系统1可用于识别用户可能正在观看的内容(例如,电视节目、电影、YouTube视频),并且还检测相对于内容的总时间的位置。因此,例如,系统1不仅可以识别一条内容的身份(即正在观看的电影是Goodfellas),还可以识别该电影当前处于3:30标记处。系统1可以包括麦克风5,麦克风5接收来自可以在标准设备15(例如电视、计算机、平板电脑等)上播放的内容的音频10。系统1使用麦克风5“收听”音频10,并将该音频的一个版本10'提供给处理器20,处理器20处理音频10'以生成指纹并将该指纹与先前存储在存储介质或数据库25中的指纹进行比较。如果处理器20检测到内容匹配(即,新近接收的音频10'的指纹与先前存储的指纹匹配),则处理器20输出匹配30,匹配30可包括内容ID(例如,歌曲或电影)和在内容(如上述Goodfellas示例)中的时刻。因此,系统1处理音频10'并输出匹配30,匹配30可包括内容ID和相对于内容开始的时间偏移。任何声学指纹算法都有两个主要组成部分:编码过程和识别过程。通常使用源或主内容提前完成编码过程以生成主指纹(MFP)。MFP是如下指纹,其会存储在存储介质或数据库25中并且稍后与例如实时音频进行比较以试图在识别过程中获得匹配。识别过程通常实时或接近实时地完成。系统1使用麦克风5从系统1的环境中接收音频10。处理器20处理所接收的音频10'以生成接收指纹(RFP),然后处理器25将RFP与MFP进行比较来查看是否匹配。识别过程可以进一步分解为两个主要部分:1)RFP生成(其涉及在生成MFP时使用的相同的算法)和2)数据库查找。由于音频中存在大量数据,因此生成的指纹必须足够紧凑,以支持在数据库查找期间快速搜索。指纹生成是获取(从麦克风5接收的或诸如MP4文件之类的录音形式的)输入音频流10',并对其进行处理以获得其指纹的过程。无论是生成MFP还是RFP,都使用相同的算法来生成指纹。图2示出了图1的系统1的详细框图。如上所述,系统1可以包括麦克风5以从环境接收音频10并输出音频信号10'。在替选方案中,系统1可以通过其他方法接收音频信号10',例如从录制音频中接收信号10'。系统1还可以包括采样器30,其对音频信号10'进行采样。图2A示出了采样器30的示例性采样过程。在图2A的实施例中,采样器30以8kHz采样率、4096个样本的窗口大小和31/32的窗口重叠,对音频信号10'进行采样。在其他实施例中,采样器30以不同于8kHz采样率、4096个样本的窗口大小和31/32的窗口重叠的采样率、窗口大小和窗口重叠对音频信号10'进行采样。采样器30的输出35是一系列音频样本块(即,图2A的块1、块2等),每个块为窗口大小。图2的系统1还可以包括FFT40,其接收采样器30的输出35。使用FFT40处理每个音频样本块以生成音频样本的频率/bin(仓)表示。有时称其为频谱图。FFT40的输出45包括这些频谱图和对应于每个频谱图的时间偏移(即,每个频谱图出现的时间)。系统1还可以包括能量带识别器(energystreamer)50,其识别频谱图的频率bin或频带中的能量区域。例如,假设音频信号10是200Hz的正弦波。设想这个正弦波正在播放,并且我们持续增加播放器的音量。FFTbin在200Hz时的幅度会随着时间的推移而增加。能量带识别器50监视FFT输出45内的某些频率范围,以识别能量增加的时段和能量减少的时段。这里将这些能量增加或减少的时段称为能量区域。上述200Hz示例中,能量区域(即,能量增加区域)会被识别为200Hz,因为其能量随着音量的增加而增加。如果我们将音量调低,那么也会产生能量区域,即能量减少区域。然而,如果在上述示例中,音频信号10的音量在高音量和低音量之间连续波动,由于能量带识别器50寻找能量增加的时段和能量减少的时段,则可能不会生成能量区域。这种波动的能量时段,其净能量变化可以接近零,平均而言从开始到结束不增加也不减少。这种波动的能量时段不产生能量区域,因而被忽略。在一个实施例中,能量带识别器50监测的频率范围为200Hz到3,300Hz。在上述采样器30以8,000Hz对音频10'进行采样的实施例中,因为采样总是导致至少一半的精度损失,所以FFT40的输出45中的FFT块包含0Hz到4,000Hz的频率bin。即使以8,000Hz对音频10进行采样,我们也只能准确地获得该采样速率的一半的频率(或4,000Hz)。这被称为奈奎斯特-香农采样定理。在其他实施例中,能量带识别器50监测的频本文档来自技高网...

【技术保护点】
1.一种音频指纹识别的方法,包括:获取一段音频的音频样本,所述音频样本中的每一个对应一个特定时间;生成所述音频样本的频率表示,所述频率表示被划分为频带;识别所述频带中的能量区域,所述能量区域中的每一个是能量增加区域和能量减少区域中的一个,能量增加区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间增加,能量减少区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间减少;分析所识别的能量区域出现在时间窗口内的部分,以生成该段音频的特征的散列,特征的每个散列对应于所识别的能量区域出现在相应时间窗口中的部分,每个特征被定义为对信息编码的数值,所述信息表示:出现在所述相应时间窗口中的能量区域的频带、出现在所述相应时间窗口中的所述能量区域是否为能量增加区域或者出现在所述相应时间窗口中的所述能量区域是否为能量减少区域、出现在所述相应时间窗口中的所述能量区域的位置,出现在所述相应时间窗口中的所述能量区域的位置对应于以下中的一个:出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口之后结束,出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口内结束,出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口之后结束,和出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口内结束;以及将特征的每个散列与所述特定时间一起存储。...

【技术特征摘要】
【国外来华专利技术】2016.04.08 US 15/094,5381.一种音频指纹识别的方法,包括:获取一段音频的音频样本,所述音频样本中的每一个对应一个特定时间;生成所述音频样本的频率表示,所述频率表示被划分为频带;识别所述频带中的能量区域,所述能量区域中的每一个是能量增加区域和能量减少区域中的一个,能量增加区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间增加,能量减少区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间减少;分析所识别的能量区域出现在时间窗口内的部分,以生成该段音频的特征的散列,特征的每个散列对应于所识别的能量区域出现在相应时间窗口中的部分,每个特征被定义为对信息编码的数值,所述信息表示:出现在所述相应时间窗口中的能量区域的频带、出现在所述相应时间窗口中的所述能量区域是否为能量增加区域或者出现在所述相应时间窗口中的所述能量区域是否为能量减少区域、出现在所述相应时间窗口中的所述能量区域的位置,出现在所述相应时间窗口中的所述能量区域的位置对应于以下中的一个:出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口之后结束,出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口内结束,出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口之后结束,和出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口内结束;以及将特征的每个散列与所述特定时间一起存储。2.根据权利要求1所述的方法,包括:将特征的每个散列转换为所述特征的MinHash表示或MinHash值;以及将所述MinHash值与所述特定时间一起存储。3.根据权利要求1所述的方法,包括:将特征的每个散列转换为所述特征的MinHash表示,所述MinHash表示具有一百个MinHash值;以分片大小五对所述一百个MinHash值进行分片,以获得二十行或二十组五个MinHash分片值;将行或组内的五个MinHash分片值组合成64比特数,以获得具有二十个64比特数的指纹散列;以及将所述指纹散列与所述特定时间一起存储。4.根据权利要求1所述的方法,其中获取一段音频的音频样本包括:使用4096个样本的采样窗口大小和31/32的窗口重叠在8kHz下对该段音频进行采样。5.根据权利要求1所述的方法,其中所述频带包括四十四个频带,所述四十四个频带为以200Hz开始的第一频带到以3300Hz结束的第四十四频带。6.根据权利要求1所述的方法,其中所述频带包括四十四个频带,所述四十四个频带的带宽从以200Hz开始的第一频带到以3300Hz结束的第四十四频带以对数方式减小。7.根据权利要求1所述的方法,其中所述时间窗口中的每一个的窗口大小为1000毫秒并且窗口重叠为950毫秒。8.一种用于音频指纹识别的系统,包括:采样器,配置成获取一段音频的音频样本,所述音频样本中的每一个对应一个特定时间;转换器,配置成将所述音频样本转换为所述音频样本的频率表示,所述频率表示被划分为频带;能量带识别器,配置成识别所述频带中的能量区域,所述能量区域中的每一个是能量增加区域和能量减少区域中的一个,能量增加区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间增加,能量减少区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间减少;能量散列器,配置成分析所识别的能量区域出现在时间窗口内的部分,以生成该段音频的特征的散列,特征的每个散列对应于所识别的能量区域出现在相应时间窗口中的部分,每个特征被定义为对信息编码的数值,所述信息表示:出现在所述相应时间窗口中的能量区域的频带、出现在所述相应时间窗口中的所述能量区域是否为能量增加区域或者出现在所述相应时间窗口中的所述能量区域是否为能量减少区域、出现在所述相应时间窗口中的所述能量区域的位置,出现在所述相应时间窗口中的所述能量区域的位置对应于以下中的一个:出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口之后结束,出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口内结束,出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口之后结束,和出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口内结束;以及非暂时性存储介质,配置成将特征的每个散列与所述特定时间一起存储。9.根据权利要求8所述的系统,包括:MinHash散列器,配置成将特征的每个散列转换为所述特征的MinHash表示或MinHash值;以及所述非暂时性存储介质或另一非暂时性存储介质,配置成存储所述MinHash值和所述特定时间。10.根据权利要求8所述的系统,包括:MinHash散列器,配置成将特征的每个散列转换为所述...

【专利技术属性】
技术研发人员:帕特里克·格林
申请(专利权)人:源数码有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1