音频信息检索方法及装置制造方法及图纸

技术编号:14348196 阅读:44 留言:0更新日期:2017-01-04 18:52
本申请提供一种音频信息检索方法及装置。方法包括:获得待检索音频片段的声谱图;提取声谱图中至少一个能量极值点的局部特征,以构成待检索音频片段的局部特征序列;根据待检索音频片段的局部特征序列进行检索,以获得检索结果。本申请可以降低漏匹配的概率,提高检索结果的准确度。

【技术实现步骤摘要】

本申请涉及音频处理
,尤其涉及一种音频信息检索方法及装置
技术介绍
音乐检索研究始于上世纪90年代,2000年后开始逐步成熟且走进实际应用。已有的音乐检索方法大多基于声谱图进行分析,可分为两类:基于极值点的方法和基于纹理分析的方法。一种基于纹理分析的音乐检索方法,首先对音乐片段采用短时傅立叶变换以生成声谱图,然后将该声谱图分解为32个子带,并计算相邻子带的梯度极性,从而将原始信号压缩为紧致的二进制编码,在检索时采用哈希表进行加速。基于纹理分析的音乐检索方法对块状噪声不鲁棒,且运算复杂度较高,检索时间较长。于是提出一种对块状噪声更鲁棒,且检索速度较快的方法,即基于极值点的方法。基于极值点的方法,首先对音乐片段采用短时傅立叶变换以生成声谱图,然后检测声谱图中的极大值点,然后直接根据相邻极值点对的频率和时间差生成哈希表。在检索时,首先使用哈希表匹配待检索音乐片段和音乐库之间对应的匹配点,然后根据匹配点的时间坐标估计每首音乐的偏移量和置信度,置信度最大且超过阈值的音乐即为检索结果。但是,该方法中极值点的检测对随机噪声和椒盐噪声比较敏感,容易在频率和时间方向上产生偏移,极值点的轻微偏移会完全改变哈希值,这会导致漏匹配,影响检索结果的准确度。
技术实现思路
本申请的多个方面提供一种音频信息检索方法及装置,用以降低漏匹配的概率,提高检索结果的准确度。本申请的一方面,提供一种音频信息检索方法,包括:获得待检索音频片段的声谱图;提取所述声谱图中至少一个能量极值点的局部特征,以构成所述待检索音频片段的局部特征序列;根据所述待检索音频片段的局部特征序列进行检索,以获得检索结果。本申请的另一方面,提供一种音频信息检索装置,包括:获取模块,用于获得待检索音频片段的声谱图;提取模块,用于提取所述声谱图中至少一个能量极值点的局部特征,以构成所述待检索音频片段的局部特征序列;检索模块,用于根据所述待检索音频片段的局部特征序列进行检索,以获得检索结果。本申请的又一方面,提供一种音频特征库构建方法,包括:获得音频文件的声谱图;提取所述音频文件的声谱图中至少一个能量极值点的局部特征,以构成所述音频文件的局部特征序列;将所述音频文件的局部特征序列存储到音频特征库中。本申请的又一方面,提供一种音频特征库构建装置,包括:获得模块,用于获得音频文件的声谱图;提取模块,用于提取所述音频文件的声谱图中至少一个能量极值点的局部特征,以构成所述音频文件的局部特征序列;存储模块,用于将所述音频文件的局部特征序列存储到音频特征库中。在本申请中,获得待检索音频片段的声谱图,提取声谱图中至少一个能量极值点的局部特征,构成该待检索音频片段的局部特征序列,根据待检索音频片段的局部特征序列进行检索,获得检索结果。本申请在检索过程中使用的是声谱图中能量极值点的局部特征,而不是能量极值点,相当于放宽了在时间坐标和频率坐标上的匹配范围,能够增加匹配中的点数,意味着能量极值点的局部特征要比能量极值点对随机噪声和椒盐噪声的敏感性低,即使发生轻微偏移也不会对匹配结果产生太大影响,解决了现有技术中因极值点偏移导致漏匹配的问题,有利于提高检索结果的准确度。【附图说明】为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的音频信息检索方法的流程示意图;图2为本申请一实施例提供的音频信号的时域波形图;图3为图2所示音频信号的声谱图;图4为本申请一实施例提供的被噪声污染的音频信号的能量极值点分布图;图5为本申请一实施例提供的未被噪声污染的音频信号的能量极值点分布图;图6为本申请一实施例提供的相同能量极值点及不同能量极值点根据其局部特征计算出的汉明距离的分布示意图;图7为本申请一实施例提供的音频信息检索装置的结构示意图;图8为本申请另一实施例提供的音频信息检索装置的结构示意图;图9为本申请一实施例提供的音频特征库构建装置的结构示意图。【具体实施方式】为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请一实施例提供的音频信息检索方法的流程示意图。如图1所示,该方法包括:101、获得待检索音频片段的声谱图。102、提取声谱图中至少一个能量极值点的局部特征,以构成待检索音频片段的局部特征序列。103、根据待检索音频片段的局部特征序列进行检索,以获得检索结果。本实施例提供一种音频信息检索方法,主要用于对待检索音频片段进行检索,获取与待检索音频片段相关的信息。该方法的主要原理是利用待检索音频片段的能量极值点的局部特征代替能量极值点,根据能量极值点的局部特征进行检索,利用能量极值点的局部特征比极值点对随机噪声和椒盐噪声的敏感性低的优势,解决了现有技术中因极值点偏移导致漏匹配的问题,提高了检索结果的准确度。下面对本实施例进行详细介绍:声音为周期性机械波,人耳能感知到的频率范围为20到20000赫兹(Hz),频率越小音调越低,频率越大则音调越高。通过在时间轴上对各种频率进行组合,即可形成不同的音频信号。为区分不同的音频信号,研究者一般对信号在某段时间内进行频谱分解,然后分析每一时段的频谱特性。音频信号在计算机中使用一组采样和量化过的一维信号表示,采样率通常为但不限于:11025Hz,量化级别通常为但不限于:16。如图2所示,为一段长度为12秒的音频信号的时域波形,该音频信号的采样率为11025Hz,量化等级为16,图2的横轴为时间,纵轴为信号强度。对图2所示音频信号进行短时傅立叶变换(STFT),可得到其声谱图,如图3所示。图3的横轴为时间,纵轴为频率,图3右侧的灰度条为能量与灰度值的对应关系,不同灰度值代表不同能量。将图2与图3进行比对可知,与时域波形图相比,声谱图更直观,更能反映出音频信号在各时段、各频率的能量分布。在了解音频信号的基础上,当用户需要进行音频信息检索时,可以获取待检索音频片段。例如,用户可以录制一段音频,如一句话、几句音乐或一段旋律等作为待检索音频片段。或者,用户可以从互联网上下载一段音频,如一首完整音乐、一段音乐片段、一首铃声或一段演讲内容等作为待检索音频片段。或者,用户还可以获取本地的音频,如一首铃声、一段演讲内容或一段音乐等作为待检索音频片段。之后,对待检索音频片段进行时频变换,如短时傅里叶变换,从而获得待检索音频片段的声谱图。虽然音频信号的特性大部分包含在其声谱图中,但声谱图包含的数据量较大,且易受噪声影响,因此不宜直接将声谱图用于音频检索。为了提升检索过程对噪声的鲁棒性和减小计算量,本实施例主要关注声谱图中的能量极值点。图4和图5显示了同一段音频信号的能量极值点的分布,其中,图4所示为被噪声污染的音频信号的能量极值点分布,图5所示为未被噪声污本文档来自技高网...
音频信息检索方法及装置

【技术保护点】
一种音频信息检索方法,其特征在于,包括:获得待检索音频片段的声谱图;提取所述声谱图中至少一个能量极值点的局部特征,以构成所述待检索音频片段的局部特征序列;根据所述待检索音频片段的局部特征序列进行检索,以获得检索结果。

【技术特征摘要】
1.一种音频信息检索方法,其特征在于,包括:获得待检索音频片段的声谱图;提取所述声谱图中至少一个能量极值点的局部特征,以构成所述待检索音频片段的局部特征序列;根据所述待检索音频片段的局部特征序列进行检索,以获得检索结果。2.根据权利要求1所述的方法,其特征在于,所述提取所述声谱图中至少一个能量极值点的局部特征,以构成所述待检索音频片段的局部特征序列,包括:对所述声谱图进行极值点检测,以获得所述至少一个能量极值点;确定所述至少一个能量极值点中每个能量极值点在所述声谱图上所属的图像块;提取所述每个能量极值点所属的图像块的特征,以构成所述待检索音频片段的局部特征序列。3.根据权利要求2所述的方法,其特征在于,所述确定所述至少一个能量极值点中每个能量极值点在所述声谱图上所属的图像块,包括:在所述声谱图上取以所述每个能量极值点为中心的窗口区域,作为所述每个能量极值点所属的图像块。4.根据权利要求2所述的方法,其特征在于,所述提取所述每个能量极值点所属的图像块的特征,以构成所述待检索音频片段的局部特征序列,包括:对所述每个能量极值点所属的图像块,按照指定的编码次数,对所述图像块中像素点代表的能量值之间的大小关系进行随机编码,以获得所述图像块的特征,将所述图像块的特征作为所述待检索音频片段的局部特征序列中的一个局部特征。5.根据权利要求4所述的方法,其特征在于,所述按照指定的编码次数,对所述图像块中像素点代表的能量值之间的大小关系进行随机编码,以获得所
\t述图像块的特征,包括:每次随机从所述图像块中获取两个像素点,对所述两个像素点代表的能量值之间的大小关系进行编码,以获得一个编码结果,直到编码次数达到所述指定的编码次数时,根据所有编码结果获得所述图像块的特征。6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述待检索音频片段的局部特征序列进行检索,以获得检索结果,包括:将所述待检索音频片段的局部特征序列与音频特征库中每个音频文件的局部特征序列进行匹配,以获得所述待检索音频片段与相似音频文件之间的匹配点对,所述相似音频文件是指所述音频特征库中与所述待检索音频片段相似的音频文件;根据所述待检索音频片段与所述相似音频文件之间的匹配点对,获取所述待检索音频片段与所述相似音频文件的匹配度;获取最大匹配度对应的相似音频文件的信息作为所述检索结果。7.根据权利要求6所述的方法,其特征在于,所述将所述待检索音频片段的局部特征序列与音频特征库中每个音频文件的局部特征序列进行匹配,以获得所述待检索音频片段与相似音频文件之间的匹配点对,包括:根据所述待检索音频片段中每个能量极值点的频率坐标和所述音频文件中每个能量极值点的频率坐标,确定所述待检索音频片段中每个能量极值点对应于所述音频文件中的极值点子集;根据所述待检索音频片段中每个能量极值点的局部特征和所述对应的极值点子集中各能量极值点的局部特征,获取所述待检索音频片段中每个能量极值点与所述对应的极值点子集的距离,所述待检索音频片段中每个能量极值点与所述对应的极值点子集的距离是指所述待检索音频片段中每个能量极值点与所述对应的极值点子集中各能量极值点的距离中的最小距离;若所述待检索音频片段中的能量极值点与所述对应的极值点子集的距离中存在小于预设特征阈值的距离,则将所述音频文件作为所述待检索音频片段的相似音频文件,并将所述小于预设特征阈值的距离对应的所述待检索音频片段
\t中的能量极值点和所述音频文件中的能量极值点作为匹配点对。8.根据权利要求7所述的方法,其特征在于,所述根据所述待检索音频片段与所述相似音频文件之间的匹配点对,获取所述待检索音频片段与所述相似音频文件的匹配度,包括:采用随机抽样一致算法或霍夫变换算法,对所述待检索音频片段与所述相似音频文件之间的匹配点对进行处理,以获取所述待检索音频片段与所述相似音频文件的匹配度。9.根据权利要求6所述的方法,其特征在于,还包括:根据所述待检索音频片段与所述相似音频文件之间的匹配点对,获取所述待检索音频片段在所述相似音频文件中的时间偏移量;获取最大匹配度对应的时间偏移量作为所述检索结果。10.根据权利要求7所述的方法,其特征在于,还包括:构建所述音频特征库;所述构建所述音频特征库,包括:获得所述音频文件的声谱图;提取所述音频文件的声谱图中至少一个能量极值点的局部特征,以构成所述音频文件的局部特征序列;将所述音频文件的局部特征序列存储到所述音频...

【专利技术属性】
技术研发人员:易东肖业鸣刘荣张伦楚汝峰
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1